现代计算机ModernComputer第28卷第24期2022年12月25日文章编号:1007-1423(2022)24-0022-07DOI:10.3969/j.issn.1007-1423.2022.24.0040引言为了应对爆炸性的数据增长,如今的存储系统通常在多个地理位置部署数千个商品存储节点或服务器,以提供大规模的存储服务。这些系统通常构建在常见的组件上,这些组件更容易发生故障。软件故障、机器重启、维护停机、电源故障也可能使数据随时不可用,因此这些系统应保证数据的可靠和持久存储。为了在发生故障时保持数据的可靠性和可用性,传统的分布式存储系统通常采用冗余技术,如三副本[1-2]。当数据量较小时,冗余方法直接有效;然而,在大型数据中心,复制带来的200%的存储开销是巨大的,无法接受。作为一种折衷方案,纠删码是一种存储高效的容错技术,可以提供相同或更高级别的可靠性,同时需要更少的数据冗余[2]。因此,纠删码变得越来越流行,并被包括Microsoft[3]和Facebook[4]在内的企业广泛采用。为了响应不同的访问特性[5]和满足动态可靠性要求[6],现代存储系统需要纠删码具备自适应功能。自适应纠删码,指的是编码参数和编解码方案随着各类要求的变化。我们认为自适应纠删码在以下场景中是至关重要的。(1)适应倾斜和动态的工作负载。实际存储系统中的工作负载是非常倾斜和动态的。倾斜意味着一小部分热数据被频繁访问,而大部分冷数据很少被访问,而动态属性意味着数据热度是随时间变化的。为了兼顾高访问性能和高存储效率,实际的存储系统可以使用高冗余纠删码存储热数据以获得高性能,同时使用低冗余纠删码存储冷数据以获得低成本持久化。当数据热度变化时,执行自适应以更新编码参数或者更改编解码方案[7]。(2)适应不同的可靠性。不同生命周期的数据需要不同程度的可靠性,因此存储系统需要动态调整编码参数以满足不同的可靠性需求。此外,磁盘可靠性会随着磁盘的老化而变化。为了在存储开销和容错之间提供有效的权衡,大型数据中心应该弹性调整编码参数[6]。(3)生成宽条带。最近的工作探索了用于纠删码存储的宽条带,以抑制条带中奇偶校验块的比例,从而实现极大的存储节省[5]。为了有分布式存储系统中自适应纠删码的研究综述陈欢华(广州软件学院网络中心,广州510990)摘要:随着海量存储系统的发展和在复杂环境中的应用,存储系统所面临数据丢失的风险也不断提升,因此存储系统中数据的可靠性受到了严重的挑战,成为了当前学术界和工业界关注的一大热点。为了...