HDFS Erasure Coding

云计算 waitig 546℃ 百度已收录 0评论

为什么要使用HDFS Erasure Coding

多副本的存储是昂贵的 - HDFS中的默认3x复制方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。 然而,对于具有相对较低I / O活动的热和冷数据集,在正常操作期间很少访问附加的块副本,但仍然会消耗和第一个副本相同的资源量
因此,自然的改进是使用擦除编码(EC)代替复制,这提供了相同级别的容错能力,而且存储空间更少。 在典型的擦除编码(EC)设置中,存储开销不超过50%。 EC文件的复制因子是无意义的。 它始终为1,不能通过-setrep命令更改。

出现的背景

在存储系统中,最显着的EC使用是冗余磁盘阵列(RAID)。 RAID通过条带化实现EC,其将逻辑顺序数据(例如文件)分割成较小的单元(例如位,字节或块),并将连续的单位存储在不同的磁盘上。 在本介绍的其余部分,这种条纹分布单位称为条纹细胞(或细胞)。 对于原始数据单元的每个条带,计算并存储一定数量的奇偶校验单元 - 其过程称为编码。 可以通过基于幸存数据和奇偶校验单元的解码计算来恢复任何条带单元的错误。
将EC与HDFS集成可以提高存储效率,同时仍然提供与传统基于复制的HDFS部署相似的数据耐久性。 例如,具有6个块的3x复制文件将消耗6 * 3 = 18个磁盘空间块。 但是使用EC(6个数据,3个奇偶校验)部署,它只消耗9个磁盘空间块

本文由【waitig】发表在等英博客
本文固定链接:HDFS Erasure Coding
欢迎关注本站官方公众号,每日都有干货分享!
等英博客官方公众号
点赞 (0)分享 (0)