企业为了从其 Hadoop 分析投资中获取最大价值,企业需要富有弹性的大数据存储基础架构。在传统 Hadoop 集群中,用户必须依赖于自定义的子数据块 CRC 校验和来提供硬件层数据保护,并且在 HDFS 层使用镜像技术以保持某种级别的数据冗余。但是,在规模较大的情况下,这会成为一个非常高成本的方案。如果通过 EMC Isilon 作为存储层, Isilon 的数据保护是在 OneFS 文件系统级别实施的,因此要使新的保护和性能方案可用,只需执行 OneFS 软件升级即可。 OneFS 使用经过广泛验证的 Reed-Solomon 擦除编码算法来执行其奇偶校验保护计算。在文件界别应用保护,使得集群可以快速高效地恢复数据。信息节点、目录和其他元数据在于其引用的数据块相同或更高的级别进行保护。由于所有数据、元数据和向前纠错( FEC )数据跨多个节点条带化,因此不需要专用的奇偶校验驱动器。这不仅可以防止出现单点故障和瓶颈,还使文件重建成为一个高度并行化的过程。
OneFS 还支持多种混合保护方案。这包括 N+2 : 1 和 N+3 : 1 ,前者可针对两个驱动器故障或者一个节点故障提供保护,后者可针对三个驱动器故障或一个节点故障提供保护。对于高密度节点配置而言,这些保护方案特别有用。万一发生多个设备同时故障的情况,以至于文件“超过了其保护级别”,则 OneFS 将尽可能重新保护所有可保护的内容,并且将与受影响的个别文件相关的错误报告到 Isilon 集群的日志。
Isilon 还支持多项保证数据可靠性功能,例如:
总之,在 HDFS 存储层使用 EMC Isilon 存储,可以避免多种传统 Hadoop 存储实施的许多缺点,如下所示:
转载请在文首保留原文出处: EMC 中文支持论坛 https://community.emc.com/go/chinese