在实时数据的世界当中,我们为什么还要执着于Hadoop这一片森林?
作为一套以批量处理为主要诉求的架构方案,Hadoop仍然堪称大数据技术领域的荣耀长子。然而根据451研究集团的调查数据显示,其实际普及效果仍然不及显赫的声誉。
那些已经率先部署了Hadoop解决方案的企业可能希望稍稍放慢自己的前进脚步。伴随着Apache Spark以及其它一系列技术方案的出台(包括Storm、Kafka等等),我们似乎与Hadoop的批量处理思路渐行渐远、转而踏上了一条真正通往实 时性未来的发展道路。
Cloudera公司的Doug Cutting是一位极为睿智的技术人员,同时也是一位高产的开源开发者。Hadoop、Lucene以及众多其它大数据事务领域的根本性工具都有他的参与。
尽管Cutting坦言实时流技术的重要性毋庸置疑,但他并不在乎Hadoop这一主要面向批量处理任务的方案,并在与我们的采访邮件当中指出:
这并不是说Hadoop的架构设计不应该针对批量处理,因为批量处理确实非常重要。事实上,批量处理、特别是 MapReduce下的批量处理可谓最理想的起步方案,因为其相对容易实现而且具有重要的实际价值。在Hadoop诞生之前,我们根本没办法利用开源软件 在商用硬件基础上存储并处理PB级别的数据。Hadoop的MapReduce帮助技术人员在资源容量领域迈进了重要的一步。
我们很难准确衡量大数据的商品化发展趋势对于整个世界的运作到底起到了怎样重要的作用。在Hadoop诞生之前面,我们面临着无数存储与分析容量方面的难题。在这种情况下,Hadoop让我们以可承受的使用成本拥有了这种关键性能力。
总体而言,Hadoop是大数据民主化进程——或者说“走入寻常企业家”的重要前提。