Hadoop峰会即将到来,行业最杰出的精英人才将在这里探讨Hadoop与大数据的未来。
云集全球各大技术势力的圣何塞Hadoop峰会召开在即,而其中的一大热点议题在于解答Hadoop的未来发展方向。Hortonworks公司创始人兼架构师Sanjay Radia将主持13项与该议题相关的讨论。面对这些讨论将如何展开这一问题,Sanjay回应称:
“Hadoop仍然在以极高速度推动创新,而下一代Hadoop目前正在构建当中。这条发展道路承载着一系列Hadoop核心创新以及相关技术。与会者将了解到多个关键性项目——包括HDFS与YARN——的发展进程,外加以Hadoop平台为中心的各类孵化器项目与行业倡议。与会者们将与多位技术领导者、贡献者以及专业用户交流Hadoop生态系统中即将出现的各发展路线图、关键性功能以及先进技术研究成果。”
我同时问到,如果时间有限而必须从中选择3次讨论活动参加,那么该如何做出选择。他给出的建议是:
Apache Hive可谓Hadoop领域最为常用的SQL接口,而其最为活跃的舞台则为数据仓库应用。为了满足客户的仓储需求,我们有必要将其规模扩展至PB级别,提供用户所需要的SQL,同时立足于交互时间执行任务。Hive社区正在努力构建Hive 2.0版本,其中包含一系列重要的新功能与性能改进。具体包括:
Apache Hadoop YARN是一套现代资源管理平台,能够面向批处理(MapReduce)、交互(Hive、Tez、Spark)以及实时处理(Storm)等工作负载管理多套数据处理引擎。这些应用可全部同时存在于YARN当中并共享单一数据中心,从而以低成本方式解决资源管理、隔离及多租户等实际问题。在本次演讲中,我们将探讨YARN社区作为下一步发展方向的新型用例组合——服务。YARN作为一项技术方案,一直都在坚实支持着各类应用与服务。即使这样,将对现有及新型服务的支持引入YARN还是开创了新的前进思路。为了让这些服务得到有效简化及出色的效果,我们将交流Apache Hadoop YARN如何针对各类平台进行调整以支持相关服务并实现开箱即用。企业客户希望尽可能降低对基础设施的关注,而更多着眼于端到端用户实例。有鉴于此,我们还将探讨API、工具集以及多彩的YARN如何为开发者业界带来强大助力。
我们正在将HDFS演进为一套分布式存储系统,其不仅能够支持分布式文件系统,同时亦支持其它存储服务。我们计划将Datanodes的容错块存储层升级为一套通用型子系统,并以此为基础构建包括HDFS以及对象存储在内的其它存储服务。我们还引入了存储容器抽象,通过对其进行复制实现可靠性保障。最初的两种容器类型为块容器与对象容器。块容器属于经过复制的HDFS块集合,其能够在较低块报告负荷的前提下实现可扩展性,同时允许相关文件实现同地协作。对象容器则一般包含大量小型对象,主要针对对象存储服务(例如S3)。我们还计划利用LSM-tress等结构化存储容器为HBase提供出色支持。我们的方案拥有多种优势,其使得Datanode的物理存储能够在不同存储服务之间进行共享,且不会产生碎片化后果。存储容器还能够隔离各实现方案与客户端协议,从而确保各容器类型独立演进。未来,我们还将在容器方案中引入复制、位置服务以及清退等容器与存储全局管理功能。
原文标题: The Future of Apache Hadoop