转载

Spark 2.0面纱半揭，相关细节引人遐想

【51CTO.com快译】Spark已经以暴风骤雨之势席卷整个大数据领域。那么下一个内存内引擎选项会是什么?Spark背后的主要商业支持方Databricks对此给出了一点提示。

在上周召开的Spark东部峰会上，Databricks公司发布了一系列相关提示，旨在探讨内存内数据处理工具Spark的未来发展方向。该公司作为Spark项目背后的核心商业支持方，在该项技术成果的演进道路上扮演着重要角色。

Databricks的托管Spark平台Databricks Cloud目前已经提供订阅服务。为了进一步简化该云环境中的Spark上手难度，Databricks公布了一套免费层，即这套平台的社区版本。虽然目前此版本尚处于beta测试阶段，但其通用版本预计将在今年年中与广大用户见面。

Databricks公司将该社区版本明确定位为付费产品版本的过渡手段，并指出其将“帮助用户以无缝化方式将自身原型设计过渡至完整Databricks平台之上的生产性应用程序。”

Databricks公司亦决心始终紧跟Spark的发展步伐。通过此次Spark峰会主题演讲发布的一系列演示资料，Databricks公司CTO兼Spark创始人Matei Zaharia谈到了即将出炉的Spark 2.0。其将包含以下三大核心转变：利用Tungsten项目的下一发展阶段解决Java内存处理局限，从而加快Spark运行速度; 将Spark改进为一套实时数据流系统; 将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。

不过此次演讲未被提及、但却广受Spark支持者关注的一项细节在于，Spark要如何进一步与Apache Arrow加以结合——这一全新项目旨在为列式数据提供内存内版本，从而实现快速访问成效。

这一切都可谓真正令人兴奋且意义重大的改进。特别是Tungsten项目所代表的方案能够显著加快其它由Java语言编写而成的大数据项目的运行速度。

目前，该公司宣称其已经拥有200家付费客户，并自信地表示其将专注于推动Databricks平台而非将精力分散至其它项目。

不过Databricks公司并不是惟一一家Spark参与厂商。IBM公司就专门将Spark作为自身大数据发展战略中的核心组成部分，旨在立足于其Bluemix云提供“Spark即服务”方案。过去一年当中，Spark项目已经从Hadoop手中夺过了大数据首选引擎的桂冠，而Databricks公司也将在新的发展阶段面临更为严峻的项目演进竞争。

原文标题： Databricks offers a glimpse of Spark 2.0

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】

原文 http://developer.51cto.com/art/201602/506110.htm

正文到此结束