转载

Pivotal开源其大数据处理的核心组件

近日， Pivotal 宣布将其大数据套件的三个核心组件开源，即基于内存的分布式NoSQL数据库 GemFire 、基于Hadoop架构的大规模并行SQL 分析处理引擎 HAWQ 、大规模并行处理分析数据库 Greenplum 。同时，商业版本仍将继续提供更高级功能和商业支持服务。Pivotal开源这三个核心组件最主要原因是受其成功的 Cloud Foundry 开源案例所启发。Cloud Foundry是 VMware 于2011年4月12日推出的业界第一个开源PaaS云平台，它支持多种框架、语言、运行时环境、云平台以及应用服务。同时，Pivotal还宣布其将加入开放数据平台（Open Data Platform），这是一个目前已有14个公司组成的组织，包括 Hortonworks 、通用电器GE 、IBM、威瑞森（Verizon）等，该组织主要提供Hadoop的企业版。

Pivotal的大数据套件主要包括Pivotal的企业级Hadoop发行版 Pivotal HD 、Greenplum、HAWQ、GemFire、开源分布式框架 Spring XD 、K/V数据库 Redis 、消息队列 RabbitMQ 、 Cloud Foundry上的大数据套件。其中Greenplum和GemFire主要用来处理结构化数据，其他产品都是用来处理非结构化数据。通过HAWQ能够将Greenplum与Hadoop分布式架构进行紧密地融合。整个套件将从大规模并行处理、内存计算以及Hadoop批处理三方面满足企业对大数据的需求。Pivotal的大数据套件的客户包括国内的中信银行、中国铁路总公司以及国外的美国金融服务公司Zions Bancorporation 、印度尼西亚电信运营商巴克莱电信（Bakrie Telecom）、

印度国有铁路公司（Indian Railways

、美国西南航空公司（Southwest Airlines）。

Pivotal大数据套件架构如下图所示：

Pivotal开源其大数据处理的核心组件

从Pivotal的官网得知，GemFire的重要特征包括支持基于内存的数据网格、支持ACID事务、高性能、低延迟、高可用性、高扩展性、能够使用多种语言实现数据管理、强大的数据应用功能、易于管理的分布式数据网格管理等。GemFire可用于企业级的数据缓存、弹性的内存计算、大规模的实时交易应用、弹性流数据处理等。作为世界规模最大的实时交易系统之一的中国铁路客户服务中心网站（12306.cn），于2012年6月选择GemFire分布式内存计算平台进行了改造，以解决尖峰高流量并发问题。

HAWQ支持事务处理，它能够将复杂的查询分割成简单的任何大小的处理单元，并分发到并行处理系统中。HAWQ具有高性能的架构、完全支持SQL标准、具有深度分析和机器学习能力、支持本地Hadoop文件格式等重要特征。

开源中国上发布的一篇题为《 Greenplum高性能数据引擎探秘》的文章对Greenplum进行了详细介绍。文章指出Greenplum数据库是为新一代数据仓库和大规模分析处理而建立的软件解决方案，其最大的特点是不需要高端的硬件支持仍然可以支撑大规模的高性能数据仓库和商业智能查询。在数据仓库、商业智能的应用上，尤其海量数据的处理方面,Greenplum的性能极其优异。Greenplum的重要特征包括大规模并行处理的架构、超强的并行计算能力、高效的数据载入、具有灵活地存储和分析能力、高效的分析平台、能够无缝集成已有的分析功能栈、最佳的数据管理框架等。

Pivotal是由GE、 EMC 和VMware 联合组成的专注开源PaaS和大数据应用Cloud Foundry、Greenplum等业务的合资公司。Pivotal原来一直资助着Groovy/Grails项目和主导这些项目的开发，不过今年1月份，Pivotal官方宣布将不再资助Groovy/Grails项目，并重新把精力集中在Cloud Foundry上。

感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作，请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博（@InfoQ）或者腾讯微博（@InfoQ）关注我们，并与我们的编辑和其他读者朋友交流。

正文到此结束