转载

六大值得关注的Apache大数据项目新星

传统的数据处理程序面对日益庞大而复杂的数据,已无法再进行有效的获取及优化分析。而这正是新一代的大数据应用程序所要解决的问题。近期Apache软件基金会(ASF)又一次将一批有趣的开源大数据项目升级为Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过Apache Spark,这是一个针对Streaming, SQL,机器学习和图形处理的内置模块的大数据处理架构。 IBM和其它公司已为Spark项目投入了数十亿美金开发资金,而NASA和SETI Institute正在利用Spark的机器学习能力,合作分析TB数量级的外太空无线信号数据,寻找外星智能生命存在的形式。

与此同时,其它几个最近被Apache升级为顶级的大数据项目也值得您额外关注。事实上,它们中的一些所构建和发展的生态系统,很可能将对Spark发起挑战。结合本周举行的“ApacheCon北美峰会”(ApacheCon North America conference)和“Apache大数据峰会”(Apache: Big Data events),本文为您收集了一些值得你关注的Apache大数据项目:

六大值得关注的Apache大数据项目新星

Kylin

Apache近日宣布其Kylin项目,一个始于eBay的开源大数据项目在eBay已经升级为顶级项目。Kylin是一个开源的分布式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多维分析引擎(OLAP),可支持超大数据集。现在它已在eBay和其他一些组织中被广泛采用。

“Apache Kylin的孵化之旅证明了Apache软件基金会(ASF)开源治理的价值,以及围绕项目建设开源社区和生态系统的强大力量。”Apache Kylin副总裁Luke Han(韩卿)说:“我们的开源社区是世界上最大的本土开发者参与的社区,完全遵循The Apache Way的社区运作方式。”

作为一个基于Hadoop的领先的OLAP解决方案,Apache Kylin填补了大数据与人使用之间的空白,他补充说道:“使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,Apache Kylin将商业智能(BI)带回Apache Hadoop以释放出大数据的价值。”

Lens

Apache Lens,一个开源的大数据和分析工具,也已经从Apache孵化器成为一个顶级项目(TLP)。根据公告:“Apache Lens是一个统一的分析平台,以统一视图形式为分析查询提供了优化的执行环境。Apache Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理(OLAP)模型,Lens无缝地集成Hadoop和传统数据仓库,提供统一的外部接口。它同时提供了系统中查询历史、统计和查询的生命周期管理。”

“在ASF中孵化Apache Lens是一段神奇的经历。” Apache Lens的副总裁Amareshwari Sriramadasu说:“Apache Lens从最终用户角度出发,为大数据分析解决了一个难题,它使得业务用户、分析师、开发者和其他用户,可以轻松的进行复杂的数据分析,而不需要了解底层的数据架构。”

Ignite

顶级项目Apache Ingite,是一个通过开源方式建立的内存数据网络。作为一个高性能可整合的分布式内存数据网络,Ingite实现了在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

Brooklyn

顶级项目Apache Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台,适用于各种云端软件。

Brooklyn宣称:“随着现代应用程序正在由更多个部件组成,微服务架构又逐渐兴起,部署以及已部署应用的演化越来越成为一个难题。Apache Brooklyn的蓝图提供了一个清晰简洁的方式,在部署到公共云或私有基础设施之前,来规范应用,及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理,会不断地评估运行应用程序,修改以保持它的运行健康和指标优化,例如成本和响应能力。”

Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn,以将大量工作从AWS迁移到IBM Softlayer之上。

Apex

今年4月,Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache Hadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。” Apex与Apache Hadoop资源管理平台YARN,一起作用于Hadoop工作集群。

Tajo

最后要提到的是Apache Tajo,这是一个领先的Apache Hadoop之上的开源数据仓库系统,是另一个你需要了解的大数据项目。Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。

显然,尽管Apache Spark吸引了大量的眼球,但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去,Apache也许会将更多引人注目的大数据项目升级为顶级项目,这些项目必将由此获得更好的开发资源和更多的受益。

本文转载自 中国大数据

慧都科技,十三年行业经验,专注提供软件技术整体解决方案,致力打造全球最大的软件技术一站式服务平台。

慧都控件|帮助企业打造成功软件

慧都提供全球优质控件产品/控件培训/项目定制开发/方案咨询/现场实施/项目外包/专业测试

微信ID:EVGET_Huidu

企业QQ:800018081|电话:023-66090381

六大值得关注的Apache大数据项目新星 扫码关注微信

原文  https://www.evget.com/article/2016/5/23/24133.html
正文到此结束
Loading...