转载

Hadoop Summit 2016会场回顾(最终篇)

2016年4月13日,都柏林的Liffey河畔,Hadoop Summit 2016在Convention会展中心盛大开幕。大会主要议程历时2天,有100多场演讲,与会者超过1400人。本文就Apache Kylin在大会上的内容做一个简单回顾。

The Evolution of Apache Kylin: Realtime and Plugin Architecture

Hadoop Summit 2016会场回顾(最终篇)

Kylin是目前唯一的由国人主创的Apache顶级开源项目。前身来自eBay中国卓越实验中心,后来开源并在2014年11月成为Apache顶级项目。Kylin定位在超大数据的高速OLAP,提供友善的SQL、JDBC、ODBC、Rest API接口,能在千亿数据集上稳定地完成秒级别查询。Kylin在eBay和中国移动都有上千亿规模的用例,由eBay提供的数据显示,Kylin秒级查询不只是针对个别SQL,而是对上万种不同SQL的平均表现,生产环境下90%ile查询在3秒内返回。Kylin优异的性能主要来自其独特的Cube预计算技术,在离线时预计算复杂的连接和聚合,从而大大减少在线查询的计算量,达到提速的效果。这是Kylin与其他大数据分析技术的关键区别。

Hadoop Summit 2016会场回顾(最终篇)

Kylin的最新版本1.5有不少让人期待的新功能。可扩展架构将Kylin的三大依赖(数据源、Cube引擎、存储)彻底解耦,开发者和用户可以进行深度定制,比如用Kafka代替Hive作数据源,用Spark代替MapReduce作计算引擎,用Cassandra代替HBase做存储,都将变得更为简单。这也保证了Kylin可以随平台技术一起演进,紧跟技术潮流。

Kylin 1.5引入了新一代MapReduce计算引擎。其中加入了Fast Cubing算法,利用Mapper端计算先完成大部分聚合,再将聚合后的结果交给Reducer,从而降低对网络瓶颈的压力。对500多个Cube任务的实验显示,引入了Fast Cubing后,总体的Cube构建提速1.5倍。另外还对HBase存储结构进行调整,将大的Cuboid分片存储,将线性扫描改良为并行扫描。对上万查询进行测试对比,分片的存储结构能够极大提速原本较慢的查询5-10倍,但对原本较快的查询提速不明显,综合起来平均提速为2倍左右。

流式Cube也是备受期待的功能。延续增量构建的思路,把时间间隔缩小到5分钟级别,从Kafka实时读取数据,这样Kylin上的数据延迟就可以缩短到分钟级别,实现准实时大数据分析。因为会产生非常多的小Cube Segment,自动合并也需要加强。Kylin会自动按定义好的时间间隔合并Cube Segment,保证Cube不会过度碎片化,影响性能。流式Cube还在实验阶段,希望听取社区的反馈并持续改善。

Kylin新版本还提供了自定义聚合函数的接口。在原本HyperLogLog Count Distinct的基础上新增了TopN、BitMap Precise Count Distinct、Raw Records三种特殊聚合函数,用户也可以自行扩展。这里有很大的想象空间,比如在时间线上聚合用户事件归纳访问模式,比如聚合用户画像,再比如数据点的簇分析,亦或数据柱状分布等等,都可以很容易的添加到Kylin上。

Hadoop Summit 2016会场回顾(最终篇)

Kylin的演讲在大会上颇引人注目。虽然时间靠后接近大会尾声,但会场几乎座无虚席,听众提问也相当踊跃,让人感受到社区的壮大和能量的汇集。相信Kylin在新的一年里一定会有更长足的发展。

作者介绍李扬 ,Kyligence联合创始人兼CTO,Apache Kylin联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。

原文  http://www.infoq.com/cn/news/2016/04/Hadoop-Summit-2016-part4
正文到此结束
Loading...