2016年4月13日,都柏林的Liffey河畔,Hadoop Summit 2016在Convention会展中心盛大开幕。大会主要议程历时2天,有100多场演讲,与会者超过1400人。主要内容包括Apache Committer洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop未来几大系列。本文就数据科学、数据商务、物联网这三方面的一些内容做一个简单回顾。
It's Not the Size of Your Cluster, It's How You Use It 演讲
由Big Fish Games的David Darden和Don Smith带来。介绍Big Fish从零开始上线Hadoop的过程,尤其是如何获得业务支持,启动庞大的技术工程。对那些受困于大数据项目启动成本的听众很有启发。在Big Fish,Hadoop集群主要用于入口分析、用户行为探索、以及分流计算压力。如何获得初始投资一直是个大问题。经验是保持良好沟通,明确地告知用户技术能做到什么(不能做到什么),然后等待,直到大量业务需求积累,推动技术项目启动。尽量用业务项目预算来覆盖技术基础设施投资。专注关键业务,高速迭代开发,尽早展示商业价值,获得用户认可从而推动下一轮投资。另外试图预测外来是行不通的,Hadoop技术的发展常常快于公司的计划,试图满足所有的用户需求也是不可能的,目前还没有能搞定一切需求的万能大数据技术。
MLLeap: Or How to Productionize Data Science Workflows using Spark 演讲
由TrueCar的Mikhail Semeniuk和Hollin Wilkins带来。MLeap的关键特性是能在Spark上训练机器学习模型,但又没有对Spark API的依赖,做到了模型和运行库的轻量化,能在物联网的各种微小设备上运行。MLeap包括核心、运行库、Spark集成和序列化几个部分。核心包含线性代数、特征提取、线性回归、分类器等通用工具。运行库包含LeapFrame(类似DataFrame)和MLeap Transformer。MLeap Transformer(非常类似Spark Transformer,有一对一的关系)用核心提供的类库转换LeapFrame,完成训练。Spark集成提供从Spark Transformer到MLeap Transformer的方便转换。序列化相当灵活,支持JSON或者Protobuf。提供了一个测试报告,显示MLeap Transform比Spark Transform快1000倍。这个比较有明显的不公平,因为逐条记录运行,Spark Transform对每一条记录都会重复一个初始化的过程,好比每个微批次都只有一条记录。当场演示了从简单的模型训练到部署的全过程,训练后的模型可以方便的发布在MLeap API Rest Server上使用。未来工作包括核心类库向Spark全面靠拢,统一API,支持所有的Spark Transformer,支持Python/R的接口,以及部署在非JVM的嵌入式设备运行。
Hadoop and Friends as Key Enabler of the IoE – Continental ' s Dynamic eHorizon 演讲
来自Dr. Thomas Beer, Continental Automotive。这是非常有趣的一个大数据、机器学习和汽车一体的应用。Thomas博士介绍了他们的Learning Map原型,利用每一辆汽车作路况信息采集,汇总到云端做机器学习,最后汇总生成精确的路况地图发送回每一辆汽车,从而实现自动驾驶。数据采集从每辆汽车开始,采集的数据不是原始图片,而是经过简单特征提取和加工的数据包,每条采集的信息大约100KB左右,通过安全网关送到云端。云端的数据导入用Storm和Kafka完成,数据验证和清洗用Spark,结果数据仓库保存为Hadoop Sequence文件。地图学习运行在Spark上,暂时每天执行两次,生成的地图保存在Amazon S3,再通过安全网关发还给每辆汽车。基础架构方面,现在原型系统主要是在Amazon上自行搭建的Hadoop,正在考虑向PaaS过度,比如使用Elastic MapReduce执行机器学习任务,将大大减少机器上线时间从而节省成本。
来自Matthew Aslett, 451 Research。演讲从到底什么是Hadoop说起,有狭义和广义两种理解。狭义指Apache Hadoop开源项目本身,由HDFS、YARN、MapReduce三部分组成的核心。而广义来说,Hadoop生态系统不仅仅是那只黄色的小象,而是以它为中心的整个动物园!Hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准,被世界范围内几乎所有的高科技公司一致采用(Google大概是唯一的例外)。其底层由HDFS和YARN组成集群操作系统,之上有如MapReduce和Spark的运算框架,有如HBase和Phoenix的数据管理,有如Zookeeper和Oozie的协作模块,有如Hive和Kylin的数据分析,有如Storm和Spark Streaming的流式处理,有如Mahout和Spark ML的机器学习,有如Ranger和Eagle的安全监控等等。其覆盖大数据从采集到存储,从运算到分析,从安全到监控,无所不包,无所不有。如此强大的生态系统,已经完成了对大数据技术的事实垄断。与其从功能上来细分Hadoop的各种模块(如核心、流处理、数据库、分析工具等等),倒不如从用户角度来看整个Hadoop家族能提供什么样的解决方案,也许是个更好的方法。
作者介绍 : 李扬 ,Kyligence联合创始人兼CTO,Apache Kylin联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。