转载

大数据与机器学习周报第10期：Twitter Heron正式开源

编者按：本系列周报从第10期开始做出重大改版。今后将分为“业界新闻”、“技术干货”和“深度观点”3大版块。感谢大家一直以来的关注和支持，我们将继续努力为读者奉献高质量的内容。

业界新闻

《重磅 | Twitter Heron正式开源》：去年，Twitter对外宣布了新的分布式流计算系统Heron，随后消息称Twitter已经用Heron替换了Storm。据文中介绍，Heron支撑Twitter的所有实时分析业务已经有两年多了。它替代了之前使用的Apache Storm系统。Heron有很多架构方面的改进，而且向后兼容Storm生态系统
《Spark 2.0技术预览版正式发布下载》：在过去Spark社区创建了Spark 2.0的技术预览版，经过几天的投票，目前该技术预览版今天正式公布
《真正的人工智能？Siri被曝将迎来革命性更新》：2015年，苹果（已知）收购了三家与人工智能技术相关的企业，它们分别是 Emotient、Perceptio 和 VocallQ。其中，VocallQ 是一家来自英国的语音识别学习软件公司。除了 Beats 和 Siri 之外，苹果在过去几年所收购的企业似乎都没有什么名气可言。不过在今年的 WWDC 大会上，VocallQ 可能就要大放异彩了

技术干货

《童有军：怎样进行精准用户画像》：童有君现任FreeWheel主任工程师，以下就广告平台中用户画像和标注噪声处理进行先行采访。童表示用户画像在广告平台的应用中与传统电商在定位与需求方面着眼不同。期间谈到LR模型拥有两大优点，并表示看好深度学习领域的前景
《Uber怎样使用Spark和Hadoop优化用户体验》：如果你用过Uber，你一定会注意到它的操作是如此的简单。你一键叫车，随后车就来找你了，最后自动完成支付，整个过程行云流水。但是，在这简单的流程背后其实是用Hadoop和Spark这样复杂的基础大数据架构来支撑的
《Spark性能优化指南——高级篇》：继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题
《大数据分析界的“神兽”Apache Kylin有多牛？》：本文来自李栋在《大数据杂谈》公众号的分享。分享的主题是：聊聊“神兽”Apache Kylin的最新特性。本次分享将首先对Apache Kylin进行基本介绍；接下来介绍1.5.x最新版本在架构上的重要更新；然后对即将发布的1.5.2版本进行功能预告
《Spark多数据源计算实践及其在GrowingIO的实践》：本文主要介绍如何使用Apache Spark中的DataSource API以实现多个数据源混合计算的实践。GrowingIO通过使用SparkSQL加DataSourceAPI的方法在很短时间内搭建起一套完整的数据处理平台，并且扩展性很好
《首席工程师揭秘：LinkedIn大数据后台是如何运作的》：Jay Kreps是来自LinkedIn的首席工程师，他表示日志几乎在计算机产生的时候就存在，除了可用在分布式计算或者抽象分布式计算模型内部之外，还有广泛的用途。本文中他讲述的日志的原理和通过把日志用做单独服务来实现数据集成、实时数据处理以及分布式系统设计

深度观点

《深度重磅 | 麻省理工科技评论：AI 即将腾飞》：人工智能，就像字面的含义一样，它是模拟人类思考元素的集大成者，学习能力和推理能力是其核心内容。举个简单的例子，“机器学习（Machine Learning）”就是人工智能领域里很有前途的课题，其主要内容是利用大数据训练程序，让它们找到一些可遵循的规律，并且让程序本身大胆的预测结果。讲完对人工智能最基本的定义，我们有必要通过下面的图表来回顾人工智能的发展历史，包括其中的大事件
《深度点评亚马逊、微软、谷歌、IBM 等 6 大机器学习云》：机器学习云这么多，各家特色是什么？哪个适合练级，哪里高手齐聚？哪家有不为人知的 Bug？最重要的，哪个最适合解决你的问题？资深程序员实测点评亚马逊、微软、谷歌、IBM 等６大机器学习云平台，分析各自优缺点。开发者、数据科学家、商业用户或者单纯爱好者都能从本文中受益
《重磅丰田接手谷歌旗下波士顿动力６大原因》：2016 年 5 月 28 日，根据 Tech Insider 的报道，Google 旗下的波士顿动力机器人公司将被丰田收购，虽然价格还没有公开，但交易近乎完成

感谢杜小芳对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作，请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博（@InfoQ，@丁晓昀），微信（微信号： InfoQChina ）关注我们。

原文 http://www.infoq.com/cn/news/2016/05/big-data-machine-weekly-10

正文到此结束