转载

大数据周报第8期:Apache Beam将统一大数据平台的开发

开源新闻:

  1. 《 AirFlow加入Apache孵化器 》

    AirFlow加入Apache孵化器工程。AirFlow是一个工作流和调度系统,用来管理数据管道。由AirBnb开发并在内部使用,于去年九月份开源。

  2. 《 Apache Apex成为Apache顶级项目 》

    Apache Apex是基于Hadoop的流处理和批处理引擎,目前成为Apache顶级项目。

  3. 《 Apache Beam将统一大数据平台的开发 》

    Apache Beam将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark和Flink等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行。

  4. 《 开源项目:Spark分布式训练深度神经网络 》

    用Spark分布式训练深度神经网络,可直接在已有Spark集群上安装,简单易学习。

实践:

  1. 《 基于Storm和Morphlines一体化实现实时清洗 》
    使用Storm做实时数据清洗(ETL),从数据Arriving 到数据 Serving一体化(Topology)解决。数据格式转换可以借助kitesdk morphlines来配置完成。
  2. 《 Netflix的数据管道演化系列 》(1)、《 Netflix的数据管道演化系列 》(2)
    Netflix的数据管道演化,从Chukwa管道到Kafka管道。并详细介绍Kafka管道架构技术,包括Kafka数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka容灾和Kafka监控等。
  3. 《 Qsquery支持Syslog和Amazon Kinesis 》
    Qsquery是Facebook开源的一款支持SQL查询系统的各项指标,可以用于OSX和Linux操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb工程师开发插件支持Syslog收集,并把查询结果发送到Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们。

原文  http://www.infoq.com/cn/news/2016/05/big-data-weekly-8
正文到此结束
Loading...