Airflow 是一个开源的大数据工作流管理系统,在 Adobe、Airbnb、Etsy、谷歌、ING、Lyft、PayPal、Reddit、Square、推特和美联航等组织得到广泛应用。
2019 年 1 月 8 日,位于马萨诸塞州 Wakefield 的 Apache 软件基金会宣布 Airflow 为顶级项目。
Airflow 是一个灵活可扩展的工作流自动化和调度系统,用于创建和管理数百 PB 级的大数据处理管道。从 Apache 孵化器毕业意味着 Airflow 社区和产品在 ASF 的管理流程和原则下得到了很好的治理。
Airflow 副总裁 Bolke de Bruin 说:“自一开始,Airflow 就迅速地成为工作流编排的事实标准。Airflow 已经在开发人员和数据科学家中获得了广泛的应用,这要归功于它的‘配置即代码’。这让我们在 ASF 孵化过程中赢得了社区的支持,社区不仅使用 Airflow,也为其做出了贡献。Airflow 易于使用、可扩展并拥有多样化的社区力量。它受到了企业和初创公司的欢迎,现在可以升级为顶级项目。”
Airflow 用于编排复杂的计算工作流。通过智能调度、数据库和依赖管理、错误处理和日志记录,Airflow 实现了从单个服务器到大型集群资源管理的自动化。该项目用 Python 编写,具有高度可扩展性,并能够运行用其它语言编写的任务,可以与常用架构和项目集成,例如 AWS、S3、Docker、Apache Hadoop HDFS、Apache Hive、Kubernetes、MySQL、Postgres、Apache Zeppelin,等等。2014 年,Airflow 诞生于 Airbnb,并于 2016 年进入 Apache 孵化器。
目前,有 200 多个组织在使用 Airflow,包括:Adobe、Airbnb、Astronomer、Etsy、谷歌、ING、Lyft、纽约城市规划局、PayPal、Polidea、Qubole、Quizlet、Reddit、Reply、Solita、Square、推特和美联航,等等。已知用户列表可从以下链接获取: https://github.com/apache/incubator-airflow#who-uses-apache-airflow
Adobe Experience Platform 首席架构师 Hitesh Shah 表示:“Adobe Experience Platform 构建于云基础设施之上,利用了多种开源技术,其中包括:Apache Spark、Kafka、Hadoop、Storm 等。Airflow 是大数据处理管道编排引擎生态系统的一个非常好的新成员。我们已经在 Adobe Experience Cloud 的各种场景中使用了 Airflow,并将很快与大家分享我们在 Kubernetes 上运行 Airflow 的实验结果。”
来自 Data Reply 的数据工程师 Kaxil Naik 说:“我们的客户非常喜欢 Airflow。Airflow 已经成为我们过去 2 年中创建的数据管道的一部分,它好像魔戒大师,驯服了我们的机器学习和 ETL 管道。它帮助我们为客户创建了整个数据生态系统的单一视图。Airflow 的数据感知调度和错误处理能力有助于整个报告生成过程的自动化,无需任何人工干预。它可以与谷歌云(以及其他主要的云供应商)集成, 而且由于 Airflow 的‘配置即代码’模式,非技术员工也可以使用它,无需经历陡峭的学习曲线。”
PayPal 首席数据工程师 Sid Anand 说:“PayPal 依靠像 Airflow 这样的工作流调度器来管理 250 多 PB 的数据,满足了 PayPal 的数据移动需求 。此外,Airflow 可用于跨多个分布式系统进行系统编排,包括:自修复、自动扩展和可靠的(重新)配置。”
Qubole 工程经理 Sumit Maheshwari 表示:“自 2016 年 9 月我们将 Airflow 产品作为服务提供以来,很多公司,无论大小,都成功地把他们的工作流迁移到了 Airflow 上。在 Qubole,我们不仅是供应商,还是 Airflow 的大客户。例如,我们的见解和推荐平台是围绕 Airflow 构建的,每个月,我们在其上处理来自数百家企业数十亿个事件,并为他们的大数据解决方案(如 Apache Hadoop、Apache Spark 和 Presto)生成见解。Airflow 的简单性以及其能轻松地与其他解决方案(如云、监控系统或各种数据来源)集成给我们留下了深刻的印象。”
ING WB Advanced Analytics 分析平台负责人 Rob Keevil 表示:“在 ING,我们用 Airflow 来编排我们的核心流程,每天转换全球的数十亿条记录。其功能集、开源传统以及可扩展性非常适合用于协调我们的各种批处理工作负载,包括 ETL 工作流、模型训练、集成脚本、数据完整性测试和告警。我们一开始就在 Airflow 的开发过程中发挥了非常积极的作用,提交了数百个拉取请求以确保社区受益于 ING 创建的 Airflow 改进。我们很高兴看到 Airflow 从 Apache 孵化器毕业了,也很期待这个令人激动的项目在未来的发展!”
Polidea 首席软件工程师 Jarek Potiuk 说:“在我们开始做出贡献并使用 Airflow 时,就已经看到它作为编排器的价值所在。当需要维护一个巨大的配置时,由工程师们开发和维护整个工作流通常是个巨大的挑战。借助 Airflow,DevOps 仍然可以使用标准的编码工具来改进你的基础设施。它最好的地方就是‘基础设施即代码’。”
Airflow 副总裁 Bolke de Bruin 补充道:“工作流编排在我们所处的(大)数据时代扮演着至关重要的角色。该领域发展非常快,并且新的数据思维刚开始产生影响。Airflow 是数据时代的产物,因而定位非常好,并且因为年轻,还有很多发展余地。Airflow 可以利用科学计算、企业、初创公司的聪明才智更进一步地改进。”
Airflow 基于 Apache License v2.0 许可,并由一个活跃贡献者自选团队进行监督。项目管理委员会指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Airflow 的方法,请参考以下链接: http://airflow.apache.org/ 和 https://twitter.com/ApacheAirflow
阅读英文原文:The Apache Software Foundation Announces Airflow as a Top-Level Project, https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44