转载

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

张建锋:为什么说阿里巴巴是一家大数据公司

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

阿里巴巴的最早的核心总结起来,其实就是买家和卖家的平台,细分一下就是 1688.com 和 alibaba.com。

1688.com 解决的是国内企业间采购的问题。alibaba.com 做的则是把中国商品销售给国外,并提供渠道让国外订单交给国内生产的生意。

到 2003 年之后,随着互联网的发展,阿里巴巴的业务也产生了发展。前两个业务都是 B2B(business-to-business),而在那之后我们想开展一个 B2C(business-to-customer)的业务。于是我们就创办了淘宝,也就是现在阿里巴巴零售业的主体部分。

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

微软陆奇:「对话系统」是未来人工智能的核心

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

让人工智能具有这种「对话」的能力,是几乎所有相关领域研究人员的梦想。包括微软、谷歌、Facebook、IBM 和百度等大公司,都在这一领域上投入巨资。在硅谷和北京,有至少数百家创业团队在搭建类似的服务与对话系统,试图攻克一个或者多个用户生活与工作场景。

其中,我们看到一些同行业者进行了很多不同的尝试,但都不可避免地赋予了「对话」以太多的功能与含义。

今年上半年还有一家美国媒体将小冰比作「科技史上最大规模的图灵测试」。这更引发了我与许多同事的思考。微软究竟做对了什么?随着小冰全球化战略的不断深入,有哪些经验是可以被复制的?

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

盘点最受欢迎的十个开源大数据技术

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

2.Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。

4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。

5.Kafka——Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。

6.Phoenix—是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。

7.Zeppelin——Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

8.Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。

9.Apache Beam——在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。

10.Stanford CoreNLP——自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。 张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注Datartisan数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!

张建锋:为什么说阿里巴巴是一家大数据公司丨数据工匠简报(8.15)

原文  http://datartisan.com/article/detail/155.html
正文到此结束
Loading...