第二篇文章将介绍开源机器学习和深度学习项目领域的最新进展。
第三篇将回顾商用软件供应商在机器学习和深度学习领域的举措。
随着越来越多的组织扩大了在数据分析和自动化决策等领域对机器学习技术的使用,人们对这种技术可能存在的偏见更加担忧。2016年,有媒体报道在刑事判决过程中所用的预测模型存在 种族偏见 ,机动车保费报价存在 价格歧视 ,图像识别应用 习得 “白色”是美丽的特征,谷歌的 word2vec 算法被发现存在 成见 。
2016年有两本畅销书探讨了这个问题。其一为Cathy O’Neil所著的《 Weapons of Math Destruction 》(数学这一毁灭性武器),该书有望获得美国国家图书奖。在华尔街日报的采访中,Jo Craven McGinty将O’Neil的观点 总结 为:“算法本身不存在偏见,但开发算法的人也许有偏见。”
第二本书由Ariel Ezrachi和Maurice Stucke撰写,名为《 Virtual Competition 》(虚拟竞争),着重探讨了机器学习和算法决策导致价格歧视的原因和这里面存在的阴谋。Burton Malkiel在他的书评中 提到 ,这本书“呈现出作者针对互联网世界的深入理解和优异的研究成果。博学的作者通过相关判例法,以及经济与行为心理学领域的研究文献证明了自己的论点。”
该领域大部分数据科学家均对自己工作成果中隐含的偏见深表担忧。毕竟偏见本身也是一种错误,有偏见的算法属于不准确的算法。然而雇佣这些数据科学家的组织可能无法针对偏见的检测和纠正投入测试和验证所需的足够资源。更重要的是,负责业务的人员通常会夸大自家预测式模型的准确度和精确性,或者错误地鼓吹不恰当的应用领域。
在欧洲, GDPR (译注:General Data Protection Regulation,通用数据保护规则)为使用机器学习技术的组织提供了激励措施,鼓励他们更严肃地对待可能存在的偏见。我们也许能在2017年听到有关GDPR的更多消息。
说到GDPR,从2018年开始,采用机器学习技术实现自动化决策的组织必须准备好随时向受到决策影响的主体,以及管控机构解释决策的由来。因此从2016年开始,就有越来越多的组织开始关注可解释机器学习算法的研发。
在Nautilus杂志中,Aaron M. Bornstein 问到 : 人工智能是否会永远这样“神秘”下去? 这方面目前存在若干问题,包括缺乏对“可解释性”含义的明确界定。
“审查过程中的可解释性”和“功能的可解释性”必须明确加以区分。评估机动车时我们不会拆解出发动机和各种零件分别进行评估,只须坐进去试驾就够了。因此某种程度上我们只能通过最终的行为结果对机器学习模型进行评估,而非分别评估其中的不同组件。
在财富杂志九月份的一篇文章中,Roger Parloff 解释了 为什么深度学习技术会突然之间改变我们的生活。神经网络和深度学习并非新技术,最近这些技术才得以广泛运用主要是出于三个原因:
2016年,深度学习驱动的认知应用程序领域还将达成全新里程碑:
风险投资家正在积极投资能够运用深度学习技术的初创公司,尤其是能通过认知解决方案在市场中脱颖而出的公司:
越来越多初创公司组成的新兴生态正在通过深度学习构建自己的业务,例如:
自然语言处理领域的初创公司 Idibon 资金耗尽并关闭,这一迹象表明深度学习技术的商业化开发也并非全都是炒作和泡沫。随着财力雄厚的大型供应商逐渐涉足这一领域,我们将看到再DL工具市场方面出现进一步的合并。对刚进入这一领域的企业来说,专用应用程序可能是他们最大的机会,借此他们可以针对那些众所周知的问题提供相关领域的技能和打包式的解决方案。
为了让深度学习变得更实用,我们需要极为强大的运算能力。2016年,硬件供应商公布了专为机器学习和深度学习打造的,更强大的新平台。
虽然目前主流的做法是通过GPU进行加速,但在深度学习领域,GPU与FPGA的优缺点也引发了广泛的争议。Anand Joshi 介绍了 FPGA所面临的挑战。 The Next Platform 的Nicole Hemsoth 介绍了 同时利用两种方式进行加速的混合做法所蕴含的潜力。2016年,微软也 公布了 将会使用Altera FPGA,而百度 称 自己更倾向于选择标准化的Xilinx FPGA。
2016年的NVIDIA犹如一头猛兽,过去的一年里市值翻了三倍。该公司 发布了 DGX-1,一款面向深度学习的超级计算机。DGX-1包含八颗Tesla P100 GPU,每颗的运算速度均比NVIDIA之前的评测基准快12倍。只须12.9万美元即可获得能与装备有250颗CPU的服务器相等程度的运算能力。
NVIDIA还发布了 深度学习SDK ,其中包含有关深度学习的基元、数学库、多GPU通信工具、CUDA工具包和DIGITS,以及一个模型训练系统。该系统可支持主流的深度学习框架,如Caffe、CNTK、TensorFlow以及Theano。
技术媒体对此赞不绝口:
MIT Technology Review 采访过 NVIDIA CEO黄仁勋,此人现已成为华尔街最喜欢的技术名人。
此外Karl Freund也 报道了 NVIDIA在SC16超级计算展会上的活动。
DGX-1的早期 用户 包括BenevolentAI、PartnersHealthCare、阿贡和橡树岭实验室、纽约大学、斯坦福大学、多伦多大学、SAP、Fidelity Labs、百度,以及瑞士国家超算中心。Nicole Hemsoth 介绍了 NVIDIA通过深度学习超级计算机为癌症研究所提供的支持。
克雷也 发布了 Urika-GX,这是一种预装Hortonworks Data Platform、Cray Graph Engine、OpenStack管理工具,以及Apache Mesos的超级计算装置,可搭载Intel Xeon Broadwell处理器、22TB内存、35TB本地SSD存储,以及克雷的高性能网络互联接口。克雷在第三季度可交付单机架16、32或48节点的配置,预计2017年将能交付更大规模的配置。
Wired有关谷歌深度学习芯片的头条 报道 : 英特尔该惊慌失措了 看起来很有先见之明。英特尔 收购了 仅成立28个月的深度学习软硬件解决方案初创公司 Nervana Systems ,根据Re/code的 报道 ,收购价格高达4.08亿美元。技术媒体按照惯例发布的有关“独角兽”的报告自然 蜂拥而至 。
英特尔称,打算使用Nervana的软件完善Math Kernel Library,并将Nervana Engine与Xeon Phi处理器划分为不同的市场。Nervana neon 是YADLF(Yet Another Deep Learning Framework,另一款深度学习框架),根据Kdnuggets的最新调查,其使用量在所有深度学习框架中位居第 十二位 。根据Nervana的介绍,Neon的 性能评测 远胜Caffe,但其实 CNTK 也胜过Caffe。
Paul Alcorn针对英特尔的全新Xeon CPU和Deep Learning Inference Accelerator 提供了 更多细节介绍。在财富杂志上,Aaron Pressman 争辩称 英特尔有有关机器学习和人工智能的战略为“智能”,但明显滞后于NVIDIA。Nicole Hemsoth 认为 英特尔的做法“挑起了GPU的战争”。
此外英特尔还 收购了 Movidius,这家公司将深度学习芯片 装入了 存储卡中。
机器学习的用例与云平台密不可分。工作负载具备即席性,面向具体项目,模型的训练需要在短时间内投入大量运算能力。负责得出推论的工作负载则体现出截然不同的模式,也正是因为如此这般的原因,负责训练和推论的工作负载应该分别选择最适合的平台。
在年初 发布了 没人愿意使用的深度学习项目DSSTNE作为烟雾弹后,AWS 宣布 将通过 MXNet 实现深度学习的标准化。此外AWS还新发布了三款托管式机器学习服务:
2014年,AWS成为市面上首家提供GPU加速云服务的云平台。2016年,AWS 提供了 最多包含16颗Tesla K8- GPU的P2实例。
通过在2015年以CNTK的形式发布,微软将自己的深度学习框架更名为Microsoft Cognitive Toolkit,并 发布了 2.0版,其中新增了Python API以及诸多其他改进。该公司还通过Azure 发布了 22种认知API,涵盖视觉、语音、语言、知识,以及搜索。此外微软还 发布了 适用于Azure HDInsight的Spark托管服务,并继续对Azure机器学习服务进行着 完善 。
微软还发布了Azure N系列计算实例,该系列由NVIDIA GPU驱动,并已于12月正式上市。
Azure是微软高级分析整体战略中的一环,具体内容我们还将在第三篇中介绍。
谷歌于二月发布了 TensorFlow Serving ,根据Noah Fiedel在Google Research Blog上的 解释 ,这是一种开源的推论引擎,可用于处理训练后模型的部署并可对整个生命周期进行管理。
谷歌于春末 发布了 自行构建的专有深度学习芯片Tensor Processing Unit(TPU)。高性能计算领域专家Karl Freund在福布斯杂志上对谷歌的公告进行了 解读 。Freund认为TPU主要会被用于推论,而非模型的训练,换句话说,它取代的是CPU而非GPU。
为了推动Google Cloud Machine Learning继续发展,谷歌于10月组建了一个专门的团队,并宣布了有关该服务的一系列改进:
2017年,Google Compute Engine和Google Cloud Machine Learning将可使用GPU加速实例,详见 这里 。
2016年,IBM对假新闻的涌现做出了巨大贡献。
6月的Spark Summit活动中,IBM大张旗鼓地 公布了 一款名为 IBM Data Science Experience 的服务。但很多老练的观察家发现这则消息让人费解,他们的媒体通稿中描述了一种适用于Apache Spark,使用Jupyter IDE的托管服务,但当时IBM已经有适用于Apache Spark且使用了Jupyter IDE的托管服务了。
11月,IBM低调地 发布了 另一个服务,并且没有提供新闻通稿,这也完全可以理解,毕竟没什么值得炫耀的。果不其然,这又是一个使用Jupyter IDE的Spark服务,但同时又包含了R服务和Rstudio,以及一些仓促写就的“社区”文档和“精心策划”的数据来源,据称已经可以在数百个地区免费使用了。真了不起。
IBM在机器学习方面还有其他重大举措,该公司 重新发布了 原有的SPSS服务,只不过这次改名为Watson Machine Learning。分析师们纷纷为这个服务 鼓掌喝彩 ,但是竟然没人真正登录上去看看他们发布的到底是啥。
当然,IBM称对于该服务的完善他们制订了宏伟的计划。IBM能有计划还真是棒。我们每个人都渴望更大规模,更好的产品,但是也要注意,尽管IBM非常善于“重塑”被人开发出来的成果,但该公司在历史上还从未开发出任何一款在商业上获得成功的高级分析软件产品。
IBM Cloud是IBM宏伟战略的组成部分,所以我打算在第三篇中详细谈一谈。
感谢杜小芳对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们。