“机器学习将超级计算和消费者结合在一起;其影响将无处不在。”
从Pradeep Dubey说起,他是英特尔院士、 英特尔并行计算实验室 主任,他概述了深度学习(机器学习的一种特殊形式)的关键方面,以及芯片制造商如何利用新技术给新应用带去辉煌的未来,这将跨越高性能计算,企业和消费者以及最终用户整个领域。
Pradeep解释说,“训练模型是重中之重”。自从80年代以来,数据科学家就一直使用机器学习来创建模型,以解决复杂的模式识别问题。近年来对机器学习兴趣如潮涌,特别是深度学习,这是技术创新的结果,现在能够提供足够的计算能力,大量的数据和新兴算法。这些革新使得深度神经网络这样的监督式学习方法可以在图像或语音识别任务中得到有用的预测,并且准确性非常好,时常与人工操作相当甚至更好。他说,“它的影响将无处不在”。
对于外行人来说,深度学习是被称为机器学习的计算机科学广泛技术领域中的一个子集。如今大多数机器学习技术仅仅只有一个或两个介于输入数据层和输出预测层之间的隐藏层。然而,另一方面,深度学习由于在输入层和输出层之间有多个隐藏层而归属于机器学习,“深度学习”因此而得名。
近期深度学习革新影响受惠于技术的创新,为深度学习提供了足够的计算能力和海量的数据。
在深度学习中使用多层模仿了生物大脑的结构——比如人类——日益深入的层(从输入数据的角度看)处理日益抽象的表示。Pradeep观察到,这些深层次的抽象让深度学习技术能正确地识别弯曲汤勺以及处理其他艰难转换问题的能力,而内在计算负担保持原样。
机器学习技术的魔力被IBM的“沃森”计算机展示得淋漓尽致,2011年它战胜了两位最优秀的《危险边缘》节目冠军。
Pradeep对于将工业渗透到深度学习技术潜力之中感到兴奋——特别是当他谈到英特尔使这项技术更经济实惠的时候。“这将是魔法!”他说,并预测道,“这就是成功的定义!”。举一个例子,他描述了一条成功之路,人们使用云端训练的深度学习模型可以解决复杂的,实际的金融、医疗或其他的实际问题。他说,“训练的惊人之处在于,它可能会创建一个模型,这个模型简洁得足以存储并运行在一部手机上,从而使手持计算设备执行超出它计算能力的识别任务”。在手机(或嵌入式系统)上运行云端或者超级计算训练的深度学习模型的能力意味着每个人都能够使用深度学习。为了清楚说明此影响,Pradeep指出,“沃森”计算机的自然语言处理,我们在web页面上看到的图像识别以及其他深度学习问题的影响都无处不在。
深度学习最大的挑战是,训练框架必须准确,高效,并且具有扩展处理大量数据的能力。从性能角度来看,他按照机器训练成准确性可被接受或简洁时所花费的时间来量化训练。
对于那些希望“开始动手实践”的人来说,Pradeep强调说,英特尔构建了诸多模块,可以使大众开始进行机器学习开发。例如,英特尔正在使用深度学习特定的功能加强它广泛应用的MKL(Math Kernel Library),并且将最近宣布的 DAAL (Data Analytics Acceleration Library)定位为分布式机器学习构建模块,它对基于IA的硬件平台进行了优化。这两个库可以通过“ 社区许可 ”免费获得。关于这一点,今年 英特尔还公布了Intel Xeon处理器和Intel Xeon Phi处理器的Caffe优化整合(Caffe Optimized Integration for Intel Xeon and Intel Xeon Phi) 时间轴 。 Caffe 是伯克利开发的一款流行的深度学习框架。
由于DAAL与英特尔MKL库配合最佳,CPU和Intel Xeon Phi系列产品的效率就得到了保证。正如Pradeep所说,“使用这两个库,避免了艰苦的工作”。当然,这种做法意味着用户可以利用高级接口和英特尔工具,这些工具在Intel Xeon服务处理器上和即将推出的下一代Intel Xeon Phi处理器“Knights Landing(KNL)”上都可以使用。作为一个优秀的科学家,Pradeep承认,深度学习理论仍处于开发阶段并有待提高,深度学习是一个新兴领域,“ 深度学习的理论基础,将训练运行在大型分布式平台时面临的计算挑战始终是工业界和学术界所要处理的问题 ”。
Pradeep在透露他对最新一代英特尔技术感到兴奋的一些原因时显得更加谨慎——也就是即将推出的 英特尔全路径架构(Intel OPA,Intel Omni-Path Architecture)和Xeon Phi Knights Landing 处理器 。但他透露Intel OPA“可以构建机器学习友好型网络拓扑架构”。
如果不考虑太多的技术细节,所有的深度学习算法都需要计算模型在所有样本上进行的每一个训练算法中每一步的累计误差。优化方法使用这个累计误差来确定模型的下一组参数。不幸的是,对于大数据集或复杂机器学习模型而言,计算累计误差代价是非常大的。继续来看看,Pradeep还为我们提供了一个他带领团队正在开发的 新的智能方法,可以将深度神经网络训练扩展到大量处理节点上,从而在目前最优的基础上显著减少了训练时间 。他在此不便透露更多,因为这项工作成果将要发布。然而他很高兴与我们分享他的团队迄今为止在减少训练深度神经网络拓扑所用时间上取得的具体表现,它超过了任何已公布的结果。更具体地讲, 使用OverFeat-FAST深度神经网络拓扑结构,他的团队在目前64个节点的Intel Xeon E5-2697 处理器 上将训练时间降低到了8小时,使用即将推出的Knights Landing平台会将时间降低到3-4个小时 。
Pradeep这样描述目前使用深度学习训练得到的模型进行预测(或者打分)的英特尔技术,对基于消费者的深度学习应用程序就像是橡胶满足于道路一样。Pradeep指出,打分比训练具有更多的计算友好性,因此,英特尔平台为预测任务提供了很好的构建效率,吞吐量和能源效率。此外,Pradeep注意到FPGA进一步提高特定深度学习预测任务的能效潜力。
这些说法得到了微软的支持,他们在数据中心使用FPGAs时同样注意到了类似的能效优势。
总之,Pradeep看到了深度学习和英特尔技术应用的辉煌未来。他指出,这是一个新兴领域,英特尔已经将自己很好的定位于满足市场需求,同时提供可以纳入类似于伯克利CAFFE深度学习框架的高级框架的硬件和工具,使大众都能进行深度学习开发。然后,用户可以利用从主流Intel Xeon处理器到最新一代的Intel Xeon Phi Knights Landing处理器和顶级超级计算机上的所有东西,使人们可以将大量标记数据集的可用性从小型向非常,非常大型方面转变,最终,所有人都可以开始进行廉价的深度学习。
原文链接: Intel Fellow Outlines Bright Future for Deep Learning (编译/刘翔宇 审校/赵屹华、朱正贵 责编/仲周建丁)
关于译者: 刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。