过去十年中,雅虎在Apache Hadoop集群构建和扩展方面投入了很大的精力。目前,雅虎有19个Hadoop集群,其中包含4万多台服务器和超过600PB的存储。他们在这些集群上开发了大规模机器学习算法,将Hadoop集群打造成了雅虎首选的大规模机器学习平台。近日,雅虎Big ML团队的Cyprien Noel、Jun Shi和Andy Feng撰文 介绍了雅虎在Hadoop集群上构建大规模分布式深度学习的实践 。
深度学习(DL)是雅虎的许多产品都需要的功能。比如, Flickr 的场景检测、对象识别、计算审美等功能均依赖于深度学习。为了使更多产品从机器学习中受益,他们最近将DL功能引入到了Hadoop集群本地。在Hadoop上进行深度学习主要有以下好处:
DL on Hadoop是一种新型的深度学习方法。为了实现这种方法,雅虎主要做了如下两个方面的工作:
上述工作完成后,他们在两个数据集上对该方法进行了基准测试。在 ImageNet 2012数据集 上的测试显示,与使用一个GPU相比,使用4个GPU仅需要35%的时间就可以达到50%的准确度。而在 GoogLeNet 数据集上的测试表明,8个GPU达到60% top-5准确度的速度是1个GPU的6.8倍。
这说明他们的方法是有效的。为了使Hadoop集群上的分布式深度学习更加高效,他们计划继续在Hadoop、Spark和Caffe上的投入。
雅虎已经将部分代码发布在 GitHub 上,感兴趣的读者可以进一步了解
感谢郭蕾对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群 )。