作为人工智能(Artificial Interlligence,AI)领域,尤其是机器学习方向的领头企业,Facebook在机器学习算法方面进行了很多研究,公布并开源了很多相关的成果。近日,Facebook又 公布 了其下一代的“Big Sur”人工智能硬件框架的信息,并表示将开源其设计细节。
近些年,人工智能和机器学习方向取得了长足的发展。据 Kevin Lee透露 ,Facebook的AI软件已经能够 阅读故事、回答相关场景的问题 、 玩游戏 以及 通过一些例子来学习非指定的内容 。作为计算密集型的应用,AI软件的性能与数据集规模/硬件性能密切相关。尤其是硬件方面,高性能微处理器、存储器以及图形处理器(Graphics Processing Unit,GPU)的发展为AI算法的快速运行提供了坚实基础。为了进一步更好地服务大规模AI计算,Facebook推出了基于GPU的、用于训练神经网络的“Big Sur”硬件系统。
如上图所示,该硬件系统提供了8个PCI-e插槽,最多可支持8个高性能GPU,其中每个GPU的最高功耗可达300W。而且,系统可以根据需要对GPU的拓扑进行灵活配置。Kevin表示,配备 NVIDIA Tesla M40 加速计算平台的Big Sur系统性能,比上一代系统要提高一倍——训练速度是原来的两倍,探索网络的规模也可达到原来的两倍。而且,Big Sur系统具有更高的灵活性和功耗/制冷效率。Facebook特别针对功耗和散热进行了优化,使得系统仍然可以使用风扇进行散热。
此外,系统进一步优化了系统维护相关的资源。Big Sur已经移除了一些很少使用的组件,并提升了替换硬盘和内存等易损组件的便捷性,使得替换这些组件只需要几秒钟时间即可。而且,原来需要耗费一个小时的移除主板的工作也可在一分钟内完成。除了处理器的散热片以外,该系统基本可以做到免工具安装和移除。在触点的颜色方面,Big Sur系统选用了Facebook一贯使用的Pantone 375 C的绿色,方便工程师设别、访问和移除组件。
Kevin表示,Facebook将会延续之前的做法开源Big Sur系统的设计,并将设计材料提交到开源计算项目。 据预测 ,此项工作的对外发布可能会在 明年的OCP峰会 上进行。Facebook希望通过这种做法,既为社区做出贡献,又能够与社区合作改进该系统。此外,Facebook的AI研究团队的 Yann LeCun表示 ,如果更多的企业采用Big sur的设计,该系统的价格也可以随着供货量提升而大幅度下降,从而减少企业的硬件成本。
感谢董志南对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群 (已满),InfoQ读者交流群(#2) )。