转载

使用机器学习成功降低数据中心能耗后,谷歌打算开源相关技术

虚拟世界是建立在物理世界基础之上的。每次搜索、email 发送、网页投放、时间线留言和视频加载的请求都需要有比足球场还大的数据中心进行处理。在这里,成千上万的服务器机架需要消耗大量能源。全球所有数据中心所消耗的电力大约占世界电力消费的 2%,如果不加控制,服务器的能源需求将会呈指数级增长。所以,提高数据中心的能源效率就显得尤为重要了。

幸运的是,尽管随着新技术的发展,计算需求正在急剧增长,但数据中心用电量在过去几年里已经趋于平稳,这多亏了人们旨在提高效率的各项措施。数据中心节能是一个非常复杂的过程。数据中心的能效标准:能源使用效能(PUE)受到数十个变量的影响。一个典型的数据处理设施包含多种不同设备,有冷却器、冷却塔、水泵、热交换器和控制系统,每一个装置都需要调整自己的运行参数,并以复杂和经常是违反直觉的形式互相影响。如果再将外界温度和风扇温度考虑在内,系统的复杂程度将变得超乎想象。简单地考虑一个模型:假如一个数据中心只有 10 个设备,每个设备具有 10 个设置,这个数据中心会出现 10^10 种设置方式——或者说 100 亿,这个数字远远超过了真实情况下能够一一测试的能力——但实际上,这个数字远远少于数据中心存在的可能配置。

使用机器学习成功降低数据中心能耗后,谷歌打算开源相关技术

比利时,一家数据中心的冷却塔

谷歌拥有大量的数据中心,能耗效率一直是其研究解决的重点问题。在早期,我们决定从头开始设计,构建全新架构的数据中心,使我们可以不断尝试新的冷却技术和运营方式。我们的数据中心采用先进的冷却技术,尽可能使用高效蒸发冷却或外部空气,而不是机械冷却器。我们通过安装智能温度和照明控制系统,并重新设计功率分配机制以最小化能量损失,减少了设施能源的使用量。我们的高性能服务器被定制成尽可能节约能量的形式,去除一切不必要的组件,如显卡,并尽可能保持满负荷运转,这样一来,我们就可以使用更少的服务器去做更多的事。

所有这些努力造就了今天的领先:在 2014 年上半年,谷歌的数据中心相比业内平均节省了 50% 的能源。对于我们来说,下一个问题是,能否更加精益?谷歌工程师 Jim Gao 从机器学习中获得了灵感,决定采用最新技术来解决这个问题。

机器学习赋予了计算机能在没有明确编程的情况下拥有学习能力,它们是通过反复训练进而寻找解释大量数据的方法进行学习。Google 已经使用它来改善翻译和图片识别等功能,如当你向 Google Photos 查询人们拥抱的图片时,它的机器学习算法就能直接找到你所需要的。

使用机器学习成功降低数据中心能耗后,谷歌打算开源相关技术

数据中心内的阀门和压力传感器

Gao 希望通过「挖掘数据中的隐藏结构」来帮助他更好地理解巨量的数据中心信息。「他花费了六个月来构建所有一个数据中心所具备组件的概念验证模型。」他说:「这是超级艰难的代码编写,不过有很多原型都证明这个想法是有效的,它值得追求。」

初步的结果并没有那么有前景。Gao 也承认,「第一次预测完全失败。」「这个模型在预测 PUE 和预测我们的行为结果时表现并不好。」事实上,该模型第一次提出的能源节约最大化建议就是关掉整套设备,严格来说,这个建议并不是不准确定,但也并没有什么实际的帮助。

Gao 说:「我们必须要让我们的人工智能表现得像是有责任感的成人一样,要多一点自律。」他改变了其中的一些变量,重新进行了模拟实验,随着时间的推移不断对模型进行调整,更接近于最准确预测的配置,因此也最有可能提高设施的实际性能。在他觉得他的原型足够精确时,他发表了一份白皮书 (http://research.google.com/pubs/pub42542.html),并开始与网站运营团队合作,在实际设备的模型建议当中投入使用。

假如一个数据中心只有 10 个设备,每个设备具有 10 个设置,这个数据中心会出现 10^10 种设置方式——或者说 100 亿,这个数字远远超过了真实情况下能够一一测试的能力

同时,谷歌首要的人工智能研究团队 DeepMind 发布的关于 DQN 的论文也引起了轰动。DQN 是一款非常擅长玩 Atari 游戏(所有的 Atari 游戏)的计算机代理。训练一个程序在一个特定的游戏当中有很好的表现是一回事,但是一个在游戏中可以自学的程序就不一样了。在机器学习社区当中,这是一件非常令人兴奋的事情。当 Gao 听说这件事的时候,他很快就给 DeepMind 的负责人 Mustafa Suleyman 发了一封邮件,主题是:机器学习+数据中心=完美?(Machine learning + data centers = awesome?)

Suleyman 同意 Gao 确实在做一些令人敬畏的事情,DeepMind 之后便开始与 Gao 还有他的数据中心智能(DCIQ)团队一起开始对更加「强大和通用的」工作模型的研究。就像是你不需要一个能够高度集中玩一种 Atari 游戏的智能,你需要的是一个可以学习所有 Atari 游戏的智能,在数据中心的机器学习当中也是更加注重整体。建立一个能够为每个数据中心建模的常规程序相对简单,但是 Gao 说:「结果应该更好。」「如果我们能够创造出每个人都能利用的强人工智能。」

使用机器学习成功降低数据中心能耗后,谷歌打算开源相关技术

Jim Gao 在谷歌园区

所以,那就是他们所做的。十八个月后,这些模型已在多个设施进行了试点,并且减少了 40%用于冷却的能源 和降低了 15%的总能源。虽然这些试用已经成功地将其中一个 Google 测试数据中心的 PUE 带到了新低点,不断成长的 DCIQ 团队认为它只是机器学习更一般应用的冰山一角。Google 的环保团队希望我们的努力能减少碳排放,硬件操作部门希望我们能减少组件的故障。人们关心的平台就是服务器能耗,所以 机器学习可以帮助他们实现他们想要的效率。

谷歌都这样更别说世界其他地方了。Gao 说:「我们试图真正开源这个,因为我们坚信我们正在做的工作也可以使他人受益。」第二份白皮书,很快将提供有关 DCIQ 工作的更多细节,它希望能帮助其他数据中心降低他们的能耗,同时这也将降低许多其他类型的设施(发电厂、工厂等)数量。我们希望 DCIQ 的工作将会进一步帮助其他公司和行业变得更加地环保。

原文  http://www.jiqizhixin.com/article/2008
正文到此结束
Loading...