转载

《科学》封面重磅论文：人工智能终于能像人类一样学习

今天，《科学》杂志封面刊登了一篇重磅研究：人工智能终于能像人类一样学习，并通过了图灵测试。

这个人工智能像你一样学习写字

假设你从来没有见过菠萝。有一天，有人送了你一个菠萝。尽管你这辈子只见过这一个菠萝，但你只用一眼就看出了菠萝的特征。第二天，你去水果店，很快就能从一堆苹果、葡萄、柚子中认出菠萝来。你甚至还能在纸上画出菠萝的简笔画。

这种「仅从一个例子就形成概念」的能力对人来说很容易。然而，尽管人工智能近年来取得了长足的进步，但要让机器做到这一点，却难于上青天，因为目前的人工智能通常需要从大量的数据中进行学习，你得让它看成千上万张菠萝的图片才行。

不过，这个事实或许从今天开始改变了。今天，一篇人工智能论文登上了《科学》杂志的封面，为人们带来了人工智能领域的一个重大突破：三名分别来自麻省理工学院、纽约大学和多伦多大学的研究者开发了一个「只看一眼就会写字」的计算机系统。（论文点此下载： Human-level concept learning through probabilistic program induction ）

只需向这个系统展示一个来自陌生文字系统的字符，它就能很快学到精髓，像人一样写出来，甚至还能写出其他类似的文字——更有甚者，它还通过了图灵测试。下面就是机器和人写出的字符。你猜哪些是机器写出来的？傻傻分不清了吧？

这三名研究者分别是纽约大学数据科学中心的Brenden Lake，多伦多大学计算机科学与统计学系的Ruslan Salakhutdinov和麻省理工学院大脑与认知科学系的Joshua Tenenbaum。他们创造的AI系统能够迅速学会写陌生的文字，从某种意义上说明它领悟到了字符的本质特征（也就是字符的总体结构），同时还能识别出非本质特征（也就是那些因书写造成的轻微变异）。

人类的概念具有极大的弹性，因此，尽管许多概念的边界十分模糊，但我们依然能进行明确的分类。这三位研究者声称，他们的系统就抓住了这种弹性。该系统能模仿人类的一个特殊天赋——从少量案例中学习新概念。它所根植的计算结构叫做概率程序（probabilistic program），还可能有助于对人类获得复杂概念的过程进行建模。

Joshua B. Tenenbaum是麻省理工学院大脑与认知科学系的教授，他说：「目前的人工智能领域大都聚焦在对模式进行分类。但是，这种类型的智能所缺少的不是分类或识别，而是思考。这就是为什么尽管我们研究的是手写字符，但也会大言不惭地使用『概念』这种词。因为我们能用这些字符来研究更加丰富和复杂的概念。我们能理解字符的来历和构件，也能理解如何用不同的方式来使用字符，并造出新的来。」

通过「图灵测试」

这篇论文的第一作者Brenden Lake在Tenenbaum的团队中获得了认知科学的博士学位，如今他是纽约大学的博士后。根据Lake的介绍，他们在论文中分析了三个核心原则，这些原则都很通用，既可以用在字符上，也可以用在许多其他的概念上：

组合性（compositionality）：表征是由更简单的基元构建而成。
因果性（causality）：模型表征了字符如何生成的抽象因果结构。
学会学习（learning to learn）：过去的概念知识能够帮助学习新概念。

研究者对这个AI系统进行了几项测试。

研究者向系统展示它从未见过的书写系统（例如，藏文）中的一个字符例子，并让它写出同样的字符。并不是让它复制出完全相同的字符，而是让它写出9个不同的变体，就像人每次手写的笔迹都不相同一样。例如，在看了一个藏文字符之后，算法能挑选出该字符用不同的笔迹写出来的例子，识别出组成字符的笔画，并重画出来。
研究者向系统展示了一个陌生书写系统中的几个不同的字符，并让它创造出一些相似的字符。
研究者让它在一个假定的书写系统中创造出全新的字符。

与此同时，人类被试也被要求做同样的事情。最后，研究者要求一组人类裁判（来自亚马逊土耳其机器人，Amazon Mechanical Turk）分辨出哪些字符是机器写的，哪些是人类写的。结果，裁判的正确率仅为52%，和随机的结果差不多。于是，机器通过了所谓的视觉图灵测试。

传统的机器学习系统（比如手机上的语音识别算法）在某些分类任务上的表现很好，但是它们首先需要大量的数据集来进行训练。相比之下，人类只需要少量的例子就能抓住某个概念的精髓。这种「一次性学习」正是研究者希望他们的系统能模拟的能力。

学会如何学习

三位研究者采用的方法是「贝叶斯程序学习」（BPL，Bayesian Program Learning），能让计算机系统对人类认知进行很好的模拟。传统的机器学习方法需要大量的数据来训练，而这种方法只需要一个粗略的模型，然后使用推理算法来分析案例，补充模型的细节。

《科学》封面重磅论文：人工智能终于能像人类一样学习

在这篇论文中，研究者的模型只规定了人类书写系统的字符由笔画组成。笔画由抬高笔触来区分，而笔画又由更小的子笔画组成，子笔画用笔尖速度为零的点来区分。

有了这个初始模型，研究者向系统展示了数百段动作捕捉视频，视频中展现了人类在不同的书写系统中手写文字的方式，让系统学习连贯的笔画和子笔画之间的统计关系，以及单个笔画所能容忍的变异程度。这个系统从未在它所分析的书写系统上进行过任何训练，它只是推理出了人类写字的一般规律。

Tenenbaum说：「每个星期，我们似乎都能读到机器在人脸识别、语音识别方面与人类旗鼓相当的新闻。但是，对我这种研究心智的科学家来说，机器学习和人类学习之间的鸿沟是巨大的。我们希望弥合这个鸿沟，这是我们的长期目标。」

各方评价

剑桥大学的信息工程教授Zoubin Ghahramani说：「我认为这对人工智能、认知科学和机器学习是一个重大的贡献。深度学习目前已取得了重要的成功，这篇论文非常清醒地表明了深度学习的局限性，因为深度学习需要大量的数据，并且在这篇论文所描述的任务上表现很差。这篇论文也展现了实现类人机器学习的重要方法。」

也有一些人对「人工智能超越人脑」这种说法持谨慎态度。艾伦人工智能研究所的Oren Etzioni说：「对『超人的表现』这种词，我会非常谨慎。当然，这个算法确实展现出了超过一般人的表现，除了达斯汀·霍夫曼。」（指霍夫曼主演的《雨人》电影。）

与深度学习优势互补

多伦多大学和谷歌的人工智能先驱Geoffrey Hinton说这个研究「令人印象非常深刻」。他说，这个模型能通过视觉图灵测试，这很重要。「能实现这一点，是一个不错的成就。」Hinton是深度学习的奠基者。深度学习近年来取得了举世瞩目的成就，被广泛应用在许多领域，例如语音翻译、图像识别等。深度学习用在谷歌的图像搜索和Facebook的人脸识别上，获得了巨量的数据以供学习。

然而，这篇新论文说「贝叶斯程序学习」比深度学习的表现更好。不过，三位作者和Hinton都礼貌地表明，这两种方法在不同的任务上各领风骚，假如能彼此借鉴，一定能互相提升——如果能建出一个混血系统，说不定能有更大的提升。在数据量巨大但较混乱的情况下，深度学习能发挥优势；而在数据量少而清晰的情况下，贝叶斯学习占领上风。

Hinton说，这篇论文最令人兴奋的成果或许是能让那些宣称智能计算机系统的学习方式与人类完全不同的批评者闭嘴，因为他们的主要论据正是计算机不能从单个例子中形成概念。

未来

在未来，这种机器学习的技术能够完成很多任务，例如读懂手语、提升语音识别软件的性能等。运用这种方法，或许只用向计算机展示一张人脸照片，它就能从任何角度识别出这个人。它甚至有可能用来制定军事行动计划。

当然，尽管这个成果很重要，但它对人工智能领域来说只是一个小小的起点，不代表未来的机器学习都必须采用这种方法。正如它颠覆了「计算机如何理解概念」这个课题一样，在这个日新月异的领域中，极有可能下个月就出现一种新方法，将它甩在后面飞扬的尘土中。

参考：

Brenden M. Lake1, Ruslan Salakhutdinov, Joshua B. Tenenbaum. Human-level concept learning through probabilistic program induction. Science 11 December 2015: Vol. 350 no. 6266 pp. 1332-1338.
Larry Hardesty. Computer Drawings fool human judges, pass “Visual Turing Test”. MIT News
John Markoff. A Learning Advance in Artificial Intelligence Rivals Human Abilities. nytimes
Researchers create an artificial intelligence model that learns, and draws, just like you. Torstar News Service
Dave Gershgorn. Computers are closer to copying the way human learn. Popsci.