来自莱斯大学和贝勒医学院(Baylor College of Medicine)的神经科学和人工智能专家们正在从人类的大脑中获得灵感,创造了一种新的「深度学习」方法,这种方法能使计算机像人类婴儿一样自己学习视觉世界。
左 Richard Baraniuk, Tan Nguyen and Ankit Patel.
来自莱斯大学和贝勒医学院(Baylor College of Medicine)的神经科学和人工智能专家们正在从人类的大脑中获得灵感,创造了一种新的「深度学习」方法,这种方法能使计算机像人类婴儿一样自己学习视觉世界。
在研究中,该团队的「深度渲染混合模型(deep rendering mixture model)」通过联邦雇员和高中学生书写的 10000 个数字的标准数据集学会了自己如何辨别手写数字。本月初,这个团队在 NIPS 2016 大会上发表了这项研究的论文《Semi-Supervised Learning with the Deep Rendering Mixture Model》,研究者们描述了如何通过 10 个 0 到 9 之间的手写数字样本来训练他们的算法,然后让机器使用数千样本数据自我学习。在研究中,该算法在正确区分手写数字方面,几乎比所有每个数字都要用数千样本进行训练的旧方法都要好。
莱斯大学电气和计算机工程和贝勒医学院神经科学联合任命的助理教授、本研究的领导者 Ankit Patel 说:「如果用深度学习的术语来解释,我们的系统使用了一种被称为半监督学习的方法。而在深度学习领域目前最成功的方法使用的是被称为监督学习的技术,这种方法在训练时需要提供成千上万标记好的样本,比如告诉机器:这样是 1,这样是 2。」
「人类不会这样学习,」Patel 说道。「当婴儿的第一年刚学习观看事物的时候,他们对于这些事物的具体所指的感知很少。父母可能就只会给他们标注很少的事物:瓶子、椅子、妈妈等,婴儿在这一段时间上甚至不能理解口语,他们通过与世界的互动来学习,这个过程在大部分情况下都是无监督的。」
Patel 表示他正和本研究的合作者 Tan Nguyen 设计一个半监督学习系统进行视觉数据训练。这个系统不需要多少「人工标注」的训练样本来进行训练。在此之前,使用监督学习的神经网络在通过 MNIST 数据库超过万种手写数字的测试前,需要使用数百到数千已标记的手写数字训练样本进行训练。
这个半监督式的 Rice-Baylor 算法是一个「卷积神经网络」——这是一种从生物大脑得到启发,由多层人工神经元组成的网络。这些人工神经元(即处理单元)分层排列。第一层扫描图像并且执行像搜索边缘和颜色变化那样的简单任务,第二层检查第一层的输出并搜索更复杂的特征。在数学上,这种在模式内寻找模式的嵌套方法被称为非线性过程(nonlinear process)。
Patel 这样形容卷积神经网络:「它本质上是一个非常简单的视觉皮层。输入一个图像后,每层都处理图像的一点点特征,这个过程随着层级不断深入,在最后一层,系统对图像获得了深刻和抽象的理解。」目前所有无人驾驶汽车的系统中都使用了卷积神经网络,因为它是目前最好的视觉处理方法。
就像人类的大脑一样,神经网络在刚刚生成的时候就像一张白纸,随着与世界的交互渐渐充盈。在面对图像的时候,每一个卷积网络处理单元在一开始都是相同的,随着大量图像的训练,每个单元渐渐开始特化。
「边缘(edge)非常重要,」Nguyen 说道。「许多低层神经元往往会成为边缘检测器,它们专注于寻找这种常见且对于视觉解释非常重要的特性。同时,每个神经元都会进行自我训练以寻找特定模式,例如 45 度边缘或 30 度红——蓝转换。」
「当它们探测到特定的模式时,它们就会被激发,并将信息传递到下一层,让下一层在此基础之上识别其他模式,这个过程不断进行,」Nguyen 解释道。「非线性变换的次数实际上代表了网络的深度,更深意味着更强大。神经网络越深,它能够解决的问题就越复杂。在网络的深层,处理单元探寻的是非常抽象的概念,如眼球、垂直光栅、或者一辆校车。」
Nguyen 在今年一月开始与 Patel 合作,彼时后者刚刚开始他在莱斯大学和贝勒医学院的学术生涯。在此之前,Patel 已经研究机器学习多年,他之前的工作包括将机器学习应用到从大宗商品交易到弹道导弹防御等许多领域,他刚刚在莱斯大学的 Richard Baraniuk 实验室结束了为期四年的博士后工作。在 2015 年末,Baraniuk、Patel 和 Nguyen 发表了他们的第一个理论框架,可以导出卷积神经网络的确切结构,并提供了消除其局限性的一套原则性解决方案。
Baraniuk 认为,坚实的理论基础对于设计更加先进的卷积神经网络至关重要。
「视频中的图像是一个很好的例子,」Baraniuk 说道。「如果我在看一个视频,逐帧地观看,假如我想了解所有的对象和它们如何移动等等特性,这会是一个巨大的挑战。想象一下,人脑需要多长时间来标记每个对象,每一帧图像,没有人有这么强大的处理能力。同样的,为了让机器感知它在视频中看到的内容,它必须了解自己看到了哪些对象,明白三维空间的概念和其他大量真正复杂的东西。人类自己学习这些东西,并把它们视作理所当然,但这种能力在今天的人工智能神经网络中完全缺失。」
Patel 认为他们在 NIPS 上发表的新一代人工神经网络,最终甚至可以反过来帮助神经科学家们更好地了解人类大脑的工作方式。
「视觉皮层中的世界和卷积神经网络中的世界,看起来似乎有一点相似,但在某些层面上也大不相同,」Patel 说道。「大脑的处理方式也许和机器相似,但其中机制仍然区别很大。我们目前对于大脑的研究理论认为,大多数学习都是无监督的。我和我的神经科学家同事们正在试图回答这样几个问题:什么是由视觉皮层中的神经回路实现的半监督学习算法?它与我们的深度学习理论有什么关系?」
「我们的理论或许可以用来帮助解释大脑处理信息的方式,」Patel 补充道。「大脑的算法远远优于我们设计的任何神经网络。」
论文:使用深度渲染混合模型的半监督学习(Semi-Supervised Learning with the Deep Rendering Mixture Model)
摘要:半监督学习算法通过在学习期间同时使用标记的和未标记的数据来降低训练数据的成本。深度卷积网络(DCN)在监督学习的任务中已经取得了巨大的成功,因此目前也被广泛地应用于半监督学习。在本研究中,我们使用了最近开发的深度渲染混合模型(DRMM/Deep Rendering Mixture Model),这是一个概率生成模型(probabilistic generative model)——其建模了潜在的扰动变化,其推理算法产生了 DCN。我们为该 DRMM 开发了一个 EM 算法,以使该 DRMM 能够同时从标记数据和未标记数据中学习。在 DRMM 理论的指导下,我们引入了一个新的非负性约束(non-negativity constraint)和一个变分推理项(variational inference term)。在 MNIST 和 SVHN 数据集上,我们的方法实现了当前最佳的表现,在 CIFAR10 上也实现了可媲美最佳表现的结果。我们还深入研究了一个在半监督环境下训练的 DRMM 可以如何使用合成渲染的图像表征潜在的扰动变化。总的来说,本研究为监督、无监督和半监督学习提供了一个统一的框架。