麻省理工学院(MIT)的研究人员开发出了一种新的人类大脑面部识别机制的计算模型,似乎能让我们了解到以前的模型未能提供的一些关于人类神经学的见解。
MIT 大脑和认知科学教授、大脑,意识和机器中心(CBMM)主任 Tomaso Poggio 长期以来一直认为大脑必然存在面部和其他对象的「恒定(invariant)」表征——即与物体方位、它们与观看者的距离、它们在视场中位置无关的表征。
研究人员设计了一个实现他们的模型的机器学习系统,并加入了图像数据来训练它识别特定的面部。他们发现,经过训练的系统出现了一个中间处理步骤(intermediate processing step),该步骤表征了面部的旋转度——例如,从中间旋转了 45 度,但无关左右方向。
这种特性事先没有被编写进系统中,它是在训练过程中自发出现的。它复制了此前在实验中观察到的灵长类动物的面部处理机制特征。研究人员认为这表明他们的系统的工作方式和大脑中的面部处理过程存在相似之处。
「这还不能证明我们搞清楚了什么新机制。」MIT 大脑和认知科学教授、大脑,意识和机器中心(CBMM)主任 Tomaso Poggio 说道,「模型是对现实世界——特别是对生物而言——的简单模拟。如果事实真的如此简单,那才是一件值得惊讶的事。但我确信我们正走在正确的轨道上。」
事实上,研究人员的新论文包括了一个数学证明——他们使用了特定类型的机器学习系统,旨在提供 Poggio 所称的神经系统的「生物上可信的(biologically plausible)」模型;这类机器学习系统将不可避免地产生无关物体旋转角度的中间表征(intermediary representation)。
Poggio 是这篇论文的主要作者,他同时也是 MIT 的 McGovern Institute for Brain Research 的主要研究者,他们的论文今天刚刚发表在《Computational Biology》期刊上。这一发现是 Poggio 与 CBMM、McGovern 和其他研究人员们共同努力的结果:第一作者 Joel Leibo 是谷歌 DeepMind 的研究者,他曾在 MIT 学习大脑与认知科学博士期间师从 Poggio;Qianli Liao 是 MIT 电气工程与计算机科学专业研究生;Fabio Anselmi 是 IIT@MIT 计算和统计学习实验室的博士后;Winrich Freiwald 是洛克菲勒大学的副教授。
「这一成果很好地展示了我们在 CBMM 想要实现的东西:一方面是与机器学习和计算机科学的整合,另一方面是神经生理学,以及人类行为上的研究,」Poggio 说道。「它不仅仅能告诉我们大脑正在使用什么算法,也告诉我们大脑中的回路是如何实现这些算法的。」
Poggio 长期以来一直相信人脑中必然存在「恒定」表征——即与物体方位、它们与观看者的距离、它们在视场中位置无关的表征。对人类和灵长类动物大脑的核磁共振研究结果支持这一观点,但在 2010 年,Freiwald 曾发表过一项研究,详细解释了猕猴面部识别机制的神经解剖学特征。
Freiwald 表明来自来自这只猴子的视神经的信息穿过了一系列大脑位置,其中每一个位置在面部方向上都比上一个更不敏感。在第一个区域中的神经元仅会响应特定的面部方向而放电;而最后一个区域中的神经元不管方向如何都会放电——这是一个恒定的表征。
但是中间区域的神经元似乎是「镜像对称的(mirror symmetric)」:也就是说,它们对面部旋转的角度是敏感的,而不会考虑方向。
在第一个区域,如果一张脸向左旋转了 45 度就会有一个神经元簇放电;如果其向右旋转了 45 度就会有另一个神经元簇放电。而对于最后一个神经元簇,不管面部旋转了 30 度、45 度、90 度还是其间的任何角度,它都会放电。但在中间区域,当面部朝某个方向旋转了 45 度时,一个特定的神经元簇就会放电;而当转动度数为 30 度时,放电的又会是另一个神经元簇。
这正是这些研究者的机器学习系统所再现出来的行为。「这并不是一个试图解释镜像对称的模型,」Poggio 说,「这个模型在尝试解释不变性,而在这个过程中,会有这样一种其它的性质出现。」
这些研究者所采用的机器学习系统是一个神经网络,之所以这样叫是因为它粗略地模仿了人脑的结构。神经网络基于非常简单的按层级排布的处理单元,神经网络与处理单元或是上下层的节点之间连接紧密。数据输入神经网络的最底层,在这一层神经网络会通过某种方式对这些数据进行处理,并将它们输入到上一层,以此类推。在训练的过程中,最顶层的输出会与一些分类标准密切相关,比如说它能够正确判断一个给定的图像是否在描述某个特定的人。
在之前的研究中,Poggio 的团队已经训练神经网络展现出恒定表征,从根本上来讲,是通过记忆一系列有代表性的人脸特征,Poggio 称之为「模板」(templates)。当神经网络看到一张新的人脸时,它会自动判断这张脸与这些模板的不同之处。如果这张新的人脸特征与模板中人脸的特征相同,那么区别就会非常小,结果就会在最顶层分析后直接输出。新的人脸和模板的区别也会为这张新面孔赋予可识别的特征信息。
在实验中,这种方法得到了恒定的表征:不管其方向如何,一张脸特征信息差不多都是一样的。但是 Poggio 说,其中的机制——记忆模板(memorizing templates)——却并不是生物上可信的(biologically plausible)。
所以这个新网络转而使用了一种依据赫布定律(Hebb's rule)的变化——这一定律通常在神经科学文献被描述为「一起放电的神经元是连接在一起的」。这意味在训练过程中,为了得到更准确的输出,随着节点之间连接的权重的调整,会对特定刺激联合做出反应的节点最终会比独立反应的节点(并非所有)给最后的输出贡献更多。
这种方法也会产出恒定的表征。但该网络的中间层也复制了灵长类动物大脑的中间视觉处理区域的镜像对称反应。
「这是个巨大的进步,」Allen 脑科学研究所的首席科学官 Christof Koch 评论道。「现在的科学研究一直注重大数据和大型计算机模拟,而这一研究显示了原理解释的重要性。他们正在谨慎地开展研究——目前只关注前馈通道——换句话说,前 80-100 毫秒的处理。猴子张开它的眼镜,80 到 100 毫秒内,它可以看清一张脸并按下相应的按钮作为表示。问题的一切都会在这一瞬间被解决,他们对这个过程的解释看起来很棒。」