一个用来衡量人工智能技术进步的数据库要让人工智能算法学会理解图像场景中物体和事件。
几年前,机器学习领域的突破突然让计算机获得了以未曾有的高精度识别图像中物体的能力——几乎达到了让人惊恐的程度。现在的问题是机器是否还能更上层楼,学会理解这些图片中所发生的事件。
一个名叫Visual Genome的新图像数据库有望推动计算机向这一目标挺进,并帮助衡量计算机在理解真实世界这一进程中的进步。教会计算机理解视觉场景是人工智能非常重要的基础。它不仅能产生更多有用的视觉算法,也能帮助训练计算机实现更高效的交流,因为语言与物质世界的表征具有非常密切的联系。
Visual Genome是由专业研究计算机视觉的教授兼斯坦福大学人工智能实验室主任李菲菲与几位同事合作开发的。「我们非常专注于一些计算机视觉领域里最困难的问题,这些问题能够真正构建起感知到认知的桥梁。」李教授说,「并不只是输入像素数据后理解其颜色、阴影这类东西,而还要将其转换成对3D和语义视觉世界更全面的理解。」
李教授与其同事之前创建了ImageNet——一个包含了超过100万张带有内容标记的图片的数据库。每年举行的ImageNet大型视觉识别挑战赛(最近的是 2015年12月,微软凭借多达百层的深层神经网络夺冠 )即使用这个数据库来测试计算机自动识别图像内容的能力。
2012年,由多伦多大学Geoffrey Hinton领头的研究团队打造了一个能以前所未有的高精度对图像进行分类的强大的神经网络。这项技术启用了深度学习,通过将成千上万个案例输入到多层神经网络中,逐渐训练每一层虚拟神经元对越来越抽象的特征作出响应,比如从狗毛的质感特征到狗的整体外形特征。
多伦多团队的成就标志着深度学习的繁荣以及更普遍人工智能的复兴。深度学习已经在许多其它领域得到了应用,也让计算机能更好地处理其它重要任务,比如音频和文本处理。
Visual Genome中的图像比ImageNet中的图像拥有更多的标记,包括单张图像中出现的多种物体的名称和细节、这些物体之间的关系和正在发生的动作的信息。这些标记是通过李教授的斯坦福同事Michael Bernstein所开发的众包方式完成的。李教授团队的计划是在2017年使用该数据库推出一个类似于ImageNet的挑战赛。
使用Visual Genome中的案例训练的算法将不止能完成识别物体的任务,还应该拥有一定的分析更复杂视觉场景的能力。
「一个人坐在办公室里,但布局是怎样的,那个人是谁,他在干什么,周围有什么物体,在发生着什么事?」李教授说,「我们也正在搭建(从理解)到语言的桥梁,因为交流的方式并不是将数字分配到像素上——你需要将感知和认知与语言连接起来。」
李教授相信在分析更复杂场景的任务中深度学习很有可能将扮演关键角色,但其它技术也将有助于推动进步。
最终得到的人工智能算法将可能在网络或个人的图片组织管理中发挥作用,但它们也可能会有更为重要的用途,比如帮助机器人或自动驾驶汽车正确理解周围的场景。可以想见,它们还能训练计算机了解物理可能的概念或不可能发生的概念,从而让计算机拥有更多常识。
机器学习专家兼人工智能初创公司MetaMind创始人Richard Sochar说这可能就是这一项目中最重要的一面。「语言中的很大一部分都是有关描述视觉世界的,」他说,「这个数据集为两种模式结合与新模型测试提供了一个新的可扩展的方法。」
Visual Genome并不是唯一一个提供给研究人员进行试验的图像数据库。比如微软就拥有一个名叫Common Objects in Context(语境中的常见物体)的数据库,其图像标记了名称和多个物体的位置。谷歌、Facebook和其它公司也在推进人工智能算法解析视觉场景的能力。谷歌2014年发布的研究展示了一种能够在多种精度上为图像提供基本说明的算法。而最近,Facebook展示了一个能够回答有关图像的基本问题的问答系统。
研究机器和人类视觉的麻省理工学院教授Aude Oliva也已经开发了一个数据库Places2,其中包含10万多张不同特定场景的图片。该项目的目的是激励人们开发能用多种方式描述同一场景的算法,就像人类通常做的那样。Oliva说Visual Genome和类似的数据库将有助于推动机器视觉的发展,但她相信如果人工智能研究者想打造一个具备真正类似于人类能力的机器,他们也将需要从生物学中吸取灵感。
「人类基于大量知识、常识、感官体验、记忆和不一定能转化成语言的『想法』作出决定和直觉。」Oliva说,「如果不知道人脑是怎么产生想法的,就很难将常识和视觉理解交给人工系统。神经科学和计算机科学是人工智能硬币的两面。」
来自 technologyreview ,作者 Will Knight 。机器之心编译出品。编译:吴攀。