转载

【机器学习】当机器学习遇上计算机视觉 - 下篇

这篇文章由英国微软剑桥研究院的 Jamie Shotton 、 Antonio Criminisi 和 Sebastian Nowozin 合著。

在上一篇文章中，我们介绍了计算机视觉这一领域，并且讨论了一种高效的方法，基于决策森林的像素分类法，目前已经广泛运用在医疗成像和 Kinect 体感设备上。在这一篇文章中，我们将着眼于最近火热的深层神经网络，介绍其在计算机视觉上的成功运用，最后预测一下计算机视觉结合机器学习的未来发展趋势。

深层神经网络

在过去的几年里，我们视觉研究者所使用的测试数据集无论在质量上，还是数量上都有了快速的提高。这些进步在很大程度归因于吸收了众包的成果。众包项目允许我们把数百万张已标记图像加入测试数据集。其中一个最具挑战性的测试数据集 ImageNet ，就包含了数万个种类、超过百万张已标注层次的图像。

然而多年来，对ImageNet测试数据集的识别工作进展较缓慢，直到2012年， Krizhevsky 等人的成果震惊了业界。他们使用通用 GPU 配合一些看似细微的算法改进，从而更深层次地训练卷积神经网络。最终，他们在ImageNet的1000个分类测试中显著提升了图像分类的准确性。这项成果还赢得了大众媒体的关注，甚至导致相关的初创公司被大笔收购。自从那以后，“深度学习”开始成为计算机视觉领域的热门话题，而最近发表的文章也开始涵盖到物体定位、脸部识别和人体姿势识别等与“深度学习”息息相关的内容。

展望未来

深度卷积网络毫无疑问是相当强大的，然而它真的能解决计算机视觉领域的一切问题吗？可以肯定的是，它还会继续火热下去并且推动业界未来几年的发展，同时我们也相信未来还会有新的突破性进展。谁也说不准会有哪些突破，但我们会为你预测一些我们认为很有可能实现的突破点：

语义分析 ：以上的网络模型只能学会理解图像内容的表意，而不能深入理解图像中各个物体、物体之间如何相互联系以及特定物体在生活情景中的作用，例如我们不能轻率地根据头发看起来会有点光泽，和他们拿着电吹风这一事实，很有把握地推断他们的头发是湿的。像微软 CoCo 这样的新型测试数据集就可以帮助增强语义分析。该数据集对抽象图像提供非常详尽的分类标注，例如包含多个主体的图像会被标记出不重要的部分。

运行效率 ：虽然对测试图片的深度网络评估过程可以通过并行计算来加速，但是神经网络的构造并没有在上一篇中提及的逻辑运算概念：每一个训练样例必须通过遍历网络中的所有节点来输出结果。再者，即使配备高速的GPU，训练网络也要花费数天甚至数周，这使得深度网络不能快速投入试用。

结构学习 ：经过多年的研究发展，深度卷积网络现在拥有一个设计完善、相对死板的结构。也就是说，改变某一层大小或层级的数量会对模型做出预测的能力产生不良影响。除了简单粗暴地输入特定参数来最优化网络的形态，我们希望可以真正地直接从数据中学习出更加灵活的网络结构。

近年来，我们已经开始寻找突破这些瓶颈的方案。现在，我们很高兴能向你推荐我们最新的成果，决策丛林模型：根部相连接的决策有向无环图。你可以认为决策有向无环图是子节点相通的决策树，因此一个子节点可以存在多个父节点。我们不但证明了这种模型在内存消耗上比决策树降低了一个数量级，同时还能大大提高模型的泛化能力。有向无环图起初看起来很像神经网络，但是有两个重要的不同点：第一，其结构和模型参数都是从数据中学习而来的；第二，有向无环图保留了决策树中高效的逻辑运算：一个测试样例只沿着有向无环图的一条路径传递，而不是像神经网络一样遍历所有节点。我们正在积极尝试结合其他深度学习的形态，譬如结果的复用和树节点的纠缠，使得决策丛林能够真正有效地替代深度神经网络。