转载

深度学习和经验主义的胜利

现在深度学习在许多监督式机器学习的任务中扮演着领头羊的角色。也可以这样认为，在近几十年中，深度学习已经产生了最实用的非监督式机器学习算法。兴奋之余，这也引发了一系列的研究和耸人听闻的新闻头条。虽然我警惕这些炒作，但是我也发现了令人兴奋的技术，并且最近加入了一个社团，针对回归神经网络序列学习发表了一篇30页的关键评语。

深度学习和经验主义的胜利

但很多机器学习研究者并不奉承深度。事实上，对于那些利用数学语言和理论保证来挽救人工智能研究的人抗争过的人而言，深度学习代表了一种时尚。更糟糕的是，对于一些人来说，它似乎是一种倒退。在这篇文章中，我会尽力对理论保证的有用性提供一个高层次的、公平的分析，并说明为什么他们可能不总是像智力奖励那样实用。更重要的是，我将提供论据来解释为什么经过这么多年越来越健全的统计学机器学习，对今天许多表现最好的算法并没有理论保证。

要保证什么？

保证是一个声明，可以用数学确定其行为、性能或一个算法的复杂度。在其他条件不变的情况下，给定足够的时间，我们的算法A可以从某种模型分类器{H1,H2,···}找到一个分类算法H，它的性能不比H*差，H*是这个类中最好的分类器。当然，这和一些固定的损失函数L有关。简短来说，我们可能很乐意用一些常数来固定H与H*之间的性能差异或比例。缺少这样一个绝对限制，我们可能会喜欢去证明，在固定的时间内，运行算法之后，H和H*能够给出相近的结果。

许多现有的算法能够提供强大的统计学保证。线性回归会有一个确切的解决方案。逻辑回归能够保证收敛。通常情况下，深度学习算法不能够提供什么保证。给定一个任意坏的起点，我知道没有理论能够证明，经过SGD变种训练的神经网络一定会随着时间推移优化而不会陷入局部最小。近期的工作表明，在神经网络的误差平面（一个m维平面，m是学习参数的个数，通常是节点边缘之间的权重）上，鞍点的数目比局部最小值要多。然而，这不等于证明不存在局部最小或者它们不能任意坏。

保证中存在的问题

可证明的数学性质显然是可取的。它们甚至已经拯救了机器学习，AI领域曾经一度被认为设计不明确，承诺过度，总在实施。然而，今天许多最好的算法并没有提供任何保证。这怎么可能呢？

保证通常与小类假设相关；
保证通常在最糟糕的情况下分析，但是最糟糕的情况在现实生活中很少见；
保证通常建立在错误的数据假设之上。

从弱者中选出优胜者

首先，对于某个给定的类，理论保证通常会确保一个假设会接近最佳假设。没有办法保证在给定的类中，一个假设能够表现得令人满意。

这里有个棘手的例子：我希望有一个人来帮助我撰写文档。拼写检查会保证它将如何表现。它将100%识别某些拼写错误。但是，现有的自动校对工具不能够提供像智能人那样的洞察力。当然，人不能给出任何形式的数学保证。人会睡觉，无视我的邮件，或者胡乱回应。然而人可以比工具助手表达更多有用的想法。具有讽刺意味的是，可能可以采取两种方法来提高理论保证。一个是改进算法，另一个减少假设类的成员。而神经网络很少提供保证，它们提供了比大多数更好理解的机器学习模型更丰富的潜在假设。启发式学习技术和更强大的计算机已经排除了有效学习的障碍，很明显，对于许多模型，为给出实用性的预测，这种增强的表现力是不可少的。

最坏的情况可能并不重要

保证通常是在最坏的情况下给定的。通过保证最佳系数ε得到结果，最坏的情况也不过于是保证一个普通的系数ε得到的结果。但是在实践中，最坏的情况可能永远不会发生。现实世界中的数据通常都是高度结构化的，并且最坏的情况可能具有这样的结构，即在标准数据集和错误数据集之间没有重叠。在这些假设中，最坏情况下的约束仍然成立，但这可能是所有算法都更好执行的情况。可能没有理由相信，更坏情况下的算法能够保证会有一个更好的典型性能。

不正确假设下的预测

理论合理的模型可能不能转为真实性能的另一个原因是，生成理论结果而假设的数据通常都是假的。以潜在狄利克雷分布（LDA）为例，它是一个易于理解的非常有用的用于话题建模的算法。大量关于LDA的理论依据都是基于一篇文档在主题上与分布相关这个假设之上。每个主题都依次与分布在词汇表中所有单词相关联。生成过程如下，对于文档中的每个字，文章主题根据每个主题的相对概率来随机选择。然后，以选中的主题为条件，从这篇文章的主题词分布中选取一个词语。反复这个过程直到所有的词都被选中。

显然，这种假设在任何自然语言的数据集上并不成立。在实际的文档中，单词要从上下文中选取，而且很大程度上取决于它们所处的语境。此外文档的长度不是任意的，尽管这种情况可能在本科课程中出现。然而，对于这样的生成过程，LDA具有许多理论特性的优雅证明。

需要明确的是，LDA的确是一个用处广泛、最先进的算法。而且，我相信，算法的性能理论研究，即使是基于不切实际的假设，仍然是提高我们对更一般和更强大定理做出理解和基础工作不可或缺的步骤。在这篇文章中，我只思考众多知名的理论，以及为数据科学工作者解释关于为什么具有良好理论性质的算法并不总是表现最好的。

经验主义的胜利

有人可能会问，如果不是完全由理论引导，是什么让像深度学习这样的方法流行？另外，为什么由直觉判断支撑的经验方法会如此广泛成功，即使在几十年前他们并不受欢迎？

在回答这些问题上，我相信大量良好标记的数据的出现，比如ImageNet，是启发式方法东山再起的原因。给定了足够大的数据集，过度拟合的风险很低。此外，对测试数据的验证提供了解决典型案例的手段，而不是着眼于最坏的情况。并行计算和存储器大小的进步让人们可以通过实证分析来同时跟踪许多假设。由强大直觉判断支撑的实证研究，在我们达到理解的极限时，为我们提供了前进的道路。

注意事项

对于在机器感知和自然语言领域深度学习所取得的成功，人们可以合理地认为，到目前为止，三个最有价值的机器学习算法是线性回归、logistic回归和K-均值聚类，它们在理论上都非常易于理解。而迄今为止，反驳经验主义胜利的最合理的理由可能是，最好的算法是由理论驱动和限制的，而经验主义则只是用于最新的突破，并不是最重要的。