转载

初学者必读：从迭代的五个层面理解机器学习

你能猜到这个谜语的答案吗？

如果你学习机器学习，它将随处可见……
如果你是一个程序员，你会用它上千次……
如果你练习过任何技术，这俨然是第二个你……

不，答案不是狂饮咖啡……而是「迭代（iteration）」！

是的，迭代是为了实现某种结果而重复一组任务的过程。

等等，这难道不是词典的定义吗？好吧，是的，这就是迭代真正的意思。我们并不是要揭开一些令人兴奋的秘密。但我们希望以一种对你来说可能是新的方式来构建这个简单的概念。我们的目标是从不同的角度概览机器学习的基本概念，这有别于教科书里的常规方法。

我们知道，大多数书都按照正向顺序（sequential）讲解机器学习的过程：加载数据、预处理、拟合模型、预测等。

这种顺序方法当然是合理和有帮助的，但现实的机器学习很少如此线性。相反，实用机器学习有一个特殊的循环（cyclical）性质，需要不断的迭代、调整和改进。

因此，我们想展示简单的迭代技术是如何在机器学习中具有美丽形式和深刻意义的。这篇文章是针对初学者写的，但更有经验的读者也不妨一读。

初学者必读：从迭代的五个层面理解机器学习

为什么讨论迭代问题？

迭代是机器学习的核心概念，它在许多方面至关重要。了解这个简单的概念在机器学习工作流程中的确切位置，这会带来很多切实的好处：

1. 你能更好地理解算法

2. 你能制定出更实际的项目进度时间表

3. 你会发现更容易实现的模型改进方法

4. 帮助你更容易坚持下去，即使初步结果较差

5. 帮助你进一步解决机器学习中更复杂的问题

根据经验，以迭代的角度看机器学习的工作流，能够帮助初学者了解机器学习背后的概念。

所以不用多说，让我们开始介绍机器学习迭代的 5 个层面吧。

模型层面：拟合参数
微观层面：调试超参数
宏观层面：解决问题
元数据层面：改进数据
人类层面：提升自己

模型层面：拟合参数

迭代能够起到重要作用的第一个层面是模型层面。任何模型，无论是回归模型、决策树还是神经网络，都是由许多（有时甚至数百万）模型参数定义的。

例如，回归模型由回归系数定义，决策树由节点分类的方式定义，神经网络由连接各层的权重定义。

然而机器是如何学习正确的模型参数值的？其中迭代算法发挥了作用！

用梯度下降法拟合参数

梯度下降算法（或随机梯度下降/stochastic gradient descent）是机器学习的巨大成功。

梯度下降是一种迭代方法，用于找到函数的最小值。在机器学习中，该函数通常是损失（loss）（或成本/cost）函数。「损失」指的是衡量预测错误代价的量化指标。

给定一组参数，梯度下降计算对应模型的预测损失，然后调整这些参数以减少损失。重复这一过程，直到损失不能进一步减少。

最小化损失的最后一组参数就是最终的拟合模型。

直观的梯度下降算法

我们不会在这里推导梯度下降的数学公式，但我们将直观的给出梯度下降的概念：

1. 设想带有山谷和山峰的山脉（损失函数）；

2. 山脉的每个位置（参数集）都有一个高度（损失）；

3. 现在把一个滚珠放在山脉的某个地方（初始化）；

4. 在任何时刻，球沿最陡的方向（梯度）滚动；

5. 它继续滚动（迭代），直到它卡在某个山谷底部（局部最小）；

6. 理想情况下，你想找到最低的山谷（全局最小）；

7. 有很多聪明的方法来防止球被卡在局部最小值（例如初始化多个球，给它们更多的动量，以便球可以越过小山丘等）；

8. 对了，如果山地形状像碗（凸函数），那么球一定能到达最低点。

在下面的视频中，吴恩达进一步讲述了梯度下降算法背后的原理。

想要学习更多梯度下降算法的数学推导，我们推荐下面的资料：

UCLA 的数学优化课程讲义：http://www.math.ucla.edu/~wotaoyin/math164/slides/wotao_yin_optimization_lec07_gradient_methods.pdf
scipy-lectures.org 网站的数学优化学习笔记：http://www.scipy-lectures.org/advanced/mathematical_optimization/

在实践中，调用机器学习的应用包（如 Scikit-Learn）时，并不需要从头开始编写梯度下降算法。

微观层面：调试超参数

下一个迭代发挥巨大作用的层面是我们所谓的「微观」水平，更通常被称为通用模型或模型族（model family）。

你可以将模型族视为广泛类别的具有可定制结构的模型。logistic 回归、决策树、支持向量机（SVM）和神经网络实际上都是不同的模型族。在实际拟合模型参数之前，每个模型族都有一组结构可供选择。

例如，在 logistic 回归族中，可以使用 L1 或 L2 正则化惩罚项（regularization penalty）来构建单独的模型。在决策树族中，可以选用不同结构的模型，例如树的深度（depth）、修剪阈值（pruning threshold）或分割标准（splitting criteria）。

这些结构选择变量称为超参数（hyperparameter）。

为什么超参数很特别

超参数是无法使用梯度下降或其它优化算法直接从数据学习的「更高级」参数。它们描述了在拟合模型参数之前必须确定的关于模型的结构信息。

所以当人们说他们要「训练一个 logistic 回归模型」时，他们真正的意思包含了两个阶段的过程。

首先，决定模型族的超参数。例如，模型是否应该添加 L1 或 L2 惩罚项以防止过拟合（overfitting）？
然后，根据数据拟合模型参数。例如，如何拟合模型系数（coefficient）以最小化损失函数（loss function）？

我们之前讨论了梯度下降如何帮助执行步骤 2。但是为了使用梯度下降拟合模型参数，必须首先从模型族入手设置超参数。

那么我们如何处理步骤 1，找到模型族的最佳超参数？

使用交叉验证调试超参数

交叉验证（cross-validation）是在众多场景最有用的技术之一，在使用它时几乎有一种作弊的感觉。

在此背景下，交叉验证也是一种迭代方法，用于评估用给定的一组超参数构建的模型的性能。这是一种重复使用训练数据的聪明方式，将它分割成几块并循环使用它们（详情见下一小节）。

使用交叉验证，你可以仅使用训练集来拟合和评估具有各种超参数集的模型。这意味着你可以将测试集单独拿出来（hold-out set）并用于最终模型选择（更多内容将在下一部分中介绍）。

交叉验证详细步骤

以下是使用 10 折交叉验证选择超参数的步骤：

1. 将训练集分成 10 等份，即「折（fold）」；

2. 从备选的所有超参数集中，选择一组超参数；

3. 在给定一组超参数后，用训练数据的前 9 折训练你的模型；

4. 用第 10 折，或单独拿出的数据（hold-out）折去评估模型；

5. 用同一组超参数重复步骤（3）和（4）10 次，每次单独拿出不同的数据折（10 折都要用一次）做评估；

6. 总计所有 10 次循环的结果，并作为该超参数集的性能指标；

7. 对于所有备选的超参数集，重复步骤（2）至（6）；

下面是伪代码：

# pseudocode for cross-validation
all_folds = split_into_k_parts(all_training_data)
for set_p in hyperparameter_sets:
model = InstanceFromModelFamily()
for fold_k in all_folds:
training_folds = all_folds besides fold_k
fit model on training_folds using set_p
fold_k_performance = evaluate model on fold_k
set_p_performance = average all k fold_k_performances for set_p
select set from hyperparameter_sets with best set_p_performance

宏观层面：解决问题

现在我们要撇开单个模型，甚至模型族。我们将在解决问题层面讨论迭代。

通常，第一个构建的模型并不是最好的，即使采用交叉验证调试过参数。这是因为拟合模型参数和调试超参数只是整个机器学习问题解决工作流程的两个部分。

还有其它的几种迭代技术，可以利用它们来找到最佳性能的解决方案。我们认为下面的两种技术可以比较容易地提高预测性能。

尝试不同的模型族

机器学习中有一个概念称为「无免费午餐定理（NFL/No Free Lunch theorem）」。人们对 NFL 定理有不同的解释，但我们关心的是：没有一个模型族是最适合每一个问题的。

由于各种因素，如数据类型、问题域、稀疏数据、甚至收集的数据量，不同的模型族会有不同的表现。

因此，为改进给定问题的解决方案，最简单方法之一是尝试几个不同的模型族。这个迭代层面要高于之前其它的层面。

下面是伪代码：

# eudocode for selecting model family
training_data, test_data = randomly_split(all_data)
list_of_families = logistic regression,
decision tree,
SVM,
neural network, etc...
for model_family in list_of_families:
best_model = tuned with cross-validation on training_data
evaluate best_model from each model_family on test_data
select final model

请注意，这里的交叉验证步骤与上一节中的交叉验证步骤相同。这种美丽的嵌套迭代（nested iteration）形式是解决机器学习问题的有效方法。

组合模型

下一个改进解决方案的方法是将多个模型组合成一个整合模型（ensemble）。这是从拟合这些模型的迭代过程的直接扩展。

我们将保存对不同的整合方法的详细讨论，但一个常见的整合形式是简单地取多个模型预测的平均值。当然，还有更先进的方法来组合你的模型，但是拟合多个模型的迭代方法是一样的。

这种组合的预测通常有与任何单个模型相比微小的性能提升。下面是构建一个简单的整合模型的伪代码：

# pseudocode for building a simple ensemble modal
training_data, test_data = randomly_split(all_data)
list_of_families = logistic regression,
decision tree,
SVM,
neural network, etc...
for model_family in list_of_families:
best_model = tuned with cross-validation on training_data
average predictions by best_model from each model_family
... profit! (often)

请注意，该过程的大部分内容与之前的技术完全相同！

实际上，这意味着你可以很容易地复制这两种技术。首先，你可以从各种不同的模型族构建最佳模型。然后你可以整合它们。最后，你可以在相同的测试集上评估单个模型和整合模型。

作为最后一个忠告：你应该总是单独拿出一个未经测试的测试集，以选择你的最终模型。我们建议在建模过程开始时将数据分成训练集和测试集。不到最后不要使用测试集。

元数据层面：改进数据

更好的数据打败更好的算法，但这并不总是意味着更多的数据打败更好的算法。是的，更好的数据通常意味着更多的数据，但它也意味着更清洁的数据、更相关的数据、以及有更好的特征的数据。

改进数据也是一个迭代过程。当你面对机器学习的更大挑战时，你会意识到，很难从一开始就完全获得所有数据。

也许还有一些你没有想到的关键特征。也许你没有收集到足够的数据。也许你错误理解了数据集中的一个列，需要返回去重新向同事解释它。

一个伟大的机器学习从业者总是保持开放的心态，并不断改进数据集。

收集更好的数据

收集更好的数据的能力是随时间、经验和更多领域专业知识而发展的技能。例如，如果你正在构建一个房地产定价模型，你应该收集关于房子本身、附近的社区、甚至过去支付的财产税等公开可用的信息。

更好的数据的另一个要素是数据的整体清洁度（cleanliness）。这意味着减少丢失数据、降低测量误差，并尽力用主要指标（primary metric）替换代理指标（proxy metric）。

这里有几个问题，可以激发你改进数据集的想法：