转载

用Python进行梯度提升算法的参数调整

引言

或许之前你都是把梯度提升算法(Gradient Boosting Model)作为一个“黑箱”来用，那么现在我们就要把这个黑箱打开来看，里面到底装着什么玩意儿。

提升算法(Boosting)在处理偏差-方差权衡的问题上表现优越，和装袋算法(Bagging)仅仅注重控制方差不同，提升算法在控制偏差和方差的问题上往往更加有效。在这里，我们提供一个对梯度提升算法的透彻理解，希望他能让你在处理这一问题上更加胸有成竹。

这篇文章我们将会用Python语言实践梯度提升算法，并通过调整参数来获得更加可信的结果。

提升算法的机制

提升算法是一个序列型的集成学习方法，它通过把一系列弱学习器集成为强学习器来提升它的预测精度，对于第t次要训练的弱学习器，它会更加重视之前第t-1次预测错误的样本，相反给预测正确的样本更低的权重，我们用图来描述一下：

图一：生成的第一个弱分类器
- 所有的样本拥有相同的权重(用大小表示)。
- 决策边界成功预测了2个+样本和5个-样本。
图二：生成的第二个弱分类器
- 在图一中被正确分类的样本给予了一个更小的权重，而错分类样本权重更大。
- 这个分类器更加重视那些权重大的样本并把它们正确分类，但是会造成其他样本的错分类。

图三也是一样的，这个过程会循环多次直到最后，然后把所有的弱学习器基于他们的准确性赋予权重，并最终集成为强学习器。

梯度提升算法的参数

梯度提升算法的参数可以被分为三类：

决策树参数：单独影响每个弱学习器(决策树)的参数
提升算法参数：影响提升算法运行的参数
其他参数：整个模型中的其他参数

决策树参数

下面是对决策树参数的详细介绍，在这里我们用的是Python的scikit-learn包，或许和R语言的一些包不同，但是他们蕴含的思想是一致的。

分支最小样本量 ：一个节点想要继续分支所需要的最小样本数。
叶节点最小样本量 ：一个节点要划为叶节点所需最小样本数，与上一个参数相对应。
最小叶节点相对权重 ：和上一个参数类似，只不过按照权重的定义转变为分数的形式。
树最大深度 ：树的层次，树越深越有过拟合的风险。
最大叶节点量 ：叶节点的最大数目，和树最大深度可以相互替代。
最大特征子集量 ：选择最优特征进行分支的时候，特征子集的最大数目，可以根据这个数目在特征全集中随机抽样。

在定义下面两类参数之前，我们先来看一下一个二分类问题的梯度提升算法框架：

生成初始模型
从1开始循环迭代
2.1 根据上一个运行的结果更新权重
2.2 用调整过的样本子集重新拟合模型
2.3 对样本全集做预测
2.4 结合预测和学习率来更新输出结果
生成最终结果
这是一个非常朴素的梯度提升算法框架，我们刚才讨论的哪些参数仅仅是影响2.2这一环节里的弱学习器模型拟合。

提升算法参数

学习率 ：这个参数是2.4中针对预测的结果计算的学习率。梯度提升算法就是通过对初始模型进行一次次的调整来实现的，学习率就是衡量每次调整幅度的一个参数。这个参数值越小，迭代出的结果往往越好，但所需要的迭代次数越多，计算成本也越大。
弱学习器数量 ：就是生成的所有的弱学习器的数目，也就是第2步当中的迭代次数，当然不是越多越好，因为提升算法也会有过拟合的风险。
样本子集所占比重 ：用来训练弱学习器的样本子集占样本总体的比重，一般都是随机抽样以降低方差，默认是选择总体80%的样本来训练。

其他参数

诸如 损失函数(loss) 、 随机数种子(random_state) 等参数，不在本文调整的参数范围内，大多是采用默认状态。

模型拟合与参数调整

我们用的是从Data Hackathon 3.x AV hackathon下载的数据，在预处理以后，我们在Python中载入要用的包并导入数据。

我们先定义一个函数来帮助我们创建梯度提升算法模型并实施交叉验证。

我们首先创建一个基准模型，在这里我们选择AUC作为预测标准，如果你有幸拟合了一个好的基准模型，那你就不用进行参数调整了。下图是拟合的结果：

所以平均下来的交叉验证得分是0.8319，我们要让模型表现得更好一点。

参数调整的典型方法

事实上，我们很难找到一个最佳的学习率参数，因为往往小一点的学习率会训练更多的弱学习器从而使得集成起来的学习器表现优越，但是这样也会导致过度拟合的问题，而且对于个人用的电脑来说，计算成本太大。

下面的参数调整的思路要能够谨记于心：

先选择一个相对较高的 学习率 ，通常就是默认值0.1但是一般0.05到0.2范围内的数值都是可以尝试使用的。

在学习率确定的情况下，进一步确定要训练的 弱学习器数量 ，应该在40到70棵决策树之间，当然选择的时候还要根据电脑的性能量力而行。
决定好学习率和弱学习器数目后，调整 决策树参数 ，我们可以选择不同的参数来定义每一棵决策树的形式，下面也会有范例。
如果这样训练的模型精度不够理想，降低当前的学习率、训练更多的弱学习器。

调整弱学习器数量

首先先看一下Python默认的一些参数值： 分支最小样本量=500 ； 叶节点最小样本量=50 ； 树最大深度=8 ； 样本子集所占比重=0.8 ； 最大特征子集量=特征总数平方根 。这些默认参数值我们要在接下来的步骤中调整。我们现在要做的是基于以上这些默认值和默认的0.1学习率来决定弱学习器数量，我们用 网格搜索(grid search) 的方法，以10为步长，在20到80之间测试弱学习器的最优数量。