在进行多元回归分析时,当回归模型中使用两个或以上的自变量彼此相关时,则称回归模型中存在多重共线性(multicollinearity)。
严重的多重共线性可能会使回归分析的结果混乱,甚至会把分析引入歧途。
那怎样才能判断是否具有多重共线性问题呢?
1、最简单的一种方法是计算模型中各对自变量之间的相关系数,如果一个或多个相关系数是显著的,就表示存在多重共线性问题。
2、当模型的线性关系检验(F检验)显著时,几乎所有回归系数β的t检验却不显著。
3、回归系数的正负号与预期的相反。
4、容忍度(tolerance)与方差扩大因子(VIF)。
某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系数。
容忍度越小,多重共线性越严重。
通常认为容忍度小于0.1时,存在严重的多重共线性。
方差扩大因子等于容忍度的倒数。
显然,VIF越大,多重共线性越严重。
一般认为VIF大于10时,存在严重的多重共线性。
一旦发现模型中存在多重共线性问题,就应采取解决措施。至于采取什么样的方法来解决,要看多重共线性的严重程度。
下面给出几种常用的解决方法:
(1)将一个或多个相关的自变量从模型中剔除。实际操作中常用逐步法作为自变量筛选方法。
(2)如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数β进行检验;对因变量y值得推断限定在自变量样本值的范围内。
(3)主成分分析法。
(4)偏最小二乘法。偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析
(5)岭回归法。岭回归法是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法。
(6)增加样本容量。多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。
在进行多元回归时,多重共线性问题是大家容易忽视的地方。
充分考虑该问题,才可以让多元回归的分析方向正确,得出正确结果。
End.
作者:康哥用统计 (中国统计网特邀认证作者)
本文为中国统计网原创文章,需要转载请联系中国统计网(info@itongji.cn),转载时请注明作者及出处,并保留本文链接。