线性回归中标准化回归系数是做什么用的？ -凯发k8国际首页登录

时间：2018-08-27 阅: 20327 关注

标签: 统计方法

　　多因素线性回归是我们在中经常用到的，在做完回归后大家往往喜欢问这些影响因素中谁的影响效应最大呢?同时，在线性回归分析的结果中有标准化回归系数这一列，这一列又是用来做什么的呢?本文就跟大家一起来讨论这一问题。

　　首先我们来看一下数据，在这个例子中有5个变量，其中y是因变量，x1至x4是自变量。想探索x1-x4对y的影响大小，同时比较不同自变量x对y的作用谁大谁小。

　　这时候我们往往会做多因素线性回归，其结果如下：

　　我们可以看到在上述结果中有未标准化回归系数和标准化回归系数，除此之外还有t值和p值(当然t和p是用来判断该因素对y的影响是否有统计学意义的，不是本文讨论的重点)。上表中的未标准化回归系数是回归方程中不同自变量的系数，通过该系数和常数项咱们可以因变量的预测值。同时还有标准化回归系数，它便是用来比较不同自变量(x)对因变量(y)的作用大小的。标准化回归系数的觉得值越大，说明该自变量x对因变量y的作用愈大。

　　那么标准化回归系数是怎么算出来的呢?它就是将上述的x1-x4和y的值都标化到标准正态分布对应的值，即均数为0，标准差为1。对上述数据进行标准化后，它们之间便可以相互比较了。假设因变量是身高和体重，增加1cm的身高和增加1kg的体重，对因变量y的影响谁大谁小无法比较。但是如果我们将身高、体重和因变量都标准化到标准正态分布后，这时候身高增加1个单位和体重增加1个单位对与y的影响就可以比较了。

　　标化的过程很简单，就是将一个正态分布转化成标准正态分布，即用每个指标的数据减去该指标的均数，再除以该指标的标准差:

　　然后再用转化后的参数之间去做回归。我们进行了转化并做了计算，变量名称带有n的为标化后的新变量，其结果如下：

　　这时候就会发现，未标准化的回归系数和上次计算结果中的标准化回归系数是一样的。它的绝对值的大小就可以比较x1-x4这四个变量对y的作用大小了。

　　最后再说一下未标准化回归系数和标准化回归系数的转换关系，bj是未标化的系数，bj’是标化的系数：

　　上式中sj是自变量j的标准差，sy是因变量y的标准差。在本例中x1的标准差为4.64，y的标准差为3.047。x1标准化回归系数= x1未标准化回归系数*(4.64/3.047)=-0.101*(4.64/3.047)=-0.154，与的计算结果一致。