多因素线性回归是我们在中经常用到的,在做完回归后大家往往喜欢问这些影响因素中谁的影响效应最大呢?同时,在线性回归分析的结果中有标准化回归系数这一列,这一列又是用来做什么的呢?本文就跟大家一起来讨论这一问题。
首先我们来看一下数据,在这个例子中有5个变量,其中y是因变量,x1至x4是自变量。想探索x1-x4对y的影响大小,同时比较不同自变量x对y的作用谁大谁小。
这时候我们往往会做多因素线性回归,其结果如下:
我们可以看到在上述结果中有未标准化回归系数和标准化回归系数,除此之外还有t值和p值(当然t和p是用来判断该因素对y的影响是否有统计学意义的,不是本文讨论的重点)。上表中的未标准化回归系数是回归方程中不同自变量的系数,通过该系数和常数项咱们可以因变量的预测值。同时还有标准化回归系数,它便是用来比较不同自变量(x)对因变量(y)的作用大小的。标准化回归系数的觉得值越大,说明该自变量x对因变量y的作用愈大。
那么标准化回归系数是怎么算出来的呢?它就是将上述的x1-x4和y的值都标化到标准正态分布对应的值,即均数为0,标准差为1。对上述数据进行标准化后,它们之间便可以相互比较了。假设因变量是身高和体重,增加1cm的身高和增加1kg的体重,对因变量y的影响谁大谁小无法比较。但是如果我们将身高、体重和因变量都标准化到标准正态分布后,这时候身高增加1个单位和体重增加1个单位对与y的影响就可以比较了。
标化的过程很简单,就是将一个正态分布转化成标准正态分布,即用每个指标的数据减去该指标的均数,再除以该指标的标准差:
然后再用转化后的参数之间去做回归。我们进行了转化并做了计算,变量名称带有n的为标化后的新变量,其结果如下:
这时候就会发现,未标准化的回归系数和上次计算结果中的标准化回归系数是一样的。它的绝对值的大小就可以比较x1-x4这四个变量对y的作用大小了。
最后再说一下未标准化回归系数和标准化回归系数的转换关系,bj是未标化的系数,bj’是标化的系数:
上式中sj是自变量j的标准差,sy是因变量y的标准差。在本例中x1的标准差为4.64,y的标准差为3.047。x1标准化回归系数= x1未标准化回归系数*(4.64/3.047)=-0.101*(4.64/3.047)=-0.154,与的计算结果一致。
下一篇: