分层回归是咋回事?是按照变量的水平数就行分割,然后进行分析嘛?其实不是,分层回归是对若干个自变量x进行分群组分析,主要用于模型的比较,或者说对变量重要性进行判定?
1、案例
某高校随机抽取600名大学生,调查期身高、体重、胸围、体育成绩和肺呼量(y)数据,现想知道,胸围对肺呼量的重要性大小,咱们看看如何分析?
2.实战
步骤:分析-回归-线性,将肺呼量放入因变量框,将身高和体重放入自变量框(第一层);
点击下一层,将胸围放入自变量第二层;
点击统计量,勾选r2变化量,点击继续,确定,查看结果。
3.结果
分层回归,你设置几个层,软件就会给您模拟几个模型,让您可以在几个模型间进行比较。本例结果可见,模型2比模型1多了个胸围变量,增加解释的r2为0.005,虽然很小,但是后面的p值=0.011是有意义的
如果我再把体育成绩放入第三层,看看结果,软件自动生成3个模型,你会发现,第3个模型增加的体育成绩并无意义。
4.松哥统计说
很多人会产生分层回归和逐步回归的区别联想。
逐步回归是让软件按照自变量重要性的大小,选择变量构建回归模型,如果软件一共发现3个有意义的变量,则会构建3个模型,分别为x1,x1 x2,x1 x2 x3;其中变量重要性x1>x2>x3;
分层回归相对来说建模更具备专业意义的指导,通常将专业认为重要的变量放在最后一层,以确定在控制其他变量之后,该自变量的意义大小。
注意一点,逐步回归和分层回归都可以计算r2的该变量,当分层回归每层仅放入一个变量时,其结果和逐步回归一致。当分层回归每层的变量数不为1个变量时,结果与逐步回归不同;
简单的说,逐步回归按照变量个数递增,建模并计算r2改变;而分层回归是按照层的数目递增建模并计算r2改变。
逐步回归,更依赖软件;分层回归更依赖专业。逐步先重要变量,后次要变量;分层先想控制变量,后想研究的变量。