线性回归模型简介 相关分析与回归分析的联系与区别
本节考察两个连续变量间的联系。通过回归方程解释两变量之间的关系显得更为精确。另外,通过回归方程还可以进行预测(y)和控制(x)。
简单回归分析的原理和要求:
重要:t检验和方差分析,用来检验求出不为0的回归系数并不是由于抽样误差而引起的。
总体回归线的可信区间
95%区间:在满足线性回归假设条件下,两条弧线曲线所形成的区域包含真实总体回归直线的置信度的95%。
个体y预测的区间估计
指当x为特定某值时,个体y值的参考值范围的波动范围。该区间是由比总体回归线置信区间带更远离的两条弧线曲线构成的,表示期望有95%的数据点所落入的范围。
两连续变量的线性回归模型的适用条件:(1)线性趋势:自变量与因变量的关系是线性的,可通过散点图来判断;
(2)独立性:因变量y的取值相互独立的,之间没有联系。就是要求残差间相互独立,不存在自相关性,否则应采用自回归模型;
(3)正态性:因变量y均服从正态分布,即要求残差服从正态分布;
(4)方差齐性:自变量的任何线性组合中,因变量的方差均相同。即残差的方差要齐性。
注意:如果说只需要探讨自变量与因变量间的关系,而不需要根据自变量的取值预测因变量的区间,则正态性和方差齐性两个可以放宽。
回归关系并不一定代表两者有因果关系。
案例:建立用年龄预测总信心指数值的回归方程
步骤:(1):做散点图,可看出年龄与信心指数之间存在线性关系
步骤(2):“分析”——“回归”——“线性”,即可以打开“线性回归”对话框。
“因变量”:选入回归分析模型中的因变量,只能选入一个
“自变量”:选入回归分析模型中的自变量
“方法”:用于选择对自变量的选入方法,包括“进入”,“后退”,“逐步”等方法
“选择变量”:实际是进行案例筛选,选入筛选变量,并利用右侧“规则”按钮建立一个选择条件,使得只有满足该条件的记录才能进行回归分析。
“个案标签”:选择一个变量,其取值将作为每条记录的标签。典型的如id号;
“wls权重”:选择权重变量以进行加权最小二乘法的回归分析。
结果:
表1:输入/移去的变量
对各自变量奶如模型情况的汇总
表2:模型摘要
可以知道:相关系数的绝对值为0.219,决定系数为0.048,表示自变量所能解释的方差在总方差所占的百分比,取值越大说明模型的效果越好。
表3:回归系数的检验
回归系数的检验
回归系数检验有两种方法,(t检验和方差分析):方差分析结果中,f=57.726,p值<0.05,该模型具有统计学意义。且只有一个自变量,因此自变量的回归系数具有统计学意义。另一种t检验在“系数”表中可以查看:
表4:系数表
系数表给出回归方程中的常数项和回归系数的估计值和检验结果,总信心指数和年龄之间的回归方程:
t检验中,对常数项主要检验其是否为0,对回归系数的检验其是否有统计学意义。
存储预测值和区间估计值
建立回归模型:不仅是寻找潜在影响因素,而且希望对因变量进行预测——“保存”复选框。
保存复选框 “预测值”复选框组:包含各种可供存储的应变量的预测值;
“残差”复选框组:包含各种可供存储的各种残差,用于模型诊断。
“距离”复选框组:各处一系列用于测量数据点离模型距离的指标,主要用于强影响点的诊断。
“影响统计量”复选框组:提供一些专门用于判断强影响点的统计量;
“预测区间”复选框组:要求给出均数的可信区间或个体参考值范围的上下界,默认95%区间。
多重线性回归模型入门
指包括一个或多个自变量的回归模型,自变量数可能超过1个。
多重线性回归模型的标准分析步骤:(1)关联趋势的图形考察:做出散点图,观察变量间的趋势;多变量需做出散点图矩阵。
(2)数据分布考察和预处理:用统计量或者图形考察数据的分布,进行必要的预处理,即分析变量的正态性,方差齐性等问题,确定是否可以直接进行线性回归分析。如果进行变量变换,需重新绘制散点图;
(3)初步建模:对数据进行直线回归分析
(4)残差分析:诊断模型: 两方面:残差间是否独立:一般采用“durbin-waston”残差序列相关性检验进行分析
残差分布是否正态:采用残差列表以及相关指标来分析,或采用图示法。残差分布在0的上下均匀波动,没有明显规律或逐渐变大变小趋势。
(5)强影响点的诊断及多重共线性问题的判断
ps:见后续文章 中与多重线性回归模型相关的功能
本章涉及的多重线性回归模型,主要可能用到以下两个过程:
1.“回归”——“线性回归过程” 统计量 “回归系数”:用于在结果中输出回归系数的估计值和检验结果,以及其可信区间和协方差矩阵等。
“残差”:用于输出残差诊断的信息
右侧复选框:输出模型诊断相关的指标,包括决定系数,自变量间的相关和偏相关系数,及共线性诊断。 绘图 制定残差分析中所需要的图形输出,可以直接绘制残差的直方图和pp图,也可以绘制各种散点图。
“产生所有部分图”:对于每一个自变量会出它的因变量残差的散点图,用于回归诊断。 选项 包含缺失值的处理,以及步进方法的设置(不清楚啥意思)。
2.“回归”——“自动线性建模”
这个。。。。待定(高级教材)
案例:建立自变量包括年龄、性别、家庭收入的信心指数的回归方程 选入变量,采用后退法
结果:
表1:输入/除去变量
模型中自变量的选取情况,第一步将3个自变量全部选中,第二步剔除性别这个自变量,因为检验概率大于0.1。
表2:模型摘要
给出模型中两步操作过程中的决定系数,可以看出决定系数几乎没下降,侧面说明剔除的自变量不应当被选入模型中。
表3:anova表
检验所拟合的两个模型是否在争议上具有统计学意义的结果,显著性均<0.05,所以两个模型都是具有一定预测价值的。
表4:系数表
输出两个模型中自变量的偏回归系数估计。可以看出,整个模型中性别(模型1)和qs9(模型1,2)的显著性大于0.05,可以判断出,性别和qs9不具有统计学意义,后续也可以把qs9剔除。(如果采用前进法就能发现:模型中只把年龄记录进去)
表5:排除的变量
给出排除的变量性别的显著性以及偏相关性的检验。偏相关系数指控制模型中所包含的自变量后所计算出的模型残差与该自变量的偏相关系数,绝对数值越小,说明该自变量没有必要进入模型。
残差独立性检验(独立性):
上面得出回归方程,并对模型进行相应的假设检验,只是完成线性趋势的考察,而独立性,正态性和方差齐性方面为涉及。
残差独立性检验:可以通过“统计量”子对话框中“durbin-watson检验”复选框来进行:
durbin-watson检验的值(0-4之间):若自变量数小于4个,统计量大于2,基本可肯定残差间相互独立,结果为1.88,独立性没问题。
残差分布的图形观察(正态性)
在“绘图”对话框中选中“直方图”和“正态概率图”复选框。
残差直方图 残差p-p图
有直方图和p图可看出,模型残差基本上服从正态分布,没有严重偏离正态性假设。
注意:自变量与因变量的关系并非线性、残差方差不齐、不独立等情况会导致残差直方图出现非正态,因此因先确定服从线性回归的其他条件后再研究残差分布是否正态
方差齐性的图形观察(方差齐性)
在“绘图”对话框中将“zpred(标准化预测值)”选入x2列表,“zresid(标准化残差)”选入y列表中
zpred-zpresid方差齐性
残差存在轻微的减少趋势,存在个别残差偏离较远的案例,后续需进行有针对性的分析评估。总体方差齐性满足。
多重线性回归分析要5步骤:
做散点图,观察变量间的趋势——考察数据的分布,进行必要预处理——进行直线回归分析,建立基本模型——进行残差分析(独立性,正态性,齐性)——进行强影响点的诊断以及多重共线性的判断
上一篇:利用spss进行一般线性回归
下一篇:利用spss进行逐步回归分析