:(logistic regression)概述。在医学研究中,经常需要分析疾病与各危险因素之间的定量关系,如食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系,为了正确说明这种关系,需要排除一些混杂因素的影响。谈到如何很好的解决这个问题,就不得不提我们今天的主题了——。
(logistic regression)属于概率型非线性回归,是研究二分类(可扩展到多分类)观察结果和一些影响因素之间关系的一种多变量分析方法。常用于疾病的影响因素分析,用可以很好的解决我们刚刚提出的问题。
首先我们来认识下模型,这会有助于理解即将推出的倾向评分(ps)原理和实施。设应变量y是一个二分类变量,y=1(出现阳性结果),y=0(出现阴性结果),另有影响y取值的m个自变量x1,x2,…xm,p表示在m个自变量作用下阳性结果发生的概率。模型可以表示如下,其中g(x)表示阳性与阴性结果发生概率之比的自然对数,称为logitp。
模型参数对结果解读相当重要,其中β0为常数项,β1,β2……。βm分别为m个自变量的偏回归系数。
由上述公式可知,偏回归系数βm表示扣除了其他自变量的影响,自变量xm改变一个单位时logitp的改变量。
知道了的原理,的操作马上呈现给大家。例:比较新疗法与旧疗法治疗某种疾病的疗效。共40例患者,20例接受新疗法,20例接受旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效(注:作为举例,本例仅为40例,由于太小,的结论仅作为参考)
变量说明:y:治愈情况,1=治愈;0=未治愈;x1:病情严重程度,0=不严重,1=严重;x2:年龄。x3:治疗方法,0=新疗法,1=旧疗法。
执行analyze-regression-binary logistic
将y选入因变量,x1,x2,x3选入自变量。这里注意一下,当自变量的个数较多时,为了使建立的模型比较稳定和便于解释,应尽可能将回归效果显著的自变量选入模型中,将作用不显著的自变量排除在外。具体方法有前进法、后退法和逐步法(后退法最好),一般默认为enter(全部进入)。
在一系列点击菜单的操作后,我们终于看到了输出结果。首先是对模型的检验。
经统计学检验,模型c2=13.951,p=0.003,模型有显著性。
根据模型,病情严重程度与治疗方法对患者的治愈情况有影响;其中病情严重组相对于不严重组,or=0.203,95%置信区间为(0.038,1.092)(区间包括1,缺乏实际意义,不多作解释);旧疗法组相对于新疗法组,or=0.103,95%置信区间为(0.019,0.553)。
鉴于的自变量既可以是连续变量,也可以是分类变量。对于连续变量、二分类变量和等级变量无需特殊处理,但如果自变量是名义变量,我们需要将名义变量哑变量化,可通过categorical按钮来实现。
上一篇:临床研究中年龄只能是连续变量吗?
下一篇:临床研究中的关联分析和相关分析