正文

生存分析中生存率的计算 -凯发k8国际首页登录

  近日连续遇到好几个同事在写论文时问及生存率的问题,有人还是对生存率的计算有点儿理不清楚,本期就这一问题作一讨论。当然这一讨论仅限于简单的数据中的kaplan-meier法。对于流行病学数据的生存率估计,有更为复杂的估算方法,也需要考虑更多的影响因素。

  假设我们有某肿瘤患者的以下数据,包括患者的基本信息、诊断时间、治疗手段、随访时间和存活与否等指标。简单理解的生存率,就是患者的存活率,是指在这些患者中经过一段时间的随访后,尚存活的患者的比例。它的计算方法=随访满一定时间的尚存活的病例数/开始随访时的总病例数×100%。如2年生存率的计算,是指随访满2年的尚存活的病例/总病例数。上面的计算的确有着严谨的逻辑,但这种生存率的计算在中往往是不被采用的的。因为这种情况下生存率的计算,会漏掉不少随访时间不够2年的病例。随访时间不够2年的原因可能是:1)、这些病例从入院到现在还没有2年的时间,2)、这些病例随访不足2年时就失访了。

  就像上面的这个数据,我截屏了前20个病人,其中13人都是不能纳入上面说的那个2年生存率的计算的,因为他们的随访时候都不够24个月。

  但是我们在做生存分析时往往不是这样计算的生存率的,我们是按照km的生存概率表读取的某一个时间的生存率,比如下表中5年的累积生存率为91.8%。理论上应该读取第838行的累计生存率(因为它正好对应着60个月),但是这儿没有数,所以读取他的上一个数(第826行)来代替。

  这个5年的累计生存率也跟生存曲线对应着,它的生存曲线如下。图中红色的线对应的就是60个月的累积生存率。

  这儿我们一直把它称为累积生存率,因为它有别于前面所说的生存率,累积生存率的计算是将各个时点的生存概率进行乘积计算而来的,考虑了删失数据的影响。但是在生存分析的中大家早已习惯了将累积生存率简称为生存率。如果不存在删失数据,那么累积生存率就完全等于咱们前面所说的那个简单生存率的计算,即等于t时刻仍存活的例数/观察总例数。

  由于上述的表格中不存在时间正好等于60.000个月时的生存率,所以我们选用它上一个最接近的时间点59.133个月的数据(0.918)来代替。除此之外,我们还可以采用比例的方法来估算60.000个月的生存率,因为我们知道59.133个月是0.918,62.533个月是0.916,假设这个生存率在这一较小的时间段内是等比例下降的。那么可以算出这一时间段内每1个月的平均下降速度为(0.918-0.916)/(62.533-59.133)=0.000588,60个月距离59.133个月为0.867个月,乘以0.000588=0.00051,再用59.133个月的0.918-0.00051=0.91749,即为正好60个月时的估算生存率。

  呃,这么一通计算折腾下来,跟选取最接近的数据来代替,两个生存率也只差了0.51%。本例题的比较大,事件与事件之间时间点相距较近。但有时候研究对象较少时(如只有20例),出现事件的时间点可能会相距较远,此时差别会大一些。当然读者应该酌情考虑是否采用这一计算方法。 

来源:临床流行病学和循证医学 陶立元,赵一鸣
爱科学

上一篇:如何在spss上利用2个及以上指标进行联合诊断?

下一篇:给你的“因果”加点料——中间变量和中介效应

登录注册
欢迎内容投稿或举报!e-mail: ikx@ikx.cn
凯发天生赢家一触即发官网 copyright © 爱科学 iikx.com "));
网站地图