在中我们会遇到如下问题:如果x指标的测量值是连续的,对于结局指标y来说,如何将x指标进行分类(分为两组),才能够获得y指标在两组间差异最大。
这个问题其实是一个对连续性指标x找切点的问题。很多人会想到,的确如果y是分类的,可以考虑用roc来找x的切点,同时还可以考虑用分类树的方法等。但是如果y是连续的,又或者是生存数据该怎么呢?下面举个例子。
有研究者用ipilimumab单抗治疗晚期黑色素瘤患者,测量患者血清的vegf水平与治疗的疗效,研究者发现患者的os与治疗前的vegf水平有关。此时研究者想探索vegf的切点在哪儿?才能够使得两组患者的os差异最大。他们在文中便使用了maximally selected log-rank statistic(最大选择log-rank检验)。
maximallyselected log-rank statistic是最大选择检验(maximally selected test statistics)的一种,除了他以外还有maximally selectedchi-square statistics和maximally selected rank statistics等,分别应用于变量y的不同类型下。何谓最大选择检验呢?简单来说,就是对x进行若干次分类,只到找到一个切点值使得分类后的两组y值有着最大的统计量。
拿上面的例子来说,就是对基线的血管内皮生长因子找不同的切点,只到找到一个切点使得两组患者的总体生存率差异最大。上图也指出,研究者最后选择的vegf的切点是43 pg/ml。作者还分别在不同的剂量组中,利用最大选择检验寻找了切点,如下图:
上面我们介绍了最大选择检验的一种应用场景,下面我们来看看如何实现。目前比较简单的实现方法是利用r的maxstat包,这个包中的例子是利用平均基因表达量(mge)去区别两种弥漫性大b细胞淋巴瘤,区分的依据是患者的os资料。其语法和计算结果如下:
结果显示mge的切点是0.186。用此切点分开两组,做单因素分析其生存曲线如上图,哈哈,随意做了一个曲线,比较丑。另外需要说明的一点是最大选择检验不仅能够用来一个x指标,还可以用来同时处理几个x指标。