对连续性变量进行分类转换的一种方法-凯发k8国际首页登录

时间：2018-08-29 阅: 6368 关注

标签: 统计方法

　　在中我们会遇到如下问题：如果x指标的测量值是连续的，对于结局指标y来说，如何将x指标进行分类(分为两组)，才能够获得y指标在两组间差异最大。

　　这个问题其实是一个对连续性指标x找切点的问题。很多人会想到，的确如果y是分类的，可以考虑用roc来找x的切点，同时还可以考虑用分类树的方法等。但是如果y是连续的，又或者是生存数据该怎么呢?下面举个例子。

有研究者用ipilimumab单抗治疗晚期黑色素瘤患者，测量患者血清的vegf水平与治疗的疗效，研究者发现患者的os与治疗前的vegf水平有关。此时研究者想探索vegf的切点在哪儿?才能够使得两组患者的os差异最大。他们在文中便使用了maximally selected log-rank statistic(最大选择log-rank检验)。

　　maximallyselected log-rank statistic是最大选择检验(maximally selected test statistics)的一种，除了他以外还有maximally selectedchi-square statistics和maximally selected rank statistics等，分别应用于变量y的不同类型下。何谓最大选择检验呢?简单来说，就是对x进行若干次分类，只到找到一个切点值使得分类后的两组y值有着最大的统计量。

　　拿上面的例子来说，就是对基线的血管内皮生长因子找不同的切点，只到找到一个切点使得两组患者的总体生存率差异最大。上图也指出，研究者最后选择的vegf的切点是43 pg/ml。作者还分别在不同的剂量组中，利用最大选择检验寻找了切点，如下图：

　　上面我们介绍了最大选择检验的一种应用场景，下面我们来看看如何实现。目前比较简单的实现方法是利用r的maxstat包，这个包中的例子是利用平均基因表达量(mge)去区别两种弥漫性大b细胞淋巴瘤，区分的依据是患者的os资料。其语法和计算结果如下：

　　结果显示mge的切点是0.186。用此切点分开两组，做单因素分析其生存曲线如上图，哈哈，随意做了一个曲线，比较丑。另外需要说明的一点是最大选择检验不仅能够用来一个x指标，还可以用来同时处理几个x指标。