估算需要注意的问题。
先看几组对话:
a、
提问:“老师,我想做一个两组的比较研究,你看我需要多少?”
回答:“呃……。事情是这样的,的估算需要一些参数……”
b、
提问:“老师,我想比较干预以后两组的os有没有差别,你看我需要收多少个病人?”
回答:“呃……。事情是这样的,的估算需要一些参数……”
c、
提问:“老师,我想分析某药物的效果,你看我最少需要收多少个病人?”
回答:“呃……。事情是这样的,的估算需要一些参数……”
d、
提问:“老师,我想分析某干预措施对疾病复发的作用,一组给干预,一组不给干预。你看我每组需要收多少个病人?”
回答:“呃……。事情是这样的,的估算需要一些参数,也就是你的主要终点观察指标的数值估计,比如给干预组的复发率是多少,不给干预组的复发率是多少。”
提问:“不是,你没明白我的问题!我想研究的就是复发率,我要是知道,我还跟你讨论干嘛。”
回答:“我知道你想研究的是复发率。但是在获得确切的复发率之前,你需要预先有一个复发率的估计,然后咱们根据你的估计值,来估算你的研究大概需要多少。你可以查查文献看看有没有同行的研究者,报道过这方面的率?”
提问:“没有,我查了。我是全网第一个研究这个问题的。”
回答:“那要不你做个预实验吧,看看预实验中两组的复发率大概是多少。然后根据预实验的结果来估算正式研究的”
提问:“预实验?!天啦。不想做。”
回答:“那你根据经验估计一个?咱们仅做参考?”
提问:“那谁估计得出来啊!我要是能估计,我就不研究了。”
回答:“呃……”
我想这不是一个普遍的问题,老外也经常问“what sample size do i require?”。在日常工作中我们也经常遇到,今天就在这儿回复一下这个问题。最重要的事情先说,那就是“如果你去找一个方法学的人聊估算,那么你不能空着手过去!”
不空手?!那你需要带些什么?不是苹果,也不是香蕉,而是这个研究的“生辰八字”。生辰八字?搞得跟算命一样。是的,生辰八字,估算又何尝不是一次算命,只是严格控制了错误的发生率。至于大家理解的“算命”,我不懂,不敢说。还是说说估算,你要带上什么吧。
估算是一个估算过程,往往需要采用公式进行计算,因此公式中就需要有相应的数值填进去,不然没法计算。那么这个数值是什么?从哪儿来?又如何去寻找恰当的公式?这都是需要思考的问题,因此估算不是统计人员一个人的事,是研究者和统计人员都应该上心的事。下面逐一列举需要思考的方面:
第一、研究目的和设计类型
你的研究是要干什么的?研究是rct设计啊,还是队列,或者病例-对照设计?还是一个抽样调查,如调查高血压的患病率?
第二:观察指标和类型
你的观察指标是什么,尤其是主要指标,有几个?从哪儿来?
比如指标是血压下降的mmhg数值,或者是血压下降达标率,或者是达标率 持续时间(时间依赖性,类似生存数据)。又或者你的研究是看诊断工具的准确性,比如灵敏度的可信区间,auc的比较。还有可能是or或者hr。
至于指标的数值从哪儿来?文献、预实验都是靠谱的途径,拍脑袋想一个不太靠谱。
第三、ⅰ类错误和把握度
ⅰ类错误alpha是指人家本来没差别,你说人家有差异。这时候你就犯错误了,它的概率往往是0.05。其实每一次检验我们都在允许自己犯错误,只是这种错误的概率我们把它设置的很低,也就是检验水准0.05。每次的差异有统计学意义的结论,我都在允许自己犯5%的错误。
那ⅱ类错误beta是指人家本来有差别,你说人家无差异。也就是实际上是有差别的,你却没有检验出来。这个错误的概率往往是10%或者20%。而把握度power是1-beta,也就是说如果两组有差别,你就有power的概率在本次研究中把它检验出来。那么这个概率是不是越高越好,往往我们希望自己有90%的把握去检验出真正的差别。
第四、其他参数
比如:横断面研究中的不同抽样方法,不等检验中的非劣效界值或者优效性界值,研究结束后你打算采用的方法,研究的失访率,不同组间的样本比例,研究的可行性等。
综上,你不能空着手过去找方法学的人聊估算,你需要先思考一下上述问题。那么为什么说估算是算命呢?因为即便你不空手,你找到了上述的指标。那么你找到的指标一定能够很好地代表你的目标人群吗?就算可以,你也面临着特定的ⅰ类错误和ⅱ类错误。
这也是我们常说,即便你研究结束时没有收到足够的样本,你的研究也是有可能获得差异有统计学意义的结果。但是我没有宣传说,让大家都不必达到估算的样本需求。最后补充一句,不是所有的研究都需要估算!