正文

统计学中的p值到底是什么意思? -凯发k8国际首页登录

  统计学中的p值到底是什么意思?2019年3月20日,发表了题为scientists rise up against statistical significance的评论[1],在学术界又一次引起了对于p值以及零假设显著性检验(nhst,null hypothesis significance testing)的大讨论。

  在过去的几十年间,p值作为的一条“黄金准则”,其标准和应用一直存在着争议。2015年2月,basic and applied social psychology(《基础与社会心理学》)宣布了对于nhst的全面禁令[2],要求在此期刊发表的全部文章删除包括p值、置信区间、检验统计量在内的一系列工具。2016年6月,作为对于争议的回应,美国统计学会(american statistical association)发表了题为the asa's statement on p-values: context, process, and purpose的声明[3],以澄清对于p值在实际应用上的误解。

  正如上述声明中提到的,在学术界存在着广泛的对p值以至方法的误用,一刀切地否定甚至禁用p值是过激的。本文旨在对p值做一个简略的科普,希望能够对从事临床和基础研究的朋友们有所帮助。

  1. p值以及所有方法的前提,是良好的实验设计及数据采集过程,以保证样本数据具有很好的群体代表性。的核心是以随机样本推断整体。例如在临床试验中,如果只考虑到男性患者而没有考虑女性患者,那么无论采用多么高级的方法都不能对女性患者做出可靠的结论。又比如在药物实验中,如果实验组和对照组不仅在药物使用上有差异,还引入了其它的混淆变量(例如不同的护理条件等),那么同样很难做出可靠的结论。

  2. p值是错误率,具体来说是用nhst框架下特定的方法,在特定的假设下,做出错误结论的概率

  1)在nhst的框架下,对于一个科学问题,需要预先设立两个相反的假设,一个叫零假设,代表“无事发生”,与之相反的叫备择假设。比如,科学家想要研究一种新型降压药是否比传统药物效果好,那么“新药和传统药没什么区别”是零假设,“新药比传统药效果好”是备择假设。又比如,科学家想要研究肺癌的发病率是不是受到大气污染的影响,那么“大气污染不影响肺癌发病率”是零假设,而“大气污染影响肺癌发病率”是备择假设。值得注意的是,在随机性存在时,理论上没有办法同时避免所有错误,这时需要在两种假设中预设一定的倾向。

  2)p值的原理类似于法律上的无罪推定,即默认零假设(无罪),只在足够证据存在时才转而选取备择假设(有罪)。换句话说,结论为备择假设(有罪)时,这个结论是可靠的,犯错误的可能是很小的,这种很小的可能性就是p值。在这样的原理下,p值只衡量一类错误,即“零假设是真的,但错误地选择了备择假设”,这种错误在统计上又叫“第一类错误”。我们经常使用的“p值小于0.05”的要求,就是为了把第一类错误的概率控制在5%以内。相应的,统计上的“第二类错误”,即“备择假设是真的,但错误地默认了零假设”,却没有被p值计算。

  理论上“第一类错误”和“第二类错误”的概率存在此消彼长的关系,无法同时被控制。在nhst框架下,由于只控制了“第一类错误”,“第二类错误”的概率无法被控制,“默认零假设”的结论都是不可靠的。回到降压药的例子,零假设显著性检验默认新药没什么优势,所以,当p值很小时,做出新药有优势的结论是可靠的。而当p值较大时,严格来说只能说没找到足够的证据来证明新药有优势,而不能说新药一定是没有优势的。

  3)p值的大小仅仅代表错误率,并不代表结论的强弱。比如,当新药相比传统药的效果只有万分之一的优势时,同样可能得到很小的p值。

  4)p值本身就是大量可重复性实验中的个例代表,极小的p值也并不代表结论就是可重复的。以通常所用的0.05(5%)为例。假定新药确实没什么优势,如果世界上有无数家医院在进行着完全相同的平行临床实验,应用相同的方法,那么每100家医院中,就有5个会得到小于0.05的p值以致得到错误结论。在通常的一次临床实验中,即使得到了很小的p值,也可能就是碰巧。

  5)p值对应着特定方法和其自然存在的模型假设。我们通常所用的t检验,卡方检验,f检验等等,都有不同的模型假设。只有数据符合模型假设时,p值才是有意义的。比如在比较多个实验组之间的药物效果时,可以使用方差分析(f检验)。但是方差分析要求每组数据都符合正态分布,否则p值就不是正确的错误率了。每种假设方法对应的模型假设,以及如何判断数据是否符合假设,都需要更加系统的统计训练。

  6)p值小于0.05的标准只是为了方便,意思是0.05的错误率是可以接受的,除此之外没什么深层意义

  3. 在科学研究上,如何应用p值需要具体问题具体分析。以下是一些需要注意的方面:

  1)计算p值之前,应该首先判断实验是否合理,样本是否具有代表性,是否用对了统计方法等,在有条件的情况下应该尽量咨询统计专业人士。

  2)禁用p值是不可取的,其后果是放弃对于科学研究中错误的控制,这显然是不严谨的。

  3)p值的标准应该根据需要放宽或收紧。

  4)即使得到了很小的p值,为了进一步验证结论的可靠性,仍然应该进行多次重复实验。

  作者介绍

  郝涵,2011年于清华大学取得数学学士学位,2016年于宾州州立大学取得统计学学位,现为北德州大学数学系助理教授。department of mathematics, college of , university of north texas.

  参考文献

  [1] amrhein v, greenland s, mcshane b. scientists rise up against statistical significance. 2019;567:305-7.

  [2] trafimow d, marks m. basic appl soc psych 2015;37:1-2.

  [3] wasserstein rl, lazar na. the asa's statement on p-values: context, process, and purpose. am stat 2016;70:129-33.

  凯发k8国际首页登录的版权信息

  本文由《nejm医学前沿》编辑部负责编写。如需转载,请联系collaboration@nejmqianyan.cn

来源:nejm医学前沿 郝涵
爱科学

上一篇:基于临床病历资料的回顾性研究也需要预实验么?

下一篇:spss:多个独立样本kruskal-wallis检验

登录注册
欢迎内容投稿或举报!e-mail: ikx@ikx.cn
凯发天生赢家一触即发官网 copyright © 爱科学 iikx.com "));
网站地图