前些日子,在jama上发表了一篇文章,建议在医学研究领域中,将统计学p值的阈值从0.05下调至0.005。仅看标题,小编和大多数人的第一想法是一样的,以后发paper的难度系数激增啊!现如今,我们做不算个p值,都不好意思说自己是在做科研的;当然,不做出个p<0.05,你也不好意思去发paper。
p值是怎么来的呢?fisher作为一代假设检验思想的创立者,在假设检验中首先提出p值的概念。随着后来pearson和neyman等统计学专家的理论完善,p值被认为可以在一定程度上验证假设的正确与否。根据小概率原理,假如p值越小,说明零假设情况的发生概率越小,我们拒绝原假设的理由越充分。
这看似很有逻辑的理论推导,但是在实际运用上却存在很多缺陷。例如,p值对于的敏感度很高,在如今火热的健康大数据背景下,想获得一个p<0.05结果是非常容易的,但是研究结果不一定有实际意义。另外,大的小效应和小的大效应可以产生相同的p值,这时p值所能提供的信息量较少(置性区间的重要性)。其实,统计学的功能在于归纳推论而不是归纳行为。然而,我们却用p值来一刀切的来判断是否,进而指导临床决策,这是对于p值的错误理解和错误使用。
美国统计协会(asa)发现p值被大家过渡使用并已经玩坏了,在2016年发表声明,提出6条关于p值的准则,用来澄清正确使用和解释p值。
准则1:p值可以用于表达数据和特定统计模型之前不相容的程度。
我们通常会设立一个零假设,如a药和安慰药疗效效果相同,一个备择假设,a药和安慰药疗效效果不相同,通过已有数据构建统计模型,获得的p值越小,认为数据与零假设不相容程度越大。
准则2:p值并不能度量研究假设为真的概率。
p值只能解释数据与假设间的关系,而不能描述假设本身。举一个大多数研究者错误的理解,如p值为0.03,就认为a药和安慰药疗效效果相同有3%的可能性是真的,97%的正确概率认为两者疗效效果不同(这个理解是错误的)。
准则3:科学结论、商业决策或政策决定不可以仅基于p值是否高于某个特定的阈值。
研究者不能简单地将p值大小与0.05作比较来对研究结果一刀切,不能把p值的作用过于神话。
准则4:合理的推断过程需要完整的报告和透明度。
研究者不能为了找到有意义的p值,而做。同时,不能有选择性的报告p值和相关分析内容。
准则5:p值或统计显著性并不能衡量效应值的大小或结果的重要性。
前文也提到大的小效应和小的大效应可以产生相同的p值,所以p值所能提供的信息量不包括效应值的大小和结果的实际意义。
准则6:p值本身并不对模型或者假设提供一个好的衡量。
p值能提供的信息量有限,有时其他统计参数要比p值更有参考价值。
最后,我们回到这篇jama文章中,作者提出降低阈值,主要还是因为p值被太多研究者乱用,阈值的降低可以避免错误的科学结论。至于为什么降至0.005而不是其他界值,并没有给出特别具体的科学依据。那各位读者们,觉得p值的阈值应该降低吗?如果应该降低,降低到多少比较好呢?欢迎大家留言讨论。
上一篇:
下一篇: