统计学需要一场变革

统计分析的薄弱基础导致了科学最肮脏的秘密和许多深层次的缺陷。在争议声中,实验经济学、生物医学研究特别是心理学被卷入一场科学实验可重复性的危机之中。尽管呼吁改革的力度越来越大,对于是否应该调整或彻底改革统计分析方法,学者们还存在分歧。

责任编辑:朱力远

(希瑟· 克劳斯(Heather Krause)/图)

1925年,英国遗传学家兼统计学家罗纳德·菲舍尔(Ronald Fisher)出版了《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使菲舍尔成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。

菲舍尔建议,作为一个方便的指南,研究人员可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。因此,菲舍尔的这一建议诞生了p小于0.05等价于所谓的统计显著性,这成了 “显著”的数学定义。

菲舍尔的遗憾

近一个世纪之后,在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是菲舍尔也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。几十年来,科学家也逐渐意识到了这些局限性。美国心理学家保尔·米尔(Paul Meehl)在1978年写道:“过度依赖显著性检验是一种糟糕的科学方法。”p值经常被曲解,统计的显著性不等于实际的显著性。此外,为了让数据更漂亮,很多研究人员有意无意地将p值向上或向下调整。美国加利福尼亚大学洛杉矶分校的名誉教授、统计学家和流行病学家桑德·格林兰德(Sander Greenland)说:“你可以用统计学方法来证明任何事情。”他是呼吁统计学改革的科学家之一。只依靠达到统计显著性的研究经常会得出不准确的科学结论,这种判断标准可以把真的事情判断为假的,也可以把假的事情判断成真的。在菲舍尔退休,移居澳大利亚后,有人问他,在漫长的职业生涯中他是否有任何遗憾,他明确回答道:“当初不该提出0.05。”

在过去的十年里,关于统计重要性的争论以不寻常的强度爆发。援引两篇论文的观点:一篇文章称统计分析的薄弱基础导致了“科学最肮脏的秘密”;另一篇则提到,在检验某些假设时,存在“许多深层次的缺陷”。在争议声中,实验

登录后获取更多权限

立即登录

网络编辑:思考 校对:星歌

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}