在学术界,研究人员使用统计阈值来决定一个假设是否可能是正确的。统计阈值的一个意想不到的后果是它们可能导致p-hacking.p-hacking一词指的是通过人为夸大统计显著性的方式做出的研究选择。p-hacking的方法可以采用各种形式,包括数据清理、变量定义和规范选择的方式。
近年来,人们对p-黑客破坏研究可信度的倾向的担忧,导致了对预分析计划和预注册等工具的兴趣增加新的IZA讨论文件更多信息)。
在另一个新现正讨论文件,亚伯Brodeur,尼古拉·库克,安东尼嘿使用在线平台亚马逊土耳其机械(MTurk)调查p-hacking的程度。在过去十年中,这个平台在经济学和管理学研究中的应用得到了前所未有的增长,部分原因是它使研究人员能够以低成本构建大样本。然而,随着MTurk使用的增长,一些研究团体对使用它的研究结果的可靠性产生了越来越多的怀疑。
发现了大量的p-hack和发表偏见
本文首次系统地调查了使用MTurk时研究界本身的统计实践,以及这些实践在何种程度上使基于MTurk的实证结果不可信。正在研究的实践是那些在其他地方最近的研究可信度评估中成为焦点的实践,即(1)p-hacking,(2)发表偏倚(或选择性发表),以及(3)来自貌似能力不足的样本的结果展示。
作者分析了2010年至2020年期间在商学院协会学术期刊指南2018年版中被分类为4或4*的所有期刊上发表的MTurk论文的假设检验宇宙,总共约2.3万篇。他们的发现表明,来自MTurk的测试统计数据的分布(见下图)显示出与p-hacking和发表偏倚的存在相一致的模式。
它在z统计值1.96附近表现出明显的全局和局部最大值,对应于在5%水平上统计显著性所需要的广泛接受的阈值,或p值0.05。这个最大值与质量的偏移相结合,远离统计学上不重要的区间,表明p黑客。
随着时间的推移,这种测试统计的模式是持续的,大致出现在发表在精英(排名4*)和顶级(排名4)期刊上的论文中。
问题的严重程度在商业、经济、管理和市场研究领域各不相同(尤其是市场营销)。
样本量小、动力不足的研究
统计检验的力量在于,如果存在一个真实的效应,那么检测到效应(拒绝无效应的原假设)的概率。选择适当的样本量,以及相应的功率水平,是实验研究设计的核心要素。
然而,大多数MTurk研究使用小样本量(每个实验的中位数为249名受试者),没有说明如何选择特定的样本量。成本似乎不是原因,因为(在分析的研究样本中)一个额外数据点的平均成本是1.30美元——在70%的情况下低于1美元。
需要更加严格地关注统计实践
作者将他们的发现描述为“一方面悲观,另一方面乐观”。一方面,他们发现使用MTurk平台的现有研究语料库中包含的研究结果的可信度受到了很大的损害:“如果读者从我们的样本中随机选择一项研究,我们的分析指出,该结果不太可能被复制。”
另一方面,他们发现的缺陷与研究团体进行MTurk实验的方式和选择发表的结果有关,而不是平台本身固有的缺陷。这种区别很重要,因为它表明,至少从这个角度来看,研究人员没有理由停止使用MTurk和其他类似的平台。
相反,作者呼吁更严格地关注统计实践。特别是,使用更大的样本来提供适当动力的实验应该变得更加普遍——这似乎是可行的,因为这是一个可以以便宜的价格购买数据点的研究领域。