最近,劳动、发展和其他经济学领域的研究人员之间爆发了一系列小规模的战争。它们涉及对一些研究的分歧,这些研究声称它们不能“复制”一些早期研究的结果。
复制是科学的基础。的病理科学潜在的“冷聚变此前,一家实验室声称可以通过廉价的低温化学反应产生无限的能量,但其他实验室无法复制。同样,在社会科学中,当其他人得知一个著名的结果无法被复制时,他们会对最初的研究人员产生怀疑——最好的想法是粗心大意或偶然的机会,最坏的想法是故意欺骗或彻头彻尾的欺诈。
这种模糊性使得复制失败的说法变得极其严重。激烈的、旷日持久的争议很常见。最初的作者(通常更资深)经常将新研究的结果归因于方法的差异,使其不符合复制的资格,并抱怨对吸引注意力的“陷阱”研究的不正当激励。这项新研究的作者(通常资历较低)抱怨说,这种令人生畏的反作用阻止了其他人做任何重复研究。
失败的“复制”带有刺痛的耻辱
一份新的IZA讨论文件迈克尔·克莱门斯提出了走出这一僵局的一个温和步骤:社会科学需要对什么是“复制”有一个单一而明确的定义。这将清楚地说明,当一项研究“未能复制”一些早期的结果时,这意味着什么。
定义很简单,但技术性很强:当后续研究从与原始研究相同的“抽样分布”中估计参数时,后续研究复制了原始研究。这意味着原始研究和后续研究中的方法应该是如此相似,以至于如果它们中的每一个都重复了无数次,它们将得到几乎相同的估计。
例如,如果后续研究在很大程度上改变了原始研究中使用的统计方法或抽样人群,那么这个定义就使说原始结果不能被复制的说法是错误的。可以说,最初的结果对于用不同的方法进行重新分析是不可靠的,或者对于扩展数据以覆盖不同的人群是不可靠的。但这些分类并不带有失败的“复制”的刺鼻耻辱。
讨论论文深入研究了文献,以说明为什么这个定义会产生不同。首先,它阐明了复制测试的定义,将其与互斥的“健壮性”测试类别进行了对比,并给出了每个测试的几个示例。其次,它列出了社会科学文献中41种不同(往往相互矛盾)的“复制”定义。第三,它对许多最近和突出的后续研究进行了分类,发现根据拟议的定义,只有大约三分之一的研究符合复制研究的条件。