Forschende in der Wirtschaftswissenschaft nutzen Befragungen and Verhaltenslabore,嗯ihre aus der theory abgeleitete假设in der realen Welt zu überprüfen。Da es sich bei diesen datenenellen jedoch meist nuum mehr oder minder groe ße Stichproben handelt, werden beobachtete Zusammenhänge danach unterschieden, ob sie signifikant oder nicht。Ein signifikantes Ergebnis gilals zuverlässig nachgewiesen。Bei einem insignifikanten Ergebnis kann hinggenen nicht ausgeschlossen werden, dass es rein zufällig in den Daten auftritt。
Die Signifikanz eins Ergebnisses wmit dem sogenannten p-Wert beziffert。Er stellt die Wahrscheinlichkeit dar, dass ein geschätzter参数nur zufällig von 0 verschieden,也nicht signifikant ist。Ein p-Wert weist auf nict signifikantes Ergebnis, Ein niedriger p-Wert auf Ein signifikantes und damit vertrauenswürdiges Ergebnis hin。
Publikationsbias和p-Hacking
在《科学的schaft hat sich heine Faustregel etabliert, wonach Ergebnisse mit einem p-Wert unter 0,05》(fünf Prozent) als ausreichend signifikant gelten。贝·伊尼恩斯特·达文·奥斯祖格亨,达斯·达斯·埃格布尼斯在mindestens 95 von 100 verschiedenen Stichproben ebenfalls von 0 verschieden wäre。统计软件drückt den p-Wert häufig auh in Form eines korrespondierenden z-Wertes aus。Nach diesem gängigen " Mindeststandard " für vertrauenswürdige研究gilt ein Ergebnis als signifikant, wenn es die dem p-Wert 0,05 entsprechende Schwelle von z=1,96ubersteigt.
科学的schaftliche fachzeitschriten bezezugen für die Veröffentlichung tendenziell studen, deren Befunde nach dieser Faustregel als statistics signifikant bezeichnet werden。我爱你aufwändige我爱你,我爱你,我爱你,我爱你,我爱你。
dister " Publikationsbias " kann Forschende dazu verleiten, die Signifikanzschwelle mit unlauteren Mitteln zu überwinden - man spricht dabei auh von " p-Hacking "。Das wissenschaftliche Fehlverhaltenkann verschiedene Formen annehmen, von der Veränderung der Testparameter und der Datenselektion bis hin zur nachträglichen Anpassung der Ausgangshypothese。Ein solches Vorgehen gilt als unethisch, lässt sich aber im Einzelfall in der Praxis schwer nachweisen。
IZA-Netzwerkmitglied亚伯Brodeur冯·德Universität渥太华widmet sich dieser Problematik gemeinsam mit verschiedenen Koautoren seit vielen Jahren。贝雷特2013帽子er在塞纳preisgekronten研究《星球大战:经验主义的反击》Belege für die verbreitete Praxis des p-Hacking geliefert。Die Anreize dafür sind norm: Die Wahrscheinlichkeit der Veröffentlichung einer wissenschaftlichen Arbeit ist fast fünfmal so groß, wenn das Ergebnis Die Signifikanzschwelle überschreitet。
众包zur Gewinnung von Forschungsdaten
塞纳damals entwickelte分析方法nutzt Brodeur gemeinsam mit尼古拉·库克和安东尼嘿在einem aktuellenIZA-Forschungspapier,在dem es um wissenschaftliche Veröffentlichungen geht, deren Daten mithilfe der众包平台亚马逊土耳其机械(MTurk) erhoben wurden。
贝德平台处理艺术Jobbörse für einmalige Aufträge, die siich aus der Ferne online bearbeiten lassen。Der Dienst erfreut sauch für Umfragen und als Verhaltenslabor在den Wirtschaftswissenschaften und verwandten diziplinen wachsender Beliebtheit, da sich darüber groe Stichproben zgeringen Kosten generieren lassen。Inzwischen野生jedoch die Qualität der studen mit MTurk-Daten zunehmend in Frage gestellt。
Auswertung von 23000假设测试
布洛德和Koautoren wollten genauer wissen。土耳其大学über 1.000研究大学Prüfstand, 2010年在土耳其大学的研究大学的研究大学的研究大学的研究大学的研究大学的研究大学的研究大学的研究大学的研究大学的研究。Welche Signifikanzniveaus darin wie häufig vertreten sind, zeigt das folgende Schaubild andhand des z-Werts (je größer der z-Wert, desto signifikanter das Ergebnis)。
Gäbe es weder eine Publikationsbias noch - hacking, sollten die z-Werte einer monoton fallenden Verteilung folgen。Sehr insignifikante Ergebnisse sind am wahrscheinlichsten, sollten也am häufigsten auftreten。埃吉布尼斯的意思是,我的意思是,我的意思是,我的意思是。Ein操纵freier Publikationsprozess sollte也keine Häufungen bei höheren Signifikanzniveaus aufweisen。
是jedoch direkt auffällt, ist eine starke Häufung gerade oberhalb des Mindeststandards von z=1,96, der sich als Faustregel etabliert hat und dem fünfprozentigen Signifikanzniveau entspricht。链接,也gerade unterhalb des Mindeststandards, tut sich stattdessen eine Lücke auf - ein wichtiges Indiz für操纵。Diese Lücke spricht dafür, dass vielfach auf p-Hacking zurückgegriffen wurde, um Diese Schwelle " so gerade eben " zu überwinden, oder aber dass Herausgeber der fachzeitschriten mit Ergebnissen knapp oberhalb dieser Schwelle präferieren。
不,不,不,不
Das ausma, des Problems, unterschedet, sich, deutlich, zwischen, den verschiedenen, ssenschaftlicen, Disziplinen。我有一个关于商业的信息,在德国公民的信息中lässt,我有一个关于市场的信息,在德国公民的信息中,während大众的信息和金融的信息。
Verwendung zu kleiner Stichproben
Darüber hinaus stellen die Forscher eine außergewöhnlich geringe Stichprobengröße fest (der Medianwert liegt bei 249), obwohl jeder zusätzliche Datenpunkt bei den MTurk-Erhebungen im Schnitt kaum mehr als einem Dollar kostet, oft sogar deutlich weniger。
ingesamt sehen die Autoren dadurch die Glaubwürdigkeit eines Großteils der betreffenden studen beschädigt。”Würde man versuchen, eine zufällig ausgewählte studdie aus unserer Stichprobe zu replizieren,奇怪的人mit hoher Wahrscheinlichkeit scheitern ", sagt Brodeur。
Eine positive Botschaft haben die Autoren aber dennoch: die dargestellten problem: liegen offenkundig nht in der Datenerhebung, sondern im Umgang mit den erhobenen Daten。Grundsätzlich spreche也nichts dagegen, MTurk oder ähnliche Plattformen weiterhin zu nutzen, solange ausreichend groe ße Stichproben erhoben und wissenschaftliche标准eingehalten werden。
auh die Einreichung sogenannter“预分析计划”,在denen die Vorgehensweise bei der datenanalyze vorab festgelegt word, kann p-Hacking entgegenwirken, wie ein weiteresIZA-Forschungspapier冯·布洛德和科奥托伦·齐格特。