- Einführung: Das Replikationsproblem
- Ursachen der Replikationskrise
- Beispiele falsifizierter Theorien und Konsequenzen
- Literatur
"No isolated experiment, however significant in itself, can suffice for the experimental demonstration of any natural phenomenon" (Fisher (1935) nach Amrhein (2017)).M.a.W. sind Erkenntnisse erst dann "belastbar", wenn ihre Fragestellung mehrfach in unterschiedlichen Experimenten mit anderen Strichproben untersucht wurde und i.w. vergleichbare Ergebnisse erzielt wurden. Solche Gruppen von Experimenten zur gleichen Fragestellung werden oft in eigenen Publikationen, sog. Metastudien, zusammengefaßt. Wenn man Fisher folgt, dann haben erst solche Metastudien genügend Aussagekraft, um Aussagen über die ganze Population zu rechtfertigen. Der Ergebnisse eines einzelnen Experiments sollte man dagegen nur als mehr oder weniger starkes Indiz auffassen, nicht mehr und nicht weniger.
Die praktische Relevanz dieser Erkenntnisse ist ganz enorm. Sie bedeutet, daß es nicht zulässig ist, auf Basis einzelner, nicht replizierter Studien weitreichende Konsequenzen zu ziehen, z.B, Grundrechtseinschränkungen von Männern, Rufmordkampagnen usw. Erst recht dann, wenn bei solchen Studien Indizien vorliegen, daß das Studiendesign falsch war, die Studie nicht unvoreingenommen ist, sondern ideologische Voreingenommenheiten vorliegen, handwerkliche Fehler erkennbar sind (z.B. keine Angaben zur Unsicherheit gemacht werden) usw. Das alles klingt trivial, in der medizischen bzw. pharmazeutischen Forschung sind entsprechende Standards auch etabliert. In der politischen Praxis wird hingegen massenhaft dagegen verstoßen. Die Debatten im Rahmen der Corona-Krise waren eine seltene Ausnahme, wo die Unsicherheit der grundlegenden medizinischen Tatsachen explizit thematisiert wurde und in die politischen Entscheidungen einfloß.
Nun ist aber schon bei der simplen Größenmessung klar, daß sie aus Aufwandsgründen nicht bei allen Bundesbürgern durchgeführt werden kann. Den Aufwand reduziert man, indem man eine Stichprobe der Bundesbürger bildet und nur bei diesen Personen die Größe mißt. Von den Ergebnissen dieser Stichprobe schließt man auf die Gesamtpopulation. Man schließt also von beobachteten Einzelphänomenen (die Größen einiger Personen) auf eine allgemeinere Erkenntnis (die Größenverteilung aller Deutschen). In der Wissenschaftstheorie wird derartiges Schließen von konkreten Einzelphänomenen auf allgemeinere Aussagen als Induktion bezeichnet. Im Alltag macht man das auch, dort wird es als Generalisierung von Einzelbeobachtungen bezeichnet.
Das Induktionsprinzip bzw. die Generalisierung funktionieren in vielen Fällen ganz gut, es ist aber prinzipiell nicht garantiert, daß sie richtige Ergebnisse liefern. Wenn alle bisher bekannten Schwäne weiß sind, kann man nicht sicher schließen, daß alle Schwäne weiß sind, es kann auch ein schwarzer Schwan auftauchen.
Genau diese Unsicherheit ist ein Kernproblem jeder Gewinnung von allgemeinen Aussagen auf Basis einer Stichprobenanalyse. Nun beziehen sich sehr viele Aussagen auf quantitative Merkmale, die Körpergröße war ein Beispiel. In solchen Fällen stellt sich die Frage, ob man die Unsicherheit ebenfalls quantifizieren kann. Methoden hierfür stellt die induktive Statistik (die auch als schließende Statistik und Inferenzstatistik bezeichnet wird) zur Verfügung. Die hier gewonnenen Aussagen beantworten nicht nur die jeweils interessierende Frage (Beispiel: sind Männer und Frauen gleich groß? Antwort: Männer sind im Schnitt x cm größer), sondern liefern auch Schätzungen für die Sicherheit dieser Aussage und/oder den Fehler, mit dem man rechnen sollte.
Nun sind Aussagen über die Körpergröße (oder z.B. die Altersstruktur) der Bevölkerung noch vergleichsweise simpel strukturiert. Bei sehr vielen sozialwissenschaftlichen und medizinischen Fragestellungen interessiert man sich für die Ursachen bestimmter Phänomene oder die Folgen bestimmter Maßnahmen bzw. Verhältnisse. Beispiele sind die Wirkung eines Medikaments auf den Heilungsprozeß oder die Auswirkungen von Geschlechterstereotypen auf das Berufswahlverhalten.
I.a. man interessiert man sich also für Aussagen über bestimmte Effekte als Reaktion auf bestimmte Anreize bzw. Verhältnisse. Die Effekte sind praktisch immer statistischer Natur, denn nicht jeder reagiert gleich. Bei einem Medikament könnte der Prozentsatz der Patienten interessieren, die nach 1, 2, 3 usw. Behandlungstagen geheilt sind. Genauer gesagt interessiert man sich für den Unterschied der Krankheitsverläufe mit und ohne Medikament und die Größe des Unterschieds (die sog. Effektstärke): man schlußfolgert, daß dieser Unterschied von dem Medikament verursacht wurde. Hierzu braucht man zwei Experimente bzw. Stichproben mit je einer Gruppe von Kranken, die (a) kein Medikament oder ein unwirksames Plazebo bekommen bzw. (b) das Medikament bekommen. Das Experiment (a) kann man sich sparen, wenn Vorwissen vorhanden ist, wie die Krankheit ohne Medikamente verläuft. Mathematisch wird die Sache jetzt noch einmal komplizierter, weil die Ergebnisse von zwei Experimenten verglichen werden müssen.
Die Beobachtungsergebnisse von Experiment (b) kann man nicht als "Beweis" ("Evidenz") dafür werten, daß das untersuchte Medikament eine Wirkung hat, wenn diese Beobachtungsergebnisse genausogut auftreten könnten, wenn man gar kein Medikament verabreicht wurde oder nur ein Plazebo, also ein "Medikament" mit Effektstärke Null. Diese Möglichkeit, daß das untersuchte Medikament null Effekt hat, wird als Nullhypothese bezeichnet. Die Nullhypothese muß daher widerlegt werden. Die Ergebnisse von Experiment (b) müssen also unter der Nullhypothese sehr unwahrscheinlich sein. Bei einer Wahrscheinlichkeit unterhalb eines Schwellwerts - üblich sind 5% - gilt die die Nullhypothese als widerlegt. Der Effekt des Medikaments wird dann als statistisch signifikant, also als nicht zufällig, bezeichnet. Die statistische Signifikanz hat im Prinzip nichts mit der Effektstärke zu tun, erst recht nichts mit der therapeutischen oder sonstigen Relevanz des Behandlungserfolgs (wird aber wegen der umgangssprachlichen Bedeutung von "signifikant" häufig damit verwechselt).
Die statistische Signifikanz quantifiziert also die Glaubwürdigkeit der Hypothese, die mit dem Experiment "bewiesen" werden soll. 100% sicher ist man aber nie. Im Endeffekt sind daher die durch Stichprobenanalysen erzielten Ergebnisse immer mit der Unsicherheit behaftet, ein Zufallsprodukt zu sein.
Das Problem der Nichtreproduzierbarkeit ist seit langem auch den Sozialwissenschaftlern bekannt und hat zu vielfältigen Gegenmaßnahmen geführt, insb. Standards, wie in Laborsituationen Meßfehler und Fremdeinflüsse zu vermeiden sind. Trotz dieser Standards ist die Reproduzierbarkeit der Ergebnisse relativ schlecht. Darüber wurde schon seit langem berichtet, z.B. in 2010 von Lehrer (2010).
- Voreingenommenheit bis hin zur Fälschungsabsicht, ideologischer Druck, unerwünschte Ergebnisse zu verhindern und erwünschte Ergebnisse zu erzeugen
- falsches Design der Untersuchung, fehlende Beherrschung der mathematischen Verfahren, sonstige "handwerkliche" Fehler
- Zufall: die Stichprobe war tatsächlich sehr ungünstig zusammengesetzt, ohne daß dies erkennbar war
Ein weiteres, ggf. hinsichtlich der Zahl involvierter Forscher sogar gravierenderes Beispiel ist der Fredrickson/Losada-Skandal.
Im Zeitraum 2017 - 2018 wiederholte das Autorentrio Helen Pluckrose, James A. Lindsay und Peter Boghossian das Sokal-Experiment mit insg. 20 Unsinnspapieren, die bei "hochkarätigen" feministischen Zeitschriften eingereicht wurden. 7 Papiere wurden nach einem "peer review" akzeptiert, 6 weitere wurden initial begutachtet, sie sollten gemäß den Wünschen der Gutachter überarbeitet und dann erneut eingereicht werden, wonach sie mit einiger Wahrscheinlichkeit ebenfalls akzeptiert worden wären. Dieser als Sokal Squared bezeichnete Vorfall ist einer der größten Wissenschaftskandale der letzten Jahrzehnte.
Die Bedeutung dieser falschen Ergebnisse kann man kaum unterschätzen. Sie sind die scheinbare wissenschaftliche Grundlage für die grassierende politische Korrektheit und alle möglichen erzieherischen Maßnahmen, denen die Bevölkerung seit Jahrzehnten ausgesetzt ist.
Anmerkung: Wenn hier die Zuverlässigkeit der Erkenntnisse sozialwissenschaftlicher akademischer Forschung kritisiert wird, heißt das nicht, daß es außerhalb der Forschung bzw. Sozialwissenschaften besser zuginge, ganz im Gegenteil. In der Politik und bei vielen täglichen sozialen Handlungen werden laufend Annahmen über soziale Prozesse benutzt, also letztlich soziologische Modelle unterstellt, die noch weitaus unzuverlässiger sind. Ggf. werden solche Modelle nur unterbewußt benutzt bzw. ad hoc erfunden.
Insofern ist der häufig geäußerte Vorwurf, das sozialwissenschaftliche Wissen sei weitaus unzuverlässiger als das typische naturwissenschaftliche Wissen, zwar sachlich korrekt, geht aber am Problem vorbei: Antworten auf die interessierenden Fragen werden in der Praxis sofort benötigt, und die akademischen Antworten auf die Fragen sind i.d.R. besser als die sonst benutzten Stammtischweisheiten.
- Peter Boghossian, Ed.D. (aka Peter Boyle, Ed.D.), James Lindsay, Ph.D. (aka, Jamie Lindsay, Ph.D.): The Conceptual Penis as a Social Construct: A Sokal-Style Hoax on Gender Studies. SKEPTIC, 19.05.2017. https://www.skeptic.com/reading_room/conceptual-penis-s ... -hoax-o
- Alexander Durin: Fehler im System mancher Wissenschaften. Telepolis, Heise, 02.03.2014. https://www.heise.de/tp/artikel/41/41100/1.html, https://www.heise.de/tp/artikel/41/41100/2.html
Der Artikel beschreibt den Fredrickson/Losada-Skandal. Es handelt sich hierbei um die Publikation Positive Affect and the Complex Dynamics of Human Flourishing. Diese wurde 2005 in einer sehr renomierten Psychologischen Zeitschrift publiziert und mehrere hundert Male zitiert, da sie einen bahnbrechende Ansatz beschrieb. Sie enthielt aber gravierende Mängel in der mathematischen Modellierung, die bei jeder halbwegs seriösen Begutachtung hätten auffallen müssen.
- Alan D. Sokal: Transgressing the Boundaries: Towards a Transformative Hermeneutics of Quantum Gravity. Social Text 46/47, p.217-252, 1996. https://www.physics.nyu.edu/faculty/sokal/transgress_v2 ... le.html s.a. https://de.wikipedia.org/wiki/Sokal-Aff%C3%A4re
- Lee Jussim: Is Stereotype Threat Overcooked, Overstated, and Oversold? Heterodox Academy, 30.12.2015. https://heterodoxacademy.org/is-stereotype-threat-overc ... ersold/
- Jonah Lehrer: The Truth Wears Off. New Yorker, 13.12.2010. https://www.newyorker.com/reporting/2010/12/13/101213fa ... age=all
- Brian A. Nosek et al. (The Open Science Collaboration): Estimating the reproducibility of psychological science. Science, Vol. 349 no. 6251, DOI: 10.1126/science.aac4716, 28.08.2015. https://www.sciencemag.org/content/349/6251/aac4716
- Michèle B. Nuijten, Chris H. J. Hartgerink, Marcel A. L. M. van Assen, Sacha Epskamp, Jelte M. Wicherts: The prevalence of statistical reporting errors in psychology (1985-2013). Behavior Research Methods Vol.48:4, Springer, p.1205-1226, 23.102015. https://link.springer.com/article/10.3758%2Fs13428-015-0664-2
- Ulrich Schimmack: Replicability Review of 2016. replicationindex.wordpress.com, 31.12.2016. https://replicationindex.wordpress.com/2016/12/31/replicability-review-of-2016/
- Ulrich Schimmack: Hidden Figures: Replication Failures in the Stereotype Threat Literature. replicationindex.wordpress.com, 07.04.2017. https://replicationindex.wordpress.com/2017/04/07/hidde ... rature/
- Will Storr / Clay Routledge (Interview): On the Modern Self - An Interview with Will Storr. Psychology Today, 19.08.2017. https://www.psychologytoday.com/blog/more-mortal/201708/the-modern-self
- Ed Yong: How Reliable Are Psychology Studies? The Atlantic, 27.08.2015. https://www.theatlantic.com/health/archive/2015/08/psyc ... 402466/
- José L. Duarte, Jarret T. Crawford, Charlotta Stern, Jonathan Haidt, Lee Jussim, Philip E. Tetlock: Political Diversity Will Improve Social Psychological Science. Behavioral and Brain Sciences 38, e130, doi:10.1017/S0140525X14000430, 03.09.2015. https://www.cambridge.org/core/journals/behavioral-and- ... 890149F
- Jonathan Haidt: It's finally out - The big review paper on the lack of political diversity in social psychology. heterodoxacademy.org, 14.09.2015. https://heterodoxacademy.org/2015/09/14/bbs-paper-on-la ... ersity/
- Chris C. Martin: How Ideology Has Hindered Sociological Insight. The American Sociologist, Springer, 2013. https://link.springer.com/article/10.1007%2Fs12108-015-9263-z
Kurzfassung in: Chris Martin: How Ideology Has Hindered Sociological Insight, summarized. heterodoxacademy.org, 21.09.2015. https://heterodoxacademy.org/2015/09/21/how-ideology-ha ... ized-2/
- Ulrike Ackermann / Claudia Schwartz (Interview): Freiheitsforscherin Ulrike Ackermann: «Die Prinzipien der Aufklärung sind fundamental. Wir müssen sie verteidigen». NZZ, 08.02.2021. https://www.nzz.ch/feuilleton/universitaeten-die-prinzi ... 1599831
- Valentin Amrhein, Fränzi Korner-Nievergelt, Tobias Roth: The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research. PeerJ, 07.07.2017. https://peerj.com/articles/3544/
- Ronald Fisher: The Design of Experiments. Oliver and Boyd, 1935. https://en.wikipedia.org/wiki/The_Design_of_Experiments