Die Glaubwürdigkeits- und Replikationskrise in der Psychologie und Soziologie

Inhaltsübersicht

Einführung: Das Replikationsproblem

Die Psychologie, Soziologie und benachbarte empirische Sozial- und Naturwissenschaften, z.B. die Soziobiologie, erleben seit langem eine Krise hinsichtlich der Aussagekraft und Zuverlässigkeit ihrer Forschungsergebnisse, die in der Fachliteratur als Replikationskrise bezeichnet wird. Die feministischen Gender Studies, die man i.w. als Teilgebiet der Soziologie ansehen kann, haben wegen ihrer offensichtlichen Unwissenschaftlichkeit wesentlich zu diesem Problem beigetragen und es sichtbar gemacht, das Problem als solches geht aber weit über die Gender Studies hinaus.
Wieso braucht man Replikation?
Um das Problem zu verstehen, muß man sich zunächst klar machen, daß psychologisches bzw. soziologisches Wissen in praktisch allen Fällen die Form statistischer Aussagen über eine Population hat und daß eine solche Aussage anhand eines Experiments mit einer Stichprobe aus dieser Population gewonnen bzw. "bewiesen" wurde. Dies führt zu diversen Problemen, vor allem zu dem Risiko, daß die Stichprobe anders zusammengesetzt ist als die Gesamtpopulation, die Verallgemeinerung der Erkenntnisse auf die Gesamtpopulation also falsch ist. Auf diese Risiken gehen wir weiter unten ein. Die Konsequenz daraus bringt ein Satz des berühmten Statistikers Ronald Fisher auf den Punkt:
"No isolated experiment, however significant in itself, can suffice for the experimental demonstration of any natural phenomenon" (Fisher (1935) nach Amrhein (2017)).
M.a.W. sind Erkenntnisse erst dann "belastbar", wenn ihre Fragestellung mehrfach in unterschiedlichen Experimenten mit anderen Strichproben untersucht wurde und i.w. vergleichbare Ergebnisse erzielt wurden. Solche Gruppen von Experimenten zur gleichen Fragestellung werden oft in eigenen Publikationen, sog. Metastudien, zusammengefaßt. Wenn man Fisher folgt, dann haben erst solche Metastudien genügend Aussagekraft, um Aussagen über die ganze Population zu rechtfertigen. Der Ergebnisse eines einzelnen Experiments sollte man dagegen nur als mehr oder weniger starkes Indiz auffassen, nicht mehr und nicht weniger.

Die praktische Relevanz dieser Erkenntnisse ist ganz enorm. Sie bedeutet, daß es nicht zulässig ist, auf Basis einzelner, nicht replizierter Studien weitreichende Konsequenzen zu ziehen, z.B, Grundrechtseinschränkungen von Männern, Rufmordkampagnen usw. Erst recht dann, wenn bei solchen Studien Indizien vorliegen, daß das Studiendesign falsch war, die Studie nicht unvoreingenommen ist, sondern ideologische Voreingenommenheiten vorliegen, handwerkliche Fehler erkennbar sind (z.B. keine Angaben zur Unsicherheit gemacht werden) usw. Das alles klingt trivial, in der medizischen bzw. pharmazeutischen Forschung sind entsprechende Standards auch etabliert. In der politischen Praxis wird hingegen massenhaft dagegen verstoßen. Die Debatten im Rahmen der Corona-Krise waren eine seltene Ausnahme, wo die Unsicherheit der grundlegenden medizinischen Tatsachen explizit thematisiert wurde und in die politischen Entscheidungen einfloß.

Das Stichprobenproblem
I.a. ist man interessiert an Wissen, also korrekten Aussagen, über eine große Population, z.B. alle Deutschen. Beispielsweise möchte man gerne wissen, ob Männer in Deutschland größer als Frauen sind. Hierzu könnte man theoretisch die Körpergröße aller Deutschen messen und dann mit den Methoden der deskriptiven Statistik Rohdaten aufbereiten und verdichten zu Tabellen, graphischen Darstellungen (wie z.B. hier) oder anderen Kenngrößen. Das so gewonnene Wissen ist reproduzierbar (sofern die Rohdaten gleich bleiben).

Nun ist aber schon bei der simplen Größenmessung klar, daß sie aus Aufwandsgründen nicht bei allen Bundesbürgern durchgeführt werden kann. Den Aufwand reduziert man, indem man eine Stichprobe der Bundesbürger bildet und nur bei diesen Personen die Größe mißt. Von den Ergebnissen dieser Stichprobe schließt man auf die Gesamtpopulation. Man schließt also von beobachteten Einzelphänomenen (die Größen einiger Personen) auf eine allgemeinere Erkenntnis (die Größenverteilung aller Deutschen). In der Wissenschaftstheorie wird derartiges Schließen von konkreten Einzelphänomenen auf allgemeinere Aussagen als Induktion bezeichnet. Im Alltag macht man das auch, dort wird es als Generalisierung von Einzelbeobachtungen bezeichnet.

Das Induktionsprinzip bzw. die Generalisierung funktionieren in vielen Fällen ganz gut, es ist aber prinzipiell nicht garantiert, daß sie richtige Ergebnisse liefern. Wenn alle bisher bekannten Schwäne weiß sind, kann man nicht sicher schließen, daß alle Schwäne weiß sind, es kann auch ein schwarzer Schwan auftauchen.

Genau diese Unsicherheit ist ein Kernproblem jeder Gewinnung von allgemeinen Aussagen auf Basis einer Stichprobenanalyse. Nun beziehen sich sehr viele Aussagen auf quantitative Merkmale, die Körpergröße war ein Beispiel. In solchen Fällen stellt sich die Frage, ob man die Unsicherheit ebenfalls quantifizieren kann. Methoden hierfür stellt die induktive Statistik (die auch als schließende Statistik und Inferenzstatistik bezeichnet wird) zur Verfügung. Die hier gewonnenen Aussagen beantworten nicht nur die jeweils interessierende Frage (Beispiel: sind Männer und Frauen gleich groß? Antwort: Männer sind im Schnitt x cm größer), sondern liefern auch Schätzungen für die Sicherheit dieser Aussage und/oder den Fehler, mit dem man rechnen sollte.

Nun sind Aussagen über die Körpergröße (oder z.B. die Altersstruktur) der Bevölkerung noch vergleichsweise simpel strukturiert. Bei sehr vielen sozialwissenschaftlichen und medizinischen Fragestellungen interessiert man sich für die Ursachen bestimmter Phänomene oder die Folgen bestimmter Maßnahmen bzw. Verhältnisse. Beispiele sind die Wirkung eines Medikaments auf den Heilungsprozeß oder die Auswirkungen von Geschlechterstereotypen auf das Berufswahlverhalten.

I.a. man interessiert man sich also für Aussagen über bestimmte Effekte als Reaktion auf bestimmte Anreize bzw. Verhältnisse. Die Effekte sind praktisch immer statistischer Natur, denn nicht jeder reagiert gleich. Bei einem Medikament könnte der Prozentsatz der Patienten interessieren, die nach 1, 2, 3 usw. Behandlungstagen geheilt sind. Genauer gesagt interessiert man sich für den Unterschied der Krankheitsverläufe mit und ohne Medikament und die Größe des Unterschieds (die sog. Effektstärke): man schlußfolgert, daß dieser Unterschied von dem Medikament verursacht wurde. Hierzu braucht man zwei Experimente bzw. Stichproben mit je einer Gruppe von Kranken, die (a) kein Medikament oder ein unwirksames Plazebo bekommen bzw. (b) das Medikament bekommen. Das Experiment (a) kann man sich sparen, wenn Vorwissen vorhanden ist, wie die Krankheit ohne Medikamente verläuft. Mathematisch wird die Sache jetzt noch einmal komplizierter, weil die Ergebnisse von zwei Experimenten verglichen werden müssen.

Die Beobachtungsergebnisse von Experiment (b) kann man nicht als "Beweis" ("Evidenz") dafür werten, daß das untersuchte Medikament eine Wirkung hat, wenn diese Beobachtungsergebnisse genausogut auftreten könnten, wenn man gar kein Medikament verabreicht wurde oder nur ein Plazebo, also ein "Medikament" mit Effektstärke Null. Diese Möglichkeit, daß das untersuchte Medikament null Effekt hat, wird als Nullhypothese bezeichnet. Die Nullhypothese muß daher widerlegt werden. Die Ergebnisse von Experiment (b) müssen also unter der Nullhypothese sehr unwahrscheinlich sein. Bei einer Wahrscheinlichkeit unterhalb eines Schwellwerts - üblich sind 5% - gilt die die Nullhypothese als widerlegt. Der Effekt des Medikaments wird dann als statistisch signifikant, also als nicht zufällig, bezeichnet. Die statistische Signifikanz hat im Prinzip nichts mit der Effektstärke zu tun, erst recht nichts mit der therapeutischen oder sonstigen Relevanz des Behandlungserfolgs (wird aber wegen der umgangssprachlichen Bedeutung von "signifikant" häufig damit verwechselt).

Die statistische Signifikanz quantifiziert also die Glaubwürdigkeit der Hypothese, die mit dem Experiment "bewiesen" werden soll. 100% sicher ist man aber nie. Im Endeffekt sind daher die durch Stichprobenanalysen erzielten Ergebnisse immer mit der Unsicherheit behaftet, ein Zufallsprodukt zu sein.

Die Replikationskrise
Die "Replikationskrise" wird seit einer Weile als solche bezeichnet, weil sehr viele Effekte, die früher einmal mit einer bestimmten Stichprobe "bewiesen" wurden, später mit anderen Stichproben nicht wiederholt ("repliziert") werden konnten, wobei die Abweichungen über die ohnehin vorhandene Unschärfe der Ergebnisse hinausgehen. Die ursprünglichen Ergebnisse sind daher als wahrscheinlich falsch anzusehen. Die Replikationsversuche führten oft zur Erkenntnis, daß bestimmte Effekte, an die man lange glaubte und die grundlegend für bestimmte Politiken sind, gar nicht vorhanden sind. Die Replikationskrise, deren Name eher wie ein technisches Problem klingt, ist tatsächlich ein existenzielles Problem dieser Wissenschaftsgebiete, das grundsätzlich infrage stellt, ob man überhaupt valide Erkenntnisse liefern kann.
Bekanntwerden der Replikationskrise
Die vermutlich meistzitierte Veröffentlichung über die Replikationskrise, die das Problem in das öffentliche Bewußtsein hob, erschien 2005 und hatte den provokanten Titel "Why Most Published Research Findings Are False". Sie bezog sich auf Forschungen in der Medizin, insb. in der pharmazeutischen Biologie, also auf Forschungsergebnisse, die die Wirksamkeit von Arzneimitteln und Therapien "beweisen" sollten. Ioannidis (2005) listet mehrere Merkmale von Forschungsfeldern und -Methoden, die die Wahrscheinlichkeit erhöhen, daß die dort publizierten Ergebnisse nicht reproduzierbar bzw. falsch sind. Auf die Psychologie und Soziologie treffen diese Merkmale in hohem Grad zu.

Das Problem der Nichtreproduzierbarkeit ist seit langem auch den Sozialwissenschaftlern bekannt und hat zu vielfältigen Gegenmaßnahmen geführt, insb. Standards, wie in Laborsituationen Meßfehler und Fremdeinflüsse zu vermeiden sind. Trotz dieser Standards ist die Reproduzierbarkeit der Ergebnisse relativ schlecht. Darüber wurde schon seit langem berichtet, z.B. in 2010 von Lehrer (2010).



Ursachen der Replikationskrise

Man kann mehrere Arten von Ursachen, die bei den Forschern oder der Untersuchung als solcher liegen, unterscheiden, warum Untersuchungsergebnisse nicht reproduzierbar sind bzw. "Wissen" über angebliche Effekte falsch ist:
  1. Voreingenommenheit bis hin zur Fälschungsabsicht, ideologischer Druck, unerwünschte Ergebnisse zu verhindern und erwünschte Ergebnisse zu erzeugen
  2. falsches Design der Untersuchung, fehlende Beherrschung der mathematischen Verfahren, sonstige "handwerkliche" Fehler
  3. Zufall: die Stichprobe war tatsächlich sehr ungünstig zusammengesetzt, ohne daß dies erkennbar war
Um Fehler in den Erkenntnissen zu vermeiden, haben alle Wissenschaften eigene Qualitätssicherungssysteme. Erkenntnisse werden i.d.R. erst dann akzeptiert, wenn sie diese Qualitätssicherung erfolgreich durchlaufen haben. Die Nichtreproduzierbarkeit von Erkenntnissen deutet stark auf ein Versagen der Qualitätssicherungssysteme hin, zumindest bei den beiden ersten o.g. Typen von Ursachen. Durch Zufall verursachte Nichtreproduzierbarkeit kann i.a. erst durch aufwendige Replikationsstudien festgestellt werden.
Ideologische Monokultur
Die Sozial- und Geisteswissenschaften sind wegen des weitgehenden Fehlens einer empirischen Überprüfbarkeit besonders anfällig für Denkschulen und Ideologisierungen. Das beste Gegenmittel hiergegen ist ideologische Diversität in der Forscherpopulation und eine offene Debattenkultur. Von diesem wünschenswerten Zustand haben sich die Sozial- und Geisteswissenschaften inzwischen weit entfernt. Duarte (2015), Martin (2015) und Haidt (2015) weisen darauf hin, daß die politische Korrektheit in Schulen bzw. Hochschulen inzwischen zu einem Klima der Angst, zu Denkverboten, zum systematischen Ausschluß von Lösungsansätzen und zu minderwertigen Ergebnissen führt, weil vorhandene Dogmen nicht mehr kritisch hinterfragt werden. Seit etwa 2019 werden diese Mißstände im Rahmen einer allgemeineren Debatte über die cancel culture öffentlich thematisiert. Speziell in Deutschland haben diese Mißstände zur gründung des Netzwerk Wissenschaftsfreiheit Ackermann20210208 geführt.
Versagen der Qualitätssicherungssysteme
Einer breiteren Öffentlichkeit wurde erstmals in der Sokal-Affäre bewußt, daß die Qualitätssicherungssysteme in bestimmten Disziplinen völlig versagen. Der Physiker Alan Sokal reichte 1996 bei einer ideologisch (feministisch) geprägten sozialwissenschaftlichen Fachzeitschrift einen Beitrag ein, der in der Sache haarsträubenden Unsinn enthielt, dies aber hinter besonders unverständlichen Ausdrucksweisen und vielen verbalen Bekräftigungen ideologischer Dogmen versteckte. Die Parodie wurde nicht als solche erkannt und als wissenschaftlicher Beitrag veröffentlicht. Dies hatte eine langanhaltende Debatte über Pseudowissenschaftlichkeit in den Sozial- und Geisteswissenschaften zur Folge.

Ein weiteres, ggf. hinsichtlich der Zahl involvierter Forscher sogar gravierenderes Beispiel ist der Fredrickson/Losada-Skandal.

Im Zeitraum 2017 - 2018 wiederholte das Autorentrio Helen Pluckrose, James A. Lindsay und Peter Boghossian das Sokal-Experiment mit insg. 20 Unsinnspapieren, die bei "hochkarätigen" feministischen Zeitschriften eingereicht wurden. 7 Papiere wurden nach einem "peer review" akzeptiert, 6 weitere wurden initial begutachtet, sie sollten gemäß den Wünschen der Gutachter überarbeitet und dann erneut eingereicht werden, wonach sie mit einiger Wahrscheinlichkeit ebenfalls akzeptiert worden wären. Dieser als Sokal Squared bezeichnete Vorfall ist einer der größten Wissenschaftskandale der letzten Jahrzehnte.



Beispiele falsifizierter Theorien und Konsequenzen

Niemand weiß genau, wieviele bzw. welche Publikationen in den Sozialwissenschaften i.w. falsch sind. Dazu müßte man jede frühere Untersuchung einmal oder mehrfach wiederholen, was aus Aufwandsgünden unmöglich ist. Wenn überhaupt kann man nur stichprobenartig das Ausmaß der Fehler untersuchen. In diesem Sinne hat das Reproducibility Project Psychology in 2015 die Reproduzierbarkeit der Ergebnisse von 100 Publikationen in hochkarätigen Psychologie-Journalen untersucht und kam zu sehr ernüchternden Ergebnissen: die Effektstärke war bei den Wiederholungen im Schnitt nur noch etwa halb so groß wie bei den Erstuntersuchungen, weniger als die Hälfte der Effekte konnten stistisch signifikant nachgewiesen werden. Weitere Beispiele s. Literatur zur Replikationskrise in der Psychologie.
Unrichtige Behauptungen über die schädliche Wirkung von Stereotypen
In der Stereotypforschung sind unrichtige Behauptungen über die schädliche Wirkung von Stereotypen weit verbreitet; Jussim (2015) listet markante Beispiele für eklatant falsche Interpretationen von statistischen Werten, s. ferner eine Literaturliste zum Stereotype Threat.

Die Bedeutung dieser falschen Ergebnisse kann man kaum unterschätzen. Sie sind die scheinbare wissenschaftliche Grundlage für die grassierende politische Korrektheit und alle möglichen erzieherischen Maßnahmen, denen die Bevölkerung seit Jahrzehnten ausgesetzt ist.

Die gefälschten Studien des Self-Esteem-Movement
Storr (2017) schildert die Historie des self-esteem movement, das weltweit die falsche Meinung verbreitete, durch eine bessere Selbsteinschätzung können man seine Leistungen verbessern, und die damit zusammenhängenden Lügen.
Konsequenzen
Theorien bzw. Modelle in der Psychologie und den Sozialwissenschaften sind als Konsequenz generell mit großer Vorsicht und als unzuverlässig hinsichtlich Prognosen zu betrachten. Das gilt wohlgemerkt für beide Seiten der Debatten.

Anmerkung: Wenn hier die Zuverlässigkeit der Erkenntnisse sozialwissenschaftlicher akademischer Forschung kritisiert wird, heißt das nicht, daß es außerhalb der Forschung bzw. Sozialwissenschaften besser zuginge, ganz im Gegenteil. In der Politik und bei vielen täglichen sozialen Handlungen werden laufend Annahmen über soziale Prozesse benutzt, also letztlich soziologische Modelle unterstellt, die noch weitaus unzuverlässiger sind. Ggf. werden solche Modelle nur unterbewußt benutzt bzw. ad hoc erfunden.

Insofern ist der häufig geäußerte Vorwurf, das sozialwissenschaftliche Wissen sei weitaus unzuverlässiger als das typische naturwissenschaftliche Wissen, zwar sachlich korrekt, geht aber am Problem vorbei: Antworten auf die interessierenden Fragen werden in der Praxis sofort benötigt, und die akademischen Antworten auf die Fragen sind i.d.R. besser als die sonst benutzten Stammtischweisheiten.



Literatur

Literatur zu Hoax-Skandalen
  1. Peter Boghossian, Ed.D. (aka Peter Boyle, Ed.D.), James Lindsay, Ph.D. (aka, Jamie Lindsay, Ph.D.): The Conceptual Penis as a Social Construct: A Sokal-Style Hoax on Gender Studies. SKEPTIC, 19.05.2017. https://www.skeptic.com/reading_room/conceptual-penis-s ... -hoax-o
  2. Alexander Durin: Fehler im System mancher Wissenschaften. Telepolis, Heise, 02.03.2014. https://www.heise.de/tp/artikel/41/41100/1.html, https://www.heise.de/tp/artikel/41/41100/2.html
    Der Artikel beschreibt den Fredrickson/Losada-Skandal. Es handelt sich hierbei um die Publikation Positive Affect and the Complex Dynamics of Human Flourishing. Diese wurde 2005 in einer sehr renomierten Psychologischen Zeitschrift publiziert und mehrere hundert Male zitiert, da sie einen bahnbrechende Ansatz beschrieb. Sie enthielt aber gravierende Mängel in der mathematischen Modellierung, die bei jeder halbwegs seriösen Begutachtung hätten auffallen müssen.
  3. Alan D. Sokal: Transgressing the Boundaries: Towards a Transformative Hermeneutics of Quantum Gravity. Social Text 46/47, p.217-252, 1996. https://www.physics.nyu.edu/faculty/sokal/transgress_v2 ... le.html s.a. https://de.wikipedia.org/wiki/Sokal-Aff%C3%A4re
Literatur zur Replikationskrise in der Psychologie
  1. Lee Jussim: Is Stereotype Threat Overcooked, Overstated, and Oversold? Heterodox Academy, 30.12.2015. https://heterodoxacademy.org/is-stereotype-threat-overc ... ersold/
  2. Jonah Lehrer: The Truth Wears Off. New Yorker, 13.12.2010. https://www.newyorker.com/reporting/2010/12/13/101213fa ... age=all
  3. Brian A. Nosek et al. (The Open Science Collaboration): Estimating the reproducibility of psychological science. Science, Vol. 349 no. 6251, DOI: 10.1126/science.aac4716, 28.08.2015. https://www.sciencemag.org/content/349/6251/aac4716
  4. Michèle B. Nuijten, Chris H. J. Hartgerink, Marcel A. L. M. van Assen, Sacha Epskamp, Jelte M. Wicherts: The prevalence of statistical reporting errors in psychology (1985-2013). Behavior Research Methods Vol.48:4, Springer, p.1205-1226, 23.102015. https://link.springer.com/article/10.3758%2Fs13428-015-0664-2
  5. Ulrich Schimmack: Replicability Review of 2016. replicationindex.wordpress.com, 31.12.2016. https://replicationindex.wordpress.com/2016/12/31/replicability-review-of-2016/
  6. Ulrich Schimmack: Hidden Figures: Replication Failures in the Stereotype Threat Literature. replicationindex.wordpress.com, 07.04.2017. https://replicationindex.wordpress.com/2017/04/07/hidde ... rature/
  7. Will Storr / Clay Routledge (Interview): On the Modern Self - An Interview with Will Storr. Psychology Today, 19.08.2017. https://www.psychologytoday.com/blog/more-mortal/201708/the-modern-self
  8. Ed Yong: How Reliable Are Psychology Studies? The Atlantic, 27.08.2015. https://www.theatlantic.com/health/archive/2015/08/psyc ... 402466/
Literatur zur Ideologisierung in der Sozial-Psychologie
  1. José L. Duarte, Jarret T. Crawford, Charlotta Stern, Jonathan Haidt, Lee Jussim, Philip E. Tetlock: Political Diversity Will Improve Social Psychological Science. Behavioral and Brain Sciences 38, e130, doi:10.1017/S0140525X14000430, 03.09.2015. https://www.cambridge.org/core/journals/behavioral-and- ... 890149F
  2. Jonathan Haidt: It's finally out - The big review paper on the lack of political diversity in social psychology. heterodoxacademy.org, 14.09.2015. https://heterodoxacademy.org/2015/09/14/bbs-paper-on-la ... ersity/
  3. Chris C. Martin: How Ideology Has Hindered Sociological Insight. The American Sociologist, Springer, 2013. https://link.springer.com/article/10.1007%2Fs12108-015-9263-z
    Kurzfassung in: Chris Martin: How Ideology Has Hindered Sociological Insight, summarized. heterodoxacademy.org, 21.09.2015. https://heterodoxacademy.org/2015/09/21/how-ideology-ha ... ized-2/
Sonstige Literatur
  1. Ulrike Ackermann / Claudia Schwartz (Interview): Freiheitsforscherin Ulrike Ackermann: «Die Prinzipien der Aufklärung sind fundamental. Wir müssen sie verteidigen». NZZ, 08.02.2021. https://www.nzz.ch/feuilleton/universitaeten-die-prinzi ... 1599831
  2. Valentin Amrhein, Fränzi Korner-Nievergelt, Tobias Roth: The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research. PeerJ, 07.07.2017. https://peerj.com/articles/3544/
  3. Ronald Fisher: The Design of Experiments. Oliver and Boyd, 1935. https://en.wikipedia.org/wiki/The_Design_of_Experiments