Inhaltsübersicht
- Einführung: Das Replikationsproblem
- Ursachen der Replikationskrise
- Beispiele falsifizierter Theorien und Konsequenzen
- Literatur
Einführung: Das Replikationsproblem
Die Psychologie, Soziologie und benachbarte empirische
Sozial- und Naturwissenschaften, z.B. die Soziobiologie,
erleben seit langem eine Krise hinsichtlich der Aussagekraft
und Zuverlässigkeit ihrer Forschungsergebnisse, die in der
Fachliteratur als Replikationskrise bezeichnet wird.
Die feministischen Gender Studies, die man i.w. als
Teilgebiet der Soziologie ansehen kann, haben wegen ihrer
offensichtlichen Unwissenschaftlichkeit wesentlich zu diesem
Problem beigetragen und es sichtbar gemacht, das Problem als
solches geht aber weit über die Gender Studies hinaus.
Wieso braucht man Replikation?
Um das Problem zu verstehen, muß man sich zunächst klar
machen, daß psychologisches bzw. soziologisches Wissen in
praktisch allen Fällen die Form statistischer Aussagen über
eine Population hat und daß eine solche Aussage anhand eines
Experiments mit einer Stichprobe aus dieser Population
gewonnen bzw. "bewiesen" wurde. Dies führt zu diversen
Problemen, vor allem zu dem Risiko, daß die Stichprobe
anders zusammengesetzt ist als die Gesamtpopulation, die
Verallgemeinerung der Erkenntnisse auf die Gesamtpopulation
also falsch ist. Auf diese Risiken gehen wir weiter unten
ein. Die Konsequenz daraus bringt ein Satz des berühmten
Statistikers Ronald Fisher auf den Punkt:
"No isolated experiment, however significant in itself, can suffice for the experimental demonstration of any natural phenomenon" (Fisher (1935) nach Amrhein (2017)).M.a.W. sind Erkenntnisse erst dann "belastbar", wenn ihre Fragestellung mehrfach in unterschiedlichen Experimenten mit anderen Strichproben untersucht wurde und i.w. vergleichbare Ergebnisse erzielt wurden. Solche Gruppen von Experimenten zur gleichen Fragestellung werden oft in eigenen Publikationen, sog. Metastudien, zusammengefaßt. Wenn man Fisher folgt, dann haben erst solche Metastudien genügend Aussagekraft, um Aussagen über die ganze Population zu rechtfertigen. Der Ergebnisse eines einzelnen Experiments sollte man dagegen nur als mehr oder weniger starkes Indiz auffassen, nicht mehr und nicht weniger. Die praktische Relevanz dieser Erkenntnisse ist ganz enorm. Sie bedeutet, daß es nicht zulässig ist, auf Basis einzelner, nicht replizierter Studien weitreichende Konsequenzen zu ziehen, z.B, Grundrechtseinschränkungen von Männern, Rufmordkampagnen usw. Erst recht dann, wenn bei solchen Studien Indizien vorliegen, daß das Studiendesign falsch war, die Studie nicht unvoreingenommen ist, sondern ideologische Voreingenommenheiten vorliegen, handwerkliche Fehler erkennbar sind (z.B. keine Angaben zur Unsicherheit gemacht werden) usw. Das alles klingt trivial, in der medizischen bzw. pharmazeutischen Forschung sind entsprechende Standards auch etabliert. In der politischen Praxis wird hingegen massenhaft dagegen verstoßen. Die Debatten im Rahmen der Corona-Krise waren eine seltene Ausnahme, wo die Unsicherheit der grundlegenden medizinischen Tatsachen explizit thematisiert wurde und in die politischen Entscheidungen einfloß.
Das Stichprobenproblem
I.a. ist man interessiert an Wissen, also korrekten
Aussagen, über eine große Population, z.B. alle
Deutschen. Beispielsweise möchte man gerne wissen, ob Männer
in Deutschland größer als Frauen sind. Hierzu könnte man
theoretisch die Körpergröße aller Deutschen messen und dann
mit den Methoden der deskriptiven Statistik Rohdaten aufbereiten und
verdichten zu Tabellen, graphischen Darstellungen (wie z.B.
hier) oder anderen Kenngrößen. Das so gewonnene Wissen
ist reproduzierbar (sofern die Rohdaten gleich bleiben).
Nun ist aber schon bei der simplen Größenmessung klar, daß
sie aus Aufwandsgründen nicht bei allen Bundesbürgern
durchgeführt werden kann. Den Aufwand reduziert man, indem
man eine Stichprobe der Bundesbürger bildet und nur bei
diesen Personen die Größe mißt. Von den Ergebnissen dieser
Stichprobe schließt man auf die Gesamtpopulation. Man
schließt also von beobachteten Einzelphänomenen (die Größen
einiger Personen) auf eine allgemeinere Erkenntnis (die
Größenverteilung aller Deutschen). In der
Wissenschaftstheorie wird derartiges Schließen von konkreten
Einzelphänomenen auf allgemeinere Aussagen als Induktion bezeichnet. Im Alltag macht man das auch,
dort wird es als Generalisierung von Einzelbeobachtungen
bezeichnet.
Das Induktionsprinzip bzw. die Generalisierung funktionieren
in vielen Fällen ganz gut, es ist aber prinzipiell nicht garantiert, daß sie richtige
Ergebnisse liefern. Wenn alle bisher bekannten Schwäne weiß
sind, kann man nicht sicher schließen, daß alle Schwäne weiß
sind, es kann auch ein schwarzer Schwan auftauchen.
Genau diese Unsicherheit ist ein Kernproblem jeder Gewinnung
von allgemeinen Aussagen auf Basis einer Stichprobenanalyse.
Nun beziehen sich sehr viele Aussagen auf quantitative
Merkmale, die Körpergröße war ein Beispiel. In solchen
Fällen stellt sich die Frage, ob man die Unsicherheit
ebenfalls quantifizieren kann. Methoden hierfür stellt die
induktive Statistik (die auch als schließende Statistik
und Inferenzstatistik bezeichnet wird) zur Verfügung. Die
hier gewonnenen Aussagen beantworten nicht nur die jeweils
interessierende Frage (Beispiel: sind Männer und Frauen
gleich groß? Antwort: Männer sind im Schnitt x cm größer),
sondern liefern auch Schätzungen für die Sicherheit dieser
Aussage und/oder den Fehler, mit dem man rechnen sollte.
Nun sind Aussagen über die Körpergröße (oder z.B. die Altersstruktur) der Bevölkerung noch vergleichsweise
simpel strukturiert. Bei sehr vielen
sozialwissenschaftlichen und medizinischen Fragestellungen
interessiert man sich für die Ursachen bestimmter Phänomene
oder die Folgen bestimmter Maßnahmen bzw. Verhältnisse.
Beispiele sind die Wirkung eines Medikaments auf den
Heilungsprozeß oder die Auswirkungen von
Geschlechterstereotypen auf das Berufswahlverhalten.
I.a. man interessiert man sich also für Aussagen über
bestimmte Effekte als Reaktion auf bestimmte Anreize
bzw. Verhältnisse. Die Effekte sind praktisch immer
statistischer Natur, denn nicht jeder reagiert gleich. Bei
einem Medikament könnte der Prozentsatz der Patienten
interessieren, die nach 1, 2, 3 usw. Behandlungstagen
geheilt sind. Genauer gesagt interessiert man sich für den
Unterschied der Krankheitsverläufe mit und ohne Medikament
und die Größe des Unterschieds (die sog. Effektstärke): man
schlußfolgert, daß dieser Unterschied von dem Medikament
verursacht wurde. Hierzu braucht man zwei Experimente bzw.
Stichproben mit je einer Gruppe von Kranken, die (a) kein
Medikament oder ein unwirksames Plazebo bekommen bzw. (b)
das Medikament bekommen. Das Experiment (a) kann man sich
sparen, wenn Vorwissen vorhanden ist, wie die Krankheit ohne
Medikamente verläuft. Mathematisch wird die Sache jetzt noch
einmal komplizierter, weil die Ergebnisse von zwei
Experimenten verglichen werden müssen.
Die Beobachtungsergebnisse von Experiment (b) kann man nicht
als "Beweis" ("Evidenz") dafür werten, daß das untersuchte
Medikament eine Wirkung hat, wenn diese
Beobachtungsergebnisse genausogut auftreten könnten, wenn
man gar kein Medikament verabreicht wurde oder nur ein
Plazebo, also ein "Medikament" mit Effektstärke Null. Diese
Möglichkeit, daß das untersuchte Medikament null Effekt hat,
wird als Nullhypothese bezeichnet. Die Nullhypothese
muß daher widerlegt werden. Die Ergebnisse von Experiment
(b) müssen also unter der Nullhypothese sehr
unwahrscheinlich sein. Bei einer Wahrscheinlichkeit
unterhalb eines Schwellwerts - üblich sind 5% - gilt die die
Nullhypothese als widerlegt. Der Effekt des Medikaments wird
dann als statistisch signifikant, also als nicht
zufällig, bezeichnet. Die statistische Signifikanz hat im
Prinzip nichts mit der Effektstärke zu tun, erst recht
nichts mit der therapeutischen oder sonstigen Relevanz des
Behandlungserfolgs (wird aber wegen der umgangssprachlichen
Bedeutung von "signifikant" häufig damit verwechselt).
Die statistische Signifikanz quantifiziert also die
Glaubwürdigkeit der Hypothese, die mit dem Experiment
"bewiesen" werden soll. 100% sicher ist man aber nie. Im
Endeffekt sind daher die durch Stichprobenanalysen erzielten
Ergebnisse immer mit der Unsicherheit behaftet, ein
Zufallsprodukt zu sein.
Die Replikationskrise
Die "Replikationskrise" wird seit einer Weile als solche
bezeichnet, weil sehr viele Effekte, die früher einmal mit
einer bestimmten Stichprobe "bewiesen" wurden, später mit
anderen Stichproben nicht wiederholt ("repliziert") werden
konnten, wobei die Abweichungen über die ohnehin vorhandene
Unschärfe der Ergebnisse hinausgehen. Die ursprünglichen
Ergebnisse sind daher als wahrscheinlich falsch anzusehen.
Die Replikationsversuche führten oft zur Erkenntnis, daß
bestimmte Effekte, an die man lange glaubte und die
grundlegend für bestimmte Politiken sind, gar nicht
vorhanden sind. Die Replikationskrise, deren Name eher wie
ein technisches Problem klingt, ist tatsächlich ein
existenzielles Problem dieser Wissenschaftsgebiete, das
grundsätzlich infrage stellt, ob man überhaupt valide
Erkenntnisse liefern kann.
Bekanntwerden der Replikationskrise
Die vermutlich meistzitierte Veröffentlichung über die
Replikationskrise, die das Problem in das öffentliche
Bewußtsein hob, erschien 2005 und hatte den provokanten
Titel "Why Most Published
Research Findings Are False". Sie bezog sich auf
Forschungen in der Medizin, insb. in der pharmazeutischen
Biologie, also auf Forschungsergebnisse, die die Wirksamkeit
von Arzneimitteln und Therapien "beweisen" sollten.
Ioannidis (2005)
listet mehrere Merkmale von Forschungsfeldern und -Methoden,
die die Wahrscheinlichkeit erhöhen, daß die dort
publizierten Ergebnisse nicht reproduzierbar bzw. falsch
sind. Auf die Psychologie und Soziologie treffen diese
Merkmale in hohem Grad zu.
Das Problem der Nichtreproduzierbarkeit ist
seit langem auch den Sozialwissenschaftlern bekannt und
hat zu vielfältigen Gegenmaßnahmen geführt, insb.
Standards, wie in Laborsituationen Meßfehler und
Fremdeinflüsse zu vermeiden sind. Trotz dieser Standards
ist die Reproduzierbarkeit der Ergebnisse relativ
schlecht. Darüber wurde schon seit langem berichtet, z.B. in
2010 von Lehrer
(2010).
Thema:
Die Glaubwürdigkeits- und Replikationskrise in der
Psychologie und Soziologie Stichwortverzeichnis | Sitemap
Ursachen der Replikationskrise
Man kann mehrere Arten von Ursachen, die bei den
Forschern oder der Untersuchung als solcher liegen,
unterscheiden, warum Untersuchungsergebnisse nicht
reproduzierbar sind bzw. "Wissen" über angebliche Effekte
falsch ist:
- Voreingenommenheit bis hin zur Fälschungsabsicht, ideologischer Druck, unerwünschte Ergebnisse zu verhindern und erwünschte Ergebnisse zu erzeugen
- falsches Design der Untersuchung, fehlende Beherrschung der mathematischen Verfahren, sonstige "handwerkliche" Fehler
- Zufall: die Stichprobe war tatsächlich sehr ungünstig zusammengesetzt, ohne daß dies erkennbar war
Ideologische Monokultur
Die Sozial- und Geisteswissenschaften sind wegen des
weitgehenden Fehlens einer empirischen Überprüfbarkeit
besonders anfällig für Denkschulen und Ideologisierungen.
Das beste Gegenmittel hiergegen ist ideologische
Diversität in der Forscherpopulation und eine offene
Debattenkultur. Von diesem wünschenswerten Zustand haben
sich die Sozial- und Geisteswissenschaften inzwischen weit
entfernt.
Duarte (2015),
Martin (2015) und
Haidt (2015) weisen
darauf hin, daß die politische Korrektheit in Schulen bzw.
Hochschulen inzwischen zu einem Klima der Angst, zu
Denkverboten, zum systematischen Ausschluß von
Lösungsansätzen und zu minderwertigen Ergebnissen führt,
weil vorhandene Dogmen nicht mehr kritisch hinterfragt
werden. Seit etwa 2019 werden diese Mißstände im Rahmen
einer allgemeineren Debatte über die cancel
culture öffentlich thematisiert.
Speziell in Deutschland haben diese
Mißstände zur gründung des Netzwerk Wissenschaftsfreiheit
Ackermann20210208
geführt.
Versagen der Qualitätssicherungssysteme
Einer breiteren Öffentlichkeit wurde erstmals in der Sokal-Affäre bewußt, daß die Qualitätssicherungssysteme
in bestimmten Disziplinen völlig versagen. Der Physiker Alan
Sokal reichte 1996 bei einer ideologisch (feministisch)
geprägten sozialwissenschaftlichen Fachzeitschrift einen
Beitrag ein, der in der Sache haarsträubenden
Unsinn enthielt, dies aber hinter besonders unverständlichen
Ausdrucksweisen und vielen verbalen Bekräftigungen
ideologischer Dogmen versteckte. Die Parodie wurde nicht als
solche erkannt und als wissenschaftlicher Beitrag
veröffentlicht. Dies hatte eine langanhaltende Debatte über
Pseudowissenschaftlichkeit in den Sozial- und
Geisteswissenschaften zur Folge.
Ein weiteres, ggf. hinsichtlich der Zahl involvierter
Forscher sogar gravierenderes Beispiel ist der Fredrickson/Losada-Skandal.
Im Zeitraum 2017 - 2018 wiederholte das Autorentrio Helen
Pluckrose, James A. Lindsay und Peter Boghossian das
Sokal-Experiment mit insg. 20 Unsinnspapieren, die bei
"hochkarätigen" feministischen Zeitschriften eingereicht
wurden. 7 Papiere wurden nach einem "peer review"
akzeptiert, 6 weitere wurden initial begutachtet, sie
sollten gemäß den Wünschen der Gutachter überarbeitet und
dann erneut eingereicht werden, wonach sie mit einiger
Wahrscheinlichkeit ebenfalls akzeptiert worden wären.
Dieser als Sokal
Squared bezeichnete Vorfall ist einer der größten
Wissenschaftskandale der letzten Jahrzehnte.
Thema:
Die Glaubwürdigkeits- und Replikationskrise in der
Psychologie und Soziologie Stichwortverzeichnis | Sitemap
Beispiele falsifizierter Theorien und
Konsequenzen
Niemand weiß genau, wieviele bzw. welche Publikationen in
den Sozialwissenschaften i.w. falsch sind. Dazu müßte man
jede frühere Untersuchung einmal oder mehrfach wiederholen,
was aus Aufwandsgünden unmöglich ist. Wenn überhaupt kann
man nur stichprobenartig das Ausmaß der Fehler untersuchen.
In diesem Sinne hat das Reproducibility Project Psychology in 2015 die
Reproduzierbarkeit der Ergebnisse von 100 Publikationen in
hochkarätigen Psychologie-Journalen untersucht und kam zu
sehr ernüchternden
Ergebnissen: die Effektstärke war bei den
Wiederholungen im Schnitt nur noch etwa halb so groß wie bei
den Erstuntersuchungen, weniger als die Hälfte der Effekte
konnten stistisch signifikant nachgewiesen werden.
Weitere Beispiele s. Literatur zur Replikationskrise in der
Psychologie.
Unrichtige Behauptungen über
die schädliche Wirkung von Stereotypen
In der Stereotypforschung sind unrichtige Behauptungen
über die schädliche Wirkung von Stereotypen weit
verbreitet; Jussim
(2015) listet markante Beispiele für eklatant
falsche Interpretationen von statistischen Werten, s.
ferner eine Literaturliste zum Stereotype
Threat.
Die Bedeutung dieser falschen Ergebnisse kann man kaum
unterschätzen. Sie sind die scheinbare wissenschaftliche
Grundlage für die grassierende politische Korrektheit und
alle möglichen erzieherischen Maßnahmen, denen die
Bevölkerung seit Jahrzehnten ausgesetzt ist.
Die gefälschten Studien des Self-Esteem-Movement
Storr (2017)
schildert die Historie des self-esteem movement, das
weltweit die falsche Meinung verbreitete, durch eine
bessere Selbsteinschätzung können man seine Leistungen
verbessern, und die damit zusammenhängenden Lügen.
Konsequenzen
Theorien bzw. Modelle in der Psychologie und den
Sozialwissenschaften sind als Konsequenz generell mit
großer Vorsicht und als unzuverlässig hinsichtlich Prognosen
zu betrachten. Das gilt wohlgemerkt für beide Seiten der
Debatten.
Anmerkung: Wenn hier die Zuverlässigkeit der Erkenntnisse
sozialwissenschaftlicher akademischer Forschung kritisiert
wird, heißt das nicht, daß es außerhalb der Forschung bzw.
Sozialwissenschaften besser zuginge, ganz im Gegenteil. In
der Politik und bei vielen täglichen sozialen Handlungen
werden laufend Annahmen über soziale Prozesse benutzt,
also letztlich soziologische Modelle unterstellt, die noch
weitaus unzuverlässiger sind. Ggf. werden solche
Modelle nur unterbewußt benutzt bzw. ad hoc erfunden.
Insofern ist der häufig geäußerte Vorwurf, das
sozialwissenschaftliche Wissen sei weitaus unzuverlässiger
als das typische naturwissenschaftliche Wissen, zwar
sachlich korrekt, geht aber am Problem vorbei: Antworten
auf die interessierenden Fragen werden in der Praxis
sofort benötigt, und die akademischen Antworten auf die
Fragen sind i.d.R. besser als die sonst benutzten
Stammtischweisheiten.
Thema:
Die Glaubwürdigkeits- und Replikationskrise in der
Psychologie und Soziologie Stichwortverzeichnis | Sitemap
Literatur
Literatur zu Hoax-Skandalen
- Peter Boghossian, Ed.D. (aka Peter Boyle, Ed.D.), James Lindsay, Ph.D. (aka, Jamie Lindsay, Ph.D.): The Conceptual Penis as a Social Construct: A Sokal-Style Hoax on Gender Studies. SKEPTIC, 19.05.2017. https://www.skeptic.com/reading_room/conceptual-penis-s ... -hoax-o
- Alexander Durin: Fehler im System mancher Wissenschaften. Telepolis, Heise, 02.03.2014. https://www.heise.de/tp/artikel/41/41100/1.html, https://www.heise.de/tp/artikel/41/41100/2.html
Der Artikel beschreibt den Fredrickson/Losada-Skandal. Es handelt sich hierbei um die Publikation Positive Affect and the Complex Dynamics of Human Flourishing. Diese wurde 2005 in einer sehr renomierten Psychologischen Zeitschrift publiziert und mehrere hundert Male zitiert, da sie einen bahnbrechende Ansatz beschrieb. Sie enthielt aber gravierende Mängel in der mathematischen Modellierung, die bei jeder halbwegs seriösen Begutachtung hätten auffallen müssen.
- Alan D. Sokal: Transgressing the Boundaries: Towards a Transformative Hermeneutics of Quantum Gravity. Social Text 46/47, p.217-252, 1996. https://www.physics.nyu.edu/faculty/sokal/transgress_v2 ... le.html s.a. https://de.wikipedia.org/wiki/Sokal-Aff%C3%A4re
Literatur zur Replikationskrise in der
Psychologie
- Lee Jussim: Is Stereotype Threat Overcooked, Overstated, and Oversold? Heterodox Academy, 30.12.2015. https://heterodoxacademy.org/is-stereotype-threat-overc ... ersold/
- Jonah Lehrer: The Truth Wears Off. New Yorker, 13.12.2010. https://www.newyorker.com/reporting/2010/12/13/101213fa ... age=all
- Brian A. Nosek et al. (The Open Science Collaboration): Estimating the reproducibility of psychological science. Science, Vol. 349 no. 6251, DOI: 10.1126/science.aac4716, 28.08.2015. https://www.sciencemag.org/content/349/6251/aac4716
- Michèle B. Nuijten, Chris H. J. Hartgerink, Marcel A. L. M. van Assen, Sacha Epskamp, Jelte M. Wicherts: The prevalence of statistical reporting errors in psychology (1985-2013). Behavior Research Methods Vol.48:4, Springer, p.1205-1226, 23.102015. https://link.springer.com/article/10.3758%2Fs13428-015-0664-2
- Ulrich Schimmack: Replicability Review of 2016. replicationindex.wordpress.com, 31.12.2016. https://replicationindex.wordpress.com/2016/12/31/replicability-review-of-2016/
- Ulrich Schimmack: Hidden Figures: Replication Failures in the Stereotype Threat Literature. replicationindex.wordpress.com, 07.04.2017. https://replicationindex.wordpress.com/2017/04/07/hidde ... rature/
- Will Storr / Clay Routledge (Interview): On the Modern Self - An Interview with Will Storr. Psychology Today, 19.08.2017. https://www.psychologytoday.com/blog/more-mortal/201708/the-modern-self
- Ed Yong: How Reliable Are Psychology Studies? The Atlantic, 27.08.2015. https://www.theatlantic.com/health/archive/2015/08/psyc ... 402466/
Literatur zur Ideologisierung in der
Sozial-Psychologie
- José L. Duarte, Jarret T. Crawford, Charlotta Stern, Jonathan Haidt, Lee Jussim, Philip E. Tetlock: Political Diversity Will Improve Social Psychological Science. Behavioral and Brain Sciences 38, e130, doi:10.1017/S0140525X14000430, 03.09.2015. https://www.cambridge.org/core/journals/behavioral-and- ... 890149F
- Jonathan Haidt: It's finally out - The big review paper on the lack of political diversity in social psychology. heterodoxacademy.org, 14.09.2015. https://heterodoxacademy.org/2015/09/14/bbs-paper-on-la ... ersity/
- Chris C. Martin: How Ideology Has Hindered Sociological Insight. The American Sociologist, Springer, 2013. https://link.springer.com/article/10.1007%2Fs12108-015-9263-z
Kurzfassung in: Chris Martin: How Ideology Has Hindered Sociological Insight, summarized. heterodoxacademy.org, 21.09.2015. https://heterodoxacademy.org/2015/09/21/how-ideology-ha ... ized-2/
Sonstige Literatur
- Ulrike Ackermann / Claudia Schwartz (Interview): Freiheitsforscherin Ulrike Ackermann: «Die Prinzipien der Aufklärung sind fundamental. Wir müssen sie verteidigen». NZZ, 08.02.2021. https://www.nzz.ch/feuilleton/universitaeten-die-prinzi ... 1599831
- Valentin Amrhein, Fränzi Korner-Nievergelt, Tobias Roth: The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research. PeerJ, 07.07.2017. https://peerj.com/articles/3544/
- Ronald Fisher: The Design of Experiments. Oliver and Boyd, 1935. https://en.wikipedia.org/wiki/The_Design_of_Experiments
Thema:
Die Glaubwürdigkeits- und Replikationskrise in der
Psychologie und Soziologie Stichwortverzeichnis | Sitemap