Studien haben bewiesen, dass ….
Egal in welchem Gespräch oder welchem Forum, ob in der Literatur oder einfach am Elternstammtisch, man hört es immer wieder: Studien haben bewiesen, dass …
So finden Befürworter oder Gegner eines Themas oft Studien, die genau das beweisen, was sie hören wollen. Da werden Studienergebnisse als ultimative Beweise angeführt. So einfach ist das aber nicht. Den meisten Menschen fehlt die Grundlage, um den Informationsgehalt einer Studie einschätzen zu können. Nur das Lesen der Zusammenfassung (auch Abstract genannt) reicht nicht aus, um den Gehalt der Studie zu erkennen. Das Abstract sagt lediglich etwas über die Ergebnisse unter genau den Bedingungen, unter denen diese Studie erstellt wurde, aus. Also ist es unabdingbar die ganze Studie zu lesen, um diese Bedingungen zu kennen.
Deswegen möchte ich hier gerne ein wenig darüber aufklären, warum und wie Studien gemacht werden und was sie tatsächlich aussagen.
Können Studien etwas beweisen?
Wissenschaft denkt in Wahrscheinlichkeiten. Studien beweisen gar nichts. Nur weil eine Studie publiziert wurde, heißt das noch nicht, dass die Inhalte „wahr“ sind oder ein Sachverhalt damit bewiesen ist. Die Veröffentlichung einer Studie bedeutet, dass man etwas untersucht hat und man eröffnet damit einen wissenschaftlichen Diskurs.
Eine einzelne Studie sagt nicht viel aus. Ist das Phänomen interessant, wird es auch von anderen Wissenschaftlern* untersucht. Das nennt man dann Replikation. Kommen viele Wissenschaftler aufgrund ihrer selbst durchgeführten Studien unter ähnlichen Bedingungen, zu demselben Ergebnis, dann steigt die Wahrscheinlichkeit, dass der untersuchte Sachverhalt so tatsächlich gegeben ist bzw. eine Intervention als wirksam anerkannt wird. Das erklärt auch, warum es zu allen Sachverhalten viele verschiedene Studien gibt – gute und leider auch viele schlechte.
Jetzt hat man also eine oder mehrere Studien vor sich und ist eigentlich genauso klug wie vorher. Um sich im wissenschaftlichen Dschungel zurecht zu finden, muss man lernen, einige Dinge zu beachten.
Warum wurde etwas untersucht? Wer finanziert die Studie? Wem nützt die Studie?
Jemand hat Interesse an einem Sachverhalt und stellt eine These auf, die er anhand einer wissenschaftlichen Studie untersuchen möchte. Beispiel: Eine Klinik bietet eine Therapie an und möchte nun laufend die Wirksamkeit überprüfen.
Gleich zu Anfang muss man also danach fragen, wer Interesse an den Ergebnissen hat, wer die Studie in Auftrag gegeben und wer sie finanziert hat. Ein Qualitätskriterium einer Studie sollte ihre Unabhängigkeit sein, das heißt, sie sollte unabhängig von finanziellen und persönlichen Interessen und persönlichen Eigenschaften der Forscher sein. Dabei handelt es sich aber um ein fiktives Kriterium, denn niemand ist frei von Interessen und persönlichen Eigenschaften. Kein Wissenschaftler geht unvoreingenommen an die Arbeit. Eine absolute Unabhängigkeit kann also nie gewährleistet werden und darüber weiß die Fachwelt auch Bescheid.
Außerdem liegt dem Wissenschaftler nichts daran, zu zeigen, dass seine These Unsinn ist. Er möchte Ergebnisse, die seine These bestätigen. Also kann es sein, dass Ergebnisse, die nicht seiner Vorstellung entsprechen, entweder nicht publiziert werden oder es wird solange gemessen, bis sie passen.
Liegt der Untersuchungsgegenstand im wissenschaftlichen Mainstream?
Die Wissenschaft unterliegt ebenso wie wir alle dem Mainstream. Das Aufstellen von provokanten Thesen und das Veröffentlichen von Ergebnissen, die nicht in das momentane wissenschaftliche Weltbild passen, ist unpopulär und kann dem Wissenschaftler auch schaden. So wird sich heutzutage selten ein Wissenschaftler an eine Studie wagen, die untersucht, ob Impfungen schädlich sind. Das Bezweifeln des uneingeschränkten Nutzens von Impfungen liegt nicht im Mainstream und kann ihm seinen (beruflichen) Kopf kosten.
Außerdem orientiert sich die Vergabe von Forschungsgeldern daran, welche Themen gerade in Mode sind und sich gut vermarkten lassen. Wer in der Wissenschaft gegen den Strom schwimmt, hat es schwer.
Was wurde gemessen?
Ein weiterer wichtiger Punkt ist die sogenannte Operationalisierung. Darunter versteht man, wie man den zu untersuchenden Sachverhalt misst.
Beispiel: Es soll die Wirksamkeit einer Therapieform getestet werden. Jetzt muss man sich einfallen lassen, wie man die Wirksamkeit misst. Es macht ja keinen Sinn, die Wirksamkeit daran zu messen, ob die Versuchsperson schneller wächst, wenn ich Blickkontakt einfordere. Was kann man also messen? Zum Beispiel, ob die Person nach einem bestimmten Zeitraum, in der die Therapie ausgeführt wird, mehr Blickkontakt ausübt. Allerdings kann ich nicht messen, ob die Person jetzt auch mehr sieht, oder ob sie einfach den Blick in die gewünschte Richtung wendet, um die Belohnung zu erhalten, die vom Therapeuten in Aussicht gestellt wurde. Das Studienergebnis „Das Einfordern von Blickkontakt führt zu vermehrten Blickkontakt“ hat daher nur eingeschränkte Gültigkeit.
Noch ein Beispiel: Es soll die Wirksamkeit einer gluten- und kaseinfreien Diät getestet werden. Wie misst man den Therapieerfolg? Man verwendet Symptome wie z.B. mangelnden Blickkontakt oder fehlende Sprache. Nach einem gewissen Zeitraum, in dem die Versuchsperson gluten- und kaseinfrei ernährt wurde, wird man vielleicht keine bedeutende Veränderung feststellen. Hätte man anders operationalisiert (also andere Symptome gemessen), könnte das Ergebnis anders aussehen. Auch hier hat das Ergebnis „Gluten- und kaseinfreie Ernährung hat keinen signifikanten Effekt auf Autismussymptome“ nur eingeschränkte Gültigkeit.
Es ist daher von essentieller Bedeutung, zu wissen, was gemessen wurde, und was die Aussage des gemessenen Kriteriums ist. Auch wenn die Studie die Wirksamkeit einer Intervention zeigt oder nicht zeigt, heißt das noch nicht, dass sie für die Betroffenen auch von Nutzen ist.
Wie wurde gemessen? Mit welcher Methode wurde gemessen?
Es gibt verschiedene Methoden, um an die Daten für eine Studie zu gelangen. Das kann z.B. eine Befragung mittels Fragebogen sein, eine Beobachtung, ein Experiment, ein Test etc. Alle Methoden haben Vor- und Nachteile und sind nicht für jede Untersuchung gleich gut geeignet.
Jede Messung unterliegt einer Reihe von Störvariablen, also Einflussfaktoren, die es so gut es geht auszuschließen gilt. Viele von ihnen sind allerdings nicht kontrollierbar. Sie werden dann mitgemessen und können die Ergebnisse verzerren. Beispiele für Störvariablen sind z.B. nicht vergleichbare Versuchspersonen, unterschiedliche Qualität der Interventionsmaßnahme, persönliche Einstellungen der Forscher oder der Versuchspersonen zum Untersuchungsgegenstand, der Gesundheitszustand der Versuchspersonen, fehlende oder überschwängliche Motivation und noch viele mehr.
Beispiel: Eine der häufigsten Methode zur Messung von Veränderungen ist die Befragung mittels Fragebogen. Fragebögen sind aber immer subjektiv, weil sie von Menschen ausgefüllt werden. Dabei kann viel passieren – die Antworten hängen dann vielleicht von der Tagesverfassung der Versuchsperson ab. Oder sie möchte ein positives Bild von sich zeichnen und antwortet daher sozial erwünscht. Vielleicht hält sie den Untersuchungsgegenstand für Unsinn und tendiert daher, die Fragen eher negativ oder oberflächlich zu beantworten. All dies ist den Versuchspersonen nicht bewusst, verzerrt aber die Ergebnisse.
Und noch ein Beispiel: Die Untersuchung einer Therapiemaßnahme setzt voraus, dass die Versuchsperson über einen längeren Zeitraum eine Therapie erhält. Werden alle Versuchspersonen vom gleichen Therapeuten therapiert? Fanden die Therapiesitzungen immer unter den gleichen Bedingungen statt? Wurden noch andere Dinge während des Versuchszeitraum verändert? Medikamente? Ernährung? Krankheiten? Schulwechsel?
All das sollte eine gute Studie genau dokumentieren. Üblicherweise findet man Angaben darüber in der (kritischen) Diskussion am Ende der Studie. Wenn dazu nichts angeführt wird, kann man davon ausgehen, dass die Studie qualitativ mangelhaft ist.
Wie groß ist der Stichprobenumfang? Wer wurde untersucht?
Unter Stichprobenumfang versteht man die Anzahl der Versuchspersonen. In Studien wird er mit der Abkürzung „n“ bezeichnet. Mir werden oft Studien als vermeintlicher Beweis für irgendeine Hypothese genannt, die lediglich an 10-20 Versuchspersonen stattgefunden haben. Dabei handelt es sich um eine viel zu kleine Stichprobe und die Studienergebnisse haben daher nur eine sehr geringe Aussagekraft und sind eher als Zufallsergebnisse zu werten. Ist die Stichprobe zu klein, kann die Auswahl der Versuchspersonen dazu führen, dass sich Effekte zeigen, wo keine sind oder umgekehrt, kein Effekt feststellbar sein. Diese Ergebnisse dienen eher als Ausgangspunkt für weitere genauere Untersuchungen, sprich Replikationen.
Grundsätzlich kann davon ausgegangen werden, dass eine große Stichprobe (ab ca. 100 Versuchspersonen) aussagekräftiger und präziser wird. Eine zu große Stichprobe hat allerdings ebenfalls verzerrende Auswirkungen.
Ein weiteres Problem mit der Stichprobe ist deren oftmals nicht vorhandene Homogenität. Was heißt das jetzt wieder? Es bedeutet, dass die Versuchspersonen nicht die gleichen Voraussetzungen und Eigenschaften in Bezug auf die Forschungsfrage mitbringen und daher nicht vergleichbar sind. Es werden sozusagen Äpfel mit Birnen verglichen. Sicher haben sie ein gemeinsames Merkmal, welches sich z.B. Autismus nennt und der Grund für ihre Teilnahme an einer Studie ist. Aber gerade Autismus ist so facettenreich, jeder, der mit Menschen mit Autismus zu tun hat, weiß, wie verschieden und kaum vergleichbar diese Menschen sind. Auch das Alter und der Entwicklungsstand der Versuchspersonen ist von großer Bedeutung.
Über welchen Zeitraum erstreckt sich die Studie?
Weiters ist es von Bedeutung, über welchen Zeitraum gemessen wird. Soll einmalig gemessen werden (das nennt man Querschnitt) oder soll eine Entwicklung über einen längeren Zeitraum gemessen werden (Längsschnitt). Eine einmalige Messung sagt oft sehr wenig über einen Sachverhalt oder eine Intervention aus. Sie ist eine Momentaufnahme. Dafür ist sie so eine Querschnittstudie relativ einfach durchzuführen und billig. Deutlich aussagekräftiger sind Studien, die eine Entwicklung über einen längeren Zeitraum messen. Diese werden aber nur äußerst selten durchgeführt, weil sie sehr aufwändig und teuer sind. Es ist auch leichter Versuchspersonen zu finden, die sich einmalig testen lassen. Aber es ist sehr schwierig, Teilnehmer für eine Studie zu finden, die sich über Monate und Jahre immer wieder testen lassen.
Handelt es sich um eine qualitativ hochwertige Studie?
Die Qualität der Studie ist von vorrangiger Bedeutung. Es gibt etliche Gütekriterien, die eine Studie einhalten muss: Objektivität, Reliabilität, Validität, Fairness, Zumutbarkeit. Sie soll auch unverfälschbar, nützlich und ökonomisch sein. Einige dieser Gütekriterien habe ich oben bereits grob beschrieben. Hier noch einmal kurz zur Erinnerung: Objektivität bedeutet, dass ein Untersuchungsergebnis in Durchführung, Auswertung und Interpretation unabhängig sein muss. Unter Reliabilität versteht man die Zuverlässigkeit einer Messmethode, was so viel bedeutet, dass eine wiederholte Messung zum gleichen Ergebnis kommen muss. Die Validität oder auch Gültigkeit sagt aus, ob die Ergebnisse auch wirklich geeignet sind, die Fragestellung zu beantworten. Die Einhaltung dieser Gütekriterien ist manchmal nicht möglich oder wird zugunsten fragwürdiger Interessen missachtet, was so mancher Forscher aber selten angibt. Bestenfalls findet man in der sog. kritischen Diskussion am Ende der Studie einen Hinweis zu der eventuellen Vernachlässigung eines Gütekriteriums.
Von grundlegender Bedeutung ist auch, wo eine Studie veröffentlicht wurde? Handelt es um ein wissenschaftliches Fachjournal? Wenn ja, steigt die Wahrscheinlichkeit, dass es sich um eine sorgfältig überprüfte Studie handelt. Allerdings sind die Fachjournale für Laien oft nicht zugänglich. Ein irgendwo im Internet veröffentlichtes Studienergebnis ist kein hinreichendes Qualitätsmerkmal.
Was bedeuten die Ergebnisse?
Eine Studie muss man richtig lesen und interpretieren können. Das alleinige Lesen der Zusammenfassung der Ergebnisse am Anfang, auch Abstract genannt, reicht nicht aus. Einerseits sollte man sich bei den statistischen Kennzahlen auskennen, um festzustellen, ob sie überhaupt von Bedeutung sind. Dies ist für Laien schwer möglich. Begriffe wie Signifikanzwert, Varianzaufklärung, Effektstärken etc. sagen dem Laien nichts.
Andererseits muss man unbedingt die sog. (kritische) Diskussion am Ende lesen, denn sie beinhaltet die Schwachpunkte der Studie, wie Einschränkungen in der Durchführbarkeit oder vorhandene Störfaktoren – Begleitumstände, die die Messwerte beeinflussen können.
Durchaus üblich bei Menschen, die gerne ein bestimmtes Ergebnis der Studie sehen wollen, ist auch das Herauspicken passender Einzelergebnisse. Eine Studie muss immer in ihrer Gesamtheit gesehen werden – warum sie gemacht wurde, wie man zu den Ergebnissen gekommen ist, welche Fremdeinflüsse die Ergebnisse beeinflussen – ein einzelner Wert sagt da nichts aus.
All das gilt es zu beachten, wenn man über die Aussagekraft von Studien spricht. Um eine Studie wirklich richtig interpretieren zu können, sollte man sie also wirklich von Anfang bis zum Ende lesen.
Das Vorliegen von Studien allein reicht also nicht aus. Ein Studienergebnis ist kein unumstößlicher Fakt. Und nicht alles, was wissenschaftlich (noch) nicht belegt ist, muss automatisch falsch sein.
Noch ein Denkanstoß zum Schluss: Auch schon bevor es wissenschaftliche Studien gab, wurden große Entdeckungen gemacht, deren Ergebnisse bis heute gültig sind. Die Beobachtung der Wirksamkeit war ausreichend und wurde nicht angezweifelt, nur weil es mit den damaligen Methoden nicht möglich war, einen wissenschaftlichen Beweis zu erbringen. Man war froh, dass Mütter nicht mehr an Kindbettfieber starben und lehnte die hygienischen Maßnahmen nicht ab, nur weil es keine Studie dazu gab, die wissenschaftliche Belege der Wirksamkeit von Hygienemaßnahmen belegte.
In manchen Fällen lohnt es sich also, etwas einfach auszuprobieren und nicht darauf zu warten, bis die Wirksamkeit wissenschaftlich bewiesen ist, was vielleicht nie stattfinden wird.
*Anmerkung: Ich weiß, dass es Wissenschaftler und Wissenschaftlerinnen gibt. Zur leichteren Lesbarkeit bevorzuge ich aber die Verwendung der männlichen Form, und dies, obwohl ich selber Wissenschaftlerin bin. Ich fühle mich dadurch nicht diskriminiert und hoffe, auch keine meiner Kolleginnen damit zu benachteiligen.