Signifikanz p-wert psychologie

Wir testen die Hypothese, dass der mittlere stetige Neurotizismus von Personen in der Population höher ist als deren mittlere stetige Extraversion kein inhaltlich sinnvolles Beispiel. Damit der Test die richtige Hypothese testet, ist es also wichtig, dass die Reihenfolge der übergebenen Werte mit der unter alternative spezifizierten Richtung der Alternativhypothese abgestimmt ist.

Wir testen die Hypothese, dass der mittlere stetige Neurotizismus von Personen in der Population unter 30 Jahren niedriger ist als in der Population über 30 Jahren. Insgesamt werden dabei nur 3 Zeckenbisse bei den Landwirten gezählt. Es wurden tatsächlich weniger Zeckenbisse beobachtet als man ohne das Medikament erwartet hätte.

Ist das nun Zufall? Oder ist Zwickdinix tatsächlich ein tolles, wirksames Medikament gegen Zeckenbisse? Um das zu beantworten, müssen wir ein bisschen in die Statistik eintauchen. Wenn das Medikament aber entgegen dieser Grundannahme bei sehr vielen Menschen eine Wirkung zeigt, dann ist das ein Hinweis keine Gewissheit!

Die Entscheidung, ob die Nullhypothese verworfen wird, sollte im Idealfall von einer Vielzahl sich ergänzender Faktoren abhängen.

Signifikanz und Effektstärke

Ein verlässlicher und gut durchdachter Versuchsaufbau «Wie und mit welchen Mitteln wurden die Daten erhoben? Die Wirklichkeit sieht jedoch etwas anders aus: Viele Forschende reduzieren die Entscheidung, ob die Nullhypothese beibehalten oder verworfen werden soll, auf eine einzige Frage: «Wie gross ist der p-Wert? Der Problemwert p-Wert?

Ausserhalb der quantitativen Wissenschaften wird der Begriff wohl kaum jemandem bekannt sein. Doch Biologen, Psychologen oder Mediziner sollten mittlerweile wissen, dass der p-Wert «p» steht für «probability», also «Wahrscheinlichkeit» seit mehreren Jahren unter Beschuss ist. Vor Kurzem hat sich sogar die American Statistical Association ASA , die grösste statistische Fachorganisation der Welt, zu Wort gemeldet : Sie kritisiert den Missbrauch des p-Werts, schlägt mögliche Alternativen vor und ruft zu einem sorgsameren Umgang mit statistischen Methoden auf.

Laut der ASA droht die unsachgemässe Verwendung von Signifikanztests das Vertrauen in wissenschaftliche Forschungsergebnisse nachhaltig zu beschädigen. Doch was ist der p-Wert genau? Die technische Definition lautet so: Der p-Wert gibt die Wahrscheinlichkeit an, unter Annahme der Nullhypothese ein Ergebnis zu erhalten, das mindestens so extrem ist wie die im Experiment beobachteten Resultate.

Die ASA beschreibt ihn deshalb als Hinweis darauf, «wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind».

Das Maß aller Dinge: Den p-Wert berechnen und interpretieren

Alles klar? Häufig verwendet, selten verstanden Wenn es darum geht, den p-Wert zu erklären, scheitern selbst jene Experten, welche sich hauptberuflich mit dem Thema befassen. Diejenige Interpretation, die mir bis anhin am zugänglichsten scheint, stammt vom Statistiker Alex Reinhardt, dessen Website «Statistics Done Wrong» ich alle jenen empfehlen kann, welche eine leicht verständliche Einführung in die Thematik suchen.

Reinhardt beschreibt den p-Wert als eine Art «measure of surprise», also als Massstab dafür, wie überrascht man von einem bestimmten Resultat sein sollte. Jedes Mal, wenn ein Wissenschafter eine Nullhypothese formuliert, trifft er auch eine Annahme darüber, wie seine Daten ausschauen sollten. Wenn seine Experimente nun aber Ergebnisse liefern, die stark von den Annahmen der Nullhypothese abweichen, dann dürfte er davon entsprechend überrascht sein.

Der p-Wert kann diese Überraschung ansatzweise in eine Zahl übersetzen. Konkret: Je kleiner der p-Wert, desto grösser die Überraschung. In anderen Worten: Meine Nullhypothese geht von einer fairen Münze aus, welche Kopf und Zahl mit gleicher Wahrscheinlichkeit zeigt. Wenn ich nun sechs Mal Kopf erhalte, dann ist das noch keine grosse Überraschung. Der p-Wert ist dementsprechend gross [2] und es gibt keinen Grund für mich, meinen Nullhypothese zu verwerfen.

Von zehn Würfen neun Mal Kopf zu erhalten, wäre jedoch eher überraschend und würde zu einem kleinen p-Wert führen [3]. Ich sollte mir die Münze also genauer anschauen und das Experiment wiederholen.

p-Wert – Wikipedia

Insbesondere wenn Studienergebnisse im Rahmen wichtiger öffentlicher Debatten falsch rezipiert werden, müssen sich Forscher aber immer wieder der Aufgabe stellen, vorschnelle Interpretationen richtig zu stellen. Eine inhaltlich begründete Auswahl des informativsten Datenmaterials und der adäquatesten Analysemethode für die untersuchte Fragestellung stellt kein p-hacking dar.

So ist es sinnvoll, offensichtlich unsinnige Werte z. Abbildung 1: Verschiedene Möglichkeiten des p-hacking. Analysiert man 20 Teilgruppen getrennt, so ist geradezu zu erwarten, dass auch ein nicht-vorhandener Effekt rein zufallsbedingt einmal als signifikant ausgewiesen wird. Wenn man genau dieses Ergebnis selektiv ausweist, hat man einen schweren Fall von p-hacking. Dazu zählen die Reduzierung des Skalenniveaus z.

Einkommensklassen statt Einkommen und die Bildung neuer Variablen bspw. Die gezielte Suche nach und der selektive Ausweis derjenigen Variante, die in gewünschtem Umfang signifikante Ergebnisse produziert, führt aber zu einer Überbewertung der empirischen Evidenz. Dies gilt zunächst für die Kontrollvariablen, deren Anzahl und Art man verändern kann, um zu sehen, mit welchem Variablenset man die gewünschten statistischen Signifikanzen am besten erzielt.

Man stelle sich bspw.