Leitfaden zum Hypothesentest

Erfahren Sie Schritt für Schritt, wie Hypothesentests funktionieren. Behandelt Null- und Alternativhypothesen, Teststatistiken, p-Werte und Signifikanzniveaus.

Was ist ein Hypothesentest?

Ein Hypothesentest ist ein statistisches Verfahren, das auf Basis von Stichprobendaten eine Entscheidung über eine Behauptung (Hypothese) bezüglich einer Population trifft. Er beantwortet die Frage: "Ist der beobachtete Effekt real oder könnte er zufällig entstanden sein?" Beispiele: Ist ein neues Medikament wirksamer als ein Placebo? Unterscheiden sich die Prüfungsergebnisse zweier Klassen? Beeinflusst eine Änderung im Website-Design die Conversion-Rate?

Null- und Alternativhypothese

Die Nullhypothese (H₀) repräsentiert den Status quo -- "kein Effekt" oder "kein Unterschied." Die Alternativhypothese (H₁ oder Ha) ist das, was Sie zeigen möchten. H₀: mu = 50 (der Mittelwert ist 50), H₁: mu ≠ 50 (zweiseitig) oder H₁: mu > 50 (einseitig). Der Test versucht, H₀ abzulehnen. Man "beweist" nie H₀ -- man findet entweder genügend Evidenz, um sie abzulehnen, oder man findet nicht genug und "kann sie nicht ablehnen."

Teststatistiken

Die Teststatistik misst, wie weit die Stichprobendaten von dem unter H₀ erwarteten Wert entfernt sind, standardisiert durch den Standardfehler. Für Mittelwerttests: z = (x_bar - mu₀) / (sigma/sqrt(n)) bei bekanntem sigma, oder t = (x_bar - mu₀) / (s/sqrt(n)) bei unbekanntem sigma. Ein großer absoluter Wert der Teststatistik deutet darauf hin, dass die Daten nicht mit H₀ vereinbar sind. Die Teststatistik wird dann mit der entsprechenden Verteilung (z, t, chi², F) verglichen.

p-Werte und Signifikanzniveaus

Der p-Wert ist die Wahrscheinlichkeit, die beobachteten (oder extremere) Daten zu erhalten, wenn H₀ wahr wäre. Ein kleiner p-Wert (z.B. p = 0,003) bedeutet, dass die beobachteten Daten unter H₀ sehr unwahrscheinlich sind. Das Signifikanzniveau alpha (typisch 0,05) ist der Schwellenwert für die Entscheidung: p < alpha → H₀ ablehnen, p ≥ alpha → H₀ nicht ablehnen. Ein p-Wert von 0,05 bedeutet nicht, dass die Nullhypothese mit 5 % Wahrscheinlichkeit wahr ist -- das ist ein häufiges Missverständnis.

Fehler 1. und 2. Art

Fehler 1. Art (alpha-Fehler): H₀ wird abgelehnt, obwohl sie wahr ist (falsch positiv). Die Wahrscheinlichkeit ist alpha = Signifikanzniveau. Fehler 2. Art (beta-Fehler): H₀ wird nicht abgelehnt, obwohl sie falsch ist (falsch negativ). Die Wahrscheinlichkeit ist beta. Die Teststärke (Power) = 1 - beta gibt die Wahrscheinlichkeit an, einen tatsächlich vorhandenen Effekt zu entdecken. Typische Ziele: alpha = 0,05, Power ≥ 0,80. Die Stichprobengröße beeinflusst direkt die Power -- größere Stichproben erkennen kleinere Effekte.

Schritte zur Durchführung eines Hypothesentests

1. Hypothesen formulieren (H₀ und H₁). 2. Signifikanzniveau festlegen (typisch alpha = 0,05). 3. Testverfahren wählen (z-Test, t-Test, chi²-Test etc.). 4. Teststatistik berechnen. 5. p-Wert bestimmen oder kritischen Wert nachschlagen. 6. Entscheidung treffen: p < alpha → H₀ ablehnen. 7. Ergebnis interpretieren und im Kontext kommunizieren. Berichten Sie immer die Effektgröße und das Konfidenzintervall zusätzlich zum p-Wert.

Gängige Hypothesentests

Ein-Stichproben-t-Test: Vergleicht einen Stichprobenmittelwert mit einem hypothetischen Wert. Zwei-Stichproben-t-Test: Vergleicht die Mittelwerte zweier Gruppen. Gepaarter t-Test: Vergleicht abhängige Messungen (z.B. vorher/nachher). Chi-Quadrat-Test: Prüft Zusammenhänge zwischen kategorialen Variablen. ANOVA (F-Test): Vergleicht Mittelwerte von drei oder mehr Gruppen. z-Test für Proportionen: Vergleicht Anteile. Die Wahl des Tests hängt von der Datenart, der Fragestellung und den Verteilungsannahmen ab.

Häufige Fallstricke vermeiden

P-Hacking: Mehrere Tests durchführen und nur signifikante Ergebnisse berichten -- korrigieren Sie für multiples Testen (Bonferroni, FDR). Statistische vs. praktische Signifikanz: Ein p < 0,05 bei einer sehr großen Stichprobe kann einen trivial kleinen Effekt als "signifikant" markieren. Berichten Sie immer die Effektgröße (Cohens d, r²). Verwechseln Sie "nicht signifikant" nicht mit "kein Effekt" -- vielleicht war die Stichprobe zu klein. Und denken Sie daran: Statistische Signifikanz beweist keine Kausalität.