Leitfaden zur Regressionsanalyse

Umfassender Leitfaden zur Regressionsanalyse. Erfahren Sie, wie lineare Regression funktioniert, wie Steigung, Achsenabschnitt und R² interpretiert werden.

Was ist Regressionsanalyse?

Die Regressionsanalyse ist eine statistische Methode zur Untersuchung der Beziehung zwischen einer abhängigen Variable (y) und einer oder mehreren unabhängigen Variablen (x). Sie ermöglicht Vorhersagen und hilft zu verstehen, wie stark und in welche Richtung Variablen zusammenhängen. Die Regressionsanalyse wird in nahezu jedem Bereich eingesetzt: Wirtschaft, Medizin, Sozialwissenschaften, Ingenieurwesen und Naturwissenschaften. Sie beantwortet Fragen wie "Wie beeinflusst Werbung den Umsatz?" oder "Welche Faktoren beeinflussen den Blutdruck?"

Einfache lineare Regression

Die einfache lineare Regression modelliert die Beziehung zwischen x und y als Gerade: y = b₀ + b₁ * x + e, wobei b₀ der Achsenabschnitt, b₁ die Steigung und e der Fehlerterm ist. Die Methode der kleinsten Quadrate (OLS) findet die Gerade, die die Summe der quadrierten Abstände zwischen den beobachteten und vorhergesagten y-Werten minimiert. Die Steigung b₁ = Σ((xi - x_bar)(yi - y_bar)) / Σ((xi - x_bar)²) und der Achsenabschnitt b₀ = y_bar - b₁ * x_bar.

Steigung und Achsenabschnitt interpretieren

Die Steigung (b₁) gibt an, um wie viel sich y durchschnittlich ändert, wenn x um eine Einheit steigt. Beispiel: b₁ = 2,5 in einem Umsatzmodell mit Werbeausgaben bedeutet: Jeder zusätzliche Euro für Werbung erzeugt im Durchschnitt 2,50 € zusätzlichen Umsatz. Der Achsenabschnitt (b₀) ist der vorhergesagte y-Wert, wenn x = 0 ist. Er ist nicht immer sinnvoll interpretierbar -- z.B. ist "Umsatz bei null Werbung" möglicherweise unrealistisch, wenn alle Datenpunkte positive Werbeausgaben haben.

R²: Die Modellgüte messen

R² (Bestimmtheitsmaß) gibt den Anteil der Varianz in y an, der durch x erklärt wird. R² reicht von 0 bis 1: R² = 0 bedeutet, x erklärt nichts von y; R² = 1 bedeutet perfekte Vorhersage. R² = 0,75 bedeutet, dass 75 % der Variation in y durch x erklärt werden. Was als "gut" gilt, hängt vom Kontext ab: In Naturwissenschaften erwartet man R² > 0,90, in Sozialwissenschaften kann R² = 0,30 bereits informativ sein. Das bereinigte R² korrigiert für die Anzahl der Prädiktoren und ist bei multipler Regression vorzuziehen.

Residuen und Diagnose

Residuen sind die Differenzen zwischen beobachteten und vorhergesagten Werten: e_i = y_i - y_hat_i. Die Analyse der Residuen ist essenziell, um die Modellannahmen zu überprüfen: Residuen sollten zufällig verteilt sein (kein Muster), annähernd normalverteilt sein, eine konstante Varianz haben (Homoskedastizität) und unabhängig voneinander sein. Ein Residualplot gegen die vorhergesagten Werte sollte ein "Wolkenmuster" ohne erkennbare Struktur zeigen. Muster deuten auf Modellierungsprobleme hin.

Multiple Regression

Multiple Regression erweitert das Modell auf mehrere unabhängige Variablen: y = b₀ + b₁*x₁ + b₂*x₂ + ... + bₖ*xₖ + e. Jeder Koeffizient gibt die Wirkung der zugehörigen Variable an, bei Kontrolle aller anderen Variablen. Beispiel: Hauspreis = b₀ + b₁*Wohnfläche + b₂*Zimmeranzahl + b₃*Alter. Die Interpretation ändert sich: b₁ ist der Effekt einer zusätzlichen m² Wohnfläche, wenn Zimmeranzahl und Alter konstant gehalten werden. Multikollinearität (hohe Korrelation zwischen Prädiktoren) kann die Koeffizienten instabil machen.

Wann Regressionsanalyse einsetzen

Verwenden Sie Regression, wenn Sie: die Stärke und Richtung einer Beziehung quantifizieren möchten, Vorhersagen treffen wollen, den Einfluss mehrerer Faktoren gleichzeitig untersuchen möchten, oder Kontrollvariablen berücksichtigen wollen. Verwenden Sie keine Regression für: kategoriale abhängige Variablen (nutzen Sie logistische Regression), stark nichtlineare Beziehungen (ohne Transformation), Daten mit gravierenden Ausreißern oder wenn die Stichprobe zu klein ist (Faustregel: mindestens 10-20 Beobachtungen pro Prädiktor).

Praktische Tipps für bessere Regressionsmodelle

Beginnen Sie immer mit der Visualisierung der Daten (Streudiagramm). Prüfen Sie die Annahmen (Linearität, Normalität der Residuen, Homoskedastizität). Transformieren Sie Variablen bei Bedarf (Logarithmus für schiefe Verteilungen, Quadrat für nichtlineare Beziehungen). Entfernen oder untersuchen Sie Ausreißer und einflussreiche Punkte. Berücksichtigen Sie Wechselwirkungen zwischen Variablen. Verwenden Sie das bereinigte R² bei multipler Regression. Und denken Sie immer daran: Korrelation ist nicht Kausalität -- eine signifikante Regression beweist keinen kausalen Zusammenhang.