ANOVA als Varianzanalyse

Einführung in die Varianzanalyse (ANOVA)

ANOVA ist ein statistisches Verfahren zur Untersuchung von Mittelwertsunterschieden zwischen drei oder mehr Gruppen. Sie analysiert, ob die Variation zwischen Gruppen signifikant größer ist als die Variation innerhalb der Gruppen.

Grundkonzept der ANOVA

Warum nutzen wir ANOVA?

  • Gruppenvergleiche: Ermittelt signifikante Mittelwertsunterschiede zwischen Gruppen
  • Varianzzerlegung: Trennt Gesamtvariation in systematische (Gruppeneffekte) und zufällige Variation
  • Hypothesentest: Prüft auf globale Signifikanz von Gruppenunterschieden

Schlüsselkomponenten der ANOVA

  • SSY (Gesamtquadratsumme): Gesamtvariation aller Beobachtungen
  • SSA (Faktorquadratsumme): Durch Gruppeneffekte erklärte Variation
  • SSE (Residuenquadratsumme): Nicht erklärte Variation innerhalb der Gruppen
  • F-Statistik: Verhältnis von erklärter zu nicht erklärter Varianz

ANOVA-Tabelle und Berechnung

\[ \newcommand\T{\Rule{0pt}{1em}{.3em}} \begin{array}{|l|l|c|c|c|c|} \hline \textbf{Varianzquelle} & \textbf{Quadratsumme} & \textbf{Freiheitsgrad (df)} & \textbf{Mittlere Quadrate} & \textbf{F-Statistik} & \textbf{p-Wert} \\\hline \textbf{Faktor} \T & SSA = SSY - SSE & k-1 & MSA = \frac{SSA}{k-1} & \frac{MSA}{MSE} & 1 - F(F;\,k-1,n-k) \\ \textbf{Residuen} \T & SSE & n-k & MSE = \frac{SSE}{n-k} \\ \textbf{Gesamt} \T & SSY & n-1 \\ \hline \end{array} \]

Interpretation der Tellenkomponenten

  • SSY: Gesamte Abweichung der Daten vom Gesamtmittelwert
    \[SSY = \sum_{i=1}^n (y_i - \bar{y}_{\text{gesamt}})^2\]

  • SSE: Nicht erklärte Variation innerhalb der Gruppen
    \[SSE = \sum_{j=1}^k \sum_{i=1}^{n_j} (y_{ij} - \bar{y}_j)^2\]

  • SSA: Durch Gruppenzugehörigkeit erklärte Variation
    \[SSA = SSY - SSE\]

Freiheitsgrade

  • Faktor (SSA): \(k-1\) (Anzahl Gruppen minus 1)
  • Residuen (SSE): \(n-k\) (Gesamtbeobachtungen minus Gruppenanzahl)
  • Gesamt (SSY): \(n-1\) (Gesamtbeobachtungen minus 1)

Hypothesenformulierung

  • Nullhypothese (\(H_0\)):
    Die Mittelwerte fuer die verschiedenen Gruppen sind gleich

  • Alternativhypothese (\(H_A\)):
    Mindestens ein Mittelwert der verschiedenen Gruppen weicht von den Anderen ab.

Testdurchführung

  1. Berechnung der F-Statistik:
    \[F = \frac{MSA}{MSE} = \frac{SSA/(k-1)}{SSE/(n-k)}\]

  2. Bestimmung des p-Werts aus der F-Verteilung mit \((k-1, n-k)\) Freiheitsgraden

  3. Entscheidung:

    • \(p < \alpha\): Ablehnung von \(H_0\) (signifikanter Gruppeneffekt)
    • \(p \geq \alpha\): Beibehaltung von \(H_0\)

Mathematische Details

Symbolerklärung

Symbol Bedeutung
\(n\) Gesamtstichprobenumfang
\(k\) Anzahl der Gruppen
\(y_{ij}\) i-te Beobachtung in Gruppe j
\(\bar{y}_j\) Mittelwert der Gruppe j
\(\bar{y}_{\text{gesamt}}\) Gesamtmittelwert aller Beobachtungen

Varianzkomponenten

  • Erklärte Varianz (MSA):
    \[\frac{SSA}{k-1} = \text{Varianz zwischen den Gruppen}\]

  • Nicht erklärte Varianz (MSE):
    \[\frac{SSE}{n-k} = \text{Durchschnittliche Varianz innerhalb der Gruppen}\]

Effektinterpretation

  • Große F-Statistik: Die zwischen Gruppen bestehenden Unterschiede sind groß im Vergleich zur Variation innerhalb der Gruppen
  • Kleine F-Statistik: Die Gruppeneffekte erklären wenig Variation relativ zur zufälligen Streuung

Wichtige Anmerkungen

  • Die ANOVA testet zunächst nur, ob überhaupt Unterschiede zwischen den Gruppen bestehen Sie sagt nicht, welche Gruppen sich unterscheiden
  • Für die genaue Identifikation der unterschiedlichen Gruppen werden Post-hoc-Tests benötigt, e.g. Tukey’s HSD (Honestly Significant Difference