ANOVA als Varianzanalyse
Einführung in die Varianzanalyse (ANOVA)
ANOVA ist ein statistisches Verfahren zur Untersuchung von Mittelwertsunterschieden zwischen drei oder mehr Gruppen. Sie analysiert, ob die Variation zwischen Gruppen signifikant größer ist als die Variation innerhalb der Gruppen.
Grundkonzept der ANOVA
Warum nutzen wir ANOVA?
- Gruppenvergleiche: Ermittelt signifikante Mittelwertsunterschiede zwischen Gruppen
- Varianzzerlegung: Trennt Gesamtvariation in systematische (Gruppeneffekte) und zufällige Variation
- Hypothesentest: Prüft auf globale Signifikanz von Gruppenunterschieden
Schlüsselkomponenten der ANOVA
- SSY (Gesamtquadratsumme): Gesamtvariation aller Beobachtungen
- SSA (Faktorquadratsumme): Durch Gruppeneffekte erklärte Variation
- SSE (Residuenquadratsumme): Nicht erklärte Variation innerhalb der Gruppen
- F-Statistik: Verhältnis von erklärter zu nicht erklärter Varianz
ANOVA-Tabelle und Berechnung
\[ \newcommand\T{\Rule{0pt}{1em}{.3em}} \begin{array}{|l|l|c|c|c|c|} \hline \textbf{Varianzquelle} & \textbf{Quadratsumme} & \textbf{Freiheitsgrad (df)} & \textbf{Mittlere Quadrate} & \textbf{F-Statistik} & \textbf{p-Wert} \\\hline \textbf{Faktor} \T & SSA = SSY - SSE & k-1 & MSA = \frac{SSA}{k-1} & \frac{MSA}{MSE} & 1 - F(F;\,k-1,n-k) \\ \textbf{Residuen} \T & SSE & n-k & MSE = \frac{SSE}{n-k} \\ \textbf{Gesamt} \T & SSY & n-1 \\ \hline \end{array} \]
Interpretation der Tellenkomponenten
SSY: Gesamte Abweichung der Daten vom Gesamtmittelwert
\[SSY = \sum_{i=1}^n (y_i - \bar{y}_{\text{gesamt}})^2\]SSE: Nicht erklärte Variation innerhalb der Gruppen
\[SSE = \sum_{j=1}^k \sum_{i=1}^{n_j} (y_{ij} - \bar{y}_j)^2\]SSA: Durch Gruppenzugehörigkeit erklärte Variation
\[SSA = SSY - SSE\]
Freiheitsgrade
- Faktor (SSA): \(k-1\) (Anzahl Gruppen minus 1)
- Residuen (SSE): \(n-k\) (Gesamtbeobachtungen minus Gruppenanzahl)
- Gesamt (SSY): \(n-1\) (Gesamtbeobachtungen minus 1)
Hypothesenformulierung
Nullhypothese (\(H_0\)):
Die Mittelwerte fuer die verschiedenen Gruppen sind gleichAlternativhypothese (\(H_A\)):
Mindestens ein Mittelwert der verschiedenen Gruppen weicht von den Anderen ab.
Testdurchführung
Berechnung der F-Statistik:
\[F = \frac{MSA}{MSE} = \frac{SSA/(k-1)}{SSE/(n-k)}\]Bestimmung des p-Werts aus der F-Verteilung mit \((k-1, n-k)\) Freiheitsgraden
Entscheidung:
- \(p < \alpha\): Ablehnung von \(H_0\) (signifikanter Gruppeneffekt)
- \(p \geq \alpha\): Beibehaltung von \(H_0\)
Mathematische Details
Symbolerklärung
| Symbol | Bedeutung |
|---|---|
| \(n\) | Gesamtstichprobenumfang |
| \(k\) | Anzahl der Gruppen |
| \(y_{ij}\) | i-te Beobachtung in Gruppe j |
| \(\bar{y}_j\) | Mittelwert der Gruppe j |
| \(\bar{y}_{\text{gesamt}}\) | Gesamtmittelwert aller Beobachtungen |
Varianzkomponenten
Erklärte Varianz (MSA):
\[\frac{SSA}{k-1} = \text{Varianz zwischen den Gruppen}\]Nicht erklärte Varianz (MSE):
\[\frac{SSE}{n-k} = \text{Durchschnittliche Varianz innerhalb der Gruppen}\]
Effektinterpretation
- Große F-Statistik: Die zwischen Gruppen bestehenden Unterschiede sind groß im Vergleich zur Variation innerhalb der Gruppen
- Kleine F-Statistik: Die Gruppeneffekte erklären wenig Variation relativ zur zufälligen Streuung
Wichtige Anmerkungen
- Die ANOVA testet zunächst nur, ob überhaupt Unterschiede zwischen den Gruppen bestehen Sie sagt nicht, welche Gruppen sich unterscheiden
- Für die genaue Identifikation der unterschiedlichen Gruppen werden Post-hoc-Tests benötigt, e.g. Tukey’s HSD (Honestly Significant Difference