Code Beispiele für Woche 8

\({\chi}^2\)-Unabhängigkeitstest in R

Was testen wir?

Mit dem \({\chi}^2\)-Unabhängigkeitstest untersuchen wir, ob zwischen zwei kategorialen Variablen eine statistische Unabhängigkeit besteht.

Null- und Alternativhypothese

Nullhypothese (\(H_0\)): Die beiden Variablen sind unabhängig.
Alternativhypothese (\(H_1\)): Die beiden Variablen sind nicht unabhängig.

\(\textbf{R}\)-Befehl für den \({\chi}^2\)-Unabhängigkeitstest

Der chisq.test-Befehl in \(\textbf{R}\) kann verwendet werden, um die Unabhängigkeit zwischen zwei kategorialen Variablen zu testen.

Beispiel mit einem Datensatz

Die gängigste Methode ist die Erstellung einer Kontingenztabelle aus zwei kategorialen Variablen mit der table()-Funktion:

# Beispieldaten einlesen
daten <- read.csv("meineDaten.csv")

# Kontingenztabelle erstellen
kontingenzTabelle <- table(daten$Variable1, daten$Variable2)

# Tabelle anzeigen
print(kontingenzTabelle)

# Optional: Tabelle mit Randsummen anzeigen
addmargins(kontingenzTabelle)

# Chi-Quadrat-Unabhängigkeitstest durchführen
chi_test <- chisq.test(kontingenzTabelle)
print(chi_test)

# Kritischen Wert berechnen (z.B. bei α = 0.05)
# df = Freiheitsgrade aus dem Test
kritischer_wert <- qchisq(0.95, df = chi_test$parameter)
print(paste("Kritischer Wert:", round(kritischer_wert, 2)))

Zusätzliche Informationen aus dem Test

# Beobachtete Häufigkeiten
chi_test$observed

# Erwartete Häufigkeiten
chi_test$expected

Bewertung des p-Wertes

Der p-Wert hilft uns zu entscheiden, ob wir die Nullhypothese ablehnen oder nicht.

p-Wert unter dem Signifikanzniveau: Es gibt ausreichende Beweise, um die Nullhypothese abzulehnen, was darauf hinweist, dass ein signifikanter Zusammenhang zwischen den Variablen besteht.
p-Wert über dem Signifikanzniveau: Es gibt nicht genügend Beweise, um die Nullhypothese abzulehnen, was darauf hindeutet, dass die Variablen unabhängig voneinander sein könnten.

Die Interpretation des p-Wertes hängt von der gewählten Signifikanzschwelle ab, wobei 0,05 eine häufig verwendete Schwelle ist. Ein hoher p-Wert bedeutet nicht, dass die Variablen unbedingt unabhängig sind, sondern dass wir nicht genügend Beweise haben, um ihre Abhängigkeit statistisch nachzuweisen.

Kolmogorov-Smirnov-Test in \(\textbf{R}\)

Was testen wir?

Der Kolmogorov-Smirnov-Test wird verwendet, um zu überprüfen:

Ein-Stichproben-Test: Ob eine Stichprobe einer theoretischen Verteilung (z.B. Normalverteilung) folgt.
Zwei-Stichproben-Test: Ob zwei Stichproben aus derselben Verteilung stammen.

Null- und Alternativhypothese

Für Ein-Stichproben-Test (Normalverteilung):

Nullhypothese (\(H_0\)): Die Daten folgen der angegebenen Verteilung (z.B. Normalverteilung).
Alternativhypothese (\(H_1\)): Die Daten folgen nicht der angegebenen Verteilung.

Für Zwei-Stichproben-Test:

Nullhypothese (\(H_0\)): Beide Stichproben stammen aus derselben Verteilung.
Alternativhypothese (\(H_1\)): Die Stichproben stammen aus unterschiedlichen Verteilungen.

R-Befehle

Ein-Stichproben-Test (Test auf Normalverteilung):

# Test, ob Daten normalverteilt sind
ks.test(daten$variable, "pnorm", 
        mean(daten$variable, na.rm=TRUE), 
        sd(daten$variable, na.rm=TRUE))

Zwei-Stichproben-Test:

# Test, ob zwei Stichproben aus derselben Verteilung stammen
ks.test(stichprobe1, stichprobe2)

Visualisierung zur Überprüfung

Es ist empfehlenswert, vor dem Test die Daten zu visualisieren:

# Histogramm erstellen
library(ggplot2)
daten %>% ggplot(aes(x = variable)) +
  geom_histogram(bins=50, color="black", fill="lightgrey") + 
  theme_bw() + 
  labs(title='Histogramm der Variable')

# QQ-Plot für Normalverteilung
qqnorm(daten$variable)
qqline(daten$variable)