Berechnung von Varianz und Standardabweichung

Für die Berechnung von Varianz und Standardabweichung ist es wichtig, die zugrundeliegenden Formeln zu verstehen:

# Varianz manuell berechnen
# 1) Zunächst Mittelwert berechnen (falls nicht schon vorhanden)
alterMean <- mean(df$Alter)
n <- length(df$Alter)

# 2) Varianz berechnen
varianz_manual <- sum((df$Alter - alterMean)^2) / (n-1)
varianz_manual
[1] 17.35238
# Vergleich mit R-Funktion
var(df$Alter)
[1] 17.35238
# 3) Standardabweichung als Wurzel der Varianz
sd_manual <- sqrt(varianz_manual)
sd_manual
[1] 4.165619
# Vergleich mit R-Funktion
sd(df$Alter)
[1] 4.165619

Berechnung des Variationskoeffizienten

Der Variationskoeffizient ist ein wichtiges relatives Streuungsmaß, das den Vergleich verschiedener Variablen ermöglicht:

# Variationskoeffizient berechnen
vc_alter <- sd(df$Alter) / mean(df$Alter)
vc_groesse <- sd(df$groesse_m) / mean(df$groesse_m)

# Vergleich der Streuung
data.frame(
  Variable = c("Alter", "Größe"),
  Variationskoeffizient = c(vc_alter, vc_groesse)
)
  Variable Variationskoeffizient
1    Alter            0.18323837
2    Größe            0.06065326

Erweitern der Ergebnistabelle mit Varianz und Standardabweichung

Wie in den vorherigen Kapiteln können wir die Parameter einzeln berechnen und zu einer übersichtlichen Tabelle zusammenfügen:

# Varianz und Standardabweichung berechnen
varianzTab <- df %>% summarise(across(c(Alter, groesse_m), \(x) var(x, na.rm = TRUE))) %>% mutate(Parameter = "Varianz")
sdTab <- df %>% summarise(across(c(Alter, groesse_m), \(x) sd(x, na.rm = TRUE))) %>% mutate(Parameter = "Standardabweichung")

# Zu einer Tabelle kombinieren
varianz_sd <- rbind(varianzTab, sdTab)
varianz_sd
      Alter  groesse_m          Parameter
1 17.352381 0.01135238            Varianz
2  4.165619 0.10654755 Standardabweichung

Wenn Sie bereits eine Tabelle aus den vorherigen Kapiteln haben, können Sie diese Parameter einfach anhängen:

# Falls eine bestehende Tabelle vorhanden ist, können die neuen Parameter angehängt werden
# vollstaendigeTabelle <- rbind(bestehende_tabelle, varianz_sd)

Interpretation des Variationskoeffizienten

Ein Variationskoeffizient kleiner als 1 bedeutet, dass die Standardabweichung kleiner ist als das arithmetische Mittel - die relative Streuung ist somit moderat. Je größer der Variationskoeffizient, desto stärker streuen die Werte relativ zum Mittelwert.