Erste Schritte mit R

Variablen und Vektoren

  • Variablen in R sind Speicherplätze, die Daten wie Zahlen, Text oder komplexe Datensätze enthalten.
  • Vektoren sind die einfachste Datenstruktur in R und repräsentieren eine Sequenz von Elementen des gleichen Typs.
# Erstellen einer Variablen
x <- 10

# Erstellen eines Vektors
vec <- c(1, 2, 3, 4, 5)

Operatoren und Funktionen

  • Operatoren wie +, -, *, / werden für mathematische Operationen verwendet.
  • Logische Operatoren wie TRUE/FALSE werden für Bedingungen verwendet.
  • Funktionen wie min(), max(), sum() werden zur Datenanalyse verwendet.
# Addition
summe <- 5 + 3

# Logische Operation
logisch <- (summe > 5) # Gibt TRUE zurück

# Anwendung einer Funktion
maximalwert <- max(vec)
minimalwert <- min(vec)
durschnittswert <- mean(vec)

Data Frames

  • Data Frames sind eine zentrale Datenstruktur in R, ähnlich wie Tabellen, bestehend aus Zeilen und Spalten.
# Erstellen eines Data Frames
df <- data.frame(Name = c("Anna", "Bob"), Alter = c(23, 25))

Zugriff auf Elemente eines Data Frames mit $

  • Mit dem $-Operator kann auf einzelne Spalten eines Data Frames zugegriffen werden.
# Zugriff auf die Spalte "Name"
namen <- df$Name

Struktur von Datenobjekten mit str()

  • str() wird verwendet, um die interne Struktur von R-Objekten zu untersuchen, einschließlich Datentypen wie strings, integers, numerics und dates.
# Anzeigen der Struktur eines Data Frames
str(df)
'data.frame':   2 obs. of  2 variables:
 $ Name : chr  "Anna" "Bob"
 $ Alter: num  23 25

Berechnen von neuen Spalten

Mit dem $-Operator können Sie auch neue Spalten berechnen. Die Syntax ist wie beim oben beschriebenen Zugriff auf einzelne Spalten eines Data Frames. Das Prinzip, welches dahinter steht ist das folgende: wenn Sie nach dem $-Operator einen Spaltennamen angeben, welcher noch nicht im Data Frame vorhanden ist, dann erstellt R eine neue Spalte mit genau diesem Spaltennamen. Wenn der Spaltenname schon existiert, dann überschreibt R die Spalte. Es ist also Vorsicht geboten!!

df$Size <- c(1.85, 1.63)

Datentypen in R: Strings, Integers, Numerics und Dates

  • Strings: Strings repräsentieren Text in R. Sie werden durch Anführungszeichen (" ") oder Hochkommas (' ') gekennzeichnet.
text <- "Hallo Welt"
  • Integers: Integers sind ganze Zahlen.
Zahl <- 42
  • Numerics: Dieser Datentyp repräsentiert reelle Zahlen (auch als Fließkommazahlen bezeichnet). Numerics sind in R der Standardtyp für Zahlen ohne ein nachfolgendes “L”.
Kommazahl <- 3.14
  • Dates: Dates repräsentieren Datumsangaben in R. Das as.Date()-Funktion wird verwendet, um Zeichenketten in Datumsobjekte umzuwandeln.
Datum <- as.Date("2023-11-24")

Die seq()-Funktion in R und tidyverse

  • seq() erstellt Sequenzen von Zahlen oder Datumsangaben in R
  • In Kombination mit tidyverse/lubridate wird häufig as_date() statt as.Date() verwendet
  • Die Funktion ist besonders nützlich für die Erstellung von regelmäßigen Abständen oder Zeitreihen
# Laden des tidyverse Pakets (beinhaltet lubridate für Datumsfunktionen)
library(tidyverse)
── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.1     ✔ tibble    3.2.1
✔ lubridate 1.9.3     ✔ tidyr     1.3.1
✔ purrr     1.0.2     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# Grundlegende Verwendung mit Zahlen
zahlen <- seq(from = 1, to = 10, by = 1)     # 1, 2, 3, ..., 10
zahlen2 <- seq(1, 10, 2)                     # 1, 3, 5, 7, 9

# Verwendung mit Datumswerten im tidyverse-Stil
daten <- seq(as_date("2024-01-01"),          # Startdatum
            as_date("2024-12-31"),           # Enddatum
            by = "day")                      # Intervall

# Weitere Intervall-Optionen für Datumswerte
wochen <- seq(as_date("2024-01-01"), by = "week", length.out = 52)
monate <- seq(as_date("2024-01-01"), by = "month", length.out = 12)

Installation und Laden von Paketen

  • Pakete erweitern die Funktionalität von R. Sie müssen zuerst installiert und dann geladen werden.
# Installation eines Pakets (am besten immer in der Console)

#install.packages("ggplot2")

# Laden des Pakets

#library(ggplot2)