Was ist ein Boxplot?

Kürzlich fragte ich auf Twitter, ob man in bibliothekarischen Publikationen erklären müsse, was Boxplots sind, wenn man sie zur Visualisierung von Daten verwenden möchte. Tenor: Eher ja.

Eigentlich sind Boxplots nicht sonderlich kompliziert. Mit Boxplots kann man Verteilungen in Daten visualisieren. Nehmen wir – als einfaches und leicht nachzuvollziehendes Beispiel – die APCs (“Article processing charge”), die im Open-APC-Projekt gesammelt werden.

Die Beispiele hier sind mit R erstellt und relativ leicht nachvollziehbar. Einfach R (und unbedingt RStudio!) installieren und einfach ausprobieren. Es ist nicht so schwer, wie es zuerst aussieht. Und es gibt Unmengen an Tutorials und Büchern zu R. Und vor allem Stackoverflow.

Also: RStudio starten, die hier verwendeten Pakete installieren und dann folgendes Skript eingeben:

# Pakete laden
library(ggplot2)
 
# Daten aus CSV-Datei einlesen
apc <- read.csv('https://raw.githubusercontent.com/OpenAPC/openapc-de/master/data/apc_de.csv',
         encoding = "UTF-8",
         sep=",", header = TRUE)
 
# Daten auswählen
apc <- apc[, c("Institution", "EURO", "Period")] # Nur noch drei Spalten
apc <- apc[apc$Institution == "Hannover U", ] # Nur noch Uni Hannover
 
# Boxplot erstellen 
box <- ggplot(apc, aes(x = Institution, y = EURO))
box <- box + geom_boxplot()
box # Ausgabe

Der Boxplot sieht dann folgendermaßen aus:

Boxplot-Beispiel
Beispielboxplot mit den APCs der Universität Hannover

Erklärung:
X-Achse = Institution; Y-Achse = Höhe der APC in Euro. Was bedeutet jetzt dieses komische Kästchen mit den Strichen und Punkten? Ganz einfach:

Die Box entspricht dem Bereich, in dem die mittleren 50 % der Daten liegen. Sie wird also durch das obere und das untere Quartil begrenzt […]. Dieser ist ein Maß der Streuung der Daten, welches durch die Differenz des oberen und unteren Quartils bestimmt wird. Des Weiteren wird der Median als durchgehender Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm in zwei Hälften, in denen jeweils 50 % der Daten liegen.

Die “Antennen” (oder “Whisker”) auf und unter der Box stehen für die oberen und unteren 25 %. Ausreißer werden durch einzelne Punkte gekennzeichnet. In diesem Fall gibt es zwei Ausreißer zum unteren Ende.

Soviel erst einmal dazu. Es gibt noch viele andere Visualisierungsmöglichkeiten, von denen ich hier demnächst noch einige vorstellen möchte.

Disclaimer: Dies ist eine äußerst laienhafte Erklärung!