Median, Perzentile & Co

Als ich das erste Mal in meinem Lieblingsstudio ein Lehrvideo drehen konnte wurden mir zwei Stunden zugeteilt. Ich dachte das wäre locker genug für ein zehnminütiges Video, hatte mich aber gründlich getäuscht. Die große Anzahl der Funktionen waren überwältigend, davon mehr in einem anderen Beitrag.

Als Thema hatte ich mir eine Frage vorgenommen, die aus einem echten Job Interview bei Google stammte, für die Position eines Data Scientists (eine von vielen Fragen natürlich):

Schreibe den SQL Code der notwendig ist, um für jede Abteilung einer Firma den Median der Gehälter je Abteilung zu erhalten.

Für diese Frage habe ich mich entschieden, weil nach dem Median gefragt wird. Mehr davon später. Zunächst möchte ich die Kritiken weitergeben, die ich von Kollegen und Bekannten über mein Video erhielt. Zugegeben, ich brauchte eine Weile bis ich mich im Studio zurechtfand, ein paar Schwächen konnte ich schon selbst erkennen. Allerdings hatte ich nicht gerechnet mit:

  • Mein Hemd ist bis zum obersten Knopf zu, ohne Krawatte. Entweder oberster Knopf auf oder Krawatte (es war ein kragenloses Hemd, zu dem keine Krawatte passt).
  • Das Gürtelende hängt lose rum (hat nicht mehr bis zur nächsten Schlaufe gereicht).
  • Der Hintergrund sollte nicht weiß sein, mein weiß-graues Haupt hebt sich nicht deutlich genug ab.
  • Ich sollte bei der Ansprache nicht das Du-Wort verwenden.
  • Beim Öffnen des Browsers war die Sprache auf Polnisch (ich wollte unbedingt eine Internetanwendung zeigen und war gerade in Warschau).
  • Im SQL – Codefragment zeige ich eine Tabelle „angestellte“ – wurde als Rechtschreibfehler angemahnt.

Interessanterweise ging niemand auf tatsächliche Fehler und Schwächen ein. Beispielsweise markierte ich bei den Angestellten einer Abteilung um einen zu wenig. Ich kam auch beim Markieren nicht gleich zurecht, da es sich nicht um einen herkömmlichen Markierstift handelte. Die Stiftbewegungen, wie alle anderen Elemente, werden von Kameras, die am Rahmen des Displays eingelassen sind, aufgezeichnet. Damit entsteht zwar eine leichte Verzögerung, aber es ergeben sich durch diese Technik unzählige Möglichkeiten.

Ausschnitte sind in meinem Video „Minitab: Erste Arbeiten mit der Oberfläche“ als Bonusmaterial zu sehen, ab etwa 5 Minuten. Was könnt ihr kritisieren? Hier der Link:

Nun zum Thema, dem Median – ein Lagemaß, das sträflich vernachlässigt wird, wie ich gerne wiederhole. Aus Gewohnheit nimmt man das arithmetische Mittel, auch in Situationen wo der Median besser geeignet wäre. Beispielsweise weil man den Effekt von Ausreißern vermeiden möchte.

Der Median wird zwar üblicherweise als Lagemaß gehandelt, kann aber auch als Maß der Streuung einer quantitativen oder ordinalskalierten Datenreihe verstanden werden. Das wird deutlicher, wenn man den Median als Mitglied der Familie der Quantilen betrachtet:
In einer geordneten (sortierten; egal ob auf- oder absteigend) Datenreihe ist der Median an derjenigen Stelle, wo darunter und darüber gleich viele Werte sind – also jeweils 50%.

Nun kann mich aber niemand daran hindern, die Datenreihe in beliebig viele Teile zu zerlegen, dergestalt, dass jedes Teil die gleiche Anzahl von Werten enthält.

Häufig verwendete „Teilungen“ sind Perzentile, die beispielsweise bei der Gesundheitsvorsorge von Kindern verwendet werden. Ein Mädchen, das bei der Geburt 2,4 kg wiegt, ist im dritten Perzentil: drei Prozent der Mädchen sind bei der Geburt noch leichter, 97% sind schwerer. Hier gehts zum Nachlesen:
https://www.stillkinder.de/pdf/cht_wfa_girls_p_0_2.pdf

Wichtig ist natürlich nicht so sehr das Perzentil des Gewichts alleine, sondern dass auch die Größe im ähnlichen Bereich liegt und dass während des Wachstums ein als gesund erachtetes Verhältnis beibehalten wird.

Was mich an eine junge Nachbarsfamilie erinnert, deren erstes Baby ein Sechs-Monate – Frühchen war mit 500 Gramm. Muss man sich mal vorstellen. Zum Glück hat sich alles gut entwickelt.

Wir sind etwas vom Thema der Quantile abgewandert. Ein anderes Familienmitglied ist das Quartil, eine Teilung in vier: Q1, Q2, Q3 und Q4. Das unterste Quartil beginnt beim Minimum und geht bis Q1. Q2 entspricht dem Median, Q4 dem Maximum.

Quartile werden zur Darstellung des Boxplots verwendet. Die „Box“ kennzeichnet den sogenannten Interquartilsabstand, der von Q1 bis Q3 geht.

Mit dem Boxplot lässt sich mit etwas Übung ein schneller Überblick über die Streuung der Datenreihe gewinnen, da neben dem Median (Q2) das arithmetische Mittel, sowie die Entfernungen von Minimum bis Q1 und von Q3 bis Maximum (Q4) dargestellt werden.

War etwas Interessantes für dich dabei? Worüber möchtest du hören? Ich freue mich auf deine Kommentare! Kritiken nicht vergessen, am besten konstruktive 🙂

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Ich bin an folgenden Themen interessiert / ich habe folgende Fragen: