Stellen Sie sich eine Schafherde mit 1.000 Schafen vor. Wir wissen: In der Schafherde sind 90 % weiße und 10 % schwarze, 50% weibliche und 50 % männliche, 50 % junge und 50 % ältere Schafe. Um Anfragen vorzubeugen: Die Schafe sind natürlich BIO, werden artgerecht gehalten, und nur mit zartesten Händen geschoren.
Jedes Schaf trägt einen mit WLAN versehenen Transponder, auf dem seine Eigenschaften Identifikationsnummer, Farbe, Geschlecht und Geburtsdatum gespeichert sind. Aus dem Geburtsdatum kann einfach die Altersklasse berechnet werden.
Der Schäfer hat auf seiner Weide ein WLAN und ein Notebook. Eine Stichprobe aus dieser Schafherde kann mithilfe einer Abfrage der Transponder im Statistikprogramm ausgewählt werden. Die Transponder der ausgewählten Schafe leuchten auf, und man kann sie für die Untersuchung aus der Herde entnehmen.
Wenn der Schäfer eine wirklich repräsentative Stichprobe seiner Schafe auswählen will [1], dann muss die Stichprobe entsprechend den oben genannten Anteilen weiße und schwarze, männliche und weibliche, junge und alte Schafe enthalten. In einer Stichprobe von 50 Schafen wären dann z. B. 25 Schafe weiblich, 25 aus der jüngeren Generation, 45 weiß und 5 schwarz.
Welche Möglichkeiten einer Auswahl der Schafe für die Stichprobe scheiden also aus? Der Schäfer kann nicht einfach die ersten oder die letzten 50 Schafe aus der Herde auswählen. Er kann die Auswahl auch nicht den Schafen selbst überlassen.
Der Schäfer muss die Schafe so auswählen, dass die Stichprobe mit einer Kombination aus Vorüberlegung und Zufall gebildet wird. Mit einem Zufallsgenerator und einer systematischen Zusammensetzung der Stichprobe ist das kein Problem. Die Daten liegen ja auf den Transpondern vor.
Es gibt nun einen weit verbreiteten Irrtum über Stichproben: Wenn der Anzahl der untersuchten Schafe nur groß genug sei, dann müssten doch die Ergebnisse desto genauer werden. Ein Anteil der ersten 30 % oder der letzten 40 % an der ziehenden Herde müsse doch immer den Rest repräsentieren.
Warum stimmt das nicht? Unter den ersten 30 % der Herde könnten sich sehr viele junge Schafe befinden, weil sie schneller laufen. Es könnten dort auch überproportional viele weibliche Schafe laufen, weil sie vielleicht zuerst in den Ställen sein wollen. Unter den letzten 40 % der Herde könnten sich wiederum alle schwarzen (oder nur weiße) Schafe befinden – was die Stichprobe zweifellos auch verfälschen würde.
Eine Stichprobe muss also immer nach den Maßgaben der Statistik ausgewählt werden. Es gibt zwar eine Mindestgröße, aber ohne die Beachtung der Herdenstruktur und ohne das Zufallsprinzip wird die Stichprobe nicht belastbar sein. Eine relativ große Stichprobe, die nicht systematisch zusammengestellt wurde, ist für die Statistik wertlos.
(Ergänzung): Es gibt noch einen weit verbreiteten Irrtum über Stichproben: Man könne aus Teilmengen der Stichprobe etwas über die Teilmengen der Gesamtheit erfahren. Warum ist das ein Irrtum?
1. Die Stichprobe dient immer einem bestimmten Zweck. Ein Schäfer will vielleicht den Zustand der Wolle oder das Gewicht der Schafe testen. Dafür wählt er die Schafe repräsentativ aus.
2. Die Anzahl der stichprobenartig ausgewählten Schafe aus den Teilmengen »weiblich«, »jünger« oder »schwarz« ist in der Regel zu gering, um sie als repräsentativ für ihre Teilmenge ansehen zu können. Je kleiner die Teilmenge, desto größer ist der Einfluss des Zufalls.
Deshalb ist es eine gute Faustregel, bei allen Annahmen über Teilgruppen sehr vorsichtig zu sein. Wenn es interessante Vermutungen über die Teilgruppe gibt, sollte eine Stichprobe nur aus der Teilgruppe untersucht werden.
[<- Anmerkung 1]
Dabei setze ich stillschweigend voraus, dass die Eigenschaften der Schafe (Alter, Geschlecht, Farbe) für das Forschungsziel der Stichprobe relevant sind. So ist es ja analog bei Stichproben in der Wahlforschung auch: Ältere und Jüngere, Frauen und Männer (…) sollen gleichermaßen repräsentiert sein.
Wer das Wesen von Stichproben verstanden hat, der weiß nun auch, warum dieses Beispiel nichts taugt: Die ersten 442.000 von 1.100.000 Flüchtlingen können nicht repräsentativ für alle sein.