Stellen Sie sich eine Schafherde mit 1.000 Schafen vor. Wir wissen: In der Schafherde sind 90 % weiße und 10 % schwarze, 50% weibliche und 50 % männliche, 50 % junge und 50 % ältere Schafe. Um Anfragen vorzubeugen: Die Schafe sind natürlich BIO, werden artgerecht gehalten, und nur mit zartesten Händen geschoren.
Jedes Schaf trägt einen mit WLAN versehenen Transponder, auf dem seine Eigenschaften Identifikationsnummer, Farbe, Geschlecht und Geburtsdatum gespeichert sind. Aus dem Geburtsdatum kann einfach die Altersklasse berechnet werden.
Der Schäfer hat auf seiner Weide ein WLAN und ein Notebook. Eine Stichprobe aus dieser Schafherde kann mithilfe einer Abfrage der Transponder im Statistikprogramm ausgewählt werden. Die Transponder der ausgewählten Schafe leuchten auf, und man kann sie für die Untersuchung aus der Herde entnehmen.
Wenn der Schäfer eine wirklich repräsentative Stichprobe seiner Schafe auswählen will [1], dann muss die Stichprobe entsprechend den oben genannten Anteilen weiße und schwarze, männliche und weibliche, junge und alte Schafe enthalten. In einer Stichprobe von 50 Schafen wären dann z. B. 25 Schafe weiblich, 25 aus der jüngeren Generation, 45 weiß und 5 schwarz.
Welche Möglichkeiten einer Auswahl der Schafe für die Stichprobe scheiden also aus? Der Schäfer kann nicht einfach die ersten oder die letzten 50 Schafe aus der Herde auswählen. Er kann die Auswahl auch nicht den Schafen selbst überlassen.
Der Schäfer muss die Schafe so auswählen, dass die Stichprobe mit einer Kombination aus Vorüberlegung und Zufall gebildet wird. Mit einem Zufallsgenerator und einer systematischen Zusammensetzung der Stichprobe ist das kein Problem. Die Daten liegen ja auf den Transpondern vor.
Es gibt nun einen weit verbreiteten Irrtum über Stichproben: Wenn der Anzahl der untersuchten Schafe nur groß genug sei, dann müssten doch die Ergebnisse desto genauer werden. Ein Anteil der ersten 30 % oder der letzten 40 % an der ziehenden Herde müsse doch immer den Rest repräsentieren.
Warum stimmt das nicht? Unter den ersten 30 % der Herde könnten sich sehr viele junge Schafe befinden, weil sie schneller laufen. Es könnten dort auch überproportional viele weibliche Schafe laufen, weil sie vielleicht zuerst in den Ställen sein wollen. Unter den letzten 40 % der Herde könnten sich wiederum alle schwarzen (oder nur weiße) Schafe befinden – was die Stichprobe zweifellos auch verfälschen würde.
Eine Stichprobe muss also immer nach den Maßgaben der Statistik ausgewählt werden. Es gibt zwar eine Mindestgröße, aber ohne die Beachtung der Herdenstruktur und ohne das Zufallsprinzip wird die Stichprobe nicht belastbar sein. Eine relativ große Stichprobe, die nicht systematisch zusammengestellt wurde, ist für die Statistik wertlos.
(Ergänzung): Es gibt noch einen weit verbreiteten Irrtum über Stichproben: Man könne aus Teilmengen der Stichprobe etwas über die Teilmengen der Gesamtheit erfahren. Warum ist das ein Irrtum?
1. Die Stichprobe dient immer einem bestimmten Zweck. Ein Schäfer will vielleicht den Zustand der Wolle oder das Gewicht der Schafe testen. Dafür wählt er die Schafe repräsentativ aus.
2. Die Anzahl der stichprobenartig ausgewählten Schafe aus den Teilmengen »weiblich«, »jünger« oder »schwarz« ist in der Regel zu gering, um sie als repräsentativ für ihre Teilmenge ansehen zu können. Je kleiner die Teilmenge, desto größer ist der Einfluss des Zufalls.
Deshalb ist es eine gute Faustregel, bei allen Annahmen über Teilgruppen sehr vorsichtig zu sein. Wenn es interessante Vermutungen über die Teilgruppe gibt, sollte eine Stichprobe nur aus der Teilgruppe untersucht werden.
[<- Anmerkung 1]
Dabei setze ich stillschweigend voraus, dass die Eigenschaften der Schafe (Alter, Geschlecht, Farbe) für das Forschungsziel der Stichprobe relevant sind. So ist es ja analog bei Stichproben in der Wahlforschung auch: Ältere und Jüngere, Frauen und Männer (…) sollen gleichermaßen repräsentiert sein.
Wer das Wesen von Stichproben verstanden hat, der weiß nun auch, warum dieses Beispiel nichts taugt: Die ersten 442.000 von 1.100.000 Flüchtlingen können nicht repräsentativ für alle sein.
Da möchte ich mal widersprechen. Zumindest teilweise. Konkret zu
Die ersten eingetroffenen Asylbewerber sind ja schon mal gar nicht die ersten, denn es war ja nicht so wie bei einem Wettlauf, dass alle gemeinsam zum Zeitpunkt x, also beispielsweise am 1.Januar gestartet sind. Nein, das war ein kontinuierlicher Prozess, der sich über längere Zeiträume hinzog, die einzelnen Starts begannen fortwährend. Und laufen jüngere Flüchtlinge schneller als alte? Laufen die überhaupt? Der Großteil der Strecke wird gefahren, da haben sich längst gut funktionierende Transportstrukturen herausgebildet – manche Syrer schaffen es in zwei Wochen. Ob man schneller oder langsamer ist, hängt also bestenfalls vom Zahlungsvermögen ab.
Allerdings finde ich den Wert, den Erik Marquardt da errechnet, immer noch hoch genug. Sein selbst veröffentlichtes Bild bestätigt ja, dass die Altersgruppe 16-35 durchaus zu 70 – 80% aus Männern besteht. 42% insgesamt auf alle anderen Eintreffenden (also auch Jungen und ältere Männer) bezogen sind aber immer noch ganz schön viel, es ist fast die Hälfte.
Außerdem muss man auch die Herkunft unterschiedlich betrachten. Bei den Kriegsflüchtlingen aus Syrien und Irak hatte ich einmal einer Statistik entnommen, dass max. 30% aus allein reisenden Männern (allerdings egal welchen Alters) bestehen können. Syrer und Iraker waren zum damaligen Zeitpunkt ca. 1/3 aller Asylbewerber. Ein zweites Drittel bestand damals aus Leuten vom Westbalkan. Bei denen kommen erfahrungsgemäß hauptsächlich komplette Familien. Also müssen die höheren Anteile allein reisender Männer aus anderen Gruppen stammen, bei denen der Anteil dann richtig hoch ist. Und das dürften die Nordafrikaner sein. Mich würde nicht wundern, wenn es bei denen sogar über 80% sind. Letztlich kann hier also nur eine exakte Statistik helfen, in denen diese Altersangaben auch noch nach Herkunftsländern aufgeschlüsselt sind.
Die Schafe dienen nur zur Illustration des Prinzips der Stichprobe. Ihre Geschwindigkeit hat gar nichts mit der Geschwindigkeit der Fortbewegung der Migranten zu tun.
Verwaltungstechnisch gesehen sind ca. 442.000 Asylbewerber so eingetroffen, dass sie noch registriert werden konnten. Das waren also in Bezug auf die Registrierung die »ersten« ca. 40 % der Gesamtheit der Migranten. Die anderen wurden nicht registriert.
Jetzt ist mein Punkt: Aus der Zusammensetzung der 442.000 registrierten Asylbewerber kann rein statistisch nicht zuverlässig auf die Zusammensetzung der 1.100.000 geschlossen werden.
Kannst Du bitte in Zeile 2 meines Kommentares aus ein
Was die Zusammensetzung der Migranten betrifft, kann ich Deine Überlegungen zum Teil nachvollziehen. Unter den registrierten Asylbewerbern sind vermutlich mehr Familien, weil die Migration vom Westbalkan im zweiten Halbjahr nachgelassen haben sollte (sie haben ja wegen der Regelung über sichere Herkunftsländer keine Chancen auf Anerkennung).
Unter den noch nicht registrierten und nicht im Asylverfahren befindlichen Migranten sind vermutlich mehr junge Männer (Maghreb, Arabien), weil sie im Herbst die Chance auf eine kaum noch kontrollierte Einwanderung nach Deutschland gesehen haben.
Aber all diese Vermutungen können erst widerlegt oder bestätigt werden, wenn das BAMF uns Daten veröffentlicht. Das kann noch ein Jahr dauern …
Das hätte auch Onkel Uwi verstanden
Das ist richtig. Aber die Bio-Schafherde ist eine abgeschlossenen Grundgesamtheit, das Sich-auf-den-Weg-machen und Ankommen von Flüchtlingen dagegen ein Prozeß,
wenn auch kein kontinuierlicher. Er wird beeinflusst, z.B. durch neue Grenzzäune oder das Eingreifen von Putin in den Bürgerkrieg.
Als Analogen bzw. Gegenbeispiel bietet sich ein kontrollierter Produktionsprozeß an, dem ständig Stichproben zur Qualitätskontrolle entnommen werden. Zu Beginn eines zweiten Halbjahres werden einige Parameter gezielt verändert. Jedem leuchtet ein daß die Stichproben aus dem 1.Hj nicht repräsentativ sind für die Ergebnisse aus dem 2.Hj, wohl aber gut für Vergleiche.
Es ist doch nicht entscheidend, wie die Grundgesamtheit zustandekommt. Entscheidend ist, dass die Migranten im Laufe des Jahres 2015 hier angekommen sind.
Wenn 442.000 Asylantragstellern ein Antrag abgenommen wurde, bilden sie verwaltungstechnisch eine Grundgesamtheit, die in dem Tweet des Grünen-Funktionärs mit BAMF-Daten aufgeschlüsselt wurde. Wir müssen dem Amt die Daten so abnehmen und hoffen, dass wir nicht getäuscht wurden.
Wenn (geschätzt) 1.100.000 Migranten insgesamt angekommen sind, bilden sie eine andere Grundgesamtheit, über die wir sehr wenig wissen.
Wir wissen nicht einmal sicher, wie groß die Schnittmenge zwischen beiden Grundgesamtheiten ist, denn unter den Antragstellern von 2015 könnten auch im Jahr 2014 Angekommene sein. Es könnten auch einige Personen in andere Länder gezogen oder schlicht untergetaucht sein.
Alle Vergleiche sind Spekulation. Wir wissen einfach zu wenig.
Ja leider, dank Merkels verantwortungsloser „Mach hoch die Tür …“-Politik.
Und egal ob man nun Grundgesamtheiten zu diesem Thema über den Jahreszeitraum definiert: Die Zahl der jungen Männer ohne Anhang dürfte bei 70% liegen.
Hm – genau gesehen ist eine Stichprobe – wie es ja bei Umfragen gerne benutzt wird – niemals „repräsentativ“. Das wird nur behauptet, mit verschiedenen zweifelhaften Faktoren schöngerechnet und spätestens, wenn man dann das echte Ergebnis sieht und mit den Umfrage-Hochrechnungen vergleicht, merkt man, daß die Werte meist ganz schön daneben lagen.
„Hm – genau gesehen ist eine Stichprobe – wie es ja bei Umfragen gerne benutzt wird – niemals “repräsentativ”.“
Das ist nicht richtig. Es gibt selbstverständlich repräsentative Stichproben. Die Frage ist nur, was darunter verstanden wird.
Man darf „repräsentativ“ nicht missverstehen als: die Häufigkeiten in der gezogenen Stichprobe entsprechen garantiert den Häufigkeiten der Grundgesamtheit. Keine Statistik ist dazu in der Lage.
Wenn ich mich aber richtig erinnere, dann gibt es die Möglichkeit, den Fehler der Stichprobe abzuschätzen. Dazu dient der sogenannte Repräsentationsschluss, der eine mathematische Grundlage hat. Dazu muss die Stichprobe natürlich so gewählt sein wie oben beschrieben. Im wesentlichen;: Es darf keine überproportionale Häufung von Stichprobenelementen mit einem bestimmten Merkmal geben, sondern es müssen alle unterscheidbaren Merkmalsträger entsprechend ihrer gesellschaftlichen Verteilung in der Grundgesamtheit dort auftauchen. Außerdem muss die Fallzahl ausreichend hoch sein.
Kurz gefasst: „Repräsentativ“ gibt nur eine statistische Fehlerwahrscheinlichkeit an und ist nie die Behauptung einer tatsächlichen Entsprechung. Wahlumfragen leben immer mit der Unsicherheit, dass der Wähler sich frei und darum auch anders entscheidet als vorhergesagt.
Die tatsächlichen Wahlergebnisse können abweichen. Die Auftraggeber der Umfragen (Parteien, Medien) bekommen auch eine Toleranz mitgeteilt. Diese wird aber oft nicht veröffentlicht.
Meinungsforscher können nur nach bestem Wissen und Gewissen ihren Job tun. Wir als Bürger müssen (m. E.) unseren Überzeugungen folgen. Umfragen beeinflussen mich nicht mehr.