Die Datenanalyse des SPIEGEL zur Umweltsau-Affäre

1. Januar 2020

In den Medien setzt sich zur Zeit die Erzählung durch, dass das Video »Umweltsau« vom WDR nach einer koordinierten Aktion rechtsradikaler Accounts zurückgezogen worden sei. Als Grundlage dieser Bewertung wird meist auf einen SPON-Artikel verwiesen. Ich möchte in diesem kurzen Artikel zeigen, dass die Datenauswertung des SPIEGEL diesen Schluss nicht hergibt.

Kritik an der Methode der Kategorisierung

Die Argumentation bei SPON lautet: 210.000 Tweets mit den Hashtags #Umweltsau oder #Nazisau seien von 44.000 Accounts gesendet worden. 23 Prozent der Accounts seien einem »eher rechten Cluster« zuzuordnen, 46 Prozent einem »eher linken Cluster« und 31 Prozent der Accounts konnten keinem der beiden Cluster zugeordnet werden.

SPON hat keinerlei Kriterien veröffentlicht, nach denen die Zuordnung zu den Kategorien »eher rechts«, »eher links« oder »nicht zuzuordnen« vorgenommen wurde. SPON hat auch nicht erhoben, welche Tendenz diese Tweets inhaltlich hatten. Es geht also um eine rein quantitative Erhebung mit nicht nachvollziehbarer Kategorisierung.

Für die Leserin oder den Leser des SPON-Artikels ist nicht nachzuvollziehen, wie die Einstufung als »eher rechts« erfolgte. Erst recht wird nicht qualitativ nachgewiesen, wie viele Accounts in diesem Cluster tatsächlich rechtsradikal organisiert sind. Das wäre aber notwendig, um die These vom Einknicken infolge eines rechtsradikalen Shitstorms zu stützen. Es gibt bekanntlich keine Prüfstelle für die politische Einstufung von Social-Media-Accounts und das ist auch gut so.

Selbst wenn man die Zuordnung zu den Kategorien für einen Augenblick ernst nimmt, bleibt ein erstes Fazit: Es sind 77 % der Accounts gar nicht dem »eher rechten Lager« zugeordnet worden. Das ist das erste Argument gegen die These, dass der WDR von einer koordinierten rechtsradikalen Aktion zum Zurückziehen des Videos gebracht worden sei.


Kritik an der Schlussfolgerung einer Konzentration

Es gibt bei SPON noch eine zweite Auswertungsmöglichkeit: Mit welcher Intensität wurde denn in diesen Gruppen getwittert? SPON behauptet im Artikel (Zitat):

Auffällig dabei: 52 Prozent der Tweets kamen aus dem grünen Cluster, nur 38 Prozent aus dem pinken. Nur 10 Prozent konnten keinem der beiden Cluster zugeordnet werden. Das bedeutet: Im grünen Cluster gab es einige sehr aktive Accounts.

Das ist ein logischer Fehlschluss: Auch wenn die Hälfte der Tweets zu diesen beiden Hashtags von einem »eher rechten Cluster« ausgegangen sein sollte (was wir aufgrund fehlender veröffentlichter Kriterien und Methoden nicht wissen), sind das ungefähr 110.000 Tweets auf 10.000 Accounts. Der Betrachtungszeitraum beträgt drei Tage. Im Schnitt elf Tweets verteilt auf drei Tage: Das erscheint mir nicht besonders dramatisch.

Ob sich aus der Menge der 10.000 angeblich rechts orientierten Accounts einige besonders hervorgetan haben, kann man aus den veröffentlichten Zahlen bisher gar nicht feststellen. Die veröffentlichte Grafik mit den »Clustern« ist dafür völlig ungeeignet. Ob diese Aktiven besonders rechtsradikale Personen waren und ob ihre Äußerungen besonders negativ, hasserfüllt oder ÖRR-feindlich waren, kann man anhand der SPON-Daten erst recht nicht feststellen.


Kritik an der Schlussfolgerung einer Kausalität aus rechtsradikaler Aktivität und Einknicken des WDR

Dazu kommt: Aus der SPON-Datenauswertung geht gar nicht hervor, wann diese Tweets publiziert wurden. Eine weitere große Schwäche der SPON-Datenauswertung ist nämlich die Zusammenfassung der Erhebung über drei Tage. Dabei geht der zeitliche Verlauf völlig verloren. SPON stellt in einem Diagramm den Zeitraum vom frühen Morgen des 27.12.2019 bis zum frühen Morgen des 30.12.2019 dar. In dieser Zeit sollen die 210.000 Tweets geschrieben worden sein.

Das Video wurde aber bereits am Nachmittag des 28.12.2019 aus dem Netz genommen [siehe Ergänzung!]. Wie viele Tweets aus dem »eher rechten Cluster« wurden denn nun vor dem Zurückziehen des Videos abgesetzt? Das müsste man wissen, um einen Druck aus der rechten Szene auf den WDR und dessen Intendanten nachweisen zu können. Die SPON-Datenauswertung gibt uns aber keinerlei Antwort darauf.

Der WDR-Intendant bat in einer WDR-Hörfunksendung ab 18.00 Uhr um Entschuldigung. In dieser Zeit gab es übrigens die meisten Tweets zu diesem Thema: Da war das Video aber schon gar nicht mehr im Netz. Wenn man sich die Kurve bei SPON anschaut, sind weit mehr als die Hälfte aller ausgewerteten Tweets nach dem Zurückziehen des Videos entstanden.

[Ergänzung am 02.01.2019 nach mehreren Hinweisen: Der WDR hat das Video sogar noch zeitiger zurückgezogen. Ein Hinweis kam via Twitter von Pippilotta und der andere von Schillipaeppa [Blog] in den Kommentaren. Wenn also das Video noch wesentlich zeitiger zurückgezogen wurde, ist die Erzählung vom Einknicken vor dem »rechtsradikalen Shitstorm« natürlich noch absurder. Hier ist nach einem Hinweis von Lucas Schoppe nun der exakte Löschzeitpunkt in einem Facebook-Post des WDR.


Kritik an der Intransparenz der Korrektur

In der heute zugänglichen Version des Artikels steht am Ende ein Korrekturhinweis:

In einer früheren Version dieses Textes hatten wir zwei Twitter-Accounts aus dem rechten Spektrum explizit genannt, die an der Verbreitung der Empörung über das Video beteiligt gewesen sein sollten. Beide waren aber in der Anfangsphase nicht ausschlaggebend für die Verbreitung; taugten also nicht als Beispiele. Die Nennung beruhte auf einem anfänglichen Auswertungsfehler, den wir nachträglich korrigiert haben.

Was aber fehlt: Wurden die restlichen Daten auch nachträglich korrigiert? Wenn man zwei offensichtlich bekannten Accounts aus dem rechten Spektrum zunächst eine so hohe Bedeutung zugemessen hat, muss sich das Herausnehmen dieser beiden Personen ja auch in den Daten (Anzahl der Tweets, Anzahl der als »rechts« eingestuften Accounts) niedergeschlagen haben.


Ergänzung: Kritik an der Überschätzung des Einflusses von Twitter

Ich wurde weiterhin darauf aufmerksam gemacht, dass Twitter keineswegs der einzige Kommunikationskanal mit dem WDR ist. Zum einen gingen die ersten Proteste auf der WDR-Facebook-Seite direkt unter dem Video ein. Das müssen schon hunderte kritische Stimmen gewesen sein.

Zum anderen ist es sehr wahrscheinlich, dass sich WDR-Hörer, Interessenvertreter gesellschaftlicher Gruppen, Landes- und Bundespolitiker auch per Telefon, Mail etc. an den WDR gewandt haben. Öffentlich geäußert haben sich Personen aus SPD und CDU, darunter der NRW-Ministerpräsident. Diese Personen haben viel mehr Gewicht als ein (fiktiver) rechtsradikaler Shitstorm im Wasserglas Twitter.


Fazit: Mit den bisherigen Kenntnissen über die Daten aus dem SPON-Artikel lässt sich die These einer Kausalität zwischen dem angeblich koordinierten rechten Shitstorm und dem Zurückziehen des Videos durch den WDR nicht belegen.


Transparenter Nachtrag (01.01.2020 um 15.40 Uhr): Die URL des SPON-Artikels „Umweltsau“-Skandalisierung Die Empörungsmaschine läuft heiß.


Hinweis: Dieser Artikel steht unter einer CC-BY-Lizenz 3.0 (Namensnennung und Verweis per URL auf das Original) und kann in jeder Form in anderen Publikationen verwendet werden, auch in kommerzieller Art und Weise.


 


Getötete Fahrradfahrer

30. September 2015

Jeder Verkehrstote ist ein Toter zu viel. Wer sich mit der Statistik der Verkehrstoten befasst, sollte deshalb besondere Vorsicht walten lassen und alle Quellen prüfen. Der folgende Beitrag handelt von groben Fehlern, die dabei im Journalismus auftreten.


Die Zeitung »Die Welt« schreibt in der Überschrift eines aktuellen Artikels:

Zahl getöteter Radfahrer steigt dramatisch

Erschreckende Studie: Seit 2005 ist die Zahl getöteter Radfahrer im Straßenverkehr um die Hälfte gestiegen.

Um es kurz zu machen und um den Fahrradfahrern unter uns den Schrecken zu nehmen: Die Angabe in der Überschrift und in der Zusammenfassung des Artikels ist völlig falsch. Im Jahr 2014 kamen deutlich weniger Fahrradfahrer ums Leben als im Jahr 2005.


Im Text der »WELT« wird dann auch gar nicht mehr über die Anzahl geschrieben, sondern es wird eine ganz andere statistische Kennzahl dargestellt:

»Unter den Toten im Straßenverkehr ist der Anteil der Fahrradfahrer in den vergangenen zehn Jahren um 50 Prozent gestiegen.«

Diese Angabe ist zwar richtig, aber ebenso irreführend. Denn während der letzten zehn Jahre (2005 bis 2014) ist sowohl die Anzahl der Verkehrstoten als auch die Anzahl der getöteten Radfahrer gesunken. Nur der Anteil der Radfahrer ist gestiegen. Es ist statistisch immer zweifelhaft, mit Anstiegen von Anteilen zu operieren, ohne die absoluten Zahlen zu betrachten.


Quelle der Zahlen ist eine Pressemitteilung über eine Studie des GDV (genauer gesagt: der Unfallforschung des Gesamtverbands der Deutschen Versicherungswirtschaft). In dieser Studie geht es nicht primär um die Gesamtheit der getöteten Radfahrer, sondern um den Anteil, der bei Unfällen mit Autos ums Leben kam. Der GDV schreibt:

Bei mehr als einem Drittel der getöteten Radfahrer und bei fast der Hälfte der schwerverletzten Radfahrer war der Unfallgegner ein Auto.

Die WELT hat die Zahlen also richtig aus der Pressemitteilung übernommen. Aber auch der GDV verschweigt die tatsächlichen absoluten Zahlen: Im Jahr 2005 wurden in Deutschland 575 Radfahrer getötet, im Jahr 2014 waren es 395. Diese Zahlen können Journalisten, Blogger und Leser beim Statistischen Bundesamt finden: Zweiradunfälle im Straßenverkehr (2014), S. 24.

In der Zusammenfassung der Studie sind interessante Ausführungen zu den Fahrradunfällen mit Autos zu finden. Ich will die Studie als solche in keiner Weise schlechtreden. Trotzdem muss man dem GDV den Vorwurf des Rosinenpickens machen: Wenn die Anteile statistisch nicht eingeordnet sind, führen sie die Leser in die Irre.


Die Zahlen des GDV sollen eine Forderung der Versicherungswirtschaft unterstützen: Autos sollen mit Sicherheitseinrichtungen ausgestattet werden, um Radfahrer besser erkennen zu können und sie zu schützen. Deren »Weiterentwicklung und Serieneinführung« sollen beschleunigt werden

Das kann aus Sicht der Versicherungswirtschaft eine berechtigte Forderung sein, denn sie muss die Verbesserungen nicht bezahlen, könnte aber davon einen Nutzen haben.

Es gibt aber auch andere Maßnahmen: bessere Verkehrsplanung, Senkung der Höchstgeschwindigkeit in der Stadt, mehr wirklich gute separate Radwege oder ein Verkehrssicherheitstraining für Radfahrer.


Ergänzung 1: Jede der genannten Maßnahmen muss auf der Grundlage der richtigen statistischen Kennzahlen geplant werden. Dafür hat die Presse eine Mitverantwortung – und wir als Leserinnen und Leser brauchen Kompetenz in Sachen Statistik.


Ergänzung 2: Die Dresdner Zeitung DNN bringt heute auf der letzten Seite einen recht guten Beitrag zum Thema. Sie haben direkt bei den Unfallforschern nachgefragt oder von dort detailliertere Ergebnisse erhalten. Technisch gesehen ist der Artikel in der DNN dem Artikel in der WELT um Längen voraus.

Aus Sicht der Statistik kann ich den Artikel in der DNN mit einer Note 2 bewerten. Es wird nicht ausgesagt, dass die Anzahl der getöteten Fahrradfahrer in den letzten 10 Jahren deutlich zurückgegangen ist. Immerhin steht aber im Artikel, dass die Anzahl der Verkehrstoten insgesamt gesunken ist und dass sich die Anteile der Autofahrer, Radfahrer und Fußgänger verschoben haben.


Ergänzung 3: Den nächsten Fehler leistet sich der WDR. Er postuliert in diesem Artikel:

Tendenz steigend: Die Zahl der getöteten Radfahrer hat in den vergangenen zehn Jahren um 50 Prozent zugenommen, so der Gesamtverband der Deutschen Versicherungswirtschaft (GDV).

Könnte dir Redaktion damit etwas verantwortungsbewusster umgehen? Wer dort arbeitet, muss sich viel weniger Sorgen als die Mitarbeiter in der freien Presse machen, denn das Gebührengeld fließt immer.


Ergänzung 4: Auch die Süddeutsche Zeitung hat eine falsche Überschrift, immerhin stimmt der Text im Link und der Rest des Artikels ist auch nicht zu beanstanden.



Drastische Fahrpreiserhöhungen in Dresden

8. Juni 2012

Die Dresdner Zeitungen berichten über Anpassungen der Tarife im öffentlichen Nahverkehr. Zum Teil verharmlosen sie dabei das Ausmaß der Fahrpreiserhöhung. Das Muster der Argumentation wird vom Verkehrsverbund vorgegeben: Im Durchschnitt ist es doch gar nicht so schlimm. Aus der DNN:

VVO beschließt Preiserhöhung – Tickets werden durchschnittlich um 4,4 Prozent teurer

Der Zweckverband Verkehrsverbund Oberelbe hat am Donnerstag die angekündigte Preiserhöhung im VVO ab November beschlossen. Wie Sprecher Christian Schlemper am Nachmittag bekannt gab, sollen die Ticketpreise um durchschnittlich 4,4 Prozent steigen.

Aus jeder Statistik kann man eine ganz einfache Zahl ableiten. Diese Zahl ist fast immer wertlos.

Das bestätigt sich immer dann, wenn jemand Zahlen verharmlosen oder verschönern will. Dann wird mit allen Mitteln nach einer »günstigen« Zahl gesucht, die das ganze Zahlenwerk repräsentieren soll. Meist ist das leicht durchschaubar.


Der Pressesprecher will die Preiserhöhung als möglichst harmlos darstellen. Also veröffentlicht er in seiner Pressemitteilung an prominenter Stelle das arithmetische Mittel aus den geplanten Erhöhungen.

Aber ein Einzelfahrschein muss natürlich völlig anders gewichtet werden als eine Jahreskarte. Der Einzelfahrschein wird aus politischen Gründen nicht teurer. Die Jahreskarten für Schüler und Erwachsene werden um mehr als sechs Prozent teurer. Die unterschiedliche Bedeutung der vielen einzelnen Erhöhungen bei Tageskarten und Zeitkarten geht in den 4.4 Prozent völlig unter.


Man kann das Prinzip an einem ganz einfachen Beispiel verdeutlichen. Stellen Sie sich vor, dass es in Ihrem Unternehmen vier Gehaltsgruppen gibt: Facharbeiter, Meister, Verwaltung und Geschäftsführer. Innerhalb einer Gehaltsgruppe bekommen alle Mitarbeiter das gleiche Gehalt.

Wie berechnet man nun das durchschnittliche Gehalt aller Mitarbeiter? Ganz sicher nicht aus den vier festgelegten Grundgehältern. Entscheidend ist die Anzahl der Facharbeiter, Meister und Verwaltungsangestellten. Deshalb spricht man von einem gewichteten arithmetischen Mittel.


Es gehört zum Job eines Pressesprechers, seine Organisation möglichst gut aussehen zu lassen. Ihm kann man keinen Vorwurf machen.

Es gehört zum Job eines Journalisten, die Zahlen aus einer Pressemeldung nicht nur zu kopieren, sondern sie dabei zu werten. Wer mit einer wertlosen Zahl in der Überschrift aufmacht, entwertet damit seinen eigenen Artikel und seine eigene Zeitung.


Ergänzung: Inzwischen wurde die Pressemitteilung des VVO (PDF) veröffentlicht. Dort findet sich ein interessanter Satz, den ich so auch nicht in der Presse gefunden habe.

Mit der Anpassung sollen unter anderem die zum Teil deutlichen Kostensteigerungen der Verkehrsunternehmen teilweise aufgefangen werden. Insbesondere die Preise für Energie sind seit 2011 um 10,6 Prozent gestiegen.

Vielleicht machen sich jetzt mal die ersten Bürger (gern auch Journalisten!) Gedanken, ob man die Energiewende nicht doch etwas durchdachter gestalten sollte. Die Probleme mit den Netzen sind ja schon gravierend genug, aber wenn ein Großkunde plötzlich 10,6 Prozent mehr für die Energie bezahlen muss, lässt das doch tief blicken.