Wie man Daten so analysiert, dass das rauskommt was man will

Im Spiegel bin ich auf die Aussage gestoßen, dass Kinder, die mit COVID-19 infiziert sind, genauso ansteckend sind, wie Erwachsene. Zitiert wird dabei eine neue Studie von Christian Drosten und Kollegen. Die Studie habe ich mir mal genauer angeschaut.

Die Studie untersucht virale Last im Rachen bei Personen aus verschiedenen Altersgruppen. In der Diskussion weisen die Autoren darauf hin, dass die virale Last ein Faktor dafür ist, wie ansteckend jemand ist. Andere Faktoren, z.B. wie viel jemand hustet beeinflussen die Ansteckgefahr ebenfalls. Aufgrund viraler Last alleine lässt sich also keine Aussage darüber treffen wie ansteckend Personen sind – anders als der Spiegel schreibt. Das wichtigste Ergebnis der Studie ist, dass sich bezüglich viraler Last keine statistisch bedeutsamen Unterschiede zwischen Erwachsenen und Kindern feststellen lassen. 

Um zu diesem Ergebnis zu kommen, haben die Autoren knapp 60.000 Menschen getestet, von denen 3.726 mit SARS-CoV-2 infiziert waren. Bei diesen Infizierten wurde die virale Last gemessen. Die Teilnehmer wurden zu Analysezwecken in Alters-Gruppen aufgeteilt. In Variante C1 erfolgte die Aufteilung nach Lebensdekaden, also 0-10-jährige, 11-20-jährige usw. In Variante C2 erfolgte die Aufteilung nach Lebensabschnitt. Kindergarten, Grundschule, Weiterführende Schule, Universität, Erwachsene, Ältere. Diese Gruppen wurden auf Unterschiede bezüglich viraler Last analysiert.

Dafür führen die Autoren einen Kruskal-Wallis-Test durch, was bei den vorliegenden Daten als robuste Alternative zur ANOVA sinnvoll ist. Dieser Test ist für beide Varianten der Gruppenbildung, C1 (p = 0.008) und C2 (p = 0.011) signifikant. Dieses Ergebnis deutet darauf hin, dass nicht alle Gruppen bezüglich viraler Last gleich sind – also das Gegenteil dessen, was als Ergebnis der Studie kommuniziert wurde. Schaut man sich die Daten an, scheint es, als wäre die virale Last der jüngeren Gruppen unter 20 Jahren kleiner, als der der Gruppen über 20. 

Dieser erste Eindruck muss jedoch durch Post-Hoc Tests abgesichert werden. Außerdem muss genauer analysiert werden, welche Gruppen sich bezüglich viraler Last unterscheiden. Der Kruskal-Wallis-Test deutet nur darauf hin, dass es Unterschiede gibt. Bei den durchgeführten Post-Hoc Tests ist (bis auf eine Ausnahme) kein Test signifkant, was darauf hindeutet, dass sich keine Gruppe von der anderen unterscheidet. Das ist etwas seltsam, weil es dem Ergebnis des Kruskal-Wallis-Tests widerspricht. Dieser hatte ja darauf hingewiesen, dass es Unterschiede zwischen den Gruppen gibt. 

Dass die Post-Hoc Tests keine signifikanten Ergebnisse liefern liegt daran, wie sie durchgeführt wurden. Aus meiner Sicht gibt es nur zwei Gründe, warum man Post-Hoc Tests so durchführt, wie es die Autoren getan haben. Entweder aus Inkompetenz (was ich nicht glaube) oder, weil man kein signifikantes Ergebnis wollte. Es gibt zwei Sachverhalte die dazu führen, dass die Tests nicht signifikant werden.

Die Gruppen sind sehr unterschiedlich groß. Insbesondere die Gruppen der jüngeren sind sehr klein. In Variante C2 ist dieser Unterschied besonders groß. In der Gruppe der Grundschüler sind 16 Kinder. In der Gruppe der Älteren (45+) sind 2071 Personen. Kleine Gruppengrößen führen dazu, dass der Standardfehler für den Mittelwert sehr groß ist. Mit rund 0.55 ist er für die Grundschüler mehr als 10 mal so groß wie für Älteren mit rund 0.04. Große Standardfehler führen dazu, dass Unterschiede sehr groß sein müssen, um statistisch signifikant sein zu können.

Die Autoren haben alle theoretisch möglichen Post-Hoc Tests durchgeführt. Post-Hoc Tests laufen Gefahr, aus reinem Zufall signifikante Ergebnisse zu liefern, wenn sie in großer Zahl durchgeführt werden. Deswegen gibt es zwei Regeln, die bei Post-Hoc Tests befolgt werden sollten. (A) Mache so wenige Post-Hoc Tests wie möglich, um deine theoretisch abgeleitete Hypothese zu prüfen; (B) Korrigiere das Signifikanzniveau z.B. mit der Bonferroni Korrektur.  Die Autoren haben Regel B befolgt und drei verschiedene Post-Hoc Tests durchgeführt, die das Signifikanzniveau kontrollieren. Leider haben sie Regel A nicht befolgt und alle theoretisch möglichen Kombinationen durchprobiert. Sie haben beispielsweise auch 80-jährige mit 90-jährigen verglichen. In einer Untersuchung, die inhaltlich stark auf die Ansteckungsgefahr durch Kinder fokussiert, ist das überraschend. Die Folge dieses Vorgehens ist, dass das Signifikanzniveau sehr streng wurde. Vereinfacht gesagt, haben die Autoren 90 Post-Hoc Tests durchgeführt, wodurch das Signifikanzniveau um fast den Faktor 90 strenger wurde. Dadurch wurde kein Vergleich mehr signifikant. Diese Logik gilt für zwei der drei verwendeten Post-Hoc Tests, Bonferroni und Dunn. Der dritte verwendete Test, Tukey HSD hat die Eigenart bei unterschiedlich großen Gruppen strenger zu sein. Die Gruppen waren wie oben angesprochen sehr unterschiedlich groß.

Die Daten wurden so analysiert, dass die Chance ein signifikantes Ergebnis zu erhalten minimal ist. Diese Möglichkeit Daten tendenziös auszuwerten und zu berichten ist eines der großen Probleme der angeblich wahrheitstreuen Wissenschaft. Wenn ich mir die Daten anschaue, fallen mir mehrere Möglichkeiten ein, wie man sie hätte analysieren können, um klare Unterschiede bezüglich viraler Last zu finden – wenn man das gewollt hätte. 

  • Aufteilung der Probanden in 5 statt in 10 Gruppen nämlich: 0-20, 21-40, 41-60, 61-80 und 80+. Dadurch wäre der Standardfehler geringer. Führt man dann hypothesengesteuert nur einzelne Vergleiche durch, werden diese signifikant, weil nicht so streng korrigiert werden muss
  • Nutzung eines Median-Splits (oder Aufteilung nach Quartilen). Dadurch werden die Gruppen gleich groß. Das erhöht die statistische Kraft bedeutsame Unterschiede zu finden.
  • Analyse mit Linearer Regression mit Alter als Prädiktor für Viruslast. Der Parameter von Virsulast wäre sicherlich signifikant, was einen linearen Anstieg der Viruslast mit Alter unterstützen würde (der sich in den Daten deskriptiv sowieso abzeichnet)

Neben dieser, aus meiner Sicht, seltsamen Nutzung statistischer Verfahren, sind weitere inhaltliche Punkte erklärungsbedürftig.

In der Einleitung zitieren die Autoren eine eigene Studie, die zeigt, dass eine Viruslast kleiner 106 sich im Labor nicht mehr vermehren lässt. Interessanterweise liegt die Viruslast in der betrachten Stichprobe sowohl für den Mittelwert mit 105,19 und auch für den Median mit 104,65 unter diesem Wert. Für mich liegt die Vermutung nahe, dass eine virale Last, die sich im Labor nicht vermehren lässt, sich auch im Menschen nicht vermehren kann. Da die virale Last im Mittel unter dem Wert von 106 liegt, würde das bedeuten, dass ein Großteil der untersuchten Personen nicht ansteckend wäre. Leider gehen die Autoren in ihrem Artikel überhaupt nicht auf diesen Punkt ein. 

Die Autoren bemerken, dass der Anteil der positive-getesteten mit dem Alter steigt. „In our study, the virus detection rate increased steadily with age of patients tested”. Das bedeutet logischerweise, dass Kinder (weil sie die jüngsten sind) besonders selten positiv getestet werden. Die Autoren warnen davor, diesen Umstand als Indiz dafür zu verwenden, dass Kinder sich schwerer mit SARS-CoV-2 infizieren. Stattdessen argumentieren sie, dass die Auswahl der Probanden nach Symptomen erfolgte (Husten und Fieber) und es bei Kindern einfach viele andere Erreger gibt, die diese Symptome bei Kindern, aber nicht bei Erwachsenen hervorrufen. Diese Erklärung hat mehrere Schwachstellen.

  1. Sie erklärt nicht, warum nur jeweils knapp 2.000 0-10-jährige und 10-20-jährige, aber knapp 10.000 21-30-jährige oder 12.000 31-40-jährige getestet wurden. Dieses Verhältnis von 2 zu 10 entspricht bei weitem nicht den demographischen Verhältnissen dieser Altersgruppen das eher bei 4 zu 5 liegt. Wenn die Erklärung der Autoren zutrifft, dass Kinder anfälliger für die Symptome Husten und Fieber sind und die Probanden nach Symptomen ausgewählt wurden, dann müsste man relativ mehr Kinder als Menschen anderer Altersgruppen in der Stichprobe haben. Das Gegenteil ist der Fall.
  2. Sie erklärt nicht, warum der Anteil der Infizierten in der Studie über alle Altersgruppen hinweg ansteigt, nicht nur für Kinder im Vergleich zu Erwachsenen, sondern auch nach dem 20. Geburtstag noch 
  3. Die Autoren haben keine Daten erhoben, um ihre Aussage untermauern zu können. Sie haben keinen Nachweis geführt, dass die Kinder tatsächlich mit anderen Erregern infiziert waren, der die Symptome erklärt.

Ich halte es für äußerst gefährlich, dass eine solche Studie vom aktuell bekanntesten Virologen Deutschlands veröffentlicht und dann sofort plakativ und übermäßig vereinfacht von Medien aufgegriffen wird – insbesondere aufgrund der Begleitumstände: Die Studie wurde auf Twitter, ohne Peer-Review Prozess, mit politischen Empfehlungen und kurz vor einer Bund-Länder Diskussion zum weiteren Vorgehen veröffentlicht.

Natürlich bin ich hier befangen, weil ich möchte, dass meine Kinder möglichst bald wieder in Schule gehen. Mir platzt aber die Hutschnur, wenn ich solche Studien lese, genau anschaue und merke, dass sie tendenziös durchgeführt und noch einseitiger berichtet werden. Das ist Mist und schürt Ängste die unbegründet sind, aber zu negativen Konsequenzen für alle führt.   

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s