Der Fall Krasnodar Krai ist nicht der einzige. Unten sehen Sie eine grafische Darstellung der Daten aus 36 Regionen (ich habe die besten Beispiele aus 84 ausgewählt), in denen wir entweder
sehen
- eine ähnliche Unterdispersion
- oder zumindest scheinen die Zahlen ein Plateau um eine 'schöne' Zahl zu erreichen (ich habe Linien bei 10, 25, 50 und 100 gezogen, wo mehrere Regionen ihr Plateau finden)
Über den Maßstab dieses Diagramms: Es sieht aus wie ein logarithmischer Maßstab für die y-Achse, ist es aber nicht. Es ist eine Quadratwurzelskala. Ich habe dies so gemacht, dass eine Dispersion wie für Poisson verteilte Daten $ \ sigma ^ 2 = \ mu $ span> für alle Mittel gleich aussieht. Siehe auch: Warum wird die Quadratwurzeltransformation für Zähldaten empfohlen?
Diese Daten suchen in einigen Fällen deutlich unterdispers, wenn sie Poisson-verteilt wären. (Whuber hat gezeigt, wie man einen Signifikanzwert ableitet, aber ich denke, dass er bereits den interokularen Traumatest besteht. Ich habe diese Handlung immer noch geteilt, weil ich es interessant fand, dass es Fälle ohne Unterdispersion gibt, aber Trotzdem scheinen sie an einem Plateau zu haften. Es kann mehr als nur eine Unterdispersion sein. Oder es gibt Fälle wie Nr. 15 und Nr. 22 unten links im Bild, die eine Unterdispersion zeigen, aber nicht den festen Plateauwert.).
Die Unterdispersion ist in der Tat seltsam. Wir wissen jedoch nicht, durch welche Art von Prozess diese Zahlen generiert wurden. Es ist wahrscheinlich kein natürlicher Prozess, und es sind Menschen beteiligt. Aus irgendeinem Grund scheint es ein Plateau oder eine Obergrenze zu geben. Wir können nur raten, was es sein könnte (diese Daten sagen nicht viel darüber aus und es ist höchst spekulativ, sie zu verwenden, um zu erraten, was los sein könnte). Es könnten gefälschte Daten sein, aber es könnte auch ein komplizierter Prozess sein, der die Daten erzeugt und eine Obergrenze aufweist (z. B. sind diese Daten gemeldete / registrierte Fälle und möglicherweise ist die Berichterstattung / Registrierung auf eine feste Anzahl beschränkt).
### mit der folgenden JSON-Datei
### https://github.com/mediazona/data-corona-Russia/blob/master/data.json
Bibliothek (rjson)
#data <- fromJSON (file = "~ / Downloads / data.json")
Daten <- fromJSON (file = "https://raw.githubusercontent.com/mediazona/data-corona-Russia/master/data.json")
Layout (Matrix (1: 36,4, byrow = TRUE))
par (mar = c (3,3,1,1), mgp = c (1,5,0,5,0))
## Rechenmittel und Streuung für die letzten 9 Tage
bedeutet <-rep (0,84)
disp <-rep (0,84)
für (i in 1:84) {
x <c (-4: 4)
y <-Daten [[2]] [[i]] $ bestätigt [73:81]
bedeutet [i] <-Mittelwert (y)
mod <-glm (y ~ x + I (x ^ 2) + I (x ^ 3), Familie = Poisson (Link = Identität), Start = c (2,0,0,0))
disp [i] <-mod $ span> deviance / mod $ df.residual
}}
### einige interessante Fälle auswählen und bestellen
Fälle <c (4,5,11,12,14,15,21,22,23,24,
26,29,30,31,34,35,37,41,
42,43,47,48,50,51,53,56,
58,67,68,71,72,75,77,79,82,83)
Fälle <- Fälle [Reihenfolge (bedeutet [Fälle])]
für (i in Fällen) {
col = 1
if (i == 24) {
col = 2
bg = "rot"
}}
Diagramm (-100, -100, xlim = c (0,85), ylim = c (0,11), yaxt = "n", xaxt = "n",
xlab = "", ylab = "zählt", col = col)
Achse (2, at = c (1:10), Beschriftungen = c (1:10) ^ 2, las = 2)
Achse (1, at = c (1:85), Beschriftungen = Wiederholung ("", 85), tck = -0,04)
Achse (1, at = c (1,1 + 31,1 + 31 + 30) -1, Beschriftungen = c ("1. März", "1. April", "1. Mai"), tck = -0,08)
für (lev in c (10,25,50,100)) {
#Polygon (c (-10.200.200, -10), sqrt (c (lev-sqrt (lev), lev-sqrt (lev), lev + sqrt (lev), lev + sqrt (lev))),
# col = "grau")
Linien (c (-10.200), sqrt (c (lev, lev)), lty = 2)
}}
Zeilen (sqrt (Daten [[2]] [[i]] $ bestätigt), col = col)
Punkte (sqrt (Daten [[2]] [[i]] $ span> bestätigt), bg = "weiß", col = col, pch = 21, cex = 0,7)
Titel (paste0 (i, ":", Daten [[2]] [[i]] $ Name), cex.main = 1, col.main = col)
}}
### eine interessante Darstellung der Unter- / Überdispersion und des Mittelwerts der letzten 9 Datenpunkte
### Man könnte einen Cluster mit geringer Abweichung erkennen und knapp unter 100 bedeuten
plot (means, disp, log = "xy",
yaxt = "n", xaxt = "n")
Achse (1, las = 1, tck = -0,01, cex.axis = 1,
at = c (100 * c (1: 9), 10 * c (1: 9), 1 * c (1: 9)), label = rep ("", 27))
Achse (1, las = 1, tck = -0,02, cex.axis = 1,
Labels = c (1,10,100,1000), at = c (1,10,100,1000))
Achse (2, las = 1, tck = -0,01, cex.axis = 1,
at = c (10 · c (1: 9), 1 · c (1: 9), 0,1 · c (1: 9)), label = rep ("", 27))
Achse (2, las = 1, tck = -0,02, cex.axis = 1,
Beschriftungen = c (1,10,100,1000) / 10, at = c (1,10,100,1000) / 10)
Vielleicht ist dies eine Überinterpretation der Daten, aber hier ist trotzdem ein weiteres interessantes Diagramm (auch im obigen Code). Die folgende Grafik vergleicht alle 84 Regionen (mit Ausnahme der drei größten Regionen, die nicht in das Diagramm passen) basierend auf dem Mittelwert der letzten 13 Tage und einem Dispersionsfaktor basierend auf einem GLM-Modell mit der Poisson-Familie und einer kubischen Anpassung. Es sieht so aus, als ob die Fälle mit Unterdispersion oft fast 100 Fälle pro Tag sind.
Es scheint, dass alles, was diese verdächtigen Werte in der Region Krasnodar verursacht, in mehreren Regionen auftritt und mit einer Grenze von 100 Fällen / Tag in Verbindung gebracht werden könnte. Möglicherweise tritt in dem Prozess, der die Daten generiert, eine Zensur auf, die die Werte auf eine Obergrenze begrenzt. Was auch immer dieser Prozess ist, der die zensierten Daten verursacht, er scheint in mehreren Regionen auf ähnliche Weise aufzutreten und hat wahrscheinlich eine künstliche (menschliche) Ursache (z. B. eine Art Einschränkung der Labortests in kleineren Regionen).