Frage:
Ein Diagramm der täglichen Fälle von COVID-19 in einer russischen Region erscheint mir verdächtig - ist dies aus statistischer Sicht so?
CopperKettle
2020-05-21 16:53:48 UTC
view on stackexchange narkive permalink

Nachfolgend finden Sie eine Tagesübersicht über neu entdeckte COVID-Infektionen in der Region Krasnodar, einer Region Russlands, vom 29. April bis 19. Mai. Die Bevölkerung der Region beträgt 5,5 Millionen Menschen.

Ich habe darüber gelesen und mich gefragt, ob dies (relativ reibungslose Dynamik neuer Fälle) vom statistischen Standpunkt aus in Ordnung aussieht. Oder sieht das verdächtig aus? Kann eine Kurve während einer Epidemie so eben sein, ohne dass die Behörden der Region an den Daten basteln? In meiner Heimatregion, dem Oblast Swerdlowsk, ist das Diagramm beispielsweise viel chaotischer .

Ich bin ein Amateur in Statistik, also irre ich mich vielleicht und dieses Diagramm ist nichts Außergewöhnliches.

enter image description here

Laut einem Nachrichtenbericht vom 18. Mai 2020 wurden in der Region seit Beginn der Epidemie und bis zu diesem Tag insgesamt 136695 Tests auf COVID-19 durchgeführt.

Bis zum 21. Mai 2020 wurden in der Region insgesamt 2974 Infektionen registriert.

P.S. Hier ist ein Link, den ich zu einer Seite mit besser aussehenden Statistiken gefunden habe, die einen längeren Zeitraum abdeckt, speziell für die Region Krasnodar. Auf dieser Seite können Sie den Mauszeiger über das Diagramm bewegen, um bestimmte Zahlen für den Tag abzurufen. (Der Titel verwendet den Begriff "täglich ausgelöste" Anzahl von Fällen und die Balkenbeschriftung "täglich bestätigt" Anzahl von Fällen):

enter image description here

@Tim, Ich habe CopperKettle gebeten, dies hier zu posten.Auch wenn ich es nicht getan hätte, ich denke, es gibt bedeutsame statistische Fragen, die hier diskutiert werden können, nicht nur Meinungen.
@ttnphns - mit "verdächtig" meine ich "Daten, die absichtlich manipuliert oder gefälscht wurden, um eine ungewöhnlich ebene Kurve zu erzeugen".
@ttnphns,, ein "Amateur in der Statistik", kann möglicherweise nicht klar sagen, was seiner Meinung nach technisch seltsam aussieht.Wenn * ich * es mir ansehe, sehen die Daten für mich sicherlich unterdispers aus.
@CopperKettle, Ihre aufgelisteten Daten summieren sich auf 1903. Wenn es insgesamt 2974 gegeben hat, waren es vor dem 29. April 1071. Stimmt das?
@ttnphns, Es ist in Ordnung, ein neues Tag zu erstellen (dh "[Manipulationserkennung]"), aber bitte erstellen Sie mindestens einen Auszug dafür.
@gung-ReinstateMonica, Ich habe dieses Tag nicht erstellt.Es existierte auf der Website.
Das vollere rote Diagramm ist verräterisch.Nur ein Hinweis: Die Balken zeigen die "Anzahl der bestätigten Fälle" pro Tag.Nun, "bestätigt" ist nicht ganz dasselbe wie "aufgetreten" oder sogar "ausgelöst", es ist ein vermittelteres Ereignis als diese.Eine mögliche Vermittlung kann eine unfaire Manipulation sein.Es sind aber auch andere Varianten möglich, beispielsweise Faktoren hinsichtlich der Verfügbarkeit und Planung von Virendiagnoseverfahren.Diese Faktoren könnten sich auch zwischen April und Mai in der Region geändert haben.Da "bestätigt" weniger unmittelbar ist als (ungefähr Poissonian) "aufgetaucht", könnte dies die Kurve beeinflussen.
@SextusEmpiricus, das kann der Fall sein.Es kann jedoch auch den Jam-Release-Effekt des Test- "Verkehrs" oder sogar von Testanwendungen geben (kranke Menschen, die im April gesperrt waren und ab Anfang Mai massiv in Kliniken angewendet wurden) usw.
Vielleicht können sie nur 100 Tests pro Tag durchführen?(Dies ist etwas scherzhaft, da der Anteil der bestätigten Fälle zu hoch wäre. In bestimmten Regionen gelten jedoch Einschränkungen hinsichtlich der Testkapazität. Dies war sogar hier in der Region San Francisco der Fall.)
@steveo'america wird es wahrscheinlich mehr als 100 Tests pro Tag sein, oder sonst würden fast alle getesteten Personen das Virus haben, das Sie anderswo nicht sehen.Angenommen, es könnten 300 pro Tag sein, und 1/3 von ihnen sind positiv.In diesem Fall beträgt der Mittelwert der positiven Tests pro Tag 100 und die Varianz 66,6 (und die Standardabweichung etwa 8).Auf diese Weise können Sie die Unterdispersion erzielen, sie unterscheidet sich jedoch nicht wesentlich von der Standardabweichung von 10 für eine Poisson-Verteilung.Natürlich kann es mehr Effekte geben, die eine Unterdispersion verursachen (z. B. ist die "Quelle" der Patienten heterogen).
Die Russen müssen einen "Plan" haben, vielleicht sind es täglich 100 neue Fälle, also treffen sie ihn perfekt!
@Arkasal: Das sind einige sehr sowjetische Daten.
Bei Interesse - [hier] (https://www.worldometers.info/coronavirus/country/russia/) ist die Worldometer-Version der Daten.
Könnte jemand, der Russisch kann, eine Übersetzung der Wörter in den Grafiken veröffentlichen?
@JDL Statistik der Coronavirus-Covid-19-Infektionen in der Region Krasnodar (Gebiet);Grafik der diagnostizierten Infektionen nach Datum;Anzahl bestätigter Fälle pro Tag;Nullwerte zeigen einen Mangel an Daten an.
@CopperKettle Bedeutet dies "Abflachen der Kurve"?:) :)
Nicht alle Regionen haben verdächtig flache Daten, siehe [China] (https://www.worldometers.info/coronavirus/country/china/)
@steveo'america Wir haben gesehen, dass in China für eine Weile das Fallwachstum tagelang konstant war und sich in der Mitte nach oben bog.Offensichtlich spiegelte es ihre Fähigkeit zum Testen wider, nicht die Krankheit.
Etwas verwandt: [Kobak, Shpilkin & Pshenichnikov, "Statistische Fingerabdrücke von Wahlbetrug?"* Bedeutung * 13 (4), 20-23, 2016] (https://doi.org/10.1111/j.1740-9713.2016.00936.x), ebenfalls zu russischen Daten.
Sechs antworten:
whuber
2020-05-21 18:22:25 UTC
view on stackexchange narkive permalink

It ist entschieden ungewöhnlich.

Der Grund dafür ist, dass solche Zählungen tendenziell Poisson-Verteilungen aufweisen. Dies impliziert, dass ihre inhärente Varianz gleich der Anzahl ist. Für Zählungen in der Nähe von $ 100 bedeutet $ span>, dass die Varianz von $ 100 $ span> bedeutet, dass die Standardabweichungen nahezu $ 10. $ span> Sofern keine extreme serielle Korrelation der Ergebnisse vorliegt (was weder biologisch noch medizinisch plausibel ist), bedeutet dies, dass die Mehrheit der Einzelwerte zufällig davon abweichen sollte Die zugrunde liegende hypothetische "wahre" Rate um bis zu $ 10 $ span> (oben und unten) und sollte in einer nennenswerten Anzahl von Fällen (etwa ein Drittel von allen) um abweichen mehr als das.

Dies ist schwer auf wirklich robuste Weise zu testen, aber eine Möglichkeit wäre, die Daten zu überpassen , sie sehr genau zu beschreiben und zu sehen, wie groß die Residuen sind. Hier sind zum Beispiel zwei solche Passungen, eine Lowess Smooth und eine Overfit Poisson GLM:

Figure

Die Varianz der Residuen für diese GLM-Anpassung (Generalized Linear Model) (auf einer Logit-Skala) beträgt nur $ 0,07. $ span> Für andere Modelle mit (visuell) Schließen passt die Varianz tendenziell von $ 0.05 $ span> bis $ 0.10. $ span> Dies ist zu klein.

Woher weißt du das? Bootstrap it. Ich habe einen parametrischen Bootstrap gewählt, bei dem die Daten durch unabhängige Poisson-Werte ersetzt werden, die aus Verteilungen stammen, deren Parameter den vorhergesagten Werten entsprechen. Hier ist ein solcher Bootstrap-Datensatz:

Figure 2

Sie können sehen, um wie viel stärker die einzelnen Werte schwanken als zuvor und um wie viel.

Wenn Sie dies $ 2000 $ span> -mal tun, werden $ 2001 $ span> -Varianzen erzeugt (in zwei oder drei Sekunden Berechnung). Hier ist ihr Histogramm:

Figure 3

Die vertikale rote Linie markiert den Wert der Varianz für die Daten.

(In einem gut passenden Modell sollte der Mittelwert dieses Histogramms nahe bei $ 1 liegen. $ span> Der Mittelwert ist $ 0.75, $ span> etwas weniger als $ 1, $ span> gibt einen Hinweis auf den Grad der Überanpassung.)

Der p-Wert für diesen Test ist der Bruchteil dieser $ 2001 $ span> -Varianzen, die gleich oder kleiner als die beobachtete Varianz sind. Da jede Bootstrap-Varianz größer war, beträgt der p-Wert nur $ 1/2001, $ span> im Wesentlichen Null.

Ich habe diese Berechnung für andere Modelle wiederholt. Im folgenden R -Code variieren die Modelle entsprechend der Anzahl der Knoten k und dem Grad d des Splines. In jedem Fall blieb der p-Wert bei $ 1/2001. $ Span>

Dies bestätigt das verdächtige Aussehen der Daten. Wenn Sie nicht angegeben hätten, dass dies Fälle von Fällen sind, hätte ich vermutet, dass es sich um Prozentsätze von etwas handelt. Bei Prozentsätzen in der Nähe von $ 100 $ span> ist die Abweichung sehr viel geringer als bei diesem Poisson-Modell, und die Daten würden nicht so verdächtig aussehen.


Dies ist der Code, der die erste und dritte Ziffer erzeugt hat. (Eine kleine Variante erzeugte die zweite und ersetzte am Anfang X durch X0 .)

  y <c (63, 66, 66, 79, 82, 96, 97, 97, 99, 99, 98, 99, 98,
       99, 95, 97, 99, 92, 95, 94, 93)
X <- data.frame (x = seq_along (y), y = y)

Bibliothek (Splines)
k <- 6
d <- 4
bilden <y ~ bs (x, Knoten = k, Grad = d)
fit <glm (Form, Daten = X, Familie = "Poisson")
X $ y.hat <- vorhersagen (fit, type = "response")

Bibliothek (ggplot2)
ggplot (X, aes (x, y)) +
  geom_point () +
  geom_smooth (span = 0,4) +
  geom_line (aes (x, y.hat), Größe = 1,25) +
  xlab ("Tag") + ylab ("Anzahl") +
  ggtitle ("Daten mit glatter (blau) und GLM-Anpassung (schwarz)",
          Paste (k, "Gradknoten", d))

stat <- Funktion (fit) var (Residuen (fit))
X0 <- X.
set.seed (17)
sim <- replizieren (2e3, {
  X0  $ y <-rpois (nrow (X0), X0 $  span> y.hat)
  stat (glm (Form, Daten = X0, Familie = "Poisson"))
})

z <- stat (fit)
p <- Mittelwert (c (1, sim < = z))
hist (c (z, sim), Unterbrechungen = 25, col = "# f0f0f0",
     xlab = "Restvarianz",
     main = paste ("Bootstrapped-Varianzen; p =", rund (p, log10 (Länge (sim))))
abline (v = z, col = 'Rot', lwd = 2)
 
Ihre Antworten sind immer außergewöhnlich.Ich liebe es, sie zu lesen, weil ich es liebe zu lernen, und ich lerne viel von dir.Vielen Dank.
Sie gehen von einer Poisson-Verteilung aus, aber betrachten wir wirklich die Anzahl der Poisson-Prozesse?Vielleicht sind die Zahlen "pro Tausend" und zählen nicht oder vielleicht sind sie prozentual oder so skaliert, dass ein Maximum gleich hundert ist (wie bei Google-Trenddaten)?Vielleicht stammen die Zahlen nicht aus einem Poisson-Prozess und beziehen sich auf eine bestimmte Grenze des Prozesses (z. B. weisen viele dieser Daten an den Wochenenden Lücken auf, wenn weniger Daten verarbeitet werden)?Die Schlussfolgerung, dass diese Daten „außergewöhnlich“ sind, hängt von diesen Annahmen ab.
@Sextus Das ist eine interessante Beobachtung.Ich bin in der Tat misstrauisch, dass die Zahlen möglicherweise nicht zählen.Aber es sind definitiv keine Fälle pro Tausend - das würde mehr Fälle als Menschen ergeben!In jeder Region Russlands scheinen einige Tausend die richtige Größenordnung zu sein.Damit diese Daten meine Analyse überleben, müssten sie mindestens dreimal größere Zahlen als die Rohzahlen darstellen.(Ich habe das einfach herausgefunden, indem ich "y" mit 3 im Code multipliziert und erneut ausgeführt habe und dies dann erneut mit einem Vielfachen von 10 gemacht habe.)
Übrigens war meine erste Reaktion, mich auf Wochenenden zu konzentrieren, weil sie überhaupt keine Einbrüche aufweisen: Das ist eine außergewöhnliche Abweichung von den Berichtsgewohnheiten vieler anderer Länder.Da ich jedoch nicht über solche Probleme spekulieren und mich nicht auf feinere Details der Zeitreihenanalyse einlassen wollte, entschied ich mich für den einfacheren explorativen Ansatz, den ich hier skizziert habe.
Was ist der Grund, warum Sie sich für Splines mit Grad 4 entschieden haben?Ich habe Ihren Code mit kubischen Splines erneut ausgeführt und die Anpassung war in der Tat viel schlechter.
@COOL Wie ich bereits erklärte, hat das Modell nichts Besonderes.Diese Analyse funktioniert so, dass das Ergebnis gleich bleibt, wenn wir die Anzahl der Knoten und den Grad der Keile variieren, um den Grad der Überanpassung anzupassen.Ich habe Bereiche von 2 bis 12 für "k" und 3 bis 6 für "d" untersucht.Wir könnten das Gleiche tun, indem wir Lowess-Modelle mit unterschiedlichen Spannungsgraden sowie viele andere Regressionsmodelle verwenden.
@Sextus Ich habe keine Ahnung, was Sie unter "Lücken" und "Wochenenden plötzlich vorbei" verstehen: Sie sind in der Grafik in der Frage vorhanden und es gibt keine sichtbaren Lücken.Der p-Wert ist * viel * niedriger als 1/2001, wenn einfach mehr Bootstrap-Iterationen ausgeführt werden.Versuch es!(Ich habe gerade den Code mit $ k = d = 6 $ für 20.000 Iterationen wiederholt, und jetzt liegt der p-Wert bei 1/20001, was so klein ist, wie es für diese Anzahl von Iterationen möglicherweise sein kann.)
@SextusEmpiricus die Zahlen sind Zählungen
@Aksakal Mir ist inzwischen klar, dass die Zahlen tatsächlich Zählungen sind, obwohl ich immer noch Zweifel habe, welche Art von Zählprozess sie erzeugt hat (es ist nur eine Annahme, dass diese Zählungen Zählungen aus einem Poisson-Prozess sind).Vielleicht ist es ein Batch-Prozess, bei dem die Fälle pro 100 gemeldet werden. Oder vielleicht ist es etwas anderes.Um zu wissen, ob diese Zahlen verdächtig sind, sollten wir unsere Modelle und Berechnungen nicht ausführen, sondern Informationen über den Prozess ausgraben, der die Daten generiert hat.
@SextusEmpiricus könnte es so sein, dass diese Region nicht schlechter sein möchte als die nächste Region, also suchen sie den Durchschnitt und begrenzen ihren Bericht
@Aksakal Eine plausible Erklärung könnte sein, dass alle positiven Fälle, die in einem lokalen Labor gefunden wurden, in einem nationalen Labor erneut getestet werden und die Zahlen von * diesem * Labor gemeldet werden.Vielleicht könnten Sie Ihre Antwort für den Fall von Московская область (wie haben Sie die Daten nur für die Stadt erhalten?) Geben, der ~ 1000 Fälle / Tag mit geringer Streuung aufweist.Es würde mich nicht wundern, wenn Sie wieder eine höhere Streuung in den Unterregionen finden.
@SextusEmpiricus Ich habe die Handlung in meiner Antwort abgekratzt, und die URL ist auch da.
Wird das wirklich als * Bootstrapping * bezeichnet? Ich würde dies eine Monte-Carlo-Stichprobe eines Nullmodells, eines Ersatzmodells oder eines ähnlichen Modells nennen.(Beachten Sie, dass es sich nur um Terminologie handelt. Die Analyse scheint mir völlig zutreffend zu sein.)
@Wrzlprmft Ja, es ist ein Bootstrapping, das ehrlich zu Gott ist.Es gibt verschiedene Geschmacksrichtungen.Dieser ist * parametrisch * im Sinne der Annahme, dass die Daten als unabhängige Realisierungen von Poisson-Variablen entstehen - praktisch ein inhomogener Poisson-Prozess.Es gibt kein "Nullmodell" oder eine andere Hypothese.
@whuber: Ich habe eine [Folgefrage] (https://stats.stackexchange.com/q/467975/36423) dazu gestellt.
Sextus Empiricus
2020-05-22 03:27:22 UTC
view on stackexchange narkive permalink

Der Fall Krasnodar Krai ist nicht der einzige. Unten sehen Sie eine grafische Darstellung der Daten aus 36 Regionen (ich habe die besten Beispiele aus 84 ausgewählt), in denen wir entweder

sehen
  • eine ähnliche Unterdispersion
  • oder zumindest scheinen die Zahlen ein Plateau um eine 'schöne' Zahl zu erreichen (ich habe Linien bei 10, 25, 50 und 100 gezogen, wo mehrere Regionen ihr Plateau finden)

more cases

Über den Maßstab dieses Diagramms: Es sieht aus wie ein logarithmischer Maßstab für die y-Achse, ist es aber nicht. Es ist eine Quadratwurzelskala. Ich habe dies so gemacht, dass eine Dispersion wie für Poisson verteilte Daten $ \ sigma ^ 2 = \ mu $ span> für alle Mittel gleich aussieht. Siehe auch: Warum wird die Quadratwurzeltransformation für Zähldaten empfohlen?

Diese Daten suchen in einigen Fällen deutlich unterdispers, wenn sie Poisson-verteilt wären. (Whuber hat gezeigt, wie man einen Signifikanzwert ableitet, aber ich denke, dass er bereits den interokularen Traumatest besteht. Ich habe diese Handlung immer noch geteilt, weil ich es interessant fand, dass es Fälle ohne Unterdispersion gibt, aber Trotzdem scheinen sie an einem Plateau zu haften. Es kann mehr als nur eine Unterdispersion sein. Oder es gibt Fälle wie Nr. 15 und Nr. 22 unten links im Bild, die eine Unterdispersion zeigen, aber nicht den festen Plateauwert.).

Die Unterdispersion ist in der Tat seltsam. Wir wissen jedoch nicht, durch welche Art von Prozess diese Zahlen generiert wurden. Es ist wahrscheinlich kein natürlicher Prozess, und es sind Menschen beteiligt. Aus irgendeinem Grund scheint es ein Plateau oder eine Obergrenze zu geben. Wir können nur raten, was es sein könnte (diese Daten sagen nicht viel darüber aus und es ist höchst spekulativ, sie zu verwenden, um zu erraten, was los sein könnte). Es könnten gefälschte Daten sein, aber es könnte auch ein komplizierter Prozess sein, der die Daten erzeugt und eine Obergrenze aufweist (z. B. sind diese Daten gemeldete / registrierte Fälle und möglicherweise ist die Berichterstattung / Registrierung auf eine feste Anzahl beschränkt).

  ### mit der folgenden JSON-Datei
### https://github.com/mediazona/data-corona-Russia/blob/master/data.json
Bibliothek (rjson)
#data <- fromJSON (file = "~ / Downloads / data.json")
Daten <- fromJSON (file = "https://raw.githubusercontent.com/mediazona/data-corona-Russia/master/data.json")

Layout (Matrix (1: 36,4, byrow = TRUE))
par (mar = c (3,3,1,1), mgp = c (1,5,0,5,0))

## Rechenmittel und Streuung für die letzten 9 Tage
bedeutet <-rep (0,84)
disp <-rep (0,84)
für (i in 1:84) {
  x <c (-4: 4)
  y <-Daten [[2]] [[i]]  $ bestätigt [73:81]
  bedeutet [i] <-Mittelwert (y)
  mod <-glm (y ~ x + I (x ^ 2) + I (x ^ 3), Familie = Poisson (Link = Identität), Start = c (2,0,0,0))
  disp [i] <-mod $  span> deviance / mod $ df.residual
}}

### einige interessante Fälle auswählen und bestellen
Fälle <c (4,5,11,12,14,15,21,22,23,24,
   26,29,30,31,34,35,37,41,
   42,43,47,48,50,51,53,56,
   58,67,68,71,72,75,77,79,82,83)
Fälle <- Fälle [Reihenfolge (bedeutet [Fälle])]

für (i in Fällen) {
  col = 1
  if (i == 24) {
    col = 2
    bg = "rot"
  }}
  Diagramm (-100, -100, xlim = c (0,85), ylim = c (0,11), yaxt = "n", xaxt = "n",
       xlab = "", ylab = "zählt", col = col)
  Achse (2, at = c (1:10), Beschriftungen = c (1:10) ^ 2, las = 2)
  Achse (1, at = c (1:85), Beschriftungen = Wiederholung ("", 85), tck = -0,04)
  Achse (1, at = c (1,1 + 31,1 + 31 + 30) -1, Beschriftungen = c ("1. März", "1. April", "1. Mai"), tck = -0,08)


  für (lev in c (10,25,50,100)) {
    #Polygon (c (-10.200.200, -10), sqrt (c (lev-sqrt (lev), lev-sqrt (lev), lev + sqrt (lev), lev + sqrt (lev))),
    # col = "grau")
    Linien (c (-10.200), sqrt (c (lev, lev)), lty = 2)
  }}
  Zeilen (sqrt (Daten [[2]] [[i]]  $ bestätigt), col = col)
  Punkte (sqrt (Daten [[2]] [[i]] $  span> bestätigt), bg = "weiß", col = col, pch = 21, cex = 0,7)
  Titel (paste0 (i, ":", Daten [[2]] [[i]] $ Name), cex.main = 1, col.main = col)
}}


### eine interessante Darstellung der Unter- / Überdispersion und des Mittelwerts der letzten 9 Datenpunkte
### Man könnte einen Cluster mit geringer Abweichung erkennen und knapp unter 100 bedeuten
plot (means, disp, log = "xy",
     yaxt = "n", xaxt = "n")
Achse (1, las = 1, tck = -0,01, cex.axis = 1,
     at = c (100 * c (1: 9), 10 * c (1: 9), 1 * c (1: 9)), label = rep ("", 27))
Achse (1, las = 1, tck = -0,02, cex.axis = 1,
     Labels = c (1,10,100,1000), at = c (1,10,100,1000))
Achse (2, las = 1, tck = -0,01, cex.axis = 1,
     at = c (10 · c (1: 9), 1 · c (1: 9), 0,1 · c (1: 9)), label = rep ("", 27))
Achse (2, las = 1, tck = -0,02, cex.axis = 1,
     Beschriftungen = c (1,10,100,1000) / 10, at = c (1,10,100,1000) / 10)
 

Vielleicht ist dies eine Überinterpretation der Daten, aber hier ist trotzdem ein weiteres interessantes Diagramm (auch im obigen Code). Die folgende Grafik vergleicht alle 84 Regionen (mit Ausnahme der drei größten Regionen, die nicht in das Diagramm passen) basierend auf dem Mittelwert der letzten 13 Tage und einem Dispersionsfaktor basierend auf einem GLM-Modell mit der Poisson-Familie und einer kubischen Anpassung. Es sieht so aus, als ob die Fälle mit Unterdispersion oft fast 100 Fälle pro Tag sind.

Es scheint, dass alles, was diese verdächtigen Werte in der Region Krasnodar verursacht, in mehreren Regionen auftritt und mit einer Grenze von 100 Fällen / Tag in Verbindung gebracht werden könnte. Möglicherweise tritt in dem Prozess, der die Daten generiert, eine Zensur auf, die die Werte auf eine Obergrenze begrenzt. Was auch immer dieser Prozess ist, der die zensierten Daten verursacht, er scheint in mehreren Regionen auf ähnliche Weise aufzutreten und hat wahrscheinlich eine künstliche (menschliche) Ursache (z. B. eine Art Einschränkung der Labortests in kleineren Regionen).

comparing dispersion

Schöne Antwort (+1).
Gute Antwort.Ich hatte mich gefragt, ob es eine gewisse Verzerrung bei der Auswahl geben könnte - die Daten sehen sicherlich sehr ungewöhnlich aus, aber da so viele lokale Statistiken rund um den Globus erfasst werden, wird erwartet, dass eine kleine Anzahl von Regionen korrekte Daten hat, die allein aufgrund des Zufalls statistisch unwahrscheinlich sind.und es ist einfach, sich auf diese Fälle zu konzentrieren.Das konsistente Muster unwahrscheinlicher Ergebnisse zeigt jedoch, dass dies keine zufällige Instanz ist.
@NuclearWang Es ist auch interessant, dass diese Kurven zeigen, dass es auch nicht so ist, als ob eine einzelne Person die Daten * fabriziert * (ich denke, dass dies in den Köpfen einiger Leute herumgeht).Damit dies zutrifft, muss die Person, die die Daten erstellt hat, viel Fantasie gehabt haben, um diese verschiedenen Kurven zu erstellen, die alle das gleiche Verhalten aufweisen, jedoch jedes Mal auf etwas andere Weise.Das sieht für mich nicht so aus, als würde es aus einer Hand hergestellt.(Ich würde vermuten, dass die positiven Fälle aus Regionen einem zweiten Bundeslabortest unterzogen werden und dieser Test auf 100 / Tag begrenzt ist.)
Die Korrelation von Fällen mit der Bevölkerung könnte ebenfalls informativ sein.Eine "Grenze" um 100 sieht verdächtig aus, aber um Daten auf diese Weise zu korrigieren, müssten alle lokalen Behörden ihre Zeitreihen individuell korrigieren.Es ist ein harter Job.Und Varianz / Mittelwert scheint individuell geformt.Ich denke, dies ist eine Kombination aus Testungenauigkeit, begrenzten Krankenhausbetten, Verzerrung bei der Probenahme von Patienten für Tests und möglicherweise künstlicher (und weniger möglicher) Unterschätzung der Fallzahl.All dies wurde offiziell im Fernsehen und in den Nachrichten berichtet, erwartet für den letzten Punkt.Darüber hinaus sagen die Leute, dass die Zahl der Fälle in ganz Russland überschätzt wird.
@AlexeyBurnakov * ”Ich denke, dies ist eine Kombination aus Testungenauigkeit, begrenzten Krankenhausbetten, Verzerrung bei der Probenahme von Patienten für Tests und möglicherweise künstlicher (und weniger möglicher) Unterschätzung der Fallzahl."* Sicherlich sind all diese Aspekte wahrscheinlich. Aber ich sehe nicht, wie einer von ihnen eine Ursache für Unterdispersion (geringes Rauschen) ist.
Ich verstehe das auch nicht.Aber ich bin vorsichtig mit Worten wie "Die Fed filtert Ergebnisse" oder Fed zwingt Regionen, Ergebnisse zu filtern.Eine Laienlogik über Covid-Statistiken, die wir tendenziell haben, ist, dass es für alle außer den Menschen gut ist, Fälle zu überschätzen (nicht zu unterschätzen).Es ist ein guter Grund, Anstrengungen zu zeigen, um die Menschen zu retten und mehr Bewertungspunkte für alle Ebenen zu verdienen, vom Präsidenten über den Gouverneur bis hin zu den Chefarzten (mehr Budget).Es ist nur ein gesunder Menschenverstand, keine Mathematik.
@AlexeyBurnakov Es ist äußerst unwahrscheinlich, dass die Fälle mit diesen Statistiken verifizierter Fälle * nicht * unterschätzt werden (es sei denn, dies wird absichtlich durchgeführt, aber ich folge nicht Ihren Gründen, warum die Leute dies gerne tun würden).Dies liegt daran, dass es * sehr schwierig * ist, alle Fälle zu verfolgen und zu überprüfen.Um die Häufigkeit oder die Gesamtzahl der in der Vergangenheit betroffenen Personen abzuschätzen, müssen für alle Regionen / Länder immunologische Tests an einer Zufallsstichprobe durchgeführt und diese extrapoliert werden.Es gibt nur eine Statistik, die nicht so schwer zu verfolgen ist, nämlich wöchentliche Todesfälle
Eine Hypothese: Es gibt nur ein Krankenhaus in jedem Krai, es werden täglich 100 Tests durchgeführt, und es wird abgelehnt, Fälle zu melden, die nicht getestet wurden, unabhängig davon, wie gut die Symptome übereinstimmen.
@JohnDvorak, es könnte so etwas sein.Aber ich denke, es ist spezifischer, als hätten die Krankenhäuser selbst mehr Testmöglichkeiten (zumindest einige Berichte besagen, dass es viele Tests gibt), aber die Tests, die für die offizielle Berichterstattung verwendet werden, sind begrenzt.Vielleicht ist es nur ein einziges Labor, dessen Daten verwendet werden.Auf diese Weise erhalten Sie, dass das Testen nicht nur eingeschränkt ist, sondern * auch * dass die Wahrscheinlichkeit / der Anteil positiver Fälle hoch ist (aufgrund der Vorauswahl).
Lewian
2020-05-22 16:19:03 UTC
view on stackexchange narkive permalink

Ich werde nur einen Aspekt erwähnen, den ich in den anderen Antworten nicht erwähnt habe. Das Problem bei jeder Analyse, die besagt, dass dies erheblich ungewöhnlich ist, besteht darin, dass nicht berücksichtigt wird, dass die Daten aufgrund ihres seltsamen Aussehens ausgewählt wurden. Zumindest würde ich annehmen, dass der Thread-Opener nicht nur diese Daten gesehen hat, sondern auch andere Datensätze ähnlichen Typs (vielleicht nicht einmal bewusst, aber in den Medien, ohne es zu merken, weil sie nicht besonders zu sein schienen - aber ich würde jemanden erwarten Wer schreibt einen Beitrag wie diesen, um bewusster gesehen zu haben). Die zu behandelnde Frage ist daher nicht, ob sich die als isoliert angesehenen Daten erheblich von den zu erwartenden unterscheiden, sondern ob, wenn alles normal ist (nicht wie in "normal verteilt" gemeint, Sie wissen, was ich meine), Es ist zu erwarten, dass jeder Datensatz wie dieser oder mit einem anderen Muster, der den Thread-Öffner auch dazu veranlasst, hier zu posten , unter allen ist, die er sieht . Da wir nicht wissen, was sie gesehen haben, ist das ziemlich schwer zu beurteilen, es sei denn, wir haben einen p-Wert von $ 10 ^ {- 10} $ span>, der dies tun würde immer noch eine signifikante Anpassung für fast eine beliebige Anzahl von Mehrfachtests.

Eine andere Möglichkeit, dies zu testen, besteht darin, auf der Grundlage der Daten Vorhersagen für die Zukunft zu treffen und dann zu testen, ob der seltsame Trend mit Beobachtungen weitergeht, die nicht Teil derjenigen waren, die zur Auswahl dieses Datensatzes geführt haben.

Natürlich kann auch die andere Antwort, die besagt, dass diese Art von zwielichtigem Muster auch in anderen Regionen auftritt, die Gewissheit vermitteln, dass etwas Sinnvolles vor sich geht, weil es dann nicht so besonders ist, es auszuwählen. Der Punkt, den ich ansprechen möchte, ist jedoch, dass für jede Analyse die Auswahlverzerrung nicht vergessen werden sollte.

Dies hängt auch mit dem [Irrtum des Staatsanwalts] zusammen (https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy#The_Sally_Clark_case).Ein [Beispiel dafür] (https://arxiv.org/abs/math/0607340) von niederländischen Gerichten war meine erste Einführung in die Bayes'sche Statistik.Wichtig ist auch, die Datenerfassung zu berücksichtigen.Anstatt unsere Gleichungen sinnlos anzuwenden, sollten wir auch den Prozess, der die Daten generiert, sorgfältig prüfen.Schauen Sie sich zuerst an, was los ist, bevor Sie die Modelle anwenden.
Aksakal
2020-05-22 00:26:17 UTC
view on stackexchange narkive permalink

Krasnodar

Die Daten für eine Region sind hinsichtlich ihrer Streuung eindeutig nicht realistisch. Hier sind Daten zur Stadt Krasnodar. Der Probendurchschnitt beträgt im Mai 34 und die Dispersion 8,7

enter image description here

Dies ist mehr als die Poisson-Verteilung vermuten lässt, wobei die Dispersion die Quadratwurzel des Durchschnitts ist, d. h. 5,9. Dies ist überstreut, aber die Stichprobengröße ist ziemlich klein, so dass es schwierig ist, die Poisson-Verteilung einfach abzulehnen. Die Stadt hat eine Bevölkerung in der Nähe von 1 Million Menschen.

Wenn wir jedoch mit 5,5 Millionen Einwohnern in Kransodar Krai springen, bricht die Dispersion plötzlich zusammen. In Ihrem Diagramm liegen die neuen Fälle im Durchschnitt bei 100, aber die Streuung beträgt 1-2. In Poisson würde man eine Streuung von 10 erwarten. Warum sollte das Kapital überstreut sein, aber die gesamte Region wäre stark unterstreut? Es macht für mich keinen Sinn.

Und wohin ging die ganze Zerstreuung von der Hauptstadt der Region? "Es ist unvorstellbar!" (c) zu glauben, dass die regionale Inzidenz sehr stark negativ mit ihrem Kapital korreliert. Hier ist ein Streudiagramm der Fälle außerhalb von Krasnodar in der Region gegen die Stadt Krasnodar. enter image description here

Quelle

Diagramm: Quelle: https://www.yuga.ru/media/d7/69/photo_2020-05-21_10-54-10__cr75et3.jpg

kratzte Daten: 14 45 37 37 32 25 33 40 47 40 33 38 47 25 37 35 20 25 30 37 43

Russland

@AlexeyBurnakov zog die Tabelle für ganz Russland: enter image description here

Ich habe die Daten für Mai abgekratzt und sie sind stark überstreut. Der Durchschnitt liegt bei 10 K, aber die Varianz beträgt 756 K, wobei die Dispersion 870 viel höher ist, als der Poisson-Prozess vermuten lässt. Daher stützen die Gesamtdaten für Russland meine Behauptung, dass die Daten der Region Krasnodar abnormal sind.

9623 10633 10581 10102 10559 11231 10699 10817 11012 11656 10899 10028 9974 10598 9200 9709 8926 9263 8764 8849 8894

Quelle

https://yandex.ru/covid19/stat?utm_source=main_title&geoId=225

Interessante Analyse (+1), aber es ist nicht wirklich unvorstellbar, dass Sie eine negative Korrelation erhalten.Wenn einige der Menschen, die Anzeichen einer Krankheit aufweisen, zur Untersuchung / Behandlung in die Hauptstadt gebracht werden (oder umgekehrt), würde dies zu einer negativen Korrelation zwischen der Inzidenz an beiden Orten führen, nicht wahr?(Ich sage nicht, dass dies geschieht; nur, dass es "denkbare" Möglichkeiten gibt, die die negative Korrelation hier erklären können.)
Ich finde das ein interessanter Ansatz und frage mich, ob die Moskauer Vorstadtregion (~ 1000 Fälle / Tag) ähnliche Korrelationen haben könnte.Wenn ich jemals Zeit finde, werde ich die Daten https://www.google.com/search?q="Балашиха"+covid+site:https://covid.mz.mosreg.ru kratzen und pca ausführen, um sie zu findenKorrelationen und sehen, ob Unterregionen ein Vielfaches von 100 ergeben.
EngrStudent
2020-05-21 18:23:52 UTC
view on stackexchange narkive permalink

Ich denke, das sind die Daten:

  Monat Tag neue Delta Zehner
     4 29 63 NA 6 3
     4 30 66 3 6 6
     5 1 65 -1 6 5
     5 2 79 14 7 9
     5 3 82 3 8 2
     5 4 96 14 9 6
     5 5 97 1 9 7
     5 6 97 0 9 7
     5 7 99 2 9 9
     5 8 99 0 9 9
     5 9 98 -1 9 8
     5 10 99 1 9 9
     5 11 98 -1 9 8
     5 12 99 1 9 9
     5 13 96 -3 9 6
     5 14 97 1 9 7
     5 15 99 2 9 9
     5 16 92 -7 9 2
     5 17 95 3 9 5
     5 18 94 -1 9 4
     5 19 93 -1 9 3
 

Eines der unterhaltsamen, einführenden Elemente der forensischen Buchhaltung ist Benfords Gesetz.

Wenn ich mir die Frequenzen der Ein- und Zehner anschaue, erhalte ich Folgendes:

  Zählrate
    1 0 0.0
    2 2 9.5
    3 2 9.5
    4 1 4.8
    5 2 9.5
    6 3 14.3
    7 3 14.3
    8 2 9.5
    9 6 28.6

 Zehnerzählrate
    1 0 0.0
    2 0 0.0
    3 0 0.0
    4 0 0.0
    5 0 0.0
    6 3 14.3
    7 1 4.8
    8 1 4.8
    9 16 76.2
 

Ich bemerke ein sehr starkes Überwiegen von "6" und "9" in den Daten.

Wenn die Ein-Stellen-Ziffern (zweite Ziffern) gemäß den Regeln von Benford verteilt wurden, sollten sie in der Nähe von 9,7% bzw. 8,5% der Zeit auftreten, anstatt besser als 20% der Zeit.

An Benfords Gesetz zu denken ist gut, aber es ist nicht anwendbar.Der Grund dafür ist, dass das Benford-Gesetz nur dann gelten kann, wenn die Daten über mehrere Größenordnungen reichen.Hier konzentrieren sich ihre Anfangsziffern offensichtlich auf 9 und 1, selbst wenn die Daten eine ehrliche Berichterstattung über Werte widerspiegeln, die tendenziell zwischen 90 und 199 liegen. Daher ist das Benfordsche Gesetz (für sich genommen) nutzlos, um ehrliche Daten von gefälschten Daten zu unterscheidenBeispiel.
Wenn das Benfordsche Gesetz so funktioniert hat, können Sie zeigen, dass jeder Datensatz mit einer kleinen Standardabweichung gefälscht ist, indem Sie ihn in einer (nicht) entsprechend großen Basis anzeigen.
@BlueRaja-DannyPflughoeft, Wenn ich (viel weniger) von Hand winken wollte, würde ich die Stichprobengröße verwenden, um ein paar anständige Grenzen zu setzen.Im Moment habe ich einen Mittelwert und die Hälfte der Zeit, in der Sie darüber und die Hälfte darunter liegen: Das mittlere Ziel kann für die Karriere viel schlechter sein als das 95% -KI-Fenster.
Nur in einem nicht statistischen Sinne impliziert die Prävalenz von Neunern sowohl in Einsen als auch in Zehner, dass sie versuchen, selbst diese Zählungen kleiner erscheinen zu lassen als sie sind, z."Es sind nur etwa 10 Fälle" (19) oder "es sind noch nicht einmal hundert" (99). Dies ist ein bekannter Trick, um etwas weniger erscheinen zu lassen, z. B. der 99/95-Cent-Trick
@Bob Das Problem mit dieser Argumentation ist, dass, wenn die wahre Rate während dieses Zeitraums nahe 100 wäre, ungefähr ein Drittel der Zeit, in der wir in den 90er Jahren Zählungen sehen würden, und die Hälfte der Zeit, in der wir sie in den 100er Jahren sehen würden, also ein Übergewicht von beobachten würde9 und 1 unter den Anfangsziffern unterscheiden zufälliges, unabhängiges Verhalten nicht von Verhalten, das ungewöhnlich oder verdächtig aussieht.Das Benford-Gesetz ist unter diesen Umständen weder anwendbar noch nützlich.
Die Kritik an den 'Zehner' ist ein fairer Punkt, aber EngrStudent zeigt auch, dass es eine Diskrepanz bei den 'Einsen' gibt (wo auch der Nullwert fehlt, der die Diskrepanz größer macht).Für diejenigen ist das "Problem" jedoch, dass der Test für diese kleinen Zahlen (mit großer Varianz) nicht sehr leistungsfähig ist. Ein Chisquadrat-Test ergibt nur einen p-Wert um 0,17, so dass es nicht so besonders ist, diese Diskrepanzen zu sehen.Beispiel: Führen Sie den folgenden R-Code "chisq.test (c (0,0,2,2,1,2,3,3,2,6))" aus
Alexey Burnakov
2020-05-22 14:34:03 UTC
view on stackexchange narkive permalink

Interessante Punkte von allen. Lassen Sie mich einigen widersprechen.

1) Warum Poisson? Der Prozess der Fallgenerierung ist als pandemische Interaktion zwischen krank und gesund intristisch voneinander abhängig, sodass das Auftreten von Fällen in einem Zeitintervall möglicherweise durch die vorherigen Intervallereignisse beeinflusst wird. Die Abhängigkeit kann kompliziert, aber stark sein.

UDPATE (Stand 23. Mai)

1.1) Stellen Sie sich die Physik des Prozesses vor.

  • a) Eine Person ist gesund ->
  • b) Sie werden von einem Covid-positiven infiziert ->
  • c) sie füllen sich krank und gehen in ein Krankenhaus ->
  • d) sie werden überprüft, nachdem sie - und sehr wahrscheinlich - in der Schlange gewartet haben, oder Zeitplan Slot ->
  • e) Das Labor verarbeitet Tests und ermittelt neue Positive ->
  • f) Ein Bericht geht an ein Ministerium und wird täglich zusammengefasst Bericht.

Ich möchte nach langen Diskussionen und Abstimmungen noch einmal darauf bestehen, dass Sie, wenn Sie the Stage F-Berichte sehen, verstehen sollten, dass Ereignisse als Funktion vieler menschlicher Interaktionen aufgetreten sind. und es ist wichtig, dass sie angesammelt wurden, um einen "Engpass" zu überwinden: entweder ihre eigene Zeit für einen Arztbesuch, den Zeitplan für einen Arzttermin oder die Bearbeitungsgrenzen für Labortests. All dies macht es nicht-poissonisch, da wir das Poisson nicht für Ereignisse verwenden, die in einer Reihe warten. Ich denke, dass es hauptsächlich um Labortests geht, die von Menschen durchgeführt werden, die mit durchschnittlicher Kapazität arbeiten und nicht zu viele pro Tag verarbeiten können. Es ist auch möglich, dass in der letzten Berichtsphase Informationen in einer Art Bucket gesammelt werden.

Mein Punkt ist, dass es nicht Poisson oder Verallgemeinerung ist. Es ist der "Poisson mit Wartezeit und Datenakkumulation in Zeiträumen". Ich sehe keine 100% igen Beweise für "sowjetische Datenmanipulationen". Es können nur Unmengen vorverarbeiteter Daten sein, die gemeldet werden müssen.

2) Für die Region Krasnodar scheint der Tagesmittelwert nicht stationär zu sein. Es ist überhaupt nicht gut, sich diesen Daten aus Poisson-Sicht zu nähern, oder zumindest sollte man nur den stationären Teil davon nehmen.

Bei diesen Punkten handelt es sich um zwei Hauptverletzungen der Possion-Verteilungsannahmen.

3) Warum 100 Tests pro Tag? Es ist eine offizielle Information, dass in Russland (und ich bin in Russland und lese ständig Nachrichten) bisher 7,5 Millionen Tests durchgeführt wurden und ungefähr 330.000 Fälle bestätigt wurden (Stand 22. Mai). . Der Anteil der Positiven beträgt weniger als 5%. Damit sollten Sie mindestens 2.000 zulässige Tests pro Tag erwarten. Dies könnte real sein, da die Tests selten und teuer sind und nicht nur in Krasnodar, Russland oder Europa. Es ist überall gleich. @Aksakal

enter image description here

(Quelle: https://yandex.ru/covid19/stat?utm_source=main_title&geoId=225)

4) Warum sollten Sie jemals denken, dass dies "sowjetische Daten" sind? Sehen Sie sich die Weltdaten für neue Covid-Fälle an. Es ist extremely mit geringer Varianz, wenn Sie denken, dass es Poisson sein muss (eine Summe von Poissons ist ein Poisson). Ist die Welt dann "sowjetisch" (ich denke du meinst Lügen?)? @ Ben - Monica wieder herstellen

enter image description here

(Quelle: https://yandex.ru/covid19/stat?utm_source=main_title&geoId=225)

Es scheint mir also, dass die Anwendung von Statistiken im Falle einer Pandemie eine gefährliche Sache ist. Viele Annahmen aller Art müssen zutreffen, um zu dem Schluss zu kommen, was geschlossen wurde.

UPDATE

Um den Punkt über die Weltdaten unter / Überdispersion anzusprechen,

  Bibliothek (data.table)
Bibliothek (magrittr)

dat <- read.csv (url ('https://covid.ourworldindata.org/data/owid-covid-data.csv'))

setDT (dat)

dt <-
    dat [location == 'World', sum (new_cases), date]% >%
    . [, Datum: = as.Date (Datum)]% >%
    . [Datum > = '2020-04-01']% >%
    Setorder (Datum)

min (dt $ V1)

max (dt $ V1)

Mittelwert (dt $ V1)
var (dt $ V1)

var (dt  $ V1) / mean (dt $  span> V1) # tatsächlich eine enorme Überdispersion

Plot (dt $ V1, Typ = 'l')

acf (dt $ V1)
 

Ich habe Daten für den 1. April bis heute erhalten (als stationärere Plateu-Phase).

enter image description here

Die Berechnung ergab, dass das Verhältnis von Varianz zu Dispersion 1083 beträgt. Dies ist eine enorme Überdispersion.Meine Analyse mit bloßem Auge war falsch.

Es liegt eine signifikante wöchentliche Autokorrelation vor.

enter image description here

Dies kann einer der Gründe für eine höhere Varianz sein, aber reicht es aus?Und warum gibt es ein tägliches Muster?Ist es immer noch der Poisson-Prozess oder die Lügenstatistik weltweit?

Ich weiß nicht, dass die Welt sowjetisch ist, aber ich weiß, dass moderne Politiker nach zwei Fähigkeiten gefiltert werden: Bühnenattraktivität (guter Betrüger) und Spendenbeschaffung (guter Ausverkauf).Ich weiß nicht, dass der Poisson-Prozess tatsächlich die Physik der Phänomene erfasst.Ich sehe keine Kontaktverfolgung in der sozialen Grafik, der Viruslast oder Ähnlichem.
Der Punkt ist, dass die Daten unterstreut sind.Trotz Ihrer Punkte (1) und (2) sollte man erwarten, dass die Varianz des Rauschens in den Daten nahe am Mittelwert der Daten liegt (oder größer / überdispers).Dies geht auch aus der Darstellung der Kurven hervor, in denen wir die merkwürdige * drastische * Abnahme des Rauschens im Mai sehen.(3) * "Damit sollten Sie mindestens 2.000 zulässige Tests pro Tag erwarten" * Was meinen Sie damit?(4) Die Weltdaten weisen keine geringe Varianz auf.Es reicht von 80k bis 100k.Also ungefähr ein Variationskoeffizient von ungefähr 10%.Das ist * Überdispersion * nicht * Unterdispersion *.
1) und 2).Ich verstehe nicht, warum eine Unterdispersion erwähnt werden sollte, wenn Sie nicht sicher sind, ob es sich um Poisson-Daten handelt.Das war der Punkt.3) Ich meine, es gibt durchschnittlich 5 von 100 Personen, die nach der Durchführung von Tests Covid-Positive waren. 100 Positive bedeuten also durchschnittlich 100 * 20 Tests ... Das kann wirklich eine große Anzahl von Tests für eine kleine Region wie Krasnodar seinund die Testnummer kann aufgrund von Budgetbeschränkungen aufgrund des Mangels an medizinischem Personal auf 2000 begrenzt werden.4) Lassen Sie mich meiner Antwort einige Nachforschungen hinzufügen, vielleicht haben Sie Recht.
@EngrStudent, Ich würde niemals gerne sehen oder mich mit der Politisierung von Daten auf dieser Website beschäftigen, die mir gefällt.Ganz zu schweigen davon, dass die Statistik und Wirtschaftswissenschaft in der Sowjetunion sehr hoch entwickelt war.Intuitiv ist der Datengenerierungsprozess von Ihren beiden anderen Kommentaren abhängig, und die Daten, die ich gesehen habe, waren immer seltsam und nicht zufällig.
@AlexeyBurnakov - Ich würde weinen, wenn das passieren würde.Basil Nikolaenko hat mir partielle Differentialgleichungen beigebracht.Er leitete zwei Teams bei der NASA, einen amerikanischen Taschenrechnerfahrer und einen anderen russischen Bleistiftbenutzer mit Migrationshintergrund, und er sagte, als die Einwanderergruppe mit etwas zu ihm kam, stimmten ihre Sachen immer.Ich respektiere die russische Mathematik sehr.Ich weiß aber sowieso nichts über die russische Wirtschaft.
Das tägliche Muster kann von verschiedenen Faktoren herrühren: Arbeitswoche vs. Aktivität / Erholung der Wochenendarbeiter, Arztstunden (normalerweise nicht am Wochenende), Zeitplan für Aktualisierungen, Betriebszeiten des Labors / der Einrichtung
@EngrStudent, Ich stimme dem zu.Aber es macht Daten seltsam und verletzt das, was wir über echte Verteilungen wissen.Das Reduzieren der Fallzahlen kann auch zu einer Unterdispersion führen und macht Daten auch seltsam.Und ich stimme zu, dass dies eine Manupulation sein kann, aber auch auf den Mangel an medizinischer Belegschaft (ein großes Problem, Ärzte haben überall in zusätzlichen Schichten gearbeitet) und das Budget, das die Anzahl der durchgeführten Tests einschränkt.
Nach den gestrigen Nachrichten soll die Region Krasnodar (1) die Tourismus-Saison ab Juli noch eröffnen (die Region ist ein wichtiger Badeort am Meer).(2) Das Isolationsregime soll ab morgen erheblich gelockert werden.Diese Tatsachen sollten berücksichtigt werden, da die Behörden einige Aktivitäten zur Erfüllung der Pläne aufgenommen haben.Diese Handlungen könnten aber nicht notwendigerweise eine Art Falzifizierung von Zahlen implizieren.Sie würden jedoch einen definitiv nicht-poissonischen Prozess "täglich bestätigter Fälle" implizieren.
@ttnphns, ja, stimmt.Und andere von Touristen abhängige Regionen wie die Türkei, Italien und möglicherweise auch andere lockern das Karantinregime.
@AlexeyBurnakov - die "Diamond Princess" -Daten sind nahezu makellos.Die Demografie ist etwas älter.(https://www.nature.com/articles/d41586-020-00885-w) Die Herausforderung besteht dann in einem dynamischen Systemmodell, das diese nicht-zylische Phänomenologie in das komplizierte Material umwandelt, das wir sehen.
@AlexeyBurnakov Wenn Sie jeden Tag 2000 Tests haben, von denen jeder Test eine Wahrscheinlichkeit von 5% hat, positiv zu sein, dann haben Sie so etwas wie einen binomial verteilten Wert (mit $ n = 2000 $ und $ p = 0,05 $), für den der Erwartungswert gilt, $ np $ und Varianz $ np (1-p) $ sind immer noch sehr nahe beieinander (es erklärt, warum Sie durchschnittlich 100 Tests erhalten, aber nicht, warum Sie 100 * mit so wenig Variation * erhalten) ....
..... In den meisten Situationen mit Zähldaten sollten wir erwarten, dass Varianz und Mittelwert ungefähr gleich sind.Nur wenn Sie so etwas wie eine binomial verteilte Variable mit einem großen Wert für $ p $ haben, ist dies nicht der Fall.(Ich kann mir vorstellen, dass dies hier der Fall sein könnte, wenn die Berichte auf Zweitmeinungstests eines zentralen Labors basieren, in dem nur eine begrenzte Anzahl von Testkapazitäten vorhanden ist.)
* Warum Poisson?Der Prozess der Fallgenerierung ist als pandemische Interaktion zwischen krank und gesund intristisch voneinander abhängig. * - Sicher, der Poisson-Prozess ist eine grobe Annahme, aber wenn es um die Untersuchung von Unterdispersion geht, ist er gutartig.Die meisten Interdependenzmechanismen wie Superspreader, Wochenenden und Wetter würden die Streuung im Vergleich zu einem Poisson-Prozess * erhöhen *.Ich kann mir keinen epidemiologischen Mechanismus vorstellen, der die Streuung verringern würde.…
Auf Berichtsebene mag es einige Mechanismen zur Verringerung der Streuung geben, aber das bedeutet, dass die Zahlen tatsächlich nicht die Realität widerspiegeln und daher der Verdacht berechtigt ist.Darüber hinaus können, wie von @SextusEmpiricus, ausgeführt, selbst begrenzte Testkapazitäten dies nicht erklären.Das einzige, was mir einfällt, ist ein Engpass bei der Bearbeitung von Berichten, z. B. kann das Büro höchstens 99 Berichte pro Tag bearbeiten.Aber in diesem Fall sind die Daten in der Tat ziemlich nutzlos.
* "aber das bedeutet, dass die Zahlen tatsächlich nicht die Realität widerspiegeln und somit der Verdacht berechtigt ist." * Wir können bereits erwarten, dass die Zahlen die Realität nicht widerspiegeln, ohne dass eine Unterdispersion beobachtet wird.Die ganze Welt ist verrückt nach diesen Zahlen, die täglich gemeldet und übermäßig auf die vielen verschiedenen Medien verteilt werden, obwohl sie nicht so genau sind (viele Länder verfügen nur über begrenzte Testmöglichkeiten).
@SextusEmpiricus, Der Punkt über die Binomialverteilung ist sinnvoll.Dann ist die beobachtete geringe Varianz ebenfalls seltsam.Aber denken Sie daran, dass ich mich auf eine landesweite Figur bezog.Wir haben keine täglichen Testzählungen öffentlich und nach Regionen gemeldet.Es kann sein, dass der Anteil stärker schwanken würde, wenn genaue Testnummern angegeben würden.
@AlexeyBurnakov Ich verstehe nicht, was du meinst.Was ich aus Ihrem Text erhalten habe, ist, dass Sie sagen wollten, dass die Zahl von 100 positiven Fällen / Tag aus etwa 2000 Tests / Tag stammt.Dies kann in der Tat erklären, warum Sie einen Plateauwert haben.Aber ... es erklärt * nicht *, warum Sie so wenig Variation in den Zahlen haben.Wenn Ihre Tests auf beispielsweise 2000 beschränkt sind und der Erwartungswert 100 beträgt, sollten Sie dennoch eine Standardabweichung um ungefähr 10 erwarten. Die Daten sind stark unterdispers, wenn sie aus einer Binomialverteilung mit niedrigem $ p $ stammen.(aber wenn $ p $ groß ist, macht es Sinn).
* "Aber denken Sie daran, dass ich mich auf eine landesweite Zahl bezogen habe." * Was bedeutet das in Bezug auf meinen Kommentar zur Binomialverteilung, bei der Varianz und Erwartungswert immer noch ungefähr gleich sind?
@SextusEmpiricus: Mein Punkt ist, dass es viele Mechanismen gibt, die eine Überdispersion erklären.Dies macht die Daten nicht automatisch ungültig.Natürlich sollte man bei einem plötzlichen Sprung von einem Tag zum nächsten nicht überreizt werden, aber wenn man solche Effekte berücksichtigt und einen korrekten gleitenden Durchschnitt betrachtet, können die Daten immer noch einen gewissen Wert haben.Im Gegensatz dazu führen alle Mechanismen, die zu einer Unterdispersion führen, die ich mir vorstellen kann, auch zu völlig nutzlosen Daten.
* "Es kann sein, dass der Anteil stärker schwankt, wenn genaue Testnummern angegeben werden." * Die Zahlen, die wir derzeit betrachten, sind keine exakten Testnummern und keine Zahlen, die täglich aktualisiert werden?
@SextusEmpiricus, warum?Es ist leicht.Wir wissen nicht, wie viele Tests ($ n $) pro Tag in der Region Krasnodar durchgeführt wurden.Diese Information fehlt.Wir wissen nur, dass im ganzen Land der Anteil der Positiven ($ k $) an den Tests etwa 0,05 beträgt.Wenn wir die täglichen Statistiken nicht nur zu positiven, sondern auch zu Tests kennen würden, könnten wir Binomial zu Recht ausprobieren.Das habe ich gerade geschrieben.
@Wrzlprmft Ich mache mir nicht so viele Sorgen um Überdispersion.Es ist mehr so, dass die Zahlen die tatsächliche Anzahl der Fälle stark unterschätzen.Es ist nicht undenkbar, dass sich der Grad der Unterberichterstattung mit der Zeit ändert (die Kurve für China zeigt dies deutlich mit einem plötzlichen Stoß, als das Testprotokoll geändert wurde).Die Kurve zeigt also Muster, die teilweise widerspiegeln, wie wir testen und berichten.Es ist, als würde man ein sehr schlechtes Thermometer verwenden, das nicht die genaue Temperatur anzeigt und auch nicht konsistent ist.Dies ist der schlimmste Fall von [den vier Optionen] (https://en.wikipedia.org/wiki/Accuracy_and_precision).
@AlexeyBurnakov müssen wir die genauen Zahlen im Binomialfall nicht kennen.Es könnte n = 2000 oder n = 500 sein, es spielt keine Rolle.Wenn $ p $ klein (oder gleichwertig $ n $ groß) ist, sind die Varianz und der erwartete Wert ungefähr gleich (tatsächlich können Sie die Binomialdaten mit einer Poisson-Verteilung approximieren https://en.wikipedia.org/wiki/Poisson_limit_theorem)..Nur wenn Sie eine seltsame Situation haben, in der p sehr hoch> 0,9 ist, ist das Verhältnis Rauschen / Signal sinnvoll.Ich erwähnte vor einer Situation, wie dies passieren könnte.
Beachten Sie, dass wir für eine Binomialverteilung Folgendes haben: $$ \ text {mean} = np $$ $$ \ text {Varianz} = np (1-p) $$ und $$ \ frac {\ text {Varianz}} {\ text {mean}} = 1-p\, \ underbrace {\ ca. 1} _ {\ llap {\ text {if $ p $}} \ rlap {\ text {nahe 0}}} $$ Wenn also $ p $ klein ist (ungefähr 5% wie Siesagen) dann spielt es keine Rolle, was es genau ist und Varianz / Mittelwert ~ 1.
@SextusEmpiricus, Ich verstehe.Ich kann nicht vollständig zustimmen, dass dies hier gilt.Binomial-Experimente implizieren, dass wir viele Male $ n $ -Studien durchführen, oder?Die Anzahl der Experimente ist die Anzahl der Tage.Wenn wir tatsächlich wüssten, dass $ n $ jedes Mal gleich ist (ohne $ n $ zu kennen), dann könnten wir, da stimme ich zu, nicht ohne Vorurteile gehen.Wir wissen aber nicht, ob $ n $ gleich ist.Sehen Sie das als logisch an?Selbst wenn $ n $ nicht bekannt ist und streng genommen auch Binomial irreführend ist, kann ich mir vorstellen, dass das Variieren von $ n $ wahrscheinlich keine Ergebnisse mit geringer Varianz liefert, sondern stattdessen die Varianz erhöhen sollte.Also stimme ich zu.
@AlexeyBurnakov Was wir wissen ist, dass wenn diese Daten binomial verteilt mit einem kleinen Wert für $ p $ sind, wir das beobachtete Rausch / Signal-Verhältnis nicht beobachten sollten.Sicher, die Zahl $ n $ ist möglicherweise nicht von Tag zu Tag gleich (und auch die Zahl $ p $ ist von Tag zu Tag nicht gleich).Aber die Variationen, die in $ n $ und $ p $ auftreten können, werden nicht von der Art sein, die die Daten glättet.Kehren wir also (nach langer Diskussion) zu Punkt 3 in Ihrem Beitrag zurück.Sie schlagen vor, dass die Anzahl der Tests irgendwie begrenzt ist, aber das erklärt nicht das niedrige Signal / Rausch-Verhältnis.
@SextusEmpiricus.Ich sehe jetzt, dass es * unwahrscheinlich * ist, die Anzahl der Tests zu begrenzen, um die Daten zu reduzieren.Es ist schwer vorstellbar, dass beispielsweise $ p $, wenn eine Funktion $ n $ testet.Ja angenommen.Dann kann die Quelle für niedrige Var / Mittelwert eine Datenmanipulation sein, aber ich weiß nicht, welche Art davon.Es kann nur sein, dass die Anzahl der "Dispergierungen" im Laufe der Zeit gleichmäßiger oder schlechter ist.Vielen Dank für die Diskussion.
@AlexeyBurnakov In einem Kommentar unter meiner Antwort erkläre ich, warum ich nicht glaube, dass es sich um eine Art absichtliche Datenmanipulation bei der Herstellung handelt.Oder zumindest wird die Manipulation nicht von einer einzelnen Person durchgeführt.Damit dies zutrifft, sehen die verschiedenen Regionen in der Art und Weise, wie sie hergestellt werden, zu unterschiedlich aus.Was ich mir vorstelle, ist, dass es eine Art prozedurale Einschränkung für die Regionen sein könnte, die daraus binomial verteilte Daten mit hohem $ p $ macht.Zum Beispiel werden die regional beobachteten positiven Fälle doppelt geprüft, und die doppelte Prüfung wird in täglichen Chargen fester Größe durchgeführt
@AlexeyBurnakov, auf # 3, ich denke, Ihre Verschwörung für neue Fälle in ganz Russland ist nicht unvereinbar mit dem Poisson-Prozess.Es werden täglich 10.000 neue Fälle angezeigt, sodass die Streuung bei etwa 100 liegt. Dies scheint der Fall zu sein, wenn Sie die Schwankungen der täglichen neuen Fälle betrachten
@Aksakal, Ich habe für dieses Diagramm weder Varianz noch Abweichung gemessen.Es war nicht der Grund, warum ich es gepostet habe.Es sollte gezeigt werden, dass positive Fälle und Tests unterschiedliche Prozesse sind.Etwa 4% der Tests ergaben Fälle.Sie haben gerade "Tests" erwähnt.
@AlexeyBurnakov, werfen Sie einen Blick auf meine aktualisierte Antwort.Ich habe Ihre Russland-Daten abgekratzt und sie sind übermäßig verteilt. Die tägliche Varianz ist sehr groß.Kransodar-Krai-Daten werden auf die eine oder andere Weise "verwaltet"
@Aksakal.Ich verstehe, guter Punkt.Übrigens haben wir oben in den Kommentaren bereits damit begonnen, die Daten als Binomial zu behandeln, da die Anzahl der Fälle Bruchteile der durchgeführten Tests sind
@AlexeyBurnakov, diese Yandex-Seite zeigt mir 8M-Tests und 326K-Infektionen, d. H. 4% Inzidenzrate.Poisson sollte also eine ziemlich gute Annäherung sein
@Aksakal, Es ist gut zu wissen, dass ich mit dieser Korrelation von Verteilungen nicht vertraut war.
@Aksakal Sie gehen davon aus, dass sich diese Zahlen auf die 8M-Tests und die Binomialverteilung mit einer Inzidenzrate von 4% beziehen, dies muss jedoch möglicherweise nicht der Fall sein.Die Daten enthalten nur sehr wenige Metainformationen, aus denen hervorgeht, wie die Daten erfasst werden.Es kann auch sein, dass sich die Zahlen auf einen Sekundärtest beziehen, der für die verschiedenen Regionen eine gewisse Grenze hat (wie etwa 100), und dass die Regionen nur ihre positiven Fälle für zweite Tests senden, was die Inzidenzrate sehr hoch macht.
@SextusEmpiricus, das sind alles faire Punkte, wir wissen nicht viel über den tatsächlichen Datenerfassungsprozess
@EngrStudent, "Ich respektiere die russische Mathematik sehr. Ich weiß aber sowieso nichts über die russische Wirtschaft."Ich war gestern müde, sorry.Erinnern Sie sich in der russischen Mathematik an die Namen: Markov, Chebyshev, Kolmogorov (Wahrscheinlichkeit), Lyapunov, Arnold (General Nath), Lobachevskiy (Geometrie), Keldysh.Sie sind überall.In der Wirtschaftswissenschaft konnte man von Leontyev (einem Nobelpreisträger) hören.Und mehr nicht so bekannt.Sie waren wirklich aufschlussreich, aber leider machten die Politiker sie manchmal unglücklich, was eine Quelle der Voreingenommenheit sein kann.
@Aksakal, Ich habe mehr Argumentation hinzugefügt, warum ich denke, dass diese Daten nicht Poisson-Natur sind.Aufzählungszeichen in meiner Antwort 1.1)
Es ist eindeutig kein Poisson, aber es ist nicht der Punkt.Der Punkt ist, dass die Dispersion zu klein ist.
Zu "Manipulationen nach sowjetischem Vorbild": Eine Suche auf dieser Webseite zeigt, dass * Sie * die einzige Person sind, die sich überhaupt auf eine solche Behauptung bezieht!Ich denke, die meisten, wenn nicht alle Poster und Leser auf dieser Seite verstehen die Grenzen der statistischen Analyse und würden nicht davon ausgehen, dass ein unrealistisch aussehender Datensatz notwendigerweise darauf hinweist, dass eine Schädelentfernung am Werk war.Ihre Argumente über Nicht-Poissonness treffen wirklich nicht zu, denn letztendlich bestimmt * der Virus *, wer wann krank wird;und das wird in der Nähe von Poisson sein.Dies ist der grundlegende Prozess, der alles andere antreibt.
@whuber 'Manipulationen im sowjetischen Stil' ist eine Antwort auf 'sowjetische Daten'.Letzteres ist eine Charakterisierung, die nicht von Alexey begonnen wurde.
Die Frage nach der Poissonness der Daten ist auch eine Frage, ob diese Daten sich auf das beziehen sollen, was der Virus bestimmt (die Alternative besteht darin, dass die Daten Mess- und Berichtsfunktionen widerspiegeln, und dies ist ein wahrscheinliches Szenariowenn Sie die verschiedenen Länder mit enormer Heterogenität in Ansätzen und Zahlen vergleichen).Keine dieser Statistiken ist realistisch (unabhängig von der Streuung) und alle erfordern eine klare Beschreibung der Einschränkungen.Mit Ausnahme von Island, das extrem viele Tests durchführt, sind alle diese Daten nur Tipps für die Virus-Eisberge.
@whuber, Sir, ich habe es nur für einen Zweck getan."@Arkasal: Das sind einige sehr sowjetische Daten. - Ben - Reinstate Monica gestern" Die Antwort auf diesen Kommentar unter der Frage.Keine anderen Zwecke.
@Alexey Vielen Dank für die Erklärung.
@whuber, gibt es so etwas wie "sowjetische Daten"?Ich denke, die Sowjets haben immer Statistiken manipuliert.Ob postsowjetische Länder diese Tradition beibehalten, ist für mich eine Frage.Fast jeder, den ich kenne und der immer noch dort lebt, würde behaupten, dass dies immer noch der Fall ist.Ich habe jedoch nicht die Erfahrung aus erster Hand mit den neuesten Statistiken.Ich vermute sehr, dass alle COVID-bezogenen Daten aus der Region mindestens bis April vorliegen.Im Moment ist es wahrscheinlich unmöglich, die Ausbreitung zu verbergen
@Aksakal Ich bin nicht derjenige, an den ich diesen Kommentar adressiere.Ich habe bereits protestiert, dass "Sowjet" kein Adjektiv ist, das ich benutze.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...