Frage:
Wie sollten Sie mit Zellenwerten gleich Null in einer Kontingenztabelle umgehen?
DrWho
2011-02-13 19:14:55 UTC
view on stackexchange narkive permalink

Wie sollten Sie mit einem Zellenwert in einer Kontingenztabelle umgehen, der in statistischen Berechnungen gleich Null ist? (Beachten Sie, dass ein solcher Wert strukturell sein kann, dh per Definition Null sein muss, oder zufällig , dh es könnte ein anderer Wert gewesen sein, aber Null wurde beobachtet .)

Weitere Informationen werden hier benötigt. Mit Null meinen Sie, dass Sie fehlen? Warum denkst du, musst du etwas Besonderes tun, weil der Wert Null ist?
Ich würde es als Duplikat schließen http://stats.stackexchange.com/questions/1444/how-should-i-transform-non-negative-data-including-zeros/1445#1445
Bei dieser Frage ging es eher um Transformationen als um Inferenzprobleme.
Drei antworten:
#1
+17
DWin
2011-02-13 23:16:00 UTC
view on stackexchange narkive permalink

Nullen in Tabellen werden manchmal als strukturell klassifiziert, d. h. durch Design oder Definition als Null, oder als zufällig, d. h. als möglicher Wert, der beobachtet wurde. Bei einer Studie, bei der trotz möglicher Fälle keine Fälle beobachtet wurden, stellt sich häufig die Frage: Was ist das einseitige 95% -Konfidenzintervall über Null? Dies kann sinnvoll beantwortet werden. Es wird zum Beispiel in "Wenn nichts schief geht, ist alles in Ordnung? Nullzähler interpretieren" Hanley und Lippman-Hand angesprochen. JAMA. 1983; 249 (13): 1743-45. Unter dem Strich betrug das obere Ende des Konfidenzintervalls um den beobachteten Wert Null 3 / n, wobei n die Anzahl der Beobachtungen war. Diese "3er-Regel" wurde in späteren Analysen weiter behandelt und zu meiner Überraschung stellte ich fest, dass sie sogar eine Wikipedia-Seite hat. Die beste Diskussion, die ich fand, war von Jovanovic und Levy im American Statistician. Dies scheint bei den Suchvorgängen nicht im Volltext verfügbar zu sein, kann jedoch nach einem zweiten Durchblick melden, dass die Formel nach vernünftigen Bayes'schen Überlegungen auf 3 / (n + 1) geändert wurde, was das CI a verschärft bisschen. Es gibt eine neuere Übersicht in International Statistical Review (2009), 77, 2, 266–275.

Nachträge: Nach genauerer Betrachtung des letzten Zitats oben auch ich Denken Sie daran, die ausführliche Diskussion in Agresti & Coull "The American Statistician", Vol. 52, Nr. 2 (Mai 1998), S. 119-126 informativ. Die "Agresti-Coull" -Intervalle sind in verschiedene SAS- und R-Funktionen integriert. Eine R-Funktion ist binom.confint {package: binom} von Sundar Dorai-Raj.

Es gibt verschiedene Methoden, um mit Situationen umzugehen, in denen eine Anhäufung von "Null" -Beobachtungen eine ansonsten schöne, nachvollziehbare Verteilung der Kosten oder der Nutzungsmuster im Gesundheitswesen verzerrt. Dazu gehören Null-Inflations- und Hürdenmodelle, wie sie von Zeileis in "Regressionsmodelle für Zähldaten in R" beschrieben wurden. Die Suche bei Google zeigt auch, dass Stata und SAS über Möglichkeiten verfügen, mit solchen Modellen umzugehen.

Nachdem ich das Zitat von Browne gesehen (und die Modifikation von Jovanovic und Levy korrigiert) habe, füge ich diesen Ausschnitt aus der noch unterhaltsameren Gegenerwiderung hinzu Browne:

"Da die Stichprobengröße jedoch kleiner wird, werden vorherige Informationen noch wichtiger, da es so wenige Datenpunkte gibt, die" für sich selbst sprechen "können. In der Tat bieten kleine Stichprobengrößen nicht nur die überzeugendste Gelegenheit, über den Stand der Dinge nachzudenken, sondern auch die Verpflichtung, dies zu tun. "Ganz allgemein möchten wir diese Gelegenheit nutzen, um uns gegen die sinnlose, unkritische Verwendung einfacher Formeln oder zu äußern Regeln. "

Und ich füge das Zitat dem umstrittenen Papier von Winkler et al. hinzu.

Vielen Dank für die bemerkenswert detaillierte Antwort mit Referenzen.
Jovanovic und Levy empfehlen 3 / (n + 1) - Bestätigung siehe Tabelle 1, Seite 138. Es gibt auch einen Vorschlag von Browne für 3 / (n + 1,7). http://faculty.fuqua.duke.edu/~jes9/bio/The_Role_of_Informative_Priors_in_Zero_Numerator_Problems_Comments_and_Replies.pdf
Das ist eine schöne Antwort. Können Sie die Formatierung im vorletzten Absatz verbessern (z. B. mit `>`)? Die Anführungszeichen stimmen nicht überein. Ist der ganze Absatz ein Zitat? Außerdem scheint der 4. bis letzte Absatz aus irgendeinem Grund mit einem Doppelpunkt zu beginnen.
Thks. Wie du vorgeschlagen hast. Ich bin mit der SO-Formatierung besser vertraut. Lebenslauf ist etwas "literarischer".
Bitte. Ich glaube, die Formatierung ist dieselbe, außer dass CV auch $ \ LaTeX $ über mathjax unterstützt. Ist der gesamte Absatz jedoch ein Zitat (b / c gibt es nicht übereinstimmende Anführungszeichen w / i)?
Ich denke, das Ganze ist ein Zitat.
#2
+8
Rick
2011-02-22 03:01:11 UTC
view on stackexchange narkive permalink

Eine sehr schöne Diskussion über strukturelle Nullen in Kontingenztabellen liefern West, L. und Hankin, R. (2008), „Exakte Tests für Zweiwege-Kontingenztabellen mit strukturellen Nullen“, Journal of Statistical Software, 28 ( 11), 1–19.URL http://www.jstatsoft.org/v28/i11

Wie der Titel schon sagt, implementieren sie den genauen Fisher-Test für die Zwei-Wege-Kontingenz Tabellen für den Fall, dass einige der Tabelleneinträge auf Null beschränkt sind.

Agresti und Finlay erwähnen, dass die Verallgemeinerung des exakten Fisher-Tests auch dann sinnvoll ist, wenn die Zellzahlen in einer Kontingenztabelle unter 5 fallen.
#3
+3
Mike Hunter
2017-01-20 01:35:17 UTC
view on stackexchange narkive permalink

Thomas Wickens bietet in seinem ausgezeichneten Buch Multiway Contingency Table Analysis für die Sozialwissenschaften einen anderen Vorschlag als die bereits vorgeschlagenen. Er unterscheidet zwischen zufälligen Nullen, "bei denen es sich um Stichprobenunfälle handelt und deren Behandlung größtenteils aus Anpassungen der Freiheitsgrade (Kapitel 5, S. 120," Leere Zellen ") besteht," von strukturellen Hohlräumen oder Nullen ", denen eine vollständige fehlt faktorielle Struktur und deren Analyse eine Änderung des Konzepts der Unabhängigkeit erfordert "(Kapitel 10, S. 246).

Kapitel 10 trägt den Titel "Strukturell unvollständige Tabellen" und behandelt die Behandlung von Daten, bei denen bestimmte Zellen a priori von der Prüfung ausgeschlossen sind. "Beispiele hierfür sind Krankenhauseinweisungen nach Geschlecht: Obwohl schwangere Männer möglicherweise eine Zelle in der Kontingenztabelle haben, werden keine beobachtet" (S. 247).

Am wichtigsten: "Wenn man die unmöglichen Zellen behandelt (strukturelle Nullen) als Häufigkeiten von Null behaupten sie sich als Abhängigkeiten in einem Unabhängigkeitstest (S. 246). "

Was man tun möchte, ist, die unmöglichen Zellen in jedem Test der Unabhängigkeit oder Assoziation zu ignorieren . Der Weg, dies zu tun, besteht darin, das geeignete Modell in der vollständigen Kontingenztabelle (einschließlich der strukturellen Nullen) zu schätzen und dann die Summe der Chi-Quadrat-Werte, die den Nullzellen zugeordnet sind, vom gesamten Chi-Quadrat-Test zu subtrahieren. Dies erzeugt einen reduzierten Chi-Quadrat-Unabhängigkeitstest nur für die reduzierte Kontingenztabelle.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...