Frage:
Warum ist es in Ordnung, Demografie als zufällige Effekte in Bayes'schen Mehrebenenmodellen zu modellieren?
Graham Wright
2020-07-15 21:09:16 UTC
view on stackexchange narkive permalink

In Bayes'schen Mehrebenenmodellen (z. B. mit Personen, die in Kongressbezirken verschachtelt sind) sehe ich manchmal demografische Variablen auf Einzelebene wie Rassen, die als zufällige Effekte modelliert werden. Hier ist ein leicht vereinfachtes Beispiel aus diesem Artikel: $$ Pr (y_i = 1) = \ text {logit} ^ {- 1} (\ gamma_0 + \ alpha ^ {race} _ {r [i]} + \ alpha ^ {gender} _ {g [i]} + \ alpha ^ {edu} _ {e [i]} + \ alpha ^ {Bezirk} _ {d [i]} ...) $$ span> $$ \ alpha ^ {Rennen} _ {r [i]} \ sim N (0, \ sigma ^ 2_ {Rennen}), für ~ r = 1, .... 4 $$ span> $$ \ alpha ^ {gender} _ {g [i]} \ sim N (0, \ sigma ^ 2_ {gender}) $$ span> $$ \ alpha ^ {edu} _ {e [i]} \ sim N (0, \ sigma ^ 2_ {edu}), für ~ e = 1, ..., 5 $$ span> Soweit ich weiß, behandelt dieses Modell alle demografischen Variablen auf individueller Ebene als "zufällige Effekte", genau wie der Distrikt. Für die Rasse wird also angenommen, dass die 4 Rassenkategorien, die in den Daten vorhanden sind (schwarz, weiß, spanisch, andere), tatsächlich nur 4 zufällige Ziehungen aus einer größeren Population aller möglichen Rassen sind. Für mich scheint dies seltsam und falsch zu sein, da die Rassenkategorien, die wir in den Daten haben, erschöpfend sein sollen und es keinen Grund zu der Annahme gibt, dass Rassenunterschiede normal verteilt sind.

Meine Frage lautet also: Ist meine Interpretation dieses Modells korrekt und wenn ja, warum ist es gerechtfertigt?

Ich weiß, dass jemand diese Frage bereits gestellt hat, aber die Antwort, die er erhielt, war, dass es wahrscheinlich NICHT angemessen ist, Rasse usw. als zufällige Effekte zu behandeln. Aber genau das wird in vielen Artikeln über Bayes'sche Mehrebenenmodelle getan.

Vier antworten:
EdM
2020-07-15 21:59:26 UTC
view on stackexchange narkive permalink

Ich würde empfehlen, diese Antwort von @Paul zu lesen, um Anleitungen zu sogenannten "Zufallseffekten" und hierarchischen Modellen zu erhalten. Dieses Zitat bezieht sich insbesondere auf Folgendes:

R-Zufallseffekte werden mit teilweisem Pooling geschätzt, feste Effekte jedoch nicht.

Partielles Pooling bedeutet, dass, wenn Sie nur wenige Datenpunkte in einer Gruppe haben, Die Effektschätzung der Gruppe basiert teilweise auf dem Mehr reichlich vorhandene Daten aus anderen Gruppen. Dies kann ein guter Kompromiss zwischen sein Schätzen eines Effekts durch vollständiges Zusammenführen aller Gruppen, die maskieren Variation auf Gruppenebene und Schätzung eines Effekts für alle Gruppen vollständig getrennt, was zu schlechten Schätzungen für eine niedrige Stichprobe führen könnte Gruppen.

Die Antwort geht weiter mit einem Beispiel und einer Diskussion der Beziehung dieses Ansatzes zur hierarchischen Bayes'schen Modellierung.

Ein solches Pooling ist genau das, was die Autoren des von Ihnen zitierten -Papiers mit ihrem mehrstufigen Ansatz vorhatten: *

... ein Mehrebenenmodell bündelt Parameter auf Gruppenebene in Richtung ihres Mittelwerts, wobei eine größere Zusammenfassung erfolgt, wenn die Varianz auf Gruppenebene gering ist, und eine Glättung für weniger bevölkerte Gruppen. Der Grad der Poolbildung ergibt sich endogen aus den Daten ...

Obwohl häufig argumentiert wird, dass Kategorien mit wenigen Ebenen (Geschlecht, Rasse) als feste Effekte in Regressionen behandelt werden sollten, müssen sie als zufällige Effekte behandelt werden, um dieses teilweise Pooling zu erreichen.

* Die Autoren haben dafür GLMER in R verwendet, daher ist dieses Beispiel vermutlich kein rein bayesianischer Ansatz.

Tim
2020-07-15 21:32:41 UTC
view on stackexchange narkive permalink

"Feste" und "zufällige" Effekte sind Begriffe aus häufig verwendeten Modellen.Tatsächlich ist es nicht die beste und nicht konsequent verwendete Terminologie.In der Frequentist-Statistik versuchen Sie, Punktschätzungen für die Parameter zu finden, mit Ausnahme von Zufallsvariablen, in denen Sie mehr über die Verteilung dieser Effekte erfahren möchten.In der Bayes'schen Statistik wird jeder -Parameter als Zufallsvariable behandelt, und wir möchten mehr über seine Verteilung erfahren, daher gibt es keine solche Unterscheidung.

Alexis
2020-07-15 21:55:50 UTC
view on stackexchange narkive permalink

Kategorien der sozialen Position und der sozialen Identität - einschließlich gemeinsamer demografischer Variablen - sind wichtige Abgrenzungen der Bevölkerung. In den Bevölkerungswissenschaften wird viel Wert darauf gelegt, die mittleren oder mittleren (zentralen) Erfahrungen der Bevölkerung zu differenzieren, jedoch die Variabilität von Erfahrungen, die innerhalb der Bevölkerung verteilt sind, ist ebenfalls von wesentlicher Bedeutung.

Nehmen Sie als Beispiel den systolischen Blutdruck (SBP): Er ist ungefähr normal verteilt, und man könnte sich zwei Populationen mit nahezu gleichem oder sogar identischem Mittelwert SBP vorstellen. Bedeutet dies, dass die Gesundheit der beiden Bevölkerungsgruppen in Bezug auf den Blutdruck gleich ist? Nein! Wenn eine Population wesentlich variabler ist, ist ihre SBP-bezogene Gesundheit tatsächlich etwas schlechter. Erstens, da wir nichts anderes wissen, als aus welcher Population ein Individuum stammt, sind wir weniger sicher über ihren SBP. Zweitens, wenn es Extreme von SBP gibt (Werte davon, bei denen das Risiko für schlimme Ereignisse stark ansteigt; SBP>130 starker Anstieg des Schlaganfallrisikos, SBP <90 starker Anstieg des Aufwachens tot aufgrund von Hypotonie), dann hat die Bevölkerung mit größerer Variabilität möglicherweise mehr weit mehr Menschen "fallen durch die Risse" an den Extremen. Der cyan schattierte Bereich in der folgenden Grafik (ein Cartoon, den ich erstellt habe, keine tatsächlichen Daten) gibt an, wie viel wahrscheinlicher Menschen in der blauen Bevölkerung aufgrund von Bluthochdruck oder Hypotonie einem hohen Risiko ausgesetzt sind als Menschen in der roten Bevölkerung. Die variablere Population ist anfälliger .

For two groups with the same mean systolic blood pressure SBP, but if one group (blue) has greater variability in SBP, then it also has both greater uncertainty, and greater extremes in SBP.

Zurück zu Ihrer Frage, der aktuelle soziale Moment der Unruhen in den USA (und weltweit!) gegen Jahrhunderte institutionalisierten Rassismus gegen Schwarze und gegen ein halbes Jahrtausend Kolonialisierung von Indianern, Hawaiianern und pazifischen Inselbewohnern sowie Eingeborenen aus Alaska weist darauf hinDie Verwundbarkeit - die erhöhte Unsicherheit in Bezug auf die Ergebnisse und die erhöhte Anzahl in den Extremen - der Populationen, die unter anderem von rassendemografischen Gruppen definiert werden, ist ein guter Grund, nach Methoden zu suchen, beispielsweise nach gemischten Modellen / Zufallseffektmodellen / hierarchischen linearenModelle / Mehrebenenmodelle / etc.(wie @Tim zu Recht hervorhebt, ist die Sprache ein bisschen durcheinander), um Schätzungen der Populationsvariabilität zu liefern.

NB: Ich sehe dies nicht als eine Frage von Bayesian vs Frequentist, sondern als eine Frage der inhaltlichen Modellierung der Welt um uns herum.

AlaskaRon
2020-07-16 06:09:55 UTC
view on stackexchange narkive permalink

Eine Interpretation wäre, dass es nicht hilfreich wäre, den $ \ alpha ^ {race} $ span> 'Zufallseffekte' zu nennen.

Praktisch sieht es so aus, als ob die Rasseneffekte $ \ alpha ^ {Rennen} \ sim N (0, \ sigma ^ 2_ {Rennen}) $ span> (zum Beispiel) ) haben einen hierarchischen PRIOR, dh abhängig von der Rasseneffektvarianz, die wir einen normalen Prior haben. $ \ sigma ^ 2_ {race} $ span> sollte wiederum einen Prior haben, wodurch der $ \ alpha ^ {race effektiv wird } $ span> haben einen Prior, der eine Mischungsverteilung ist. Wie bereits erwähnt, ist es nicht wirklich hilfreich, dies als zufälligen Effekt zu betrachten. Der Hyperparameter $ \ sigma ^ 2_ {race} $ span> hat keine wirklich nützliche Definition (da, wie Sie sagten, die Rassen nicht aus einer Population von Rassen entnommen wurden). Möglicherweise könnten Sie eine post-hoc-Interpretation von $ \ sigma ^ 2_ {race} $ span> als Leitfaden für die unterschiedlichen Rasseneffekte vornehmen, aber zu diesem Zweck könnten Sie stattdessen Führen Sie direkte Vergleiche zwischen den Werten $ \ alpha ^ {race} $ span> durch.

Der $ \ sigma ^ 2_ {race} $ span> ist nur ein Teil der Definition des Prior von $ \ alpha ^ {Rennen} $ span>. Es wäre vielleicht genauso gut gewesen, einen riesigen konstanten Wert auf $ \ sigma ^ 2_ {race} $ span> zu setzen und so den $ \ alpha ^ {race} $ span> mit einem vagen Prior.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...