Frage:
Binomialtest für eine binäre Variable
Roger
2010-10-12 18:17:56 UTC
view on stackexchange narkive permalink

Ich habe eine binäre Variable (die Werte 0,1 annimmt). Ich habe ungefähr 100.000 Aufzeichnungen davon. Wie bestimme ich, ob es der Binomialverteilung folgt?

(Ich versuche grundsätzlich, die Normalität zu testen. Wenn die Daten nicht normal sind, muss ich möglicherweise eine Transformation anwenden, um die Variable zu erhalten eine Binomialverteilung.)


Hey, danke Leute, dass ihr das geklärt habt.

Dies war ein Versuch als Auftakt zur Clusteranalyse. Ich verstehe auch, dass die Normalität von Variablen eher eine nette Funktion für die Clusteranalyse ist und dass die Abstandsmaße auch sonst gültig wären. Ihre Ansichten?

Drei antworten:
#1
+17
whuber
2010-10-12 18:31:01 UTC
view on stackexchange narkive permalink

Sie können dies aus einem trivialen und einem tiefgreifenden Grund nicht durch einen statistischen Test bestimmen.

Der triviale Grund ist, dass Ihre Daten aus $ k $ Einsen und $ nk $ Nullen mit $ n $ bestehen ungefähr 100k. Diese Daten stimmen sehr gut mit einer Bernoulli-Verteilung ($ k / n $) überein. Es sind keine Tests erforderlich.

Der tiefgreifende Grund ist, dass Sie implizit davon ausgehen, dass die Daten unabhängig voneinander zufällig sind - dies ist jedoch möglicherweise nicht der Fall. Wenn sie beispielsweise durch Abtasten eines Prozesses im Laufe der Zeit erfasst werden, werden möglicherweise lange Zeichenfolgen von $ 0 $ gefolgt von langen Zeichenfolgen von $ 1 $ angezeigt. Diese als Draws aus einer Bernoulli-Distribution zu modellieren, wäre wahrscheinlich eine schlechte Wahl. Eine andere Möglichkeit besteht darin, dass die Werte unabhängig sind, die Wahrscheinlichkeit eines $ 1 $ jedoch im Laufe der Zeit variiert. (Dies wäre ein "überdisperses" Binomialmodell.)

Keine Transformation von $ 0, 1 $ erzeugt eine Normalverteilung! Vielleicht hoffen Sie, dass eine Statistik wie der Stichprobenmittelwert normal verteilt ist. Der zentrale Grenzwertsatz garantiert, dass vorausgesetzt die Werte unabhängig sind und dass die Wahrscheinlichkeiten im Laufe der Zeit weder zu $ ​​0 $ noch zu $ ​​1 $ tendieren.

(+1) Der zweite Punkt ist sehr interessant.
@chl: Ja, als ich über das CLT schrieb, kam mir der Gedanke, dass es Probleme mit der Konvergenz der Varianzen gegen Null geben könnte, da dann die Lindeberg-Bedingung verletzt werden könnte. Es ist leicht zu erkennen, warum die resultierende Grenzwertverteilung möglicherweise nicht normal ist. Wenn (zum Beispiel) die Wahrscheinlichkeit, eine 1 zu beobachten, sich ausreichend schnell Null nähert, bleibt die Verteilung des Mittelwerts möglicherweise stark verzerrt und nähert sich nie dem Normalwert.
#2
+5
M. Tibbits
2010-10-12 18:40:23 UTC
view on stackexchange narkive permalink

Ich stimme @whuber voll und ganz zu - wollte nur hinzufügen:

Wenn Sie versuchen , die Daten zu transformieren. Wie würden Sie das machen? Sie würden 0 einer Zahl zuordnen, z. B. -5, und 1 einer anderen Zahl?, Sagen Sie 5?

Also jetzt anstatt:

  0 0 0 1 0 1 1 0 1 0 1  

Sie haben:

  -5 -5 -5 5 -5 5 5 -5 5 -5 5  

Dies kann nicht normal verteilt werden, da Sie immer noch nur zwei Werte haben!

Jeder dieser Einträge könnte jedoch sein Binomial (1, p) genau wie @whuber beschrieben [wie Bernoulli (p)], aber nicht Binomial (N, p), da N niemals größer als 1 ist, wenn Sie nur Binärdaten haben.

#3
+1
glassy
2010-10-13 16:07:32 UTC
view on stackexchange narkive permalink

ALLE binären Variablen haben die Binomialverteilung, vorausgesetzt, die Erfolgswahrscheinlichkeit (Wahrscheinlichkeit, 1 zu beobachten) ändert sich nicht und alle ihre Instanzen sind unabhängig. Eine Faustregel besagt, dass die Binomialverteilung durch Normalverteilung ziemlich angenähert werden kann, wenn n * p> 30, mit n = Anzahl der Instanzen, p = Erfolgswahrscheinlichkeit.

Ich behaupte also, dass Ihre Frage ist Informationen zum Testen auf Unabhängigkeit und konstante Erfolgsrate. Für erstere können Sie den Bradley-Test http://www.itl.nist.gov/div898/handbook/eda/section3/eda35d.htm verwenden. Ich nehme an, es ist auch unter einem anderen Namen bekannt. Für letzteres habe ich nur eine grobe Antwort: Sie können Ihre Stichprobe in k Untergruppen aufteilen und dann einen Test unter Verwendung der k Erfolgsanteile in den Untergruppen erstellen.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...