Dies ist ein allgegenwärtiges Missverständnis des zentralen Grenzwertsatzes, auf den ich auch in meinem statistischen Unterricht gestoßen bin. Im Laufe der Jahre bin ich so oft auf dieses Problem gestoßen, dass ich eine sokratische Methode entwickelt habe, um damit umzugehen. Ich identifiziere einen Schüler, der diese Idee akzeptiert hat, und beauftrage den Schüler, herauszufinden, was dies logisch bedeuten würde. Es ist ziemlich einfach, zur reductio ad absurdum der falschen Version des Theorems zu gelangen, dh jede Folge von IID-Zufallsvariablen hat eine Normalverteilung . Ein typisches Gespräch würde ungefähr so verlaufen.
Teacher: Ich habe in dieser Zuweisungsfrage festgestellt, dass Sie gesagt haben, dass die Daten ungefähr normal verteilt sind, weil $ n $ span> groß ist. Können Sie mich durch Ihre Überlegungen zu diesem Teil führen?
Student: Ist das falsch?
Teacher: Ich weiß es nicht. Schauen wir es uns an.
Student: Nun, ich habe diesen Satz verwendet, über den Sie im Unterricht gesprochen haben. das Haupt, das du ein paar Mal erwähnt hast. Ich habe den Namen vergessen.
Teacher: Der zentrale Grenzwertsatz?
Student: Ja, der zentrale Grenzwertsatz.
Teacher: Großartig, und wann gilt dieser Satz?
Student: Ich denke, wenn die Variablen IID sind.
Teacher: Und haben endliche Varianz.
Student: Ja, und endliche Varianz.
Teacher: Okay, die Zufallsvariablen haben also eine feste Verteilung mit endlicher Varianz, stimmt das?
Student: Ja.
Teacher: Und die Verteilung ändert sich nicht oder so?
Student: Nein, sie sind IID mit einer festen Verteilung.
Teacher: Okay, großartig, also lassen Sie mich sehen, ob ich den Satz aufstellen kann. Der zentrale Grenzwertsatz besagt, dass wenn Sie eine IID-Folge von Zufallsvariablen mit endlicher Varianz haben und eine Stichprobe von $ n $ span> von ihnen nehmen, dann als diese Stichprobengröße $ n $ span> wird groß Die Verteilung der Zufallsvariablen konvergiert zu einer Normalverteilung. Ist das richtig?
Student: Ja, ich denke schon.
Teacher: Okay, großartig, also lassen Sie uns darüber nachdenken, was das bedeuten würde. Angenommen, ich habe eine solche Sequenz. Wenn ich beispielsweise tausend Stichprobenwerte nehme, wie ist die Verteilung dieser Zufallsvariablen?
Student: Es handelt sich ungefähr um eine Normalverteilung.
Teacher: Wie nah?
Student: Ziemlich nah, denke ich.
Teacher: Okay, was ist, wenn ich eine Milliarde Stichprobenwerte nehme? Wie nah jetzt?
Student: Wirklich nah würde ich sagen.
Teacher: Und wenn wir eine Folge dieser Dinge haben, können wir theoretisch $ n $ span> so hoch nehmen, wie wir wollen, nicht wahr? So können wir die Verteilung einer Normalverteilung so nahe bringen, wie wir möchten.
Student: Ja.
Teacher: Nehmen wir also an, wir nehmen $ n $ span> groß genug, um zu sagen, dass die Zufallsvariablen grundsätzlich eine Normalverteilung haben. Und das ist eine feste Verteilung, oder?
Student: Ja.
Teacher: Und sie sind IID, oder? Diese Zufallsvariablen sind IID?
Student: Ja, sie sind IID.
Teacher: Okay, sie haben alle die gleiche Verteilung.
Student: Ja.
Teacher: Okay, das heißt, der erste Wert in der Sequenz hat auch eine Normalverteilung. Ist das richtig?
Student: Ja. Ich meine, es ist eine Annäherung, aber ja, wenn $ n $ span> wirklich groß ist, hat es effektiv eine Normalverteilung.
Teacher: Okay, großartig. Und der zweite Wert in der Sequenz und so weiter, richtig?
Student: Ja.
Teacher: Okay, also wirklich, als wir mit dem Sampling begannen, erhielten wir bereits Werte, die im Wesentlichen normalverteilt sind. Wir mussten nicht wirklich warten, bis $ n $ span> groß wird, bevor dies begann.
Student: Hmmm. Ich bin mir nicht sicher. Das klingt falsch. Der Satz besagt, dass Sie einen großen $ n $ span> benötigen. Ich denke, Sie können ihn nicht anwenden, wenn Sie nur eine kleine Anzahl von Werten abgetastet haben.
Teacher: Okay, nehmen wir an, wir nehmen eine Milliarde Werte ab. Dann haben wir große $ n $ span>. Und wir haben festgestellt, dass dies bedeutet, dass die ersten Zufallsvariablen in der Sequenz in sehr enger Näherung normal verteilt sind. Wenn das stimmt, können wir dann nicht einfach früh aufhören zu probieren? Angenommen, wir würden eine Milliarde Werte abtasten, aber dann hören wir auf, nach dem ersten Wert abzutasten. War diese Zufallsvariable noch normal verteilt?
Student: Ich denke, vielleicht ist es nicht so.
Teacher: Okay, also ändert sich irgendwann die Verteilung?
Student: Ich bin mir nicht sicher. Ich bin jetzt etwas verwirrt.
Teacher: Hmmm, es scheint, dass hier etwas Seltsames los ist. Warum lesen Sie das Material im zentralen Grenzwertsatz nicht noch einmal und sehen, ob Sie herausfinden können, wie Sie diesen Widerspruch auflösen können. Sprechen wir dann mehr darüber.
Dies ist ein möglicher Ansatz, der versucht, den falschen Satz auf die reductio zu reduzieren, die besagt, dass jede IID-Sequenz (mit endlicher Varianz) aus normalen Zufallsvariablen bestehen muss. Entweder kommt der Schüler zu dieser Schlussfolgerung und stellt fest, dass etwas nicht stimmt, oder er verteidigt sich gegen diese Schlussfolgerung, indem er sagt, dass sich die Verteilung ändert, wenn $ n $ span> groß wird. In beiden Fällen führt dies normalerweise zu weiteren Überlegungen, die dazu führen können, dass sie den Satz erneut lesen. Hier ist ein anderer Ansatz:
Teacher: Schauen wir uns das anders an. Angenommen, wir haben eine IID-Sequenz von Zufallsvariablen aus einer anderen Verteilung. eine, die not eine Normalverteilung ist. Ist das möglich? Könnten wir zum Beispiel eine Folge von Zufallsvariablen haben, die das Ergebnis des Münzwurfs aus der Bernoulli-Verteilung darstellen?
Student: Ja, das können wir haben.
Teacher: Okay, großartig. Und das sind alles IID-Werte, also haben sie wieder alle die gleiche Verteilung. Also wird jede Zufallsvariable in dieser Sequenz eine Verteilung haben, die keine Normalverteilung ist, oder?
Student: Ja.
Teacher: In diesem Fall ist jeder Wert in der Sequenz das Ergebnis eines Münzwurfs, den wir als Null oder Eins festlegen. Ist das richtig?
Student: Ja, solange wir sie so kennzeichnen.
Teacher: Okay, großartig. Wenn also alle Werte in der Sequenz Nullen oder Einsen sind,
Egal wie viele von ihnen wir abtasten, wir werden immer ein Histogramm erhalten, das Werte bei Null und Eins zeigt, oder?
Student: Ja.
Teacher: Okay. Und denken Sie, wenn wir immer mehr Werte abtasten, werden wir der wahren Verteilung immer näher kommen? Wenn es sich um eine faire Münze handelt, konvergiert das Histogramm schließlich dort, wo die relativen Frequenzbalken dieselbe Höhe haben?
Student: Ich denke schon. Ich denke schon.
Teacher: Ich denke, Sie haben Recht. Tatsächlich nennen wir dieses Ergebnis das "Gesetz der großen Zahlen". Wie auch immer, es scheint, als hätten wir hier ein kleines Problem, nicht wahr? Wenn wir eine große Anzahl von Werten abtasten, sagt der zentrale Grenzwertsatz, dass wir zu einer Normalverteilung konvergieren, aber es klingt so, als ob das "Gesetz der großen Zahlen" besagt, dass wir tatsächlich zu der wahren Verteilung konvergieren, die keine Normalverteilung ist. Tatsächlich handelt es sich um eine Verteilung, bei der es sich nur um Wahrscheinlichkeiten für den Nullwert und den Ein-Wert handelt, die der Normalverteilung nicht ähneln. Also was ist es?
Student: Ich denke, wenn $ n $ span> groß ist, sieht es wie eine Normalverteilung aus.
Teacher: Beschreibe es mir also. Nehmen wir an, wir haben die Münze milliardenfach geworfen. Beschreiben Sie die Verteilung der Ergebnisse und erklären Sie, warum dies wie eine Normalverteilung aussieht.
Student: Ich bin mir nicht sicher, wie ich das machen soll.
Teacher: Okay. Stimmen Sie zu, dass bei einer Milliarde Münzwürfen alle diese Ergebnisse Nullen und Einsen sind?
Student: Ja.
Teacher: Okay, beschreiben Sie also, wie das Histogramm aussieht.
Student: Diese Werte enthalten nur zwei Balken.
Teacher: Okay, also nicht "Glockenkurve" geformt?
Student: Ja, ich denke nicht.
Teacher: Hmmm, vielleicht sagt der zentrale Grenzwertsatz nicht, was wir dachten.Warum lesen Sie das Material zum zentralen Grenzwertsatz nicht noch einmal und sehen, ob Sie herausfinden können, was darin steht?Sprechen wir dann mehr darüber.