Frage:
Falsche CLT-Anweisung entlarven
Dave
2020-06-22 21:14:34 UTC
view on stackexchange narkive permalink

Der zentrale Grenzwertsatz (CLT) bietet einige nützliche Eigenschaften für die Konvergenz zu einer Normalverteilung. Vor dem formellen Studium der Statistik hatte ich den äußerst falschen Eindruck, dass das CLT sagte, die Daten näherten sich der Normalität.

Ich diskutiere jetzt mit Mitarbeitern darüber. Ich sage, dass $ 68 \% $ span> der Daten nicht innerhalb einer Standardabweichung vom Mittelwert liegen muss, wenn wir nicht normale Verteilungen haben. Sie stimmen überein, sagen dann aber, dass unsere Daten laut CLT, da wir viele Beobachtungen haben (wahrscheinlich 50.000), sehr nahe am Normalen liegen, sodass wir die empirische Regel verwenden und sagen können, dass $ 68 \% $ span> der Daten liegen innerhalb einer Standardabweichung vom Mittelwert. Das ist natürlich falsch. Der Bevölkerung ist es egal, wie viele Beobachtungen daraus gemacht werden; Die Bevölkerung ist die Bevölkerung, ob wir daraus eine Stichprobe machen oder nicht!

Was wäre ein guter Weg, um zu erklären, warum es im zentralen Grenzwertsatz nicht um die Konvergenz der empirischen Verteilung geht?

Nun, die Stichprobenverteilung (Verteilung von $ X_1, X_2, \ cdots, X_n $ oder $ \ bar {X} $, dem Stichprobenmittelwert für diese Angelegenheit) konvergiert auch nicht zu einer Normalverteilung.Sie müssen also genauer sein, worüber Sie sich lustig machen möchten.
@DilipSarwate bearbeitet.Ich bin zufrieden damit, den Mitarbeitern mitzuteilen, dass das CLT sagt, dass etwas in der Nähe der Stichprobe Konvergenz zur Normalität bedeutet (ich weiß, dass dies falsch ist, aber es ist wahrscheinlich nah genug für eine informelle Diskussion ... Ich muss auch nicht erklären, warum Konvergenz in der Verteilung bedeutet), aber ich habe Mühe zu erklären, warum die Bevölkerung nicht zur Normalität konvergiert.
Konzentrieren Sie sich auf das, was laut CLT genau zur Normalität konvergiert.Auf diese Weise zeigen Sie leicht auf das, was * nicht * konvergiert
Bitten Sie Ihre Mitarbeiter, ihre Schlussfolgerungen zu überprüfen, wenn die Daten binär sind, z. B. der Indikator für den Wurf einer fairen Münze.
Ich glaube nicht, dass es eine gute Möglichkeit gibt, dies Menschen zu erklären, die nicht in der Lage sind, logischen Überlegungen zu folgen.Lernen Sie vielleicht einfach, mit Ihren Mitarbeitern zu leben
Eine Stichprobenverteilung weicht mit zunehmender Anzahl zur Bevölkerungsverteilung ab (und Sie können dies anhand mehrerer Simulationen / Tests / Beispiele zeigen).Die Diskussion zwischen Ihnen und Ihren Kollegen scheint eher eine Verwechslung von Definitionen / Begriffen zu sein.Was bedeutet "unsere Daten sind sehr normal"?Vielleicht hilft es zu erklären, in welcher zugrunde liegenden Diskussion dies verwendet wurde?Was ist das Problem, bei dem Ihre Kollegen eine Annäherung an eine Normalverteilung anwenden?Welche Art von Daten haben Sie, warum können diese Daten nicht leicht zeigen, dass $ 68 \% \ neq 1sd $?Was wird verglichen?
Ich versuche also zu sagen, dass Ihre Kollegen vielleicht nicht richtig in ihren Worten sind (oder dass Sie sie nicht richtig umschreiben), aber wir sollten diese Worte nicht zu schwer gewichten (wir können die Gedanken hinter ihnen nicht beschuldigenwenn sie nicht mit viel Strenge ausgedrückt werden) und stattdessen sollten wir versuchen, die zugrunde liegenden Gedanken zu verstehen.Warum sollten Sie das zugrunde liegende Problem nicht klären und das Problem teilen, für das dieses CLT gelten soll?Das ist viel klarer als eine einseitige Sicht der Diskussion zwischen Ihnen und Ihren Kollegen.https://en.wikipedia.org/wiki/XY_problem
@Dave können Sie das zugrunde liegende Problem beschreiben.Sie schreiben ausdrücklich, dass Ihre Kollegen zustimmen.Es ist also unklar, worauf sie sich beziehen, wenn Sie die Wortdaten zweimal verwenden.* "Ich sage, dass 68% der Daten nicht innerhalb einer Standardabweichung des Mittelwerts liegen müssen" * versus * "Sie stimmen überein, sagen dann aber ... dass 68% der Daten innerhalb einer Standardabweichung des Mittelwerts liegen" *.Ich habe die Idee, dass sie etwas anderes bedeuten könnten (denn ich gehe davon aus, dass ihr Verweis auf "Daten" "der Mittelwert der Daten" ist), aber es ist unklar zu sagen, ohne das zugrunde liegende Problem zu kennen.
Beantwortet das deine Frage?[Welche intuitive Erklärung gibt es für den zentralen Grenzwertsatz?] (Https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central-limit-theorem)
Sechs antworten:
Stephan Kolassa
2020-06-23 01:57:23 UTC
view on stackexchange narkive permalink

Wie bereits erwähnt, können Sie Ihre Mitarbeiter jederzeit auf eine binäre diskrete Verteilung verweisen. Aber sie könnten das "Betrügen" in Betracht ziehen und sich auf die schwächere Behauptung zurückziehen, dass die vorgeschlagene Aussage nur für kontinuierliche Verteilungen gilt.

Verwenden Sie also die gleichmäßige Verteilung für das Einheitsintervall $ [0,1] $ span>. Es hat einen Mittelwert von $ \ mu = 0,5 $ span>, eine Varianz von $ \ frac {1} {12} $ , also eine Standardabweichung von $ \ sigma = \ frac {1} {\ sqrt {12}} \ ca. 0,289 $ span>. Aber natürlich ist das Intervall $ [\ mu- \ sigma, \ mu + \ sigma] \ ungefähr [0.211,0.789] $ span> der Länge $ 2 \ sigma \ ca. 0,577 $ span> enthält nur $ 57,7 \% $ span> Ihrer Daten (genauer gesagt: Mit zunehmender Stichprobengröße nähert sich der Anteil $ 0.577 $ span>), nicht $ 68 \% $ span>, unabhängig davon, wie viele Datenpunkte Sie abtasten.

In Ihrem einheitlichen Beispiel wird unter Verwendung der Stichprobenstatistik der Anteil der Beobachtungen in $ [m-s, m + s] $ mit zunehmender Stichprobengröße näher an $ 0,577 $ herangeführt
@Henry: danke.Ich habe meine Aussage etwas präziser gemacht.
@Alexis: danke!Ich bin mir nicht ganz sicher, wo ein "weil" Ihrer Meinung nach Sinn macht. Möchten Sie es einfach bearbeiten?
Wenn ich Alexis 'Absicht richtig verstehe, denke ich * weil * die Bedeutung in eine falsche Richtung ändern würde.
@Alexis, Entschuldigung, ich habe falsch verstanden, was Sie meinten.Jetzt geklärt.
@Alexis: danke für die Ausarbeitung.Ich glaube eigentlich nicht, dass es hier etwas besonders Interessantes gibt.Es ist nur oft der Fall, dass A eine falsche Behauptung aufstellt, B ein Gegenbeispiel liefert (wie die von Whuber hier) und A sich dann auf eine schwächere (und immer noch falsche) Behauptung zurückzieht."Sei nicht albern, * natürlich * ich spreche hier nicht von diskreten Verteilungen!"Das wäre tatsächlich ein interessantes Gespräch, wenn die ursprüngliche Behauptung und ihre schwächere Version kein so tiefes Missverständnis aufweisen würden.
Ben
2020-06-23 15:25:09 UTC
view on stackexchange narkive permalink

Dies ist ein allgegenwärtiges Missverständnis des zentralen Grenzwertsatzes, auf den ich auch in meinem statistischen Unterricht gestoßen bin. Im Laufe der Jahre bin ich so oft auf dieses Problem gestoßen, dass ich eine sokratische Methode entwickelt habe, um damit umzugehen. Ich identifiziere einen Schüler, der diese Idee akzeptiert hat, und beauftrage den Schüler, herauszufinden, was dies logisch bedeuten würde. Es ist ziemlich einfach, zur reductio ad absurdum der falschen Version des Theorems zu gelangen, dh jede Folge von IID-Zufallsvariablen hat eine Normalverteilung . Ein typisches Gespräch würde ungefähr so ​​verlaufen.

Teacher: Ich habe in dieser Zuweisungsfrage festgestellt, dass Sie gesagt haben, dass die Daten ungefähr normal verteilt sind, weil $ n $ span> groß ist. Können Sie mich durch Ihre Überlegungen zu diesem Teil führen?

Student: Ist das falsch?

Teacher: Ich weiß es nicht. Schauen wir es uns an.

Student: Nun, ich habe diesen Satz verwendet, über den Sie im Unterricht gesprochen haben. das Haupt, das du ein paar Mal erwähnt hast. Ich habe den Namen vergessen.

Teacher: Der zentrale Grenzwertsatz?

Student: Ja, der zentrale Grenzwertsatz.

Teacher: Großartig, und wann gilt dieser Satz?

Student: Ich denke, wenn die Variablen IID sind.

Teacher: Und haben endliche Varianz.

Student: Ja, und endliche Varianz.

Teacher: Okay, die Zufallsvariablen haben also eine feste Verteilung mit endlicher Varianz, stimmt das?

Student: Ja.

Teacher: Und die Verteilung ändert sich nicht oder so?

Student: Nein, sie sind IID mit einer festen Verteilung.

Teacher: Okay, großartig, also lassen Sie mich sehen, ob ich den Satz aufstellen kann. Der zentrale Grenzwertsatz besagt, dass wenn Sie eine IID-Folge von Zufallsvariablen mit endlicher Varianz haben und eine Stichprobe von $ n $ span> von ihnen nehmen, dann als diese Stichprobengröße $ n $ span> wird groß Die Verteilung der Zufallsvariablen konvergiert zu einer Normalverteilung. Ist das richtig?

Student: Ja, ich denke schon.

Teacher: Okay, großartig, also lassen Sie uns darüber nachdenken, was das bedeuten würde. Angenommen, ich habe eine solche Sequenz. Wenn ich beispielsweise tausend Stichprobenwerte nehme, wie ist die Verteilung dieser Zufallsvariablen?

Student: Es handelt sich ungefähr um eine Normalverteilung.

Teacher: Wie nah?

Student: Ziemlich nah, denke ich.

Teacher: Okay, was ist, wenn ich eine Milliarde Stichprobenwerte nehme? Wie nah jetzt?

Student: Wirklich nah würde ich sagen.

Teacher: Und wenn wir eine Folge dieser Dinge haben, können wir theoretisch $ n $ span> so hoch nehmen, wie wir wollen, nicht wahr? So können wir die Verteilung einer Normalverteilung so nahe bringen, wie wir möchten.

Student: Ja.

Teacher: Nehmen wir also an, wir nehmen $ n $ span> groß genug, um zu sagen, dass die Zufallsvariablen grundsätzlich eine Normalverteilung haben. Und das ist eine feste Verteilung, oder?

Student: Ja.

Teacher: Und sie sind IID, oder? Diese Zufallsvariablen sind IID?

Student: Ja, sie sind IID.

Teacher: Okay, sie haben alle die gleiche Verteilung.

Student: Ja.

Teacher: Okay, das heißt, der erste Wert in der Sequenz hat auch eine Normalverteilung. Ist das richtig?

Student: Ja. Ich meine, es ist eine Annäherung, aber ja, wenn $ n $ span> wirklich groß ist, hat es effektiv eine Normalverteilung.

Teacher: Okay, großartig. Und der zweite Wert in der Sequenz und so weiter, richtig?

Student: Ja.

Teacher: Okay, also wirklich, als wir mit dem Sampling begannen, erhielten wir bereits Werte, die im Wesentlichen normalverteilt sind. Wir mussten nicht wirklich warten, bis $ n $ span> groß wird, bevor dies begann.

Student: Hmmm. Ich bin mir nicht sicher. Das klingt falsch. Der Satz besagt, dass Sie einen großen $ n $ span> benötigen. Ich denke, Sie können ihn nicht anwenden, wenn Sie nur eine kleine Anzahl von Werten abgetastet haben.

Teacher: Okay, nehmen wir an, wir nehmen eine Milliarde Werte ab. Dann haben wir große $ n $ span>. Und wir haben festgestellt, dass dies bedeutet, dass die ersten Zufallsvariablen in der Sequenz in sehr enger Näherung normal verteilt sind. Wenn das stimmt, können wir dann nicht einfach früh aufhören zu probieren? Angenommen, wir würden eine Milliarde Werte abtasten, aber dann hören wir auf, nach dem ersten Wert abzutasten. War diese Zufallsvariable noch normal verteilt?

Student: Ich denke, vielleicht ist es nicht so.

Teacher: Okay, also ändert sich irgendwann die Verteilung?

Student: Ich bin mir nicht sicher. Ich bin jetzt etwas verwirrt.

Teacher: Hmmm, es scheint, dass hier etwas Seltsames los ist. Warum lesen Sie das Material im zentralen Grenzwertsatz nicht noch einmal und sehen, ob Sie herausfinden können, wie Sie diesen Widerspruch auflösen können. Sprechen wir dann mehr darüber.

Dies ist ein möglicher Ansatz, der versucht, den falschen Satz auf die reductio zu reduzieren, die besagt, dass jede IID-Sequenz (mit endlicher Varianz) aus normalen Zufallsvariablen bestehen muss. Entweder kommt der Schüler zu dieser Schlussfolgerung und stellt fest, dass etwas nicht stimmt, oder er verteidigt sich gegen diese Schlussfolgerung, indem er sagt, dass sich die Verteilung ändert, wenn $ n $ span> groß wird. In beiden Fällen führt dies normalerweise zu weiteren Überlegungen, die dazu führen können, dass sie den Satz erneut lesen. Hier ist ein anderer Ansatz:

Teacher: Schauen wir uns das anders an. Angenommen, wir haben eine IID-Sequenz von Zufallsvariablen aus einer anderen Verteilung. eine, die not eine Normalverteilung ist. Ist das möglich? Könnten wir zum Beispiel eine Folge von Zufallsvariablen haben, die das Ergebnis des Münzwurfs aus der Bernoulli-Verteilung darstellen?

Student: Ja, das können wir haben.

Teacher: Okay, großartig. Und das sind alles IID-Werte, also haben sie wieder alle die gleiche Verteilung. Also wird jede Zufallsvariable in dieser Sequenz eine Verteilung haben, die keine Normalverteilung ist, oder?

Student: Ja.

Teacher: In diesem Fall ist jeder Wert in der Sequenz das Ergebnis eines Münzwurfs, den wir als Null oder Eins festlegen. Ist das richtig?

Student: Ja, solange wir sie so kennzeichnen.

Teacher: Okay, großartig. Wenn also alle Werte in der Sequenz Nullen oder Einsen sind, Egal wie viele von ihnen wir abtasten, wir werden immer ein Histogramm erhalten, das Werte bei Null und Eins zeigt, oder?

Student: Ja.

Teacher: Okay. Und denken Sie, wenn wir immer mehr Werte abtasten, werden wir der wahren Verteilung immer näher kommen? Wenn es sich um eine faire Münze handelt, konvergiert das Histogramm schließlich dort, wo die relativen Frequenzbalken dieselbe Höhe haben?

Student: Ich denke schon. Ich denke schon.

Teacher: Ich denke, Sie haben Recht. Tatsächlich nennen wir dieses Ergebnis das "Gesetz der großen Zahlen". Wie auch immer, es scheint, als hätten wir hier ein kleines Problem, nicht wahr? Wenn wir eine große Anzahl von Werten abtasten, sagt der zentrale Grenzwertsatz, dass wir zu einer Normalverteilung konvergieren, aber es klingt so, als ob das "Gesetz der großen Zahlen" besagt, dass wir tatsächlich zu der wahren Verteilung konvergieren, die keine Normalverteilung ist. Tatsächlich handelt es sich um eine Verteilung, bei der es sich nur um Wahrscheinlichkeiten für den Nullwert und den Ein-Wert handelt, die der Normalverteilung nicht ähneln. Also was ist es?

Student: Ich denke, wenn $ n $ span> groß ist, sieht es wie eine Normalverteilung aus.

Teacher: Beschreibe es mir also. Nehmen wir an, wir haben die Münze milliardenfach geworfen. Beschreiben Sie die Verteilung der Ergebnisse und erklären Sie, warum dies wie eine Normalverteilung aussieht.

Student: Ich bin mir nicht sicher, wie ich das machen soll.

Teacher: Okay. Stimmen Sie zu, dass bei einer Milliarde Münzwürfen alle diese Ergebnisse Nullen und Einsen sind?

Student: Ja.

Teacher: Okay, beschreiben Sie also, wie das Histogramm aussieht.

Student: Diese Werte enthalten nur zwei Balken.

Teacher: Okay, also nicht "Glockenkurve" geformt?

Student: Ja, ich denke nicht.

Teacher: Hmmm, vielleicht sagt der zentrale Grenzwertsatz nicht, was wir dachten.Warum lesen Sie das Material zum zentralen Grenzwertsatz nicht noch einmal und sehen, ob Sie herausfinden können, was darin steht?Sprechen wir dann mehr darüber.

Ich mag Dialoge.Aber ich denke, der erste erkennt die falsche Wahrnehmung des Schülers nicht.Es hört sich so an, als hätten sie ein Verständnis für die Idee, dass die * empirische * Verteilung einer kleinen Stichprobe wahrscheinlich erheblich von der * zugrunde liegenden Verteilung * abweicht. Der erste Dialog scheint darum herum zu tanzen - hauptsächlich durch die unveränderte Wiederholung einer solchen durch den Lehrerversuchte Erklärung - ohne es anzusprechen.
Dieser Lehrer ist sehr geduldig.Ich denke, Sie müssen sein, wenn Sie Undergrad unterrichten
@whuber: Die allgemeine Idee dieser Dialoge besteht darin, das Problem nicht anzusprechen, sondern lediglich auf bestimmte Widersprüche aufmerksam zu machen, damit der Schüler motiviert wird, den Satz erneut zu lesen, um zu versuchen, das scheinbare Paradoxon zu lösen.In erster Linie machen Sie darauf aufmerksam, dass die IID-Annahme zwingt, dass alle Verteilungen der Zufallsvariablen gleich sind. Wenn sie also "in der Verteilung zur Normalen konvergieren", müssen sie alle normal gewesen sein.Es gibt normalerweise einige Wiederholungen in diesen Überlegungen, um den Schüler zu unterstützen.
Cole
2020-06-23 11:31:37 UTC
view on stackexchange narkive permalink

Der zentrale Grenzwertsatz besagt, dass der mean der Daten mit zunehmender Stichprobengröße normal verteilt wird. Er sagt nothing über die Daten selbst. Eine andere Möglichkeit ist, dass die Verteilung des -Parameters (der Mittelwert) normal ist, dies ist jedoch völlig unabhängig von der Verteilung der zugrunde liegenden Daten .

Der größte Teil des CLT-Werts ergibt sich aus der Tatsache, dass Sie Beispiele vergleichen können, bei denen not normalerweise untereinander verteilt ist (allein aufgrund der Tatsache, dass Sie aufgrund des CLT wissen, wie ihre Mittel sollten sich verhalten).

Ich denke, dies wird verwirrend, wenn Sie nur zwei Stichprobenmittelwerte miteinander vergleichen können, basierend auf einem Test, der Normalität voraussetzt (z. B. t-Test), bedeutet dies nicht, dass Sie sollte . (dh der Vergleich der Mittelwerte zweier Exponentialverteilungen sagt Ihnen möglicherweise nicht, was Sie denken, oder zwei bimodale Verteilungen oder ein bimodales mit einer unimodalen Verteilung usw.)

Die Frage, die die meisten Menschen stellen sollten, lautet: "Ist der Mittelwert (oder ein Unterschied in den Mitteln) eine nützliche Metrik angesichts der Verteilung meiner Daten?" Nur wenn die Antwort auf diese Frage Ja lautet, sollte man die Mittelwerte vergleichen (und sich dabei auf die CLT verlassen).

Wenn Sie diese Frage nicht stellen, fallen viele Menschen in den folgenden (grob formulierten) logischen Irrtum:

Das CLT gilt, damit ich die Mittelwerte vergleichen kann. Und ich kann Mittelwerte vergleichen, weil sie normal verteilt sind. Dieser Vergleich muss aussagekräftig sein, da die CLT sagt, dass ich das kann (und die CLT ist sehr leistungsfähig). Der Vergleich / Test, den ich am intuitivsten (/ nur) verwende, ist sinnvoll, wenn die Daten normal verteilt sind, und schließlich ist der Mittelwert normal verteilt, sodass meine Daten auch normal verteilt sein müssen!

Um die Frage direkt zu beantworten, können Sie:

  1. Zeigen Sie ihnen die Definition, weisen Sie darauf hin, dass die CLT nur einen Anspruch auf die Verteilung des sich der Normalität nähernden Mittelwerts erhebt, und betonen Sie, dass die Verteilung eines Parameters sich stark von der Verteilung der Daten unterscheiden kann, von denen er abgeleitet ist .

  2. Zeigen Sie ihnen dieses Video, das eine schöne visuelle Darstellung der Funktionsweise des CLT unter Verwendung verschiedener Verteilungen für die zugrunde liegenden Daten bietet. (Es ist ein bisschen schrullig, aber sehr klar kommuniziert)

  3. ol>

    Nachtrag:

    Ich habe in meiner Erklärung einige technische Details beschönigt, um sie für jemanden verständlicher zu machen, der mit Statistiken weniger vertraut ist. Mehrere Kommentatoren haben darauf hingewiesen, und deshalb dachte ich, ich würde ihr Feedback hier einfügen:

  • Eine genauere Aussage des CLT wäre:

" Der zentrale Grenzwertsatz besagt, dass der Mittelwert der Daten normal verteilt wird (genauer gesagt die Differenz zwischen dem Mittelwert der Daten / Stichprobe und dem wahren Mittelwert, multipliziert mit der Quadratwurzel der Stichprobengröße $ \ sqrt {n} $ span> ist normalverteilt)

"

Ich habe dies auch als " die richtig normalisierte Summe tendiert zu einer Normalverteilung "

erklärt

Es ist auch darauf hinzuweisen, dass die Daten aus unabhängigen und identisch verteilten Zufallsvariablen mit endlicher Varianz bestehen müssen, damit die CLT angewendet werden kann.

  • Eine genauere und / oder weniger bayesianische Art, " die Verteilung des Parameters (Mittelwert) " zu sagen, wäre " die Verteilung der Parameterschätzung durch den regulären Stichprobenmittelwert "
Gilt CTL nicht auch für die Verteilung von Parameterschätzungen?Wie Mittelwert, aber auch Median oder SD oder andere zusammenfassende Parameter wie der Regressionskoeffizient und das damit verbundene Fehlermaß?
Ist IMO eine grundlegende Theorie hinter dem Testen parametrischer Hypothesen?
Ich glaube, es ist nur der Mittelwert.Viele parametrische Hypothesentests beruhen auf der Normalverteilung des Mittelwerts (oder einer vom Mittelwert abgeleiteten Metrik).Dies geht zurück auf meinen Punkt über kann gegen sollte.Nur weil Sie mit dem CLT einen parametrischen Test durchführen können, bedeutet dies nicht, dass der Test "aussagekräftige" Ergebnisse aus Ihren Daten liefert. Dies hängt mehr davon ab, wie angemessen eine Metrik für die Art des Vergleichs ist, den Sie versuchenmachen.
Wenn der Standardfehler der Regressionskoeffizienten nicht auf der Annahme basiert, dass die Regressionskoeffizienten der Normalverteilung folgen, von welcher zugrunde liegenden Verteilung sollen sie dann stammen?
Es hängt davon ab, welche Art von Regression Sie durchführen.Eine klassische lineare Regression passt eine Linie an Daten an, vorausgesetzt, die Fehler sind normal verteilt.Es gibt jedoch auch andere Formen, wie das Anpassen einer Linie unter der Annahme, dass die Fehler gemäß einer negativen Binomialverteilung verteilt sind, ect.
Ich glaube, hier wird ein Wort missverstanden.Ich spreche über die Verteilung der einzelnen Regressionsparameter (der Mittelwert ist unter anderem ein Regressionsparameter).Sie haben in Ihrer Antwort zu Recht darüber gesprochen.In Ihrem letzten Kommentar sprechen Sie jedoch über die Verteilung der Residuen, die absolut unterschiedlich ist und, wie Sie sagten, von CTL nicht beeinflusst wird.
* "gibt an, dass der Mittelwert der Daten ..." * dies ist ein bisschen mehr wie das Gesetz oder große Zahlen, der Mittelwert der Daten nähert sich einer entarteten Verteilung.Es wäre eleganter, eine Randnotiz hinzuzufügen, die besagt, dass sich ein skalierter und verschobener Stichprobenmittelwert einer Normalverteilung nähert. * "Der zentrale Grenzwertsatz besagt, dass der Mittelwert der Daten normalverteilt wird (genauer gesagt die Differenz zwischen dem Mittelwertder Daten / Stichprobe und des wahren Mittelwerts multipliziert mit der Quadratwurzel der Stichprobengröße $ \ sqrt {n} $ ist normalverteilt) "* ....
Ich bin bei @SextusEmpiricus.Betrachten Sie $ U (0,1) $.$ \ bar {X} $ kann keine Dichte außerhalb von $ [0,1] $ haben, und das Gesetz der großen Zahlen ergibt eine noch stärkere Konvergenz der Wahrscheinlichkeit (CLT ist Konvergenz in der Verteilung) von $ \ bar {X}$ auf den wahren erwarteten Wert.Auch die „Verteilung des Parameters“ ist ein kontroverser, von Natur aus Bayes'scher Kommentar.Ich denke, Sie haben die Verteilung der Parameterschätzung durch den regulären Stichprobenmittelwert gemeint.
@SextusEmpiricus und @ Dave Ich stimme Ihnen beiden zu.Ich wollte einige der technischen Details vermeiden, um es für jemanden ohne statistischen Hintergrund verständlicher zu machen (wie es bei den fraglichen Mitarbeitern der Fall zu sein scheint).
@Dave und @ SextusEmpiricus Ich habe Ihr Feedback zu meinem Beitrag hinzugefügt, danke!
Ich denke, das ist die bisher beste Antwort.Dies ist die einzige, die tatsächlich klarstellt, was das CLT sagt (und aus der Frage ist es durchaus möglich, dass der Fragesteller auch darüber verwirrt ist, nicht nur die Kollegen).
mpiktas
2020-06-24 01:53:38 UTC
view on stackexchange narkive permalink
Bei

​​CLT geht es um die Konvergenz einer Summe von Zufallsvariablen. Wenn wir ein iid-Beispiel $ X_1, ..., X_n $ span> haben, wobei $ EX_i = \ mu $ span > und $ Var (X_i) < \ infty $ span> dann

$$ \ frac {1} {\ sqrt {n}} \ left (X_1 + ... + X_n-n \ mu \ right) \ bis N (0, Var (X_i)) $$ span>

Bei dieser Aussage geht es ausschließlich um die Nähe einer Verteilung einer entsprechend normalisierten Summe $ (X_1 + ... + X_n) $ span> zur Normalverteilung. Es heißt nicht, dass nichts über die Konvergenz der Verteilung von $ X_i $ span>. Da $ X_i $ span> nicht von $ n $ span> abhängt, warum sollten sie irgendwo konvergieren?

Die empirische Verteilung einer Stichprobe $ X_i $ span> konvergiert tatsächlich (mit zunehmender Stichprobengröße) zur tatsächlichen Verteilung von $ X_i $ span> gemäß Donsker-Theorem. Wenn also die tatsächliche Verteilung nicht nahe an der Normalen liegt, liegt die empirische Verteilung auch nicht nahe daran.

Donsker scheint sich mit stochastischen Prozessen zu befassen.Meinten Sie Glivenko-Cantelli?
Glivenko-Cantelli ist ein Gesetz großer Zahlen für stochastische Prozesse, Donsker ist der zentrale Grenzwertsatz.Erstens geht es um die Konvergenz der Wahrscheinlichkeit, zweitens um die Konvergenz der Verteilung.
dariober
2020-06-23 15:50:52 UTC
view on stackexchange narkive permalink

So visualisiere ich gerne die CLT.Ich bin mir jedoch nicht 100% sicher, ob das Argument richtig ist. Bitte überprüfen Sie.

Beginnen Sie mit einer Grundgesamtheit von Werten, deren Verteilung bei weitem nicht normal ist. Zum Beispiel eine gleichmäßige Verteilung:

  X <-runif (n = 50000)
hist (X)
 

enter image description here

Nehmen Sie nun $ n $ span> Stichproben aus dieser Grundgesamtheit, berechnen Sie den Mittelwert jeder Stichprobe, verschieben Sie den Stichprobenmittelwert um den Mittelwert der Grundgesamtheit und skalieren Sie ihn um $ \ sqrt {n} $ span>, zeichnen Sie ein Histogramm dieser $ n $ span> -Mittel. Das Histogramm ist (fast) normal:

  mu <- 1/2 # Mittelwert der Bevölkerung X.
x <-rep (NA, 1000)
Größe <- 10
für (i in 1: Länge (x)) {
    x [i] <-sqrt (Größe) * (Mittelwert (Stichprobe (X, Größe = Größe)) - mu)
}}
 

enter image description here

Bei der CLT geht es nicht um Stichprobenmittelwerte, die in der Wahrscheinlichkeit (daher in der Verteilung wie die Konvergenz der CLT) zum Populationsmittelwert konvergieren.CLT sagt $ \ sqrt {n} (\ bar {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0, \ sigma ^ 2) $.
@Dave, danke - ich wusste, dass ich selbst verwirrt war.Ich habe jedoch von [hier] gelesen (https://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Probability/BS704_Probability12.html): * Die CLT gibt an, dass bei einer Population mit Mittelwert μ undStandardabweichung σ und ausreichend große Zufallsstichproben aus der Population mit Ersetzung entnehmen, dann ist die Verteilung der Stichprobenmittel ungefähr normalverteilt. * Ist es nicht das, was ich oben getan habe?
Fragen Sie sich, wie der Stichprobenmittelwert einer Bernoulli-Verteilung eine Normalverteilung haben kann, wenn der Stichprobenmittelwert buchstäblich nie $ -1 $ betragen kann.Diese Website enthält die falsche Aussage des zentralen Grenzwertsatzes.
@Dave (Ich versuche zu verstehen - nicht zu streiten).Wenn ich "runif (n = 50000)" durch "rbinom (n = 50000, Größe = 1, prob = 0,5)" (50.000 Münzwürfe) ersetze, ist das Histogramm von 1000 Stichprobenmitteln immer noch ungefähr normal
Insbesondere Binomial kann so gerungen werden, dass es zur Normalität konvergiert. Betrachten Sie also $ U (0,1) $, um das Leben einfacher zu machen.Sie können buchstäblich keinen Stichprobenmittelwert von $ -1 $ haben.Die Stichprobe bedeutet Cluster um $ 1/2 $ und nach dem Gesetz der großen Zahlen (nicht CLT) konvergiert $ \ bar {X} $ gegen $ 1/2 $.Mein Vorschlag ist, diesen Beitrag zu löschen, damit Neulinge ihn nicht lesen und sich über den zentralen Grenzwertsatz verwirren, und dann über Ihre Verwirrung als eindeutige Frage zu posten.Wie Sie sehen, sind Sie nicht die einzige Person, die eine Antwort gepostet hat und dieselbe Verwirrung hat.
-1
Nicht ganz, aber Sie kommen zur eigentlichen Aussage des zentralen Grenzwertsatzes.Sie sollten den (bekannten) Bevölkerungsdurchschnitt subtrahieren, nicht eine Schätzung des Bevölkerungsmittels.Ihre Bevölkerung ist $ U (0,1) $, Sie wissen also, dass die Bevölkerung $ 1/2 $ bedeutet.
Guter Fang - Post erneut bearbeitet.Es ist erstaunlich, wie viele Untertitel es gibt
@Dave, Sind Sie sicher, dass Stichprobenmittel in der Wahrscheinlichkeit, also in der Verteilung, zu Populationsmitteln konvergieren?Der Bevölkerungsdurchschnitt (wenn er existiert) ist nur eine Zahl, nicht wahr?Ich denke, das eigentliche Problem ist: Bedeutet $ \ sqrt {n} (\ overline {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0, \ sigma ^ 2) $ $ \ overline {X} _n \ overset {d} {\ rightarrow} N (\ mu, \ sigma ^ 2 / n) $?Wenn die Antwort "Ja" lautet, können Sie sagen, dass, wenn Sie "ausreichend große Zufallsstichproben aus der Population mit Ersatz entnehmen, die Verteilung der Stichprobenmittel ungefähr normal verteilt ist".
@Sergio Gesetz der großen Zahlen
@Dave, Ja, aber wie ist die * Verteilung * von $ \ mu $?Ist es sinnvoll?Ich würde sagen, dass es bei CLT * um Stichprobenmittel und ihre asymptotisch normale Verteilung geht, weil $ \ sqrt {n} (\ overline {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0,\ sigma ^ 2) $ impliziert $ \ overline {X} _n \ overset {d} {\ rightarrow} N (\ mu, \ sigma ^ 2 / n) $.
@Sergio, was Sie schreiben, ist falsch. Wenn Sie dem Warum nicht folgen, klingt dies nach einer guten Frage, die Sie auf Cross Validated posten sollten.Die symbolische Manipulation, $ n $ auf die andere Seite zu verschieben, sieht richtig aus und gibt Aufschluss darüber, warum der Stichprobenmittelwert gegen den wahren Wert von $ \ mu $ konvergiert, aber ich denke, Sie werden auf Probleme stoßen, die die Konvergenz beweisen, wenn der Wert, gegen den Sie konvergierenhängt von der Stichprobengröße ab.
@Dave Ok, Sie haben Recht, ich war zu voreilig, aber ich kann immer CLT verwenden, um zu sagen, dass $ \ overline {X} _n \ overset {\ cdot} {\ sim} N (\ mu, \ sigma ^ 2 / n)$ wenn $ 1 \ ll n <\ infty $, auch wenn $ n $ riesig ist.
@Sergio Ich verstehe nicht, dass Sie nicht bereit sind, das Gesetz der großen Zahlen anzuwenden, oder dass Sie darauf bestehen, den zentralen Grenzwertsatz zu verwenden.Dies klingt nach einer Art Verwirrung, die das Posten als separate Frage rechtfertigt.
@Dave ZB http://www.math.utah.edu/~anna/Sum12/LessonPlans/Section54.pdf, http://www.stat.yale.edu/Courses/1997-98/101/sampmn.htm,http://homepages.math.uic.edu/~bpower6/stat101/Sampling%20Distributions.pdf usw.
@Sergio Dies klingt nach Verwirrung, die das Posten als separate Frage rechtfertigt.
Das hört sich so an, als hätten Sie den Punkt über dem Symbol $ \ sim $ nicht bemerkt :)
@dariober Mach weiter so!Vielen Dank für Ihre Teilnahme, die Website braucht mehr Leute, die bereit sind zu antworten!Ich würde mich von der Kritik nicht entmutigen lassen.Ich finde es eine große technische Angelegenheit.Was ich denke, ist fair genug, da wir Mathe machen, aber für alle praktischen Absichten und Zwecke ist der Stichprobenmittelwert normal verteilt.Daraus bauen alle Inferenzstatistiken auf.Ich habe genau Ihren Stichprobenansatz verwendet, um anderen die CLT zu zeigen.
ajax2112
2020-06-25 10:53:38 UTC
view on stackexchange narkive permalink

Der Punkt der Verwirrung hier ist, was tatsächlich zu einer Normalverteilung konvergiert.Ich denke, der einfachste Weg, dies zu überwinden, besteht darin, Beispiele für die Extreme einer Stichprobenverteilung zu erläutern, eine mit einer Messung pro Stichprobe (so als würden Messungen direkt aus der von Ihnen beschriebenen Population durchgeführt) und eine, bei der jede Stichprobe die gesamte Population darstellt.Von dort ist es einfacher zu verstehen, was in der Mitte passiert.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...