Frage:
Standardisierung einer normalen Standardvariablen
user81411
2015-08-14 06:29:46 UTC
view on stackexchange narkive permalink

Wenn ich eine normale Standard-Zufallsvariable standardisiere, ist sie dann immer noch normal? Das heißt, wenn $ X \ sim N (0,1) $, kann ich dann $$ X ^ * = \ frac {x- \ bar x} {sd (x)} $$ ausführen? und wird $ X ^ * \ sim N (0,1) $?

In R code:

  x <norm (5 ) scale (x)  

Es scheint mir, dass ich eine Standardnormalität standardisiere, das klingt nach doppelter Standardisierung. Ich weiß auch nicht, ob die Standardnormalverteilung beibehalten wird.

"Gültig" in welchem Sinne?Für welchen Zweck?
Ich denke, ich habe eine ähnliche Frage gesehen, auf die ich eine oder mehrere gute Antworten hatte.Ich kann es momentan nicht finden.
@whuber Obwohl "gültig" ein Fachbegriff ist, habe ich ihn tatsächlich im Klartext verwendet.Sie können es als "logisch" denken.
Das hilft uns leider nicht zu verstehen, was Sie damit meinen.**Was ist der Zweck**?Für einige Zwecke ist diese Standardisierung hilfreich und mathematisch korrekt - "gültig", wenn Sie möchten.Für andere - einschließlich einiger der in bestehenden Antworten genannten - ist es nicht gültig oder könnte falsch interpretiert werden.Sofern Sie diese Frage nicht bearbeiten können, um Ihre Bedeutung anzugeben, muss sie als objektiv unbeantwortbar geschlossen werden.
Fünf antworten:
Glen_b
2015-08-14 07:18:44 UTC
view on stackexchange narkive permalink

Wenn $ X_i $ iid Normal (0,1) sind, hat eine Stichprobe nur aufgrund zufälliger Abweichungen keinen Stichprobenmittelwert 0 oder keine Stichprobenstandardabweichung 1.

Überlegen Sie nun, was passiert, wenn wir $ Z = \ frac {X- \ overline {X}} {s_X} $

ausführen, während wir jetzt ausführen Haben Sie den Stichprobenmittelwert 0 und die Stichprobenstandardabweichung 1. Was wir nicht haben, ist, dass $ Z $ normal verteilt ist.

Bei kleinen bis mittleren Stichprobengrößen hat es kurze Schwänze. und wesentlich kleinere Kurtosis als ein Standardnormal. Tatsächlich sieht es aus der Simulation für Proben der Größe n = 10 einer skalierten Beta (4,4) ziemlich ähnlich aus (die so skaliert wurde, dass sie in (-3,3) liegt):

enter image description here

(Die x-Achse ist eine Zufallsstichprobe von B (4,4), skaliert auf (-3,3). Natürlich dies bedeutet nicht, dass die Verteilungsform eine Beta (4,4) ist.)

Die Werte in res wurden wie folgt generiert:

  res = replicate (100000, scale (rnorm (10)))  

Bei Stichproben der Größe 5 ähnelt das Ergebnis eher einer skalierten Beta (3 / 2,3 / 2).

Ferner sind die Werte in jeder Stichprobe nicht mehr unabhängig, da sie sich zu 0 summieren und ihre Quadrate zu $ ​​n-1 $

summieren
Alecos Papadopoulos
2015-08-14 20:48:18 UTC
view on stackexchange narkive permalink

Wir haben das

$$ X_i ^ * = \ frac {X_i} {s} - \ frac {\ bar X} {s} $$

Die Stichprobenvarianz Aus einer normalen Stichprobe folgt eine genaue Verteilung.

$$ (n-1) s ^ 2 / \ sigma ^ 2 \ sim \ chi ^ 2_ {n-1} \ impliziert s ^ 2 \ sim \ frac {1} {n-1} \ chi ^ 2_ {n-1} \ impliziert s \ sim \ frac {1} {\ sqrt {n-1}} \ chi_ {n-1} $$

dh $ s $ folgt der Quadratwurzel eines Chi-Quadrats geteilt durch seine Freiheitsgrade.

Aber selbst wenn dies bedeutet, dass $ \ frac {X_i} {s} $ das Verhältnis einer Standardnormalen über ist Als Quadratwurzel eines Chi-Quadrats geteilt durch seine Freiheitsgrade ist der Zähler nicht unabhängig vom Nenner, und daher können wir nicht sagen, dass das Verhältnis der $ t $ -Verteilung eines Schülers (und persönlich) folgt Ich kenne seine Verteilung nicht.)

Für den zweiten Term ist bekannt, dass der Stichprobenmittelwert und die Stichprobenvarianz genau dann unabhängige Zufallsvariablen sind, wenn die Stichprobe aus unabhängigen Normalen besteht Fall hier.

Außerdem folgt der Stichprobenmittelwert einer Normalverteilung mit dem Mittelwert Null mit einer Varianz von hier $ 1 / n $, sodass $ \ sqrt {n} \ bar X $ einer Standardnormalen folgt.

Wir haben also $$ \ frac {\ sqrt {n} \ bar X} {s} \ sim t \ impliziert \ frac {\ bar X} {s} \ sim \ frac {1} {\ sqrt {n}} t $$

dh Der zweite Term von $ X_i ^ * $ folgt der $ t $ -Verteilung eines skalierten Schülers

Also insgesamt

$$ X ^ * _ i = \ frac {Z_i} {\ sqrt {\ chi ^ 2_ {n-1} / (n-1)}} - \ frac {1} {\ sqrt {n}} t $$

wobei I. haben das Symbol $ Z $ verwendet, um eine Zufallsvariable zu bezeichnen, die einer Standardnormalen folgt. Das erste Semester ist kein $ t $ eines Schülers und darüber hinaus nicht unabhängig vom zweiten Semester. Zusammengenommen sieht es auch nicht nach einer normalen oder einer Schülerverteilung aus.

https://en.wikipedia.org/wiki/Standard_score.In einem Beispiel heißt es, Standardisierung sollte auf diese Weise $ Z = \ frac {\ bar {X} - \ operatorname {E} [X]} {\ sigma (X) / \ sqrt {n}}. $ Ihre Erklärungen scheinenleichter für mich zu verstehen.
@DeepNorth Beachten Sie, dass sich der Wikipedia-Ausdruck auf den wahren Mittelwert (und die Standardabweichung) bezieht, der eine Konstante ist, nicht auf den Stichprobenmittelwert, bei dem es sich um eine Zufallsvariable handelt, die den wahren Mittelwert schätzt.Ebenso für die Standardabweichung.
Vielen Dank, aber ich denke, wenn Leute sagen "standardisiere eine ** normale normale Zufallsvariable **", bedeutet das nicht, dass der wahre Mittelwert und die wahre Varianz bereits bekannt sind?Wie auch immer, ich mag deine Erklärung.
Und ich denke, wenn wir bereits $ E (X) = 0 $ kennen und $ \ sigma $ durch s ersetzen, hat Z eine t-Verteilung nach Wikis Methode.Ich denke, dann brauchen wir möglicherweise Bootstrap, um verschiedene Beispielmittel zu erhalten.Ich habe den Quellcode der Skalierungsfunktion überprüft, aber es scheint, dass die Funktion keinen Bootstrap verwendet.
@DeepNorth Die Notation des OP deutete auf die Verwendung der Beispielmomente hin.Auch wenn die wahren Momente bekannt sein mögen, haben die meisten Antworten hier diesen Fall untersucht, der zugegebenermaßen nur eine unterhaltsame Neugier ist.Beachten Sie bei der Wiki-Methode, dass sie den Stichprobenmittelwert standardisiert und nicht jede einzelne Realisierung aus der Stichprobe (nach der das OP gefragt hat).
AlaskaRon
2015-08-14 07:18:36 UTC
view on stackexchange narkive permalink

Die ursprünglichen Standardnormalvariablen haben den WAHREN Mittelwert 0 (E (X) = 0) und sind unabhängig. Indem Sie einen Satz davon nehmen und durch ihre Standardabweichung dividieren, standardisieren Sie sie, aber das Ergebnis ist ironischerweise nicht normal. Sie sind abhängig (weil sie den Nenner teilen) und haben tatsächlich t-Verteilungen. Wenn Sie also Standard normal möchten, bleiben Sie einfach bei rnorm (5).

Aber wenn Sie das Original standardisieren, haben sie auch den gleichen Nenner, oder?
Können Sie erklären, warum Sie sagen, dass die Werte t-Verteilungen haben?Ich glaube wirklich nicht, dass sie es tun.
Das ist ein interessanter Kommentar, @Glen_b.Offensichtlich bezieht sich die Frage auf * Proben * aus einer Standardnormalverteilung.Wenn wir eine Stichprobe der Größe $ 2 $ betrachten, wird sie durch Standardisierung in den Datensatz $ (- 1,1) $ umgewandelt.Das ist sicherlich keine $ t $ -Verteilung!(Es ist auch nicht im entferntesten normal ...) Man könnte es als "skalierte Beta $ (0,0) $" -Verteilung beschreiben.
@whuber Um die Bedeutung hinter meiner Frage zu klären - um eine t-Verteilung zu erhalten, hätten Sie einen normalverteilten Zähler mit 0 Mittelwerten geteilt durch (eine konstante Zeit) die Quadratwurzel von {einem (vom Zähler unabhängigen) Chi-Quadratgeteilt durch seine df}.Aber das haben wir hier eigentlich nicht.$ X_i- \ overline {X} $ und $ s_X $ sind abhängig, da $ X_i- \ overline {X} $ klein sein muss, wenn $ s $ klein ist.z.B.siehe `Diagramm (c (0,2,8), c (0,4), Typ =" n ");jk = replizieren (10000, {x = rnorm (5); num = x-Mittelwert (x); Punkte (sd (x), num [1])}) `
Deep North
2015-08-14 06:49:26 UTC
view on stackexchange narkive permalink

Habe gerade ein paar Experimente gemacht. Nach dem erneuten Skalieren scheinen Sie näher dran zu sein, um einige Daten mit $ \ mu = 0 $ und $ \ sigma = 1 $ zu erhalten.

  set.seed (123) x <norm (1000,0,1) Mittelwert (x) sd (x) y<-Skala (x) Mittelwert (y) sd (y)  

Ergebnisse:

  > Mittelwert (x) [1] 0,01612787> sd (x) [1] 0,991695> y<-Skala (x) > Mittelwert (x) y) [1] -8.235085e-18> sd (y) [1] 1  
Sie scheinen festgestellt zu haben, dass durch Standardisierung (mit der ein Mittelwert von Null und eine Einheitsvarianz erstellt werden sollen) die Daten einen Mittelwert von Null und eine Einheitsvarianz aufweisen.
Hehe, danke, du scheinst zu sagen, ich färbe die rote Farbe mit roter Farbe, Englisch ist sowieso nicht meine Muttersprache.
Wenn der Stichprobenmittelwert 0 und der Stichprobenwert sd 1 ist, bedeutet dies nicht unbedingt, dass die Verteilung näher an N (0,1) liegt.
Ok, ich werde den Text ändern
Dennis Jaheruddin
2015-08-14 19:44:36 UTC
view on stackexchange narkive permalink

Intuitiver Beweis durch Gegenbeispiel

Es gibt bereits einige allgemeine Antworten, die die Frage abdecken, aber ich persönlich finde die folgenden Überlegungen am einfachsten zu befolgen.

Angenommen, Ihre Stichprobengröße ist 1

Ihre Definition von $ X ^ * $ span> lautet wie folgt:

$$ X ^ * = \ frac {x- \ bar x} {sd (x)} $$ span>

Da die Stichprobengröße 1 ist, haben wir $ \ bar x = x $ span>, daher reduziert sich der Ausdruck für jeden $ x $ span> auf

$$ X ^ * = \ frac {\ bar x- \ bar x} {sd (x)} = \ frac {0} {0} $$ span>

Da $ X ^ * $ span> für Stichprobengröße 1 eindeutig nicht normal verteilt ist, kann es im Allgemeinen definitiv keine Standardnormalverteilung geben.

Sie haben festgestellt, dass die Normalisierung für eine Stichprobe der Größe 1 * undefiniert * ist. Dies scheint keine Auswirkungen auf größere Stichproben zu haben.@Glen_b hat sich in seiner Antwort mit diesen Fällen befasst.
@whuber Ich dachte, dass es für ein Gegenbeispiel ausreichen würde, zu zeigen, dass es undefiniert ist.---- Nebenbemerkung: Obwohl die Möglichkeit (unendlich) gering ist, kann die Normalisierung für eine Stichprobe jeder Größe tatsächlich undefiniert sein.Sie sind sich nicht sicher, ob dies meine Antwort genug verbessern würde, um Sie zufrieden zu stellen?
Das Problem in einer Situation, in der etwas * immer * undefiniert ist, besteht darin, dass sich alle fragen, ob Ihre Schlussfolgerungen für diese Situation besonders sind oder ob sie sich verallgemeinern.Deshalb reicht diese Antwort nicht aus.Ihr Argument wäre weitaus überzeugender, wenn es auf Stichproben der Größe zwei (oder größer) angewendet würde - und genau das tut die Antwort von @Glen_b's.Die Tatsache, dass Standardisierung undefiniert sein kann, ist kein theoretisches Problem, wenn die zugrunde liegende Verteilung kontinuierlich ist, denn dann ist die Wahrscheinlichkeit, auf eine solche Situation zu stoßen, Null und kann daher vernachlässigt werden.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...