... und wie können wir das machen? Wenn möglich, bin ich gespannt, ob Ausreißer in den Rayleigh-verteilten Daten auch Ausreißer in den neuen Gaußschen verteilten Daten bleiben würden. Danke.
... und wie können wir das machen? Wenn möglich, bin ich gespannt, ob Ausreißer in den Rayleigh-verteilten Daten auch Ausreißer in den neuen Gaußschen verteilten Daten bleiben würden. Danke.
Wenn Sie den Rayleigh-Parameter kennen, wird die Umwandlung in eine Standardnormalen leicht durch die Wahrscheinlichkeitsintegraltransformation gefolgt von einer inversen Normalen-PDF erreicht. Wenn $ X \ sim \ text {Rayleigh} (\ sigma) $ mit cdf $ F_ \ sigma (x) $, dann ist $ F_ \ sigma (X) $ einheitlich und $ \ Phi ^ {- 1} (F_ \ sigma (X)) $ ist Standardnormal (wobei $ \ Phi $ das Standardnormal-PDF ist).
Wenn $ \ sigma $ unbekannt ist, bleibt uns die eine oder andere Art der Annäherung (sogar Schätzung) $ \ sigma $ beinhaltet eine Annäherung). Da das Quadrat einer Rayleigh-Zufallsvariablen ein Sonderfall des Gammas ist, sollte die Wilson-Hilferty-Transformation (Kubikwurzel im Fall des Gammas) eine gute Annäherung an die Normalität ergeben. Das heißt, wenn $ X \ sim \ text {Rayleigh} $ ist, sollte $ X ^ {2/3} $ ziemlich normal aussehen.
In der Praxis sieht es so aus, als ob eine etwas kleinere Leistung, irgendwo in der Nähe von 0,6, etwas näher sein könnte.
$ \ text {} $
Hier ist ein Vergleich der exakten Transformation (x-Achse) und der drei obigen Leistungstransformationen (y-Achse):
Das Schwarz ist die 0,6 Potenz, das Rot ist die 2/3 Potenz und das Grün ist die 1/2 Potenz. Derjenige, der die exakte Transformation am genauesten reproduziert, sollte einer geraden Linie am nächsten liegen ... und das scheint die grüne Linie zu sein.
(Hinzugefügt in der Bearbeitung: Ich habe genauer geprüft; von diesen drei ist die grüne Linie der geraden insgesamt am nächsten, aber die schwarze Linie ist im rechten Schwanz gerader. Alle drei ergeben Verteilungen, die hübsch sind fast normal - aber ich hätte fragen sollen, warum Sie Normalität brauchen.)
-
Eine zusätzliche Diskussion über Potenzen exponentieller - und damit von Rayleigh - Variablen:
Potenzen exponentieller Zufallsvariablen werden als Weibull verteilt. Insbesondere wenn $ X $ exponentiell ist, ist $ X ^ \ frac {1} {k} $ Weibull mit dem Formparameter $ k $.
Kubikwurzeln und vierte Wurzeln von Exponentialen (Rayleigh-Variablen zu den Potenzen $ \ frac {2} {3} $ bzw. $ \ frac12 $) sind Weibull mit den Formparametern $ 3 $ und $ 4 $.
Während kein Weibull symmetrisch ist, führen bestimmte Auswahlmöglichkeiten für $ k $ zu Weibull-Verteilungen mit einer Schiefe von Null (unterschiedliche Auswahlmöglichkeiten für unterschiedliche Maße der Schiefe).
Hier sind die Werte von $ k $ mit $ 0 $ Skewness für mehrere Skewness-Messungen und die entsprechende Leistung ($ p $) des Rayleigh:
Es ist also keine Überraschung, dass ein Wert von $ p $ in der Nähe von $ 0,6 $ geeignet erscheint.
-
In Bezug auf das Problem mit Ausreißern:
Können Sie definieren, was Sie unter "Ausreißer" verstehen? Wenn die Daten Werte haben, die nicht aus der Rayleigh-Verteilung stammen, ist die Frage der Transformation von Rayleigh-verteilten Daten irrelevant, da Sie keine Rayleigh-verteilten Daten haben.
Wenn Sie also Werte haben Von einer Verteilung, die nicht Rayleigh ist (mit Werten, die für ein Rayleigh-Modell nicht übereinstimmen) und Sie verwandeln sich in Normalität, als wäre es Rayleigh, dann erhalten Sie definitiv ein nicht normales Ergebnis ... eines, das wahrscheinlich nicht übereinstimmt Werte relativ zu einem normalen Modell.
In Ermangelung einer Spezifikation dessen, was einen Ausreißer ausmacht, ist hier ein Beispiel:
Dies sind die gleichen Daten wie oben (eine große Stichprobe aus einer Rayleigh-Verteilung mit $ \ sigma = 1 $). Im zweiten Bereich habe ich vier Ausreißer (bei 6, 10, 30 und 100) hinzugefügt, die rot markiert sind. Im dritten Feld sehen wir den Effekt der Potenz $ p = \ frac {2} {3} $ und im letzten Panel den Effekt der Potenz $ p = \ frac {1} {2} $. Beachten Sie, dass für die Rayleigh-Daten $ \ mu + 3 \ sigma $ bei etwa 3,22 liegt. Der Wert bei 6 ist bereits weit genug entfernt, um selbst in einer ziemlich großen Stichprobe mit dieser Schiefe als höchst unwahrscheinlich angesehen zu werden - in gewissem Sinne ein Ausreißer. Sie können sehen, dass die Transformation es zurück zum Hauptteil der Daten bringt, so dass es im letzten Bereich visuell ein etwas milder Ausreißer ist, der angesichts der Stichprobengröße ziemlich grenzwertig ist (ca. 4,5 sd über dem Mittelwert).
Der Wert 10 (auf der ursprünglichen Skala) ist zwar eindeutig ein Ausreißer, aber deutlich weniger abweichend, aber immer noch eindeutig unvereinbar mit der Vorstellung, dass die Daten normal sind, und den größeren Werten noch mehr.
Sie kommen also in gewisser Weise "rein" - aber ob sich der Status als "Ausreißer" geändert hat, hängt sehr davon ab, wie Sie "Ausreißer" definieren.
-
Der Vorschlag einer vierten Wurzel für ein Gamma * mit kleinen Werten des Formparameters ist in Hawkins und Wixley (siehe unten). Während der Wilson-Hilferty über einen weiten Bereich von Gammaverteilungen am besten funktioniert, scheint der Hawkins-Wixley in einigen Teilen des unteren Bereichs (kleinere Werte der Formparameter) etwas besser abzuschneiden. Diese vierte Wurzel eines Gammas entspricht einer Quadratwurzel eines Rayleigh.
* (NB Chi-Quadrat ist ein Gamma mit einer bestimmten Skala, und wenn man die Leistungstransformation betrachtet, spielt die Skala keine Rolle. Obwohl sich beide Referenzen auf Chi-Quadrat-Verteilungen zu beziehen scheinen, gelten ihre Schlussfolgerungen allgemeiner für Gamma-Verteilungen. Wilson, EB, und Hilferty, MM (1931), The Distribution of Chi -Squares, "
Verfahren der Nationalen Akademie der Wissenschaften , 17 , 684–688.
Hawkins, DM, und Wixley, RAJ (1986),
"Ein Hinweis zur Transformation von Chi-Quadrat-Variablen zur Normalität",
The American Statistician , 40 , 296–298.
Wenn $ R $ eine Rayleigh-Zufallsvariable ist und $ \ Theta \ sim U [0,2 \ pi) $ unabhängig von $ R $ ist, dann ist $ X = R \ cos \ Theta $ und $ Y = R \ sin \ Theta $ sind unabhängige Null-Mittelwert normale Zufallsvariablen mit identischer Varianz $ \ sigma ^ 2 = \ frac {1} {2} E [R ^ 2] $. Wenn Sie also Ihren Datensatz als $$ \ {r_1, r_2, \ ldots, r_n \} \ longrightarrow \ {r_1 \ cos \ theta_1, r_2 \ cos \ theta_2, \ ldots r_n \ cos \ theta_n \} $$ transformieren (Ähnlich für $ Y $, jedoch unter Verwendung von $ \ sin \ theta_i $) wobei $ \ {\ theta_i \ Doppelpunkt 1 \ leq i \ leq n \} $ ein Datensatz ist, den Sie als Folge unabhängiger Stichproben erstellen aus $ U [0,2 \ pi) $, , dann ist der resultierende Datensatz genau eine Sammlung von $ n $ Samples aus einem $ N (0, \ sigma ^ 2) $ Verteilung. Beachten Sie, dass im Gegensatz zu den in der Antwort von @ Glen_b vorgeschlagenen monotonen Transformationen der resultierende Datensatz sowohl positive als auch negative Zahlen enthält.
Rayleigh-verteilte Daten set kann Ausreißer haben, die sehr groß sind, aber da diese mit einem Cosinus multipliziert werden, dessen Größe weniger als $ 1 $ beträgt, sind sie möglicherweise keine Ausreißer mehr, es sei denn, der Cosinus hat eine Größe nahe $ 1 $, wie in Glen_bs Kommentar angegeben. Beachten Sie auch, dass wenn $ \ cos \ theta_i $ nahe bei $ -1 $ liegt, dieser Ausreißer immer noch ein Ausreißer ist, aber im anderen Schwanz.
Wenn $ E] R ^ 2] $ ziemlich groß ist, kann ein Rayleigh-verteilter Datensatz auch sehr kleine Ausreißer haben: Beispielwerte, die sind sehr nahe an $ 0 $, während fast alle anderen Stichprobenwerte näher am (großen) Stichprobenmittelwert liegen. Solche Ausreißer werden dem Mittelwert sehr nahe kommen, wenn sie die oben vorgeschlagene Transformation durchlaufen. Bei der Transformation von Glen_b bleiben solche Ausreißer kleine Ausreißer.
Kurz gesagt, der transformierte Datensatz verfügt nicht über die Eigenschaft, dass Ausreißer in $ \ {r_i \ Doppelpunkt 1 \ le i \ leq n \} $ sind Ausreißer im transformierten Datensatz $ \ {r_i \ cos \ theta_i \ Doppelpunkt 1 \ le i \ leq n \} $. Wenn Sie bereit sind, einen transformierten Datensatz zu haben, der doppelt so groß ist, dann ist der Datensatz $$ \ {r_1 \ cos \ theta_1, r_2 \ cos \ theta_2, \ ldots r_n \ cos \ theta_n \} \ cup \ {r_1 \ sin \ theta_1, r_2 \ sin \ theta_2, \ ldots r_n \ sin \ theta_n \} $$ ist eine Menge von $ 2n $ unabhängigen Stichproben, die aus einer $ N (0, \ sigma ^ 2) $ -Verteilung gezogen wurden und seit $ \ max \ {| \ cos \ theta |, | \ sin \ theta | \} \ geq 1 / \ sqrt {2} $ Ihnen wird garantiert, dass jeder große Ausreißer Ihnen zwei Zahlen gibt, von denen mindestens eine möglicherweise noch ein Ausreißer ist, da Ausreißer wie Schönheit im Auge des Betrachters liegen. Ist etwas, das nur $ 20 \% $ größer ist als der nächst kleinere Wert, ein Ausreißer? oder würden Sie auf $ 50 \% $ größer bestehen? Ich nehme an, es hängt von den Skalierungsfaktoren usw. ab.