Frage:
Ist es möglich, eine Rayleigh-Verteilung in eine Gauß-Verteilung umzuwandeln?
Creatron
2014-02-11 04:37:13 UTC
view on stackexchange narkive permalink

... und wie können wir das machen? Wenn möglich, bin ich gespannt, ob Ausreißer in den Rayleigh-verteilten Daten auch Ausreißer in den neuen Gaußschen verteilten Daten bleiben würden. Danke.

Zwei antworten:
Glen_b
2014-02-11 05:36:39 UTC
view on stackexchange narkive permalink

Wenn Sie den Rayleigh-Parameter kennen, wird die Umwandlung in eine Standardnormalen leicht durch die Wahrscheinlichkeitsintegraltransformation gefolgt von einer inversen Normalen-PDF erreicht. Wenn $ X \ sim \ text {Rayleigh} (\ sigma) $ mit cdf $ F_ \ sigma (x) $, dann ist $ F_ \ sigma (X) $ einheitlich und $ \ Phi ^ {- 1} (F_ \ sigma (X)) $ ist Standardnormal (wobei $ \ Phi $ das Standardnormal-PDF ist).

Wenn $ \ sigma $ unbekannt ist, bleibt uns die eine oder andere Art der Annäherung (sogar Schätzung) $ \ sigma $ beinhaltet eine Annäherung). Da das Quadrat einer Rayleigh-Zufallsvariablen ein Sonderfall des Gammas ist, sollte die Wilson-Hilferty-Transformation (Kubikwurzel im Fall des Gammas) eine gute Annäherung an die Normalität ergeben. Das heißt, wenn $ X \ sim \ text {Rayleigh} $ ist, sollte $ X ^ {2/3} $ ziemlich normal aussehen.

enter image description here

In der Praxis sieht es so aus, als ob eine etwas kleinere Leistung, irgendwo in der Nähe von 0,6, etwas näher sein könnte.

$ \ text {} $

Hier ist ein Vergleich der exakten Transformation (x-Achse) und der drei obigen Leistungstransformationen (y-Achse):

enter image description here

Das Schwarz ist die 0,6 Potenz, das Rot ist die 2/3 Potenz und das Grün ist die 1/2 Potenz. Derjenige, der die exakte Transformation am genauesten reproduziert, sollte einer geraden Linie am nächsten liegen ... und das scheint die grüne Linie zu sein.

(Hinzugefügt in der Bearbeitung: Ich habe genauer geprüft; von diesen drei ist die grüne Linie der geraden insgesamt am nächsten, aber die schwarze Linie ist im rechten Schwanz gerader. Alle drei ergeben Verteilungen, die hübsch sind fast normal - aber ich hätte fragen sollen, warum Sie Normalität brauchen.)

-

Eine zusätzliche Diskussion über Potenzen exponentieller - und damit von Rayleigh - Variablen:

Potenzen exponentieller Zufallsvariablen werden als Weibull verteilt. Insbesondere wenn $ X $ exponentiell ist, ist $ X ^ \ frac {1} {k} $ Weibull mit dem Formparameter $ k $.

Kubikwurzeln und vierte Wurzeln von Exponentialen (Rayleigh-Variablen zu den Potenzen $ \ frac {2} {3} $ bzw. $ \ frac12 $) sind Weibull mit den Formparametern $ 3 $ und $ 4 $.

Während kein Weibull symmetrisch ist, führen bestimmte Auswahlmöglichkeiten für $ k $ zu Weibull-Verteilungen mit einer Schiefe von Null (unterschiedliche Auswahlmöglichkeiten für unterschiedliche Maße der Schiefe).

Hier sind die Werte von $ k $ mit $ 0 $ Skewness für mehrere Skewness-Messungen und die entsprechende Leistung ($ p $) des Rayleigh:

  • Skewness im 3. Moment: $ \: \, \, k = 3,60, \, p = 0,56 $
  • mittlere mittlere Schiefe: $ k = 3,44, \, p = 0,58 \, $ (zweite Pearson-Schiefe)
  • mittlere Schiefe: $ \: \, \, k = 3,31, \, p = 0,60 \, $ (erste Pearson-Schiefe)
  • Modus-Median-Schiefe: $ k = 3,26, \, p = 0,61 $

Es ist also keine Überraschung, dass ein Wert von $ p $ in der Nähe von $ 0,6 $ geeignet erscheint.

-

In Bezug auf das Problem mit Ausreißern:

Können Sie definieren, was Sie unter "Ausreißer" verstehen? Wenn die Daten Werte haben, die nicht aus der Rayleigh-Verteilung stammen, ist die Frage der Transformation von Rayleigh-verteilten Daten irrelevant, da Sie keine Rayleigh-verteilten Daten haben.

Wenn Sie also Werte haben Von einer Verteilung, die nicht Rayleigh ist (mit Werten, die für ein Rayleigh-Modell nicht übereinstimmen) und Sie verwandeln sich in Normalität, als wäre es Rayleigh, dann erhalten Sie definitiv ein nicht normales Ergebnis ... eines, das wahrscheinlich nicht übereinstimmt Werte relativ zu einem normalen Modell.

In Ermangelung einer Spezifikation dessen, was einen Ausreißer ausmacht, ist hier ein Beispiel:

enter image description here

Dies sind die gleichen Daten wie oben (eine große Stichprobe aus einer Rayleigh-Verteilung mit $ \ sigma = 1 $). Im zweiten Bereich habe ich vier Ausreißer (bei 6, 10, 30 und 100) hinzugefügt, die rot markiert sind. Im dritten Feld sehen wir den Effekt der Potenz $ p = \ frac {2} {3} $ und im letzten Panel den Effekt der Potenz $ p = \ frac {1} {2} $. Beachten Sie, dass für die Rayleigh-Daten $ \ mu + 3 \ sigma $ bei etwa 3,22 liegt. Der Wert bei 6 ist bereits weit genug entfernt, um selbst in einer ziemlich großen Stichprobe mit dieser Schiefe als höchst unwahrscheinlich angesehen zu werden - in gewissem Sinne ein Ausreißer. Sie können sehen, dass die Transformation es zurück zum Hauptteil der Daten bringt, so dass es im letzten Bereich visuell ein etwas milder Ausreißer ist, der angesichts der Stichprobengröße ziemlich grenzwertig ist (ca. 4,5 sd über dem Mittelwert).

Der Wert 10 (auf der ursprünglichen Skala) ist zwar eindeutig ein Ausreißer, aber deutlich weniger abweichend, aber immer noch eindeutig unvereinbar mit der Vorstellung, dass die Daten normal sind, und den größeren Werten noch mehr.

Sie kommen also in gewisser Weise "rein" - aber ob sich der Status als "Ausreißer" geändert hat, hängt sehr davon ab, wie Sie "Ausreißer" definieren.

-

Der Vorschlag einer vierten Wurzel für ein Gamma * mit kleinen Werten des Formparameters ist in Hawkins und Wixley (siehe unten). Während der Wilson-Hilferty über einen weiten Bereich von Gammaverteilungen am besten funktioniert, scheint der Hawkins-Wixley in einigen Teilen des unteren Bereichs (kleinere Werte der Formparameter) etwas besser abzuschneiden. Diese vierte Wurzel eines Gammas entspricht einer Quadratwurzel eines Rayleigh.

* (NB Chi-Quadrat ist ein Gamma mit einer bestimmten Skala, und wenn man die Leistungstransformation betrachtet, spielt die Skala keine Rolle. Obwohl sich beide Referenzen auf Chi-Quadrat-Verteilungen zu beziehen scheinen, gelten ihre Schlussfolgerungen allgemeiner für Gamma-Verteilungen. Wilson, EB, und Hilferty, MM (1931), The Distribution of Chi -Squares, "
Verfahren der Nationalen Akademie der Wissenschaften , 17 , 684–688.

Hawkins, DM, und Wixley, RAJ (1986),
"Ein Hinweis zur Transformation von Chi-Quadrat-Variablen zur Normalität",
The American Statistician , 40 , 296–298.

Gleb_b, vielen Dank, lass mich sicherstellen, dass ich dich verstehe. Da ich meinen Rayleigh $ \ sigma $ -Parameter tatsächlich nicht kenne, sagen Sie, dass ich meine Daten einfach nehmen, auf die $ \ frac {2} {3} $ -Power erhöhen und so neue Daten mit einem guten Ergebnis erzeugen kann Annäherung an die Normalität? (Als Ergebnis der Wilson-Hilferty-Transformation)? Das ist sehr nützlich!
Das ist die Idee, ja. Die Wilson-Hilferty ist jedoch für einen weiten Bereich von Gamma-Formparametern vorgesehen, während das Quadrat eines Rayleigh ein spezifisches ist (das Exponential mit unbekanntem Maßstab); am unteren Ende könnte das W-H leicht verbessert werden - in den neuen Ergänzungen zu meiner Antwort schlage ich vor, dass Sie einen Wert zwischen der 1/2 und der 2/3 Potenz in Betracht ziehen. Die 2/3 Leistung ist ziemlich gut und hat aufgrund der Wilson-Hilferty eine Rechtfertigung, aber Sie möchten vielleicht einige simulierte Rayleigh-Daten (wie oben beschrieben) ausprobieren und sehen, ob Sie eine kleinere etwas besser mögen.
Glen_b, Der 0.6 scheint der beste auf meinem Auge zu sein. Das ist wirklich cool und interessant! Um Ihre Frage zu den Ausreißern zu beantworten: Ich habe nominell Rayleigh-verteilte Daten, aber ~ <1% sind beschädigt und haben übermäßig große Werte. Ich habe mich gefragt, ob das Durchlaufen dieser Daten, um sie gaußsch zu machen, auch die "Ausreißer" der beschädigten Daten bewahren würde. Ist das sinnvoll?
Wenn man die Quadratwurzel des Rayleigh für eine Sekunde betrachtet, sieht das ziemlich gut aus und ist nett und einfach; Das entspricht einer vierten Wurzel einer Gamma-Zufallsvariablen, und diese Transformation wurde von einem Autorenpaar vorgeschlagen (ich kann wahrscheinlich eine Referenz ausgraben, wenn Sie die Quadratwurzel verwenden und eine Referenz benötigen). Aber wählen Sie, was Sie bevorzugen. Ja, die extremen Ausreißer sehen immer noch extrem aus, obwohl sie vielleicht etwas weniger hervorstehen als zuvor. Es hängt genau davon ab, wie Sie zu dem Schluss kommen, dass eine Beobachtung sowohl vorher als auch nachher ein Ausreißer ist.
Ein Hinweis auf die Quadratwurzelverwendung wäre fantastisch, danke im Voraus dafür. Es wird mir sicherlich helfen, dies noch besser zu verstehen. Ich habe gerade ein paar Sims hier laufen lassen und es scheint, dass es besser aussieht. Für Kicks habe ich es auch mit $ \ frac {1} {4} $ ausgeführt. Schlägt W-H vor, bei $ \ frac {1} {2} $ anzuhalten?
Wilson-Hilferty ist 2/3 * nur * (d. H. 1/3 am Gamma, dem Quadrat eines Rayleigh). Die halbe Potenz (1/4 für ein Gamma) stammt von zwei anderen Autoren. Ich werde sehen, ob ich das ausgraben kann
Referenzen hinzugefügt
Vielen Dank für die Referenzen, die bereits heruntergeladen und zum Verzehr bereit sind! :-) Das war wirklich eine großartige Antwort, die ich noch nie über diese "Macht" -Transformationen gehört hatte. Es ist aufregend, weil wir in der Bildverarbeitung auf diese Weise den Kontrast eines Bildes ändern. (Erhöhen Sie es zu einer Kraft). Vielleicht gibt es einige versteckte Links ...
[Leistungstransformationen] (http://en.wikipedia.org/wiki/Power_transform) sind in der Statistik ziemlich häufig. speziell in der Box-Cox-Familie parametrisiert, siehe aber auch 'Tukey's Ladder'. Möglicherweise finden Sie das folgende Dokument (in dem beide oben genannten Referenzen behandelt werden) von Wert: [hier] (http://www.ucs.louisiana.edu/~kxk4695/GammaR2.pdf). Ich glaube, die Autoren haben auch ein Buch, in dem einige dieser Dinge besprochen werden.
Noch einmal Danke. Ich habe auch gerade die zusätzliche Handlung bemerkt, die Sie mit den Farblinien erstellt haben. Was genau ist T1 (x) hier? Es ist die ideale Transformation, aber wie bekommt man diese Zahlen -2 bis 2?
T1 ist die Umwandlung von einem bekannten Rayleigh (ich habe $ \ sigma = 1 $ verwendet, aber alles andere ist nur eine Neuskalierung) zu einem Standardnormal. Das heißt, $ T_1 (x) = \ Phi ^ {- 1} (F_1 (x)) $. Also zeichne ich $ x ^ p $ gegen $ \ Phi ^ {- 1} (F_1 (x)) $ für $ p = \ frac {2} {3}, 0,6 $ und $ \ frac {1} {2} $ . Die Zahlen -2 bis 2 sind also Werte, die von einer normalen Standard-Zufallsvariablen angenommen würden. Die tatsächlichen Skalenwerte sind irrelevant. Entscheidend ist, ob die Linien gerade sind (da dies bedeuten würde, dass sie sich auch effektiv in Normalität umwandeln). Dies ist das "theoretische" Äquivalent eines Q-Q-Diagramms.
Ich habe gerade gesehen, wie Ihre zusätzlichen Änderungen gut gemacht wurden. Um Ihre Frage zu beantworten: "Warum brauche ich Normalität?": Vollständige Offenlegung: Im Laufe der Zeit habe ich einige Methoden zusammengetragen, die sich gut für die (robuste) Erkennung von Signalen in nominellem Gaußschen Rauschen eignen. Vor kurzem wurde ich jedoch damit beauftragt, Signale über Rayleigh und sogar Chi-Quadrat-Rauschen zu erkennen. Die Signale manifestieren sich im Grunde genommen als "Ausreißer" in nominell Rayleigh- oder Chi-Quadrat-Daten. Meine Motivation war es daher, sie in nominell Gaußsche Daten umzuwandeln, woraufhin ich die aktuellen Schwellenwerttechniken für Gaußsches Rauschen anwenden kann.
Oh ok. Ich denke, das Transformieren und Erkennen sollte größtenteils gut funktionieren. Abhängig davon, was Sie tun, um sie zu erkennen, verlieren Sie möglicherweise ein wenig die Fähigkeit, die Grenzfälle zu erkennen ... aber im schlimmsten Fall denke ich, dass dieser Effekt gering wäre. Durch die Simulation können Sie sehen, was dort vor sich geht. Es hört sich so an, als sei dies nur ein Problem mit dem rechten Schwanz. Die Diskussion der Geradheit der drei Kurven in diesem Bereich könnte relevant sein. Andererseits können Sie auch den Wert der verschiedenen möglichen Leistungstransformationen vergleichen, um die Ausreißer durch Simulation zu finden.
Dilip Sarwate
2014-02-11 05:56:15 UTC
view on stackexchange narkive permalink

Wenn $ R $ eine Rayleigh-Zufallsvariable ist und $ \ Theta \ sim U [0,2 \ pi) $ unabhängig von $ R $ ist, dann ist $ X = R \ cos \ Theta $ und $ Y = R \ sin \ Theta $ sind unabhängige Null-Mittelwert normale Zufallsvariablen mit identischer Varianz $ \ sigma ^ 2 = \ frac {1} {2} E [R ^ 2] $. Wenn Sie also Ihren Datensatz als $$ \ {r_1, r_2, \ ldots, r_n \} \ longrightarrow \ {r_1 \ cos \ theta_1, r_2 \ cos \ theta_2, \ ldots r_n \ cos \ theta_n \} $$ transformieren (Ähnlich für $ Y $, jedoch unter Verwendung von $ \ sin \ theta_i $) wobei $ \ {\ theta_i \ Doppelpunkt 1 \ leq i \ leq n \} $ ein Datensatz ist, den Sie als Folge unabhängiger Stichproben erstellen aus $ U [0,2 \ pi) $, , dann ist der resultierende Datensatz genau eine Sammlung von $ n $ Samples aus einem $ N (0, \ sigma ^ 2) $ Verteilung. Beachten Sie, dass im Gegensatz zu den in der Antwort von @ Glen_b vorgeschlagenen monotonen Transformationen der resultierende Datensatz sowohl positive als auch negative Zahlen enthält.

  • Rayleigh-verteilte Daten set kann Ausreißer haben, die sehr groß sind, aber da diese mit einem Cosinus multipliziert werden, dessen Größe weniger als $ 1 $ beträgt, sind sie möglicherweise keine Ausreißer mehr, es sei denn, der Cosinus hat eine Größe nahe $ 1 $, wie in Glen_bs Kommentar angegeben. Beachten Sie auch, dass wenn $ \ cos \ theta_i $ nahe bei $ -1 $ liegt, dieser Ausreißer immer noch ein Ausreißer ist, aber im anderen Schwanz.

  • Wenn $ E] R ^ 2] $ ziemlich groß ist, kann ein Rayleigh-verteilter Datensatz auch sehr kleine Ausreißer haben: Beispielwerte, die sind sehr nahe an $ 0 $, während fast alle anderen Stichprobenwerte näher am (großen) Stichprobenmittelwert liegen. Solche Ausreißer werden dem Mittelwert sehr nahe kommen, wenn sie die oben vorgeschlagene Transformation durchlaufen. Bei der Transformation von Glen_b bleiben solche Ausreißer kleine Ausreißer.

Kurz gesagt, der transformierte Datensatz verfügt nicht über die Eigenschaft, dass Ausreißer in $ \ {r_i \ Doppelpunkt 1 \ le i \ leq n \} $ sind Ausreißer im transformierten Datensatz $ \ {r_i \ cos \ theta_i \ Doppelpunkt 1 \ le i \ leq n \} $. Wenn Sie bereit sind, einen transformierten Datensatz zu haben, der doppelt so groß ist, dann ist der Datensatz $$ \ {r_1 \ cos \ theta_1, r_2 \ cos \ theta_2, \ ldots r_n \ cos \ theta_n \} \ cup \ {r_1 \ sin \ theta_1, r_2 \ sin \ theta_2, \ ldots r_n \ sin \ theta_n \} $$ ist eine Menge von $ 2n $ unabhängigen Stichproben, die aus einer $ N (0, \ sigma ^ 2) $ -Verteilung gezogen wurden und seit $ \ max \ {| \ cos \ theta |, | \ sin \ theta | \} \ geq 1 / \ sqrt {2} $ Ihnen wird garantiert, dass jeder große Ausreißer Ihnen zwei Zahlen gibt, von denen mindestens eine möglicherweise noch ein Ausreißer ist, da Ausreißer wie Schönheit im Auge des Betrachters liegen. Ist etwas, das nur $ 20 \% $ größer ist als der nächst kleinere Wert, ein Ausreißer? oder würden Sie auf $ 50 \% $ größer bestehen? Ich nehme an, es hängt von den Skalierungsfaktoren usw. ab.

+1 Dies ist sowohl interessant als auch beantwortet die aktuelle Frage. Ich nahm an, dass das OP eine monotone Transformation wollte, aber es gibt nichts in der Frage, was dies tatsächlich sagt. Eine erfrischende und etwas unerwartete Interpretation.
Danke @Dilip. Mein Ausgangspunkt sind Rayleigh-Daten. (dh ein paar hundert Punkte, die nominell Rayleigh sind). ... Ich bin mir nicht sicher, wie Sie es so in Gauß-Daten umwandeln, wie Sie es hier oben haben.
@Creatron Siehe die bearbeitete Version meiner Antwort.
Creatron: Die Grundidee: Wenn Sie genau Rayleigh-Daten nehmen und mit dem cos eines zufälligen gleichmäßigen Winkels multiplizieren, erhalten Sie genau normale Daten. Die Transformation ist genau, aber nicht ordnungserhaltend (dh große Beobachtungen können klein oder groß oder in der Mitte enden).
@DilipSarwate Oh, ich verstehe, was du meinst. Ich habe einige Sims ausgeführt und es scheint, dass obwohl ich manchmal einen Ausreißer in den transformierten Daten habe (manchmal bleibt der Ausreißer cos (Theta) * groß, manchmal wird er klein und manchmal nicht). Das ist also eine Hit-or-Miss-Transformation?
Creatron: Im Grunde ist es so, wie Sie es vorschlagen. Wenn $ \ cos (\ theta) $ nicht ein bisschen kleiner als $ 1 $ ist, haben Sie möglicherweise immer noch einen Ausreißer. So werden einige Ausreißer zu Nicht-Ausreißern, andere hängen jedoch immer noch von ihrer ursprünglichen Größe und vom Zufall ab.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...