Frage:
Maß für die Ausbreitung einer multivariaten Normalverteilung
Kristian D'Amato
2011-07-07 15:21:26 UTC
view on stackexchange narkive permalink

Was ist ein gutes Maß für die Streuung für eine multivariate Normalverteilung?

Ich habe darüber nachgedacht, einen Durchschnitt der Standardabweichungen der Komponenten zu verwenden. vielleicht die Spur der Kovarianzmatrix geteilt durch die Anzahl der Dimensionen oder eine Version davon. Ist das gut?

Danke

Daher ist die Verbreitung von multivariaten Gaußschen nicht sinnvoll. Abhängig von Ihren Anforderungen gibt es jedoch möglicherweise Ansätze zur Beantwortung Ihrer Frage. Die Verfolgung der Matrix ist eine der vielen Möglichkeiten, aber Sie würden Korrelationen ignorieren, die einen großen Unterschied machen können. Eigenwerte, PCA usw. könnten viel besser sein. Könnten Sie bitte Ihre Bedürfnisse näher erläutern?
Als solches möchte ich ein Analogon der Standardabweichung zu einem mehrdimensionalen Raum. Ja, die Spur würde die Korrelationen ignorieren, was ich fürchte. Dies muss jedoch nicht mathematisch genau sein. Grundsätzlich wäre ein guter Hinweis auf die Ausbreitung die durch 1 Standard definierte Hypervolumengröße der Hyperellipse. Abweichung vom Mittelwert. Aber eine schöne, handliche Formel ohne Ableitung des genauen Volumens wäre sehr dankbar.
PCA könnte Ihre Frage beantworten.
Drei antworten:
#1
+13
schenectady
2011-07-07 16:41:19 UTC
view on stackexchange narkive permalink

Was ist mit der Determinante der Stichprobenvarianz-Kovarianz-Matrix: ein Maß für das quadratische Volumen, das von der Matrix innerhalb des Dimensionsraums des Messvektors eingeschlossen wird. Eine häufig verwendete skalierungsinvariante Version dieses Maßes ist auch die Determinante der Probenkorrelationsmatrix: das Volumen des Raums, der innerhalb der Dimensionen des Messvektors belegt ist.

+1 Ja, die Determinanten stehen in direktem Zusammenhang mit dem "Hypervolumen ... der Ellipse, definiert durch 1 sd vom Mittelwert".
Das ist also die Determinante der Kovarianzmatrix, oder?
@Kristian Die Quadratwurzel der Determinante der Kovarianzmatrix gibt Auskunft über das Hypervolumen und enthält sowohl Informationen zu Form (Korrelation) als auch Größe (Standardabweichung). Es ist das Produkt der Standardabweichungen der Hauptkomponenten. Die Determinante der Korrelationsmatrix ist im Grunde genommen nur ein Formfaktor, der von 0 für entartete Verteilungen bis 1 reicht, wenn alle Komponenten nicht korreliert sind.
@whuber, Was ist, wenn ich eine separate Messung von Form und Größe haben möchte?(Ich interessiere mich eigentlich nur für die Größe, denke ich.)
@Atcold Sie müssten eine quantitative Definition von "Größe" festlegen.Dies wäre gleichbedeutend mit der Ermittlung einer Größenverteilung für jede gegebene Form.(Per Definition ist "Form" die Eigenschaften einer Verteilung, die durch Übersetzung oder Neuskalierung unverändert bleiben.) Es gibt unzählige Möglichkeiten, dies zu tun. Letztendlich kommt es also darauf an, eine geeignete Definition für Ihre spezielle Analyse auszuwählen.Dies ist ein Grund, warum es keine universelle Definition der Größe (oder "Ausbreitung") für eine Verteilungsfamilie geben kann, die mehrere Formen umfasst.
Angenommen, ich habe D-dimensionale Blasen (Gaußsche).Ich war hinter ihren Radien her.Genauer gesagt habe ich eine Sammlung dieser Blasen und möchte ihre Entfernungen mit ihren Spreads vergleichen.Lassen Sie mich wissen, wenn Sie es vorziehen, dass ich eine neue Frage erstelle.
#2
+3
MRocklin
2011-07-16 01:23:11 UTC
view on stackexchange narkive permalink

Ich würde entweder mit Trace oder Determinante gehen und je nach Anwendung Trace bevorzugen. Sie sind beide gut darin, dass sie für die Darstellung unveränderlich sind und klare geometrische Bedeutungen haben.

Ich denke, es gibt ein gutes Argument für Trace over Determinant.

Die Determinante misst effektiv das Volumen des Unsicherheitsellipsoids. Wenn es jedoch eine Redundanz in Ihrem System gibt, ist die Kovarianz nahezu singulär (das Ellipsoid ist in einer Richtung sehr dünn) und die Determinante / das Volumen ist nahe Null, selbst wenn es eine große Unsicherheit / Ausbreitung in der gibt andere Richtungen. In einer moderaten bis hochdimensionalen Umgebung tritt dies sehr häufig auf.

Die Kurve ist geometrisch die Summe der Längen der Achsen und ist für diese Art von Situation robuster. Es wird einen Wert ungleich Null haben, selbst wenn einige der Richtungen sicher sind.

Außerdem ist die Ablaufverfolgung im Allgemeinen viel einfacher zu berechnen.

+1 Gute Punkte. Das bringt mich zum Nachdenken: Jede symmetrische Funktion der $ n $ -Eigenwerte würde als "gut" gelten. Alle diese Polynomfunktionen sind Polynome in den elementaren symmetrischen Funktionen $ n $, die die Determinante und die Spur enthalten.
Ja, die Summe (Trace) ist nicht unbedingt der beste Weg. Sie haben Recht, dass Sie sich hier je nach Anwendung viele Mischungen vorstellen können. Ich frage mich, ob es eine Standardfunktionsfamilie gibt, die hier gut wäre ...
@MR Mir ist nicht bekannt, dass jemand versucht, mit einer einzigen Statistik die Ausbreitung einer multivariaten Normalverteilung zu berechnen (außer natürlich, wenn die Unabhängigkeit aller Komponenten angenommen wird). Dies lässt mich glauben, dass es möglicherweise keine solche Standardfamilie gibt.
#3
+1
jpillow
2011-07-08 10:16:02 UTC
view on stackexchange narkive permalink

Eine andere (eng verwandte) Größe ist die Entropie der Verteilung: Für einen multivariaten Gaußschen Wert ist dies das Protokoll der Determinante der Kovarianzmatrix oder

$ \ frac {1} {2} \ log | (2 \ pi e) \ Lambda | $

wobei $ \ Lambda $ die Kovarianzmatrix ist. Der Vorteil dieser Wahl besteht darin, dass sie mit der "Streuung" von Punkten unter anderen (z. B. nicht-Gaußschen) Verteilungen verglichen werden kann.

(Wenn wir technisch werden möchten, ist dies die Differentialentropie eines Gaußschen).



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...