Warum müssen wir Daten vor der Hauptkomponentenanalyse (PCA) normalisieren?

jjepsuomi

2013-09-04 13:12:32 UTC

view on stackexchange narkive permalink

Ich mache eine Hauptkomponentenanalyse für meinen Datensatz und mein Professor sagte mir, dass ich die Daten normalisieren sollte, bevor ich die Analyse durchführe. Warum?

Was würde passieren, wenn ich PCA ohne Normalisierung durchführen würde?
Warum normalisieren wir Daten im Allgemeinen?
Könnte jemand ein klares und intuitives Beispiel geben, das die Konsequenzen einer Nichtnormalisierung der Daten vor der Analyse aufzeigt?

Wenn einige Variablen eine große und einige kleine Varianz aufweisen, wird PCA (Maximierung der Varianz) auf die großen Varianzen geladen. Wenn Sie beispielsweise eine Variable von km auf cm ändern (wodurch die Varianz erhöht wird), kann dies von einer geringen Auswirkung zur Dominierung der ersten Hauptkomponente führen. Wenn Sie möchten, dass Ihre PCA von einer solchen Neuskalierung unabhängig ist, können Sie die Variablen standardisieren. Wenn andererseits die spezifische Skala Ihrer Variablen von Bedeutung ist (da Sie möchten, dass Ihre PCA in dieser Skala liegt), möchten Sie möglicherweise nicht standardisieren.

Achtung: Normalisieren in Statistiken hat manchmal die Bedeutung von Transformation, um näher an einer Normal- oder Gaußschen Verteilung zu sein. Wie @Glen_b beispielhaft zeigt, ist es besser, von Standardisierung zu sprechen, wenn gemeint ist, mit (Wert - Mittelwert) / SD (oder einer anderen spezifizierten Standardisierung) zu skalieren.

Autsch, dieses 'Prinzip' anstelle von 'Prinzipal' in meinem Kommentar wird mich jedes Mal verrückt machen, wenn ich es mir ansehe.

@Glen_b Im Prinzip wissen Sie, wie man es buchstabiert. Es ist die Hauptschwierigkeit, es immer richtig zu machen.

Da es sich um mehrere Fragen handelt, gibt es kein genaues Duplikat, aber jede einzelne wird an anderer Stelle auf dieser Website ausführlich und ausführlich besprochen. Eine gute Suche ist zunächst [pca korrel * covariance] (http://stats.stackexchange.com/search?q= [pca] + korrel * + covariance).

@NickCox Die allgemein akzeptierte Definition von Normalisieren besteht darin, eine Zufallsvariable mit einem Mittelwert von Null und einer Standardabweichung von Einheit in eine zu transformieren.Dies gibt Google auch, wenn Sie nach "Normalisieren definieren" suchen.Daher ist es nicht besser, ein anderes Wort für dieselbe Sache zu verwenden.

@Robino Ich stimme Ihrer Schlussfolgerung zu, aber ich stimme Ihrer Behauptung nicht zu.Das Problem ist, dass es keine allgemein akzeptierte Bedeutung für Statistik und maschinelles Lernen gibt.Normalisieren wird mit dem von mir erwähnten Sinn und auch mit anderen Sinnen verwendet, z.Skalierung auf [0, 1].

@NickCox Soll ich die mittlere Normalisierung mit x-mean / std verwenden?Oder verwenden Sie einfach die Feature-Skalierung, bevor Sie pca anwenden. Ich wende pca auf Bilder an, deren Pixelwerte zwischen 0 und 255 variieren.

@Boris Ich kann unmöglich aus der Ferne beraten, was für Sie am besten ist, außer darauf hinzuweisen, dass (x $ - $ mean) / SD eine mögliche Methode ist und sicherlich nicht x $ - $ mean / SD.Wenn alle Ihre Variablen in [0, 255] sind, ist es denkbar, dass eine Nicht-Skalierung genauso sinnvoll ist wie jeder andere Ansatz.

@NickCox bedeutet, dass es keine Rolle spielt

Nicht was ich meinte.Nicht zu wissen, welche Methode für Ihre Daten und Ihr Projekt am besten geeignet ist, bedeutet nicht, dass ich impliziere, dass die Wahl der Methode keine Rolle spielt.

@whuber: Sie erhalten 0 Treffer mit Ihrer Suche.

@MSIS Danke.Irgendwie hat das System den Platzhalter "*" nach "Korrelieren" entfernt.Ich habe es wieder eingefügt und hoffe, dass es diesmal dort bleibt!Es werden jetzt 316 Ergebnisse zurückgegeben.