Frage:
PCA findet, dass eine Variable zweimal die wichtigste ist
Vladhagen
2017-05-16 21:27:43 UTC
view on stackexchange narkive permalink

Angenommen, ich habe einen Datensatz mit drei Variablen, Calcium, Eisen und Uran.

Angenommen, ich führe PCA aus und erhalte die folgenden Hauptkomponenten:

$$ \ begin {array} {} cccc &PC_1&PC_2&PC_3 \\ Calcium&0.6729&0.1021&-0,6771 \\ Iron&0.5331&0.2554&0.5402 \\ Uranium&0.1123&-0.8007&-0,0432 \ end {array} $$

Der erste PC zeigt, dass Calcium die größte Bedeutung hat und Eisen die zweithöchste Korrelation. Der zweite PC zeigt, dass Uran die größte Korrelation aufweist. Aber der dritte PC bezeichnet dann wieder Calcium als am stärksten korrelierend mit der Antwort, dann Eisen als zweites.

Meine Hauptfrage ist, wie ein solches PCA-Ergebnis interpretiert werden kann. Es macht keinen Sinn zu sagen, dass Calcium die erklärendste Variable der Varianz ist, wobei as sowie die dritthäufigste erklärende Variable für die Varianz sind.

Varianz "erklären" kann eine schlechte Metapher sein.Sie können PC1 als * Gesamt * Ca- und Fe-Werte interpretieren, während PC3 die * Differenz * zwischen Fe und Ca ist.Unter diesem Gesichtspunkt sollte es keine Überraschung sein, dass eine oder mehrere der ursprünglichen Variablen mit großen Koeffizienten in mehr als einer Hauptkomponente auftreten können.Einige Leute "drehen" ihre Hauptkomponenten - das heißt, sie bilden auf begrenzte Weise Kombinationen davon -, um die ursprünglichen Variablen zu isolieren und hoffentlich die Interpretierbarkeit zu verbessern.Zum Beispiel ist hier PC1 + PC3 ungefähr $ (0,1,0) $, während PC1-PC3 ungefähr $ (1,0,0) $ ist.
Drei antworten:
Matthew Drury
2017-05-16 21:32:54 UTC
view on stackexchange narkive permalink

Ihre Interpretation von PCA-Komponenten ist nicht korrekt.

PCA sagt Ihnen nicht, welche Variablen die größte Variation in den Daten ausmachen, daher eine Anweisung wie

Calcium ist die erklärendste Variable für die Varianz sowie die dritthäufigste erklärende Variable für die Varianz.

kann nicht aus einer PC-Analyse gezogen werden.

Was sagt, ist, dass die Richtung durch den Vektor

bestimmt wird

$$ \ begin {array} {cccc} &PC_1 \\ Calcium&0.6729 \\ Iron&0.5331 \\ Uranium&0.1123 \ end {array} $$

ist für die meisten Abweichungen in den Daten verantwortlich. Diese Richtung ist eine Kombination der Richtungen, die durch die einzelnen Variablen bestimmt werden. Diese Richtungsmischung ist für PCA von grundlegender Bedeutung und kann nicht rückgängig gemacht oder ignoriert werden.

Die weiteren Hauptkomponenten werden iterativ interpretiert. Sie berücksichtigen die größte Variation der Daten in Richtungen, die orthogonal zu den vorherigen PC-Richtungen sind.

Ich würde es vermeiden, das Wort rekursiv zu verwenden.Die Eigenwertberechnung löst "A-Lambda * I = 0" und die Vektoren werden durch Lösen von "A * v = Lambda * v" bestimmt.Die größte Variation wird durch den größten absoluten Eigenwert bestimmt
Ich bin damit einverstanden, dass Sie die Hauptkomponenten nicht rekursiv * lösen * (ich denke, wir verwenden wahrscheinlich den QR-Algorithmus), aber ich denke, es ist eine produktive Möglichkeit, sie konzeptionell zu verstehen.
Sie können einfach "rekursiv" durch "iterativ" ersetzen, was etwas korrekter ist und den Einwand von @Mohammad's zu beseitigen scheint.Übrigens, haben Sie bemerkt, dass die in der Frage angegebenen Vektoren keine Einheitsvektoren sind?
@whuber Guter Punkt.Und nein, ich habe nicht ... ich habe nicht nachgesehen, was peinlich ist.
Keine Notwendigkeit, sich zu schämen - ich hatte es auch nicht bemerkt, bis ich Ihren Beitrag gelesen und festgestellt habe, dass die Koeffizienten zu klein sein müssen.Ich vermute, uns wurden nur die ersten drei Komponenten höherdimensionaler Einheitsvektoren gezeigt.
@whuber Wie Sie bemerkt haben, habe ich nur einen Teil der Vektoren aufgenommen, damit das vorliegende Problem ohne unnötige tangentiale Details untersucht werden kann.
Mohammad Athar
2017-05-16 21:51:58 UTC
view on stackexchange narkive permalink

Sie interpretieren PCA nicht richtig. PCA findet eine ganz neue Basis für Ihre Daten. Es ist analog zu einem Basiswechsel: https://www.math.hmc.edu/calculus/tutorials/changebasis/, aber wir wählen eine bestimmte Basis

Die neue Basis ist nicht willkürlich: Die Vektoren werden basierend auf der Variation ausgewählt, die sie berücksichtigen. Das heißt, PC1 "zeigt in Richtung der größten Variabilität"

Nur weil die Hauptkomponente (Vektorprojektion) von PC1 und PC3 in Richtung Kalzium verläuft, können wir nicht sagen, dass Kalzium das "wichtigste" ist (was auch immer das bedeuten mag!).

Auf der Suche nach linearer Algebra:

Nach den Gesetzen der linearen Algebra sind alle Hauptkomponenten orthogonal zueinander, und der Betrag der erklärten Varianz für einen gegebenen Eigvenwert ist E_p E_p / (Summe (E_i) wobei Summe ( E_i) ist die Summe aller Eigenwerte

Zum Schluss noch eine gute Diskussion zu PCA: Sinnvolle Hauptkomponentenanalyse, Eigenvektoren &-Eigenwerte

Ein kleines Problem: Es ist möglicherweise verwirrend, zuerst auf den "absoluten Wert der Eigenwerte" zu verweisen, was stark darauf hindeutet, dass sie negativ sein könnten (was darauf hinweist, dass Sie mit einer Quadratwurzel einer Matrix arbeiten) und dann die "Menge von" zu beanspruchenerklärte Varianz "ist proportional zu jedem Eigenwert, was bedeutet, dass sie * nicht * negativ sein können.Sie könnten versuchen, klarer zu machen, um welche Form von PCA es sich handelt und was diese Eigenwerte tatsächlich darstellen.
mathreadler
2017-05-17 12:33:02 UTC
view on stackexchange narkive permalink

Die Korrelation ist nicht dasselbe wie die linear-Kombination mit der größten Varianz, die PCA findet.

Auch die Eigenvektoren haben keine bestimmte Richtung.Sie können sie mit $ -1 $ multiplizieren, und diese Vektoren sind auch Eigenvektoren mit demselben Eigenwert (Varianz), und dann erhalten Sie positive $ + 0,677 \ cdots $ für die dritte Komponente.

Wenn Sie eine Korrelation wünschen, können Sie stattdessen die kanonische Korrelationsanalyse (CCA) ausprobieren.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...