Frage:
Gibt es nützliche Anwendungen von SVD, die nur die kleinsten Singularwerte verwenden?
Sergey
2013-07-19 00:19:20 UTC
view on stackexchange narkive permalink

In einer Reihe von SVD-Anwendungen (Singular Value Decomposition), z. B. Latent Semantic Indexing, werden nur die größten Singularwerte verwendet, um Suchvorgänge durchzuführen und Entfernungen zu berechnen.

Gibt es nützliche Anwendungen, die die größten fallen lassen Singularwerte und nur die kleinsten verwenden?

Für die Regression der kleinsten Quadrate sind die kleinen Singularwerte viel wichtiger als die großen.Dies liegt daran, dass die Pseudo-Inverse Singularwerte hat, die 1 geteilt durch die Singularwerte der ursprünglichen Matrix entsprechen.
Sieben antworten:
bayerj
2013-07-23 11:43:50 UTC
view on stackexchange narkive permalink
  • Die langsame Merkmalsanalyse ( SFA) verwendet die kleinen Eigenwerte der Kovarianzmatrix der zeitlichen Unterschiede, um die langsamsten Merkmale in einer Zeitreihe zu finden.
  • Analyse kleinerer Komponenten ( MCA) verwendet die kleinsten Komponenten in einer probabilistischen Umgebung - hier werden keine Variationsrichtungen gefunden, sondern Einschränkungen,
  • Extreme Komponentenanalyse ( XCA) ) ist eine Kombination aus probabilistischer PCA und MCA.
  • In der kanonischen Korrelationsanalyse (bei der Sie die Korrelation zwischen zwei verschiedenen Datensätzen analysieren) entsprechen die kleineren Komponenten der Korrelationsmatrix sogenannten "privaten" Räumen. Diese stellen die Teilräume jeder Variablen dar, die nicht linear miteinander korrelieren.
EngrStudent
2013-07-19 03:14:53 UTC
view on stackexchange narkive permalink

Es wirkt wie ein Hochpassfilter in einem etwas anderen Raum.

Es gibt viele lineare Daten, und in vielen Fällen suchen Sie nach dieser linearen Beziehung, sodass Sie mit einem Tiefpassfilter (Hochblockierungsfilter) den wichtigen Teil beibehalten können.

Bei nichtlinearen Daten, bei denen Sie normalerweise die einfachen Methoden erfolglos angewendet haben, bedeutet der Hochpass, dass Sie den unwichtigen (linearen) Teil wegwerfen.

Dies Ich wundere mich über Computerfotografie und Kanten. Danke ..

Angesichts der Tatsache, dass die gesamte Idee hinter PCA darin besteht, dass Ihre Daten als lineare Kombinationen Ihrer Eigenkomponenten angesehen werden können, warum sollten Sie Standard-PCA für nichtlineare Daten verwenden? Ich verstehe, was du mit DSP meinst (also +1) und ich denke, du hast das richtig verstanden, aber selbst dann nimmst du eine gewisse Stationarität usw. an. (Außerdem würden wir nicht für * die * kleinsten Eigenwerte sprechen, aber OK ... )
Bei der Vorverarbeitung des PCA-Materials ist es wichtig, die Daten zu "zentrieren und dann zu skalieren". Dies nimmt die zentrale Tendenz heraus. Sie können dies verwenden, um die Komponente "Linearkombinationen in mehreren Dimensionen" herauszunehmen, wenn sie an anderer Stelle berücksichtigt wurde. Wie häufig werden lineare Kombinationen der Hauptkomponenten berücksichtigt? Wenn die Komponenten mit der höheren "Frequenz" (oder der Wellenzahl oder was auch immer) einen hohen Wert haben, wird dies im Allgemeinen für einen höheren Wert ausgewählt.
Entschuldigung, aber du verlierst mich mehr. Durch das Zentrieren der Daten $ X $ werden die linearen Kombinationen in mehreren Dimensionen nicht vollständig entfernt. Normalerweise berechnet man die Eigenkomponenten $ \ phi $ aus der Kovarianzmatrix $ C (t, s) = \ sum_i \ lambda \ phi (t) \ phi (s) $ (spektrale Zerlegung). Sie subtrahieren den Mittelwert zur Berechnung der Projektionswerte $ A $, weil Sie einem generativen Modell $ X (t) = \ mu_X (t) + \ sum_i A_i \ phi (t) $ folgen. Die "Hauptkomponenten" sind orthogonal zueinander, da Sie sonst nicht identifizierbar wären. Ich stimme Ihrer Meinung zur Idee von Tief- / Hochpassfiltern zu, aber nicht Ihrer Darstellung.
@user11852, Entschuldigung, wenn ich nicht klar war. Ich meinte, dass man in einer Analogie zur Zentrierung und Skalierung (die nur für die Erwartung zählt) auch davon ausgehen könnte, dass es parallele Methoden gibt, die die "linearen Kombinationen" berücksichtigen und somit einen Wert darin finden, sie aus der Menge zu entfernen und mit den Resten umzugehen . Eine Art konzeptioneller Cousin des Boostings.
Ein kleiner Abstand wird in der FFT-Analogwellenzahl groß.
Ray Koopman
2013-07-19 12:39:50 UTC
view on stackexchange narkive permalink

Die Regression der kleinsten Quadrate (auch bekannt als orthogonale Distanzregression) verwendet den Singularvektor, der dem kleinsten Singularwert der erweiterten Prädiktor- / Kriteriumsmatrix entspricht.

Wenn es nur eine abhängige Variable gibt (dh wenn $ k = 1 $), sowohl die Gleichung 12.3-5 in meinem Golub & Van Loan (erste Ausgabe) als auch die endgültige Gleichung und den Oktavcode in der Verwenden Sie im Abschnitt "Algebraischer Gesichtspunkt" des Standardkontos nur den Singularvektor, der dem kleinsten Singularwert entspricht, um den Vektor der Regressionskoeffizienten zu erhalten.

Könnten Sie näher erläutern, wie TLS den kleinsten singulären Vektor "verwendet"? Es sieht so aus, als ob [Standardkonten] (http://en.wikipedia.org/wiki/Total_least_squares) von TLS das Gegenteil Ihrer Charakterisierung sind: Die kleinsten Singularwerte werden * auf Null gesetzt * und effektiv ignoriert, um die Anpassung zu erhalten.
Du hast recht. Ich weiß nicht was ich dachte :(
Wenn andererseits k = 1 ist, werden sowohl die Gleichung 12.3-5 in meinem Golub & Van Loan (erste Ausgabe) als auch die endgültige Gleichung und der Oktavcode im Abschnitt "Algebraische Sichtweise" der Seite, auf die Sie verlinkt haben, angezeigt Verwenden Sie nur den Singularvektor, der dem kleinsten Singularwert entspricht, um den Vektor der Regressionskoeffizienten zu erhalten.
@whuber, Ich glaube, Ray hatte Recht: Total Least Squares (TLS) "verwendet" den kleinsten singulären Vektor.Dies liegt daran, dass die Regressions-Hyperebene von allen singulären Vektoren * außer * dem kleinsten überspannt wird und der kleinste daher orthogonal zur Hyperebene ist und diese daher bequem "definiert".Ich habe gerade eine Antwort in einem anderen Thread veröffentlicht, der diese Beziehung ausführlich behandelt: [Wie führe ich eine orthogonale Regression (insgesamt kleinste Quadrate) über PCA durch?] (Http://stats.stackexchange.com/a/136597/28666)
@amoeba Vielen Dank für die Klarstellung.Es kommt darauf an, wie man "Gebrauch" versteht.Typischerweise denken wir daran, Hauptkomponenten als * Generatoren von Unterräumen * zu "verwenden". Der Sinn hier (einen orthogonalen Unterraum zu definieren) ist wesentlich anders.Solange klar ist, was gemeint ist, gibt es kein Problem.Ich erinnere mich, dass ich vor einigen Monaten einen anderen Thread beantwortet habe, der das gleiche Argument vorbringt, das Sie hier haben.
Ryan Zotti
2013-07-23 08:51:40 UTC
view on stackexchange narkive permalink

Ja, das gibt es. Ich arbeite derzeit mit einem Professor an einem Forschungsprojekt, bei dem wir versuchen, sehr kurzfristige Börsenveränderungen basierend auf Echtzeit-Tweets von Twitter vorherzusagen. Leider ist die Mehrheit dessen, was die Leute auf Twitter über die Unternehmen sagen, die wir verfolgen, nutzloses Wandern. Mit anderen Worten, die größten Singularwerte sind nutzlos.

Unser Plan ist es, die größten Singularwerte zu verwenden, um große Mengen an Müll-Tweets zu kennzeichnen, damit wir sie löschen können. Die verbleibenden Tweets und ihr Textinhalt (die kleinen Singularwerte) sind Kandidaten für einen variablen Auswahlprozess.

Wir versuchen, die Nadeln im Heuhaufen zu finden, und das Löschen der größten Singularwerte ist wie das Anzünden des Heus.

Was für eine interessante Idee! Wirst du ein Papier zu diesem Thema veröffentlichen?
Wir hoffen, das Papier innerhalb eines Jahres veröffentlichen zu können. Ich kann hier im Kommentarbereich einen Link zu dem Artikel veröffentlichen, sobald er fertig ist.
Das wäre toll.
@Ryan Zotti: Ist das Papier fertig?
shabbychef
2013-07-23 09:23:47 UTC
view on stackexchange narkive permalink

Es ist ein bisschen langwierig, aber bedenken Sie das Problem der Portfoliooptimierung: Minimieren Sie $ w ^ {\ top} \ Sigma w $ vorbehaltlich $ w ^ {\ top} w \ ge 1 $. Sie können sich dies als das Portfolio mit minimaler Varianz mit einer Einschränkung von $ \ ell_2 $ vorstellen. Nach Anwendung der Lagrange-Multiplikator-Methode sollte $ w $ der Eigenvektor sein, der dem kleinsten Eigenwert von $ \ Sigma $ zugeordnet ist. Da $ \ Sigma $ normalerweise die Beispielkovarianz $ (1 / N) \ sum_ {1 \ le i \ le N} X_i X_i ^ {\ top} $ ist, in der die $ X_i $ zentriert wurden, können Sie dieses Problem anzeigen als SVD-Berechnung, bei der der dem kleinsten Singularwert zugeordnete Singularvektor von Bedeutung ist. Wie ich schon sagte, es ist ein bisschen langwierig.

Sergey
2014-06-12 21:42:44 UTC
view on stackexchange narkive permalink

Es gibt ein interessantes LSA-bezogenes Papier, das zu dem Schluss kommt, dass das Verwerfen (vieler) erster SVD-Funktionen die Ergebnisse bei semantischen Tests wie TOEFL verbessern kann - "Extrahieren semantischer Repräsentationen aus Wort-Cooccurrence-Statistiken: Stopplisten, Stemming und SVD" (Bullinaria) und Levy, 2012)

ScatterSignalNoise
2013-07-19 00:32:07 UTC
view on stackexchange narkive permalink

Mir sind keine bekannt. Die kleinsten Singularwerte entsprechen Modi, die nicht viel zur Rekonstruktion der ursprünglichen Matrix beitragen, oder um die PCA-Interpretation zu verwenden, beschreiben Sie nicht viel von der Varianz in den Daten. Typischerweise sind die Modi mit kleineren Singularwerten nur Rauschen. Dies schließt nicht aus, dass eine Bedeutung in ihnen gefunden werden könnte, aber ich denke, dass dies stark von den Daten abhängt, aus denen die ursprüngliche Matrix besteht, und - ehrlich gesagt - ziemlich unwahrscheinlich ist.

Die Rekonstruktion oder die Varianz der Daten ist nur eine von vielen Statistiken, an denen Sie interessiert sein könnten.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...