Frage:
Wie werden aus der Faktoranalyse abgeleitete Variablen als Prädiktoren für die logistische Regression verwendet?
user3358
2011-02-22 09:24:55 UTC
view on stackexchange narkive permalink

Kontext

Ich habe eine Umfrage, in der 11 Fragen zur Selbstwirksamkeit gestellt werden. Jede Frage hat 3 Antwortoptionen (nicht zustimmen, zustimmen, stark zustimmen). Neun Fragen stellen das Selbstwertgefühl. Ich habe eine Faktorenanalyse der 11 Selbstwirksamkeitselemente verwendet und zwei Faktoren extrahiert.

$ x_1 $ bis $ x_ {11} $ bezeichnen die 11 Selbstwirksamkeitsfragen in der Umfrage und $ f_1 $ ($ x_1 $ bis $ x_6 $), $ f_2 $ ($ x_7 $ bis $ x_ {11} $) bezeichnen die beiden Faktoren, die ich aus der Faktorenanalyse erhalten habe. $ y $ ist eine abhängige Variable.

Dann habe ich zwei neue Variablen erstellt:

  f1 = mean (x1 bis x6); f2 = Mittelwert (x7-x11).  

Die logistische Regression sieht also folgendermaßen aus:

  y = a + bf1 + cf2 + ....  

Meine Frage:

  • Kann ich diese beiden Faktoren als Prädiktorvariablen in meinem multivariaten logistischen Regressionsmodell verwenden?
  • Soll ich den Mittelwert jedes Elements in jedem Faktor berechnen und diesen Mittelwert als kontinuierliche Variable in meinem logistischen Regressionsmodell verwenden?
  • Ist dies eine angemessene Verwendung der Faktoranalyse?
Ein paar Fragen: Ist $ y $ univariat? Dann haben Sie eine multiple logistische Regression, keine multivariate logistische Regression. Wie machen Sie die Faktorenanalyse? Während es Methoden gibt, die auf Ordnungsvariablen anwendbar sind, die der Faktoranalyse für kontinuierliche Manifestvariablen analog sind, ist mir nicht klar, was Sie verwenden. Was würden Sie als unangemessenen Einsatz der Faktoranalyse betrachten? Wenn Sie es als eine Technik zur Dimensionsreduzierung betrachten (11 Variablen in 2 verwandeln), dann ist daran nichts von Natur aus falsch. Ob es eine gute Idee ist oder nicht, ist eine andere Frage.
Vier antworten:
#1
+11
chl
2011-02-22 17:23:45 UTC
view on stackexchange narkive permalink

Wenn ich Sie richtig verstehe, verwenden Sie FA, um zwei Subskalen aus Ihrem 11-Punkte-Fragebogen zu extrahieren. Sie sollen einige spezifische Dimensionen der Selbstwirksamkeit widerspiegeln (z. B. Selbstregulierungs- oder Selbstbehauptungswirksamkeit).

Dann können Sie individual mean verwenden (oder Summen-) Scores, die auf den beiden Subskalen als Prädiktoren in einem Regressionsmodell berechnet wurden. Mit anderen Worten, anstatt 11 Punktzahlen zu berücksichtigen, arbeiten Sie jetzt mit 2 Unterpunkten, die wie oben für jede Person beschrieben berechnet wurden. Die einzige Annahme, die gemacht wird, ist, dass diese Bewertungen die Position eines Menschen auf einem "hypothetischen Konstrukt" oder einer latenten Variablen widerspiegeln, die als kontinuierliche Skala definiert ist.

Wie @JMS sagte, gibt es andere Probleme, die Sie möglicherweise weiter klären , vor allem welche Art von FA wurde gemacht. Ein subtiles Problem ist, dass Messfehler nicht durch einen Standard-Regressionsansatz berücksichtigt werden. Eine Alternative besteht darin, Strukturgleichungsmodelle oder ein beliebiges Modell latenter Variablen (z. B. solche aus der IRT -Literatur) zu verwenden, aber hier sollte der Regressionsansatz eine gute Annäherung liefern. Die Analyse von Ordnungsvariablen (Likert-artiges Element) wurde an anderer Stelle auf dieser Site erörtert.

In der aktuellen Praxis wird Ihr Ansatz jedoch häufig bei der Validierung eines Fragebogens oder der Erstellung von Bewertungsregeln verwendet: Wir verwenden eine gewichtete oder ungewichtete Kombination von Artikelbewertungen (daher werden sie als numerische Variablen behandelt), um Berichte zu erstellen individueller Ort auf dem / den betrachteten latenten Merkmal (en).

#2
+10
Jeromy Anglim
2011-02-22 17:24:19 UTC
view on stackexchange narkive permalink

Verwenden von Faktorwerten als Prädiktoren

Ja, Sie können Variablen, die aus einer Faktoranalyse abgeleitet wurden, als Prädiktoren in nachfolgenden Analysen verwenden.

Weitere Optionen sind das Ausführen eines Strukturgleichungsmodells, bei dem Sie eine latente Variable mit den Elementen oder Elementbündeln als beobachtete Variablen positionieren.

Mittelwert als Skalenwert

Ja, in Ihrem Fall wäre der Mittelwert eine typische Option für die Berechnung einer Skalenbewertung. Wenn Sie umgekehrte Elemente haben, müssen Sie sich damit befassen.

Sie können stattdessen auch faktorsparende Bewertungen verwenden den Mittelwert zu nehmen. Wenn alle Elemente relativ gut auf jeden Faktor geladen sind und alle Elemente auf derselben Skala liegen und alle Elemente positiv formuliert sind, gibt es selten einen großen Unterschied zwischen dem Mittelwert und den gespeicherten Faktorwerten.

Sie können sich auch ansehen Methoden, die die Ordnungszahl der Skala anerkennen und daher die Skalenoptionen nicht als gleich weit entfernt behandeln.

(+1) Gut, dass Sie die Verwendung von Faktor-Scores direkt erwähnt haben (und deren Übereinstimmung mit Roh-Scores unter bestimmten Bedingungen).
#3
+1
pbneau
2011-02-22 17:37:13 UTC
view on stackexchange narkive permalink

Alles wurde von chl und Jeromy für den theoretischen Teil gesagt ... Wenn Sie nicht die Summe / den Mittelwert der Variablen verwenden, die Sie mit FA identifizieren, können Sie FA-Werte verwenden.

In Bezug auf die Die von Ihnen verwendete Syntax verwendet wahrscheinlich SAS. Um die Faktoranalyse korrekt zu verwenden, müssen Sie die Punktzahl der Beobachtungen und nicht den Mittelwert der Variablen verwenden.

Sie finden unter dem Code die Punktzahl für 2 Faktoren mit einem FA. Die Ergebnisse, die Sie verwenden müssen, werden von SAS als Faktor1, Faktor2, ... bezeichnet.

Dies sind 2 Schritte ... 1) Zuerst FA, dann 2) Rufen Sie den Proc-Score auf, um die Scores zu berechnen.

  Proc-Faktor-Daten = Datenmethode = ml drehen = promax outstat = FAstats n = 3 Heywood-Residuen msa score; var x :; run; proc score data = Daten score = FAstats out = MyScores; var x :; run;  

Die zu verwendenden Variablen sind Faktor1, Faktor2, ... in MyScores-Datasets.

#4
+1
Andrej
2011-02-23 00:06:08 UTC
view on stackexchange narkive permalink

Kontinuierliche latente Variablen mit diskreten (in Ihrem Fall polytomen) Manifestvariablen sind Teil der Item-Response-Analyse. Das Paket 'ltm' in R deckt eine Vielzahl solcher Modelle ab. Ich verweise Sie auf dieses Papier, das genau das gleiche Problem behandelt.

(+1) Ich habe Ihre Arbeit (erneut) gelesen, was ziemlich interessant aussieht, obwohl ich die Verwendung eines Rasch-Modells in Cluster von Genen erstaunlich fand. Haben Sie Ihre Ergebnisse mit einem spärlichen PLS-DA-Ansatz verglichen?
@chl Noch nicht; daran arbeiten.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...