Frage:
Wie erstelle ich eine Punktzahl aus einem gemischten Satz positiver und negativer Variablen?
radek
2011-03-11 23:23:08 UTC
view on stackexchange narkive permalink

Ich habe 3.000 Beobachtungen (Verwaltungsgemeinschaften), die durch fünf Variablen gekennzeichnet sind. Vier von ihnen arbeiten in die Richtung "je mehr, desto schlechter" und einer geht in die entgegengesetzte Richtung.

Ich möchte eine Partitur oder eine geordnete Liste dieser Beobachtungen erstellen, die alle am besten berücksichtigt

Ich habe versucht, Clustering mit dem MCLUST-Paket in R durchzuführen, und es liefert einige aussagekräftige Ergebnisse, aber es ist schwierig, die Reihenfolge der Beobachtungen auf der Grundlage der Cluster-Mitgliedschaft zu bestimmen.

Mein zweiter Versuch bestand darin, PCA auszuführen und die erste Komponente zu extrahieren, was näher an dem liegt, was ich gerne hätte.

Welche anderen Lösungen (vorzugsweise auf R- oder Stata-Basis) könnte ich verwenden mit diesem Problem umgehen?

Wenn Sie sagen "wird am besten berücksichtigen", was meinen Sie mit "am besten"? Z.B. Möchten Sie, dass die Variablen gleich gewichtet werden, oder möchten Sie einigen Variablen mehr Gewicht geben als anderen? Oder anders ausgedrückt: Was wäre der Zweck der Partitur, die Sie erhalten möchten?
@SheldonCooper: Vielen Dank für Ihren Kommentar. Der Zweck der Bewertung wäre die Bestimmung der relativen "Position" von Beobachtungen. In gewisser Weise möchte ich sagen können, wie das Ansehen einer bestimmten Gemeinschaft innerhalb der Bevölkerung ist. Anfangs würde mein Ansatz wahrscheinlich Gewichte vermeiden (oder datengesteuerte Gewichte verwenden?). Es könnte jedoch möglich sein, diese Gewichte aus einem anderen Datensatz zu erhalten und sie später auch in ähnlicher Weise zu verwenden, wie es Gordon (1995) vorschlägt: http://jech.bmj.com/content/49/Suppl_2/S39.abstract
Vier antworten:
#1
+7
Aniko
2011-03-12 01:47:59 UTC
view on stackexchange narkive permalink

Sie könnten U-Scores wie in [1] Wittkowski, K. M., Lee, E., Nussbaum, R., Chamian, F. N. und Krueger, J. G. (2004), Kombination mehrerer Ordnungsmaße in klinischen Studien, in Betracht ziehen. Statistics in Medicine, 23: 1579–1592. ( PDF)

Die Grundidee ist, dass Sie für jede Beobachtung zählen, wie viele Beobachtungen es gibt, verglichen mit denen es definitiv besser ist (vier Variablen niedriger, eine höher) und wie Viele sind definitiv schlechter und erstellen dann eine kombinierte Punktzahl.

Nur eine Frage. Ich verstehe, wie man eine Punktzahl für eine Variable in Abhängigkeit von der relativen Position einer Beobachtung generiert. Was ist der nächste Schritt zum Kombinieren der Bewertungen von fünf Variablen? Einfache Summe?
#2
+6
Jeromy Anglim
2011-03-12 12:02:41 UTC
view on stackexchange narkive permalink

Daten- oder Theorie-gesteuert?

Die erste Frage ist, ob das Composite daten- oder theoretisch gesteuert werden soll. Wenn Sie eine Composite-Variable bilden möchten, denken Sie wahrscheinlich, dass jede Variable Die Komponentenvariable ist wichtig für die Messung einer Gesamtdomäne.

In diesem Fall bevorzugen Sie wahrscheinlich einen theoretischen Satz von Gewichten. Wenn Sie alternativ an dem interessiert sind, was unter den Komponentenvariablen geteilt oder gemeinsam ist, und das Risiko besteht, dass eine der Variablen nicht eingeschlossen wird, weil sie etwas misst, das orthogonal ist oder weniger mit der verbleibenden Menge zusammenhängt, möchten Sie möglicherweise Daten untersuchen getriebene Ansätze.

Diese Frage knüpft an die Diskussion in der Literatur zur Modellierung von Strukturgleichungen zwischen reflektierenden und formativen Maßnahmen an (siehe z. B. hier).

Was auch immer Es ist wichtig, dass Sie Ihre Messung an Ihrer eigentlichen Forschungsfrage ausrichten.

Theoriebetrieben

Wenn der Verbund theoretisch gesteuert wird, möchten Sie einen gewichteten Verbund der Komponentenvariablen bilden Wenn die Variablen ordinal sind, müssen Sie überlegen, wie die Variable skaliert werden soll. Nach dem Skalieren jeder Komponentenvariablen müssen Sie über die theoretische relative Gewichtung und nachdenken Fragen im Zusammenhang mit differenti Alle Standardabweichungen der Variablen. Eine einfache Strategie besteht darin, alle Komponentenvariablen in Z-Scores umzuwandeln und die Z-Scores zu summieren. Wenn Sie Komponentenvariablen haben, bei denen einige positiv und andere negativ sind, müssen Sie sie umkehren entweder nur die negativen oder nur die positiven Komponentenvariablen.

Ich habe einen Beitrag zum Formen von Verbundwerkstoffen geschrieben, in dem verschiedene Szenarien für das Formen von Verbundwerkstoffen behandelt werden.

Theoretisch gesteuerte Ansätze kann problemlos in beliebige Statistikpakete implementiert werden. score.items im psych -Paket ist eine Funktion, die es etwas einfacher macht, aber begrenzt ist. Sie können einfach Ihre eigene Gleichung mit einfacher Arithmetik und möglicherweise der Funktion scale schreiben.

Datengesteuert

Wenn Sie mehr daran interessiert sind, datengesteuert zu sein, Dann gibt es viele mögliche Ansätze.

Die erste Hauptkomponente zu nehmen, klingt nach einer vernünftigen Idee.

Wenn Sie ordinale Variablen haben, könnten Sie über eine kategoriale PCA nachdenken, die es den Komponentenvariablen ermöglichen würde neu gewichtet werden. Dies könnte die Quantifizierung angesichts der von Ihnen angegebenen Einschränkungen automatisch handhaben.

(+1) Eine weitere interessante Diskussion über formative und reflektierende Modelle findet sich in Kapitel 3 von * Measuring the Mind * von Denny Borsboom (Cambridge, 2005).
#3
+2
SheldonCooper
2011-03-13 08:12:27 UTC
view on stackexchange narkive permalink

Für eine nicht ordinale Kennzahl können Sie MDS (mehrdimensionale Skalierung) ausprobieren. Dies ist in R problemlos möglich. Dadurch wird versucht, die Punkte auf einer Linie (in Ihrem Fall 1d) so anzuordnen, dass die Abstände zwischen den Punkten erhalten bleiben.

Einige allgemeine Kommentare: wie Sie wahrscheinlich Die Frage ist ziemlich vage und es kann nicht viel gesagt werden, ohne mehr über die Daten zu wissen. Zum Beispiel kann das Normalisieren der Variablen (auf Mittelwert Null und Einheitsvarianz) angemessen sein oder nicht; das gleichmäßige Abwägen aller Variablen kann angemessen sein oder auch nicht; usw. Wenn dies keine explorative Analyse ist und Sie eine „korrekte“ Bewertung im Auge haben, kann es angebracht sein, eine Reihe von Gewichten entweder für einen anderen Datensatz oder für eine Teilmenge Ihres aktuellen Datensatzes zu lernen und diese zu verwenden Gewichte stattdessen.

#4
+1
suprvisr
2011-03-30 23:54:57 UTC
view on stackexchange narkive permalink

Es tut mir leid, da es möglicherweise keine eindeutige Antwort auf Ihre Frage ist, wenn Sie diese "Gesamtpunktzahl" als Prädiktor für etwas verwenden, warum versuchen Sie nicht, eine Regression durchzuführen und die Ergebnisse mit der AUC von ROC zu bewerten?

oder umgekehrt, vielleicht Benutzer Neuronale Netze / Random Forest / Support Vector-Maschinen auf ihnen, um das gegebene Ergebnis vorherzusagen?

Grüße Luke



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...