Frage:
Akzeptabler r-Quadrat-Wert für das multiple lineare Regressionsmodell
Steffi
2011-08-21 20:25:18 UTC
view on stackexchange narkive permalink

Ich arbeite derzeit an meiner Diplomarbeit, insbesondere analysiere ich einige Daten, die von Forschern über das Projekt gesammelt wurden, an dem sie arbeiten.

Am Ende habe ich eine multiple lineare Regression durchgeführt um zu überprüfen, welche Determinanten (Budget, Teamgröße, ...) die externen Auswirkungen eines Forschungsprojekts signifikant beeinflussen. Während die abhängige Variable (Projektauswirkung) anhand einer Umfrage (durchgeführt unter den Forschern des Instituts) bewertet wurde, basieren die unabhängigen Variablen auf objektiven Maßnahmen.

Was wäre in einem solchen Szenario eine akzeptabler r-Quadrat-Prozentsatz? Könnte ein niedriger Prozentsatz durch die "Subjektivität" der abhängigen Variablen gerechtfertigt sein? Ich habe gehört, dass der wissenschaftliche Bereich wichtig ist ... dh in der Physik muss man lieber ein R-Quadrat> 95% haben, während in der Soziologie> 5% bereits interessant sein könnten ...

Haben Sie irgendwelche Referenzen dazu?

(1) Möglicherweise finden Sie [R-Quadrat: nützlich oder gefährlich?] (Http://stats.stackexchange.com/q/13314) informativ. (2) In Bezug auf den Ausdruck "maßgeblicher Einfluss" sollten Sie auch einige der Themen lesen, die bei der Suche auf dieser Website nach "Kausalität" gefunden wurden, einschließlich [Statistik und kausale Folgerung?] (Http://stats.stackexchange.com/q/). 2245).
@whuber: (+1) Diese Frage stammt aus math.SE, und ich habe das OP auf dieselbe Frage hingewiesen, mit der Sie verknüpft haben. Ich denke, das hat dazu geführt, dass die Frage dort gelöscht und hierher gezogen wurde.
Sechs antworten:
#1
+12
Frank Harrell
2011-08-21 22:04:19 UTC
view on stackexchange narkive permalink

Es gibt keine absoluten Werte. Unterschiedliche Probleme haben unterschiedliche Schwierigkeiten. Das einzige, was dazu führen würde, dass man ein bestimmtes $ R ^ 2 $ ablehnt, ist ein anderer Ansatz, bei dem ein viel größeres $ R ^ 2 $ aus demselben Datensatz unter Verwendung eines vorgegebenen oder überanpassungskorrigierten Modells erhalten wird.

#2
+9
rolando2
2011-08-21 23:02:31 UTC
view on stackexchange narkive permalink

Die Tatsache, dass Ihre Ergebnisvariable subjektiv ist, legt nahe, dass sie mit ziemlich unvollständiger Zuverlässigkeit gemessen wird. Je geringer die Zuverlässigkeit ist, desto gedämpfter sind die Korrelationen mit anderen Variablen. Daher muss man seine Standards senken.

Ich werde versuchen, Ihnen eine konkretere Reaktion zu geben. Wenn ich nur die kleine Menge kenne, die ich kenne, würde ich vermuten, dass ein RSQ in der Nähe von 0,35 mich als Rezensenten oder anderen Leser sehr interessieren würde und ziemlich gut beeindruckt von der Erklärungskraft dieses Modells ist. dieser in der Nähe von .20 würde mich leicht interessieren; und dass einer in der Nähe von .10 an der Grenze zwischen der Angabe eines nützlichen und eines nutzlosen Modells zu liegen scheint.

Also ... mein r ^ 2 von ungefähr 0,38 wäre dann in Ordnung :) Übrigens, haben Sie zufällig irgendwelche Papiere zur Hand, die irgendwie besagen, dass ein solches r ^ 2 für die Art von Studie, die ich durchführe, in Ordnung sein könnte? Es ist nur so, dass ich auf etwas "offizielles" verweisen könnte
Ich nicht, aber wie @Frank Harrell vorschlägt, gibt es nicht viel Bedarf oder Verwendung für irgendjemanden, der sagt: "Dieser Rsq ist ausreichend." Normalerweise möchte man mit solchen Untersuchungen noch viel mehr erreichen, z. B. das Schätzen von Koeffizienten, das Spezifizieren von Standardschätzungsfehlern usw.
#3
+3
Dave Owen
2011-08-22 21:00:03 UTC
view on stackexchange narkive permalink

Ich gehe davon aus, dass Ihre abhängige Variable eine Art diskreter Likert-Score ist. Wenn ja, würde ich nur sicherstellen, dass das R-Quadrat nicht in der Nähe eines der beiden Extreme ist, und Ihren Regressionskoeffizienten mehr Aufmerksamkeit schenken.

Welche Art von Regressionsmodell haben Sie übrigens verwendet? Gewöhnliche kleinste Quadrate können für die Darstellung der Endergebnisse verpönt werden, können aber einen guten ersten Indikator für eine Beziehung liefern. Für eine Abschlussarbeit würde ich mit einem bestellten Probit oder Logit gehen. Sie möchten sehr klar über die Verteilung sein, die Sie der abhängigen Variablen auferlegen. Wenn Sie beispielsweise die kleinsten Quadrate verwenden, wird davon ausgegangen, dass die Zahlen auf der Skala äquidistant sind, wenn die Menschen in Wirklichkeit bei der Bereitstellung subjektiver Bewertungen ziemlich inkonsistent sind. P. >

Nur zur Klarstellung: Ich würde OLS nicht für eine diskrete, geordnete abhängige Variable verwenden. In vielen anderen Anwendungen ist das in Ordnung.
Willkommen auf unserer Seite, Dave! Vielen Dank, dass Sie sich mit Ihren Gedanken beschäftigt haben.
#4
+2
Sympa
2011-08-21 22:47:33 UTC
view on stackexchange narkive permalink

Wie Sie habe ich oft gehört, dass in der Soziologie ein R-Quadrat von 0,05 akzeptabel ist. Ich frage mich manchmal, ob das wirklich richtig sein kann oder ob es die mangelhafte wissenschaftliche Strenge innerhalb der Soziologie widerspiegelt (zumindest basierend auf diesem einen Benchmark). Zugegeben, ein R-Quadrat von 0,05 entspricht einem absoluten R-Wert von 0,22, was Ihnen etwas zu sagen scheint.

Bevor ich mich jedoch mit einem so niedrigen R-Quadrat vertraut machen würde, würde ich ein paar Dinge tun. Führen Sie Ihr Modell mit verschiedenen Datensätzen aus. Verwenden Sie Hold-out-Datenpunkte in Ihren Daten und sehen Sie, wie gut Ihr Modell die abhängige Variable vorhersagt. Mit anderen Worten, können Ihre Modellergebnisse mit verschiedenen Datensätzen repliziert werden? Ist Ihr Modell vorhersagbar? Dies definiert, ob Ihr Modell ein Minimum an Richtungsstabilität aufweist, um viel nützlicher zu sein, als es ein beliebiger R-Quadrat-Schwellenwert vermuten lässt.

Ich würde mir vorstellen, dass mit einem R-Quadrat von 0,05 die Ergebnisse eines verwandten Modells überfordert sind durch den Standardfehler des Modells. Die oben verwendeten einfachen Methoden können Ihnen dabei helfen, dieses Phänomen zu dokumentieren.

Manchmal ist es weniger wichtig vorherzusagen als den Gesamteffekt des Koeffizienten zu verstehen. Dies gilt sehr für solche Modelle.
Ich denke nicht, dass dies mit wissenschaftlicher Strenge zu tun hat, sondern mit der Schwierigkeit der Aufgabe. Wenn man vorhersagt, wie viele Tage jemand leben muss, ist der $ R ^ 2 $ ziemlich niedrig (Gott sei Dank).
+1 @Frank,, aber ich kann nicht widerstehen, darauf hinzuweisen, dass $ R ^ 2 $ für einfache Vorhersagen von Sterbedaten (basierend auf versicherungsmathematischen Tabellen) ziemlich hoch sein wird, * es sei denn, Sie kontrollieren das Alter *! Dies zeigt deutlich, warum $ R ^ 2 $ für sich genommen fast ein nutzloses Maß für die Qualität oder "Akzeptanz" eines Modells ist.
Sie denken an Gruppenvorhersagen, die im Vergleich zur Vorhersage der Ergebnisse von Einzelpersonen einfach sind.
#5
+1
user34889
2013-11-16 19:34:27 UTC
view on stackexchange narkive permalink

Es scheint viel Verwirrung um die Bedeutung von RQS zu geben. RSQ bedeutet nicht, dass Sie ein gültiges Modell haben, sondern dass es eine gewisse "Anpassungsgüte" gibt.

Eine kurze Übersicht finden Sie in meinem Blog.

http: / /www.excel-with-data.co.uk/blog-1

Es würde Sie dazu bringen, eigenständig zu antworten, wenn Sie die Hauptpunkte Ihres Blogposts zusammenfassen würden, die sich auf die OP-Frage beziehen. Mit RQS und RSQ meinen Sie dasselbe und wofür stehen die Abkürzungen genau?
#6
-1
Jordache
2012-08-14 02:05:02 UTC
view on stackexchange narkive permalink

Sie können die multiple lineare Regression definitiv nicht für die Analyse einer kategorialen Antwortvariablen verwenden. In diesem Fall sollten Sie das Logistikmodell lieber mit einem Logit- oder Probit-Link verwenden (dies hängt auch davon ab, ob die Antwort ordinal oder nominal ist). Dies könnte jedoch eine sehr späte Antwort sein.

Ja, Sie können zum Beispiel das lineare Wahrscheinlichkeitsmodell für jede kategoriale Variable mit zwei Zuständen annehmen, die 1 oder 0 annimmt
Oder für geordnete kategoriale Variablen mit einer gewissen Annahme der Linearität
Dies bezieht sich auf http://stats.stackexchange.com/questions/29469/ols-vs-logistic-regression-for-exploratory-analysis-with-a-binary-outcome. Oft kann die Aussage "Sie können definitiv nicht" mit "Vielleicht kann ich es nicht tun und alle Annahmen erfüllen, die für Sie wichtig sind; aber ich kann es tun und etwas von Wert für mich lernen."


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...