Frage:
Lineare Regression - ist ein Modell "nutzlos", wenn $ R ^ 2 $ sehr klein ist?
means-to-meaning
2015-01-12 20:25:34 UTC
view on stackexchange narkive permalink

Angesichts einer komplexen Ausgabe, die von vielen zugrunde liegenden Faktoren abhängt, werden mir 3 erklärende Variablen und etwa 10.000 Datenpunkte sowie die Aufgabe gegeben, ihre Auswirkungen auf die Ausgabe zu bewerten.

Das OLS-Modell ist sehr schwach - es hat einen $ R ^ 2 $ von ungefähr 0,7%. Es gibt deutliche Abweichungen von der Normalität und die Darstellung des Kochs zeigt zahlreiche Ausreißer. Die Schätzungen der Koeffizienten für die erklärenden Variablen sind jedoch hoch signifikant (95% iges Vertrauen).

BEARBEITEN: Aufgrund einiger hilfreicher Kommentare habe ich die Frage festgehalten weiter zu:

Ist der t-Test der Koeffizienten ausreichend, um zu gewährleisten, dass den Ergebnissen des Modells trotz der hohen Varianz der abhängigen Variablen und des niedrigen $ R ^ 2 vertraut werden kann (dh nicht falsch ist) $?

Ich halte das Modell nicht für nützlich, wenn es nicht gut passt oder eine gute Vorhersagekraft hat, sondern wenn wir die Beziehung zwischen abhängigen und unabhängigen Variablen in einer experimentellen Umgebung testen würden Das Erhöhen der unabhängigen Variablen würde im Durchschnitt den gleichen Effekt auf die abhängige Variable zeigen, wie vom Modell geschätzt.

Um die Nicht-Normalität und die Ausreißer zu behandeln, habe ich eine robuste Regression durchgeführt und ich berechnete die Koeffizientenverteilung unter Verwendung eines nicht parametrischen Bootstraps mit einer Bootstrap-Stichprobengröße von 80% des t Gesamtstichprobengröße. Die geschätzten Koeffizienten sind ziemlich ähnlich

Siehe: http://stats.stackexchange.com/questions/13314/is-r2-useful-or-dangerous
0,7% $ R ^ 2 $ ist sehr niedrig, unabhängig davon, wie Sie es umgehen.Es sagt mir im Grunde, dass Ihre erklärenden Variablen nichts erklären.
@Aksakal, yep, das wäre auch meine Interpretation.Ich kann dies jedoch nicht mit der Tatsache vereinbaren, dass sich die Auswirkungen der erklärenden Variablen als statistisch signifikant herausstellen?!
Weil Ihr $ n $ groß genug ist, dass kleine Effekte dennoch von Null unterscheidbar sind.
Wenn Sie 10.000 Punkte einwerfen, ist einerseits fast alles von Bedeutung.Andererseits bedeutet statistische Signifikanz nicht immer, dass Sie ein nützliches Modell haben.Wirtschaftliche Bedeutung berücksichtigen.
@Tim Danke für den Link.Ich habe Whubers Kommentare zu R ^ 2 gelesen.Was ich mitgenommen habe, ist, dass R ^ 2 keine sehr intuitive Metrik ist, um die Modellanpassung zu bewerten oder verschiedene Modelle zu vergleichen.Das zentrale Stück seiner Erklärung ist jedoch ein Modell mit stückweisen Regressionen, die individuell ein sehr niedriges R ^ 2 haben.Aber es gibt keine Notiz darüber, was das "allgemeine" stückweise R ^ 2 ist (nun, es gibt es nicht, da es nicht existiert, denke ich).Aber obwohl ich sehr lehrreich bin, scheint mir der Vergleich der stückweisen Modelle und des vollständigen Modells ein bisschen wie der Vergleich von Birnen und Äpfeln aus der Sicht von R ^ 2.
@Glen_b Sicher.Mit zunehmender Probengröße steigt die Leistung des t-Tests.Meine Frage: Bedeutet das, dass ich mich darauf verlassen kann, dass die Effekte trotz der überwältigenden Varianz der abhängigen Variablen echt und nicht falsch sind?Bitte formulieren Sie die Frage neu, wenn es nicht klar ist, oder ich würde es gerne tun.
@Aksakal Vielen Dank für den Kommentar zur Nützlichkeit.Ich habe der Frage eine Klarstellung hinzugefügt, wie ich die Nützlichkeit des Modells in diesem speziellen Fall einschätze.
Sie müssen den Lärm reduzieren.Sie können um niedrige $ R ^ 2 $ tanzen, wenn es 20-30% sind, aber mit 0,7% ist es zu viel, um von einem Leser zu verlangen, Ihr Modell ernst zu nehmen.
@Aksakal Ich habe mich gefragt, ob es in der Theorie zu linearen Modellen einen bestimmten Aspekt gibt, der ein Modell mit einem so niedrigen R ^ 2 entweder direkt oder als Folge einer anderen Regel unzulässig macht.Die Gefahr, die ich mir vorstellen kann, besteht darin, dass die Lösung nicht robust ist, aber die robuste Regression sehr ähnliche Ergebnisse liefert.
Tr aus der Probenvalidierung.Trainieren Sie Ihr Modell anhand der Teilmenge der Daten und prüfen Sie, ob die Vorhersagen im Holdout-Beispiel enthalten sind.Die Sorge ist, dass Sie einen Störeffekt wahrnehmen.
Es gibt viele Gründe, warum eine Regression falsch sein kann.Ein $ R ^ 2 $ über 0,9 - oder sogar höher - verhindert das nicht
Wenn die Variablen, die Sie untersuchen, nur eine kleine Subpopulation in Ihrem Datensatz beeinflussen, würde ich sagen, dass das Modell für diese bestimmte Population interessant ist.Z.B.wenige werden nach einer Hüftendoprothese erneut operiert, aber diejenigen, die einen starken negativen Einfluss auf ihre postoperative Lebensqualität haben - ich würde dies als interessant einstufen, obwohl der R ^ 2 für diese Variable vernachlässigbar ist
Dies mag ein banaler Punkt sein, aber es kann sehr nützlich sein, zwei Variablen zu entdecken, die nichts miteinander zu tun haben!Oder sogar, dass sie eine Beziehung haben, aber wenn sie quantifiziert werden, ist es eine sehr schwache.Mit einer großen Stichprobengröße können Sie sie auf ein sinnvoll enges Konfidenzintervall festlegen.Wenn das CI keine 0 enthält, ist die Steigung statistisch signifikant, aber es ist nützlicher, wenn Sie mit Sicherheit wissen, dass sie klein ist.In diesem Sinne kann Ihr geschätztes Modell nützlicher sein als eines mit breiten CIs an den Hängen, unabhängig davon, ob diese Steigungen "signifikant" waren oder nicht oder was der $ R ^ 2 $ ist.
@Aksakal würde es Ihnen etwas ausmachen, dies formal zu erklären, vermutlich ohne Antwort?"Wenn Sie 10.000 Punkte einwerfen, ist einerseits fast alles von Bedeutung."
Vier antworten:
Frank Harrell
2015-01-13 18:45:03 UTC
view on stackexchange narkive permalink

Obwohl $ R ^ {2} < 0.01 $ normalerweise nicht sehr hilfreich ist, muss der Wert eines Modells auch anhand (1) der Schwierigkeit der Aufgabe und (2) der Frage beurteilt werden, ob man lernen möchte Tendenzen vs. Antworten für einzelne Probanden vorhersagen. Einige Aufgaben, wie die Vorhersage, wie viele Tage ein Patient leben wird, sind sehr schwierig und niedrig $ R ^ {2} $ sind nicht nur die Norm, sondern auch mit immer noch sehr nützlichen Modellen verbunden. In Bezug auf Tendenzen kann eine klinische Studie, in der Behandlung B mit einem besseren Ansprechen des Patienten verbunden ist als Behandlung A, nur einen winzigen Anteil der Variation von $ Y $ aufweisen, was durch die Behandlung und bekannte Kovariaten erklärt wird. Die Tendenz schreibt jedoch vor, dass es besser ist, Behandlung B zu geben neue Patienten, alle anderen Dinge sind gleich.

Beachten Sie, dass in den allermeisten Fällen der Bootstrap mit Stichproben der Größe $ N $ ausgeführt wird, wobei eine Stichprobe der Größe $ N $ ersetzt wird. Anstelle der herkömmlichen robusten Regression und des Bootstrappings würde ich eine der Familien von kumulativen wahrscheinlichkeitsbasierten ordinalen Antwortmodellen empfehlen (z. B. Proportional-Odds-Modell).

Danke für deine Antwort.Es ist großartig, Ihre Gedanken dazu zu lesen, da das Thema vertrauensvolle Modelle in der Medizin eine besonders wichtige Bedeutung hat.Die Lerntendenzen gegenüber der Vorhersage von Antworten sind auch für mich der entscheidende Punkt!In Bezug auf Bootstrap mit weniger Daten als $ N $ schien es aus irgendeinem Grund eine robustere Methode zu sein, um festzustellen, ob die Konfidenzintervalle meiner Koeffizienten wirklich über 0 liegen - aber es ist wahrscheinlich unbegründet und ich werde stattdessen eine Quantilregression versuchen.(Das Verhältnis von $ Y $ ist skaliert)
Bevor Sie mit der Quantilregression fortfahren, sollten Sie zunächst die Anpassungsgüte überprüfen und nach Nichtlinearitäten suchen.Sie haben mehr als genug Daten, um sie zu finden, indem Sie beispielsweise Splines für die drei Variablen verwenden und ein robustes Anpassungsverfahren durchführen.
Und die traditionelle Quantilregression ist nicht so effizient wie die ordinale Regression.
Aleksandr Blekh
2015-01-13 18:21:16 UTC
view on stackexchange narkive permalink

Trotz der traditionellen negativen Einstellung zu statistischen Modellen mit niedrigem $ R ^ 2 $ möchte ich zwei Punkte hervorheben: 1) "niedrig" ist ein relativer Begriff - Ein Modell mit einem niedrigeren $ R ^ 2 $ könnte besser (bessere Erklärungskraft oder Sparsamkeit ) und nützlicher (besser reflektieren Realität ) als andere mit höheren $ R ^ 2 $ -Werten. Allerdings ist ein Modell mit dem Wert $ R ^ 2 $ von 0,7% höchstwahrscheinlich nicht allzu nützlich.

Wenn Sie auf ein statistisches Modell mit einem niedrigen Wert von $ R ^ 2 $ stoßen, wird es empfohlen um einige oder alle der folgenden Ansätze ( http://people.duke.edu/~rnau/rsquared.htm) zu verwenden:

  • Definieren Sie die Variablen des Modells a priori (Versuchsplanung oder genau definierte Hypothesen);
  • Zusätzlich saubere Daten , wenn möglich ( Ausreißer , Inkonsistenzen , mehrdeutige Daten );
  • Stellen Sie sicher, dass Schätzungen sind (zumindest gemeinsam) signifikant ( Stichprobengröße erhöhen, falls erforderlich und möglich, insbesondere wenn die Korrelationen schwach sind);
  • Kreuzvalidierung durchführen ( Out-of-Sample-Tests , wie in einigen Kommentaren oben erwähnt.

HINWEIS: Kurz vor dem Posten dieser Antwort habe ich ' Ich habe festgestellt, dass Sie Ihre Frage neu formuliert haben. Trotzdem habe ich beschlossen, es in der Hoffnung zu veröffentlichen, dass es für Sie oder andere Personen nützlich sein könnte.

Betreff: "Stellen Sie sicher, dass die Schätzungen weit von Null entfernt sind" - manchmal liegt der korrekte Wert * nahe * nahe Null.Wenn Sie eine größere Stichprobe nehmen, erhöht sich Ihre Schätzung nicht unbedingt!Wenn Sie sich das Originaldokument ansehen (das Bit, in dem steht "Seien Sie sehr vorsichtig, wenn Sie ein Modell mit einem niedrigen Wert von R-Quadrat bewerten"), werden Sie feststellen, dass es etwas anderes sagt als Ihre Zusammenfassung - es unterstreicht diesDie Schätzungen sollten (zumindest gemeinsam) signifikant sein, was bei einer größeren Stichprobe hilfreich sein kann (im Sinne einer Leistungssteigerung).
@Silverfish: Ich stimme Ihrem Kommentar zu.Ich hatte es eilig und am ehesten fälschlich davon ausgegangen.Bitte zögern Sie nicht, meine Antwort nach Belieben zu ändern.Vielen Dank für die Klarstellung.
Es ist jetzt keine wörtliche Kopie des Originaltextes, aber ich denke, es ist eine bessere Zusammenfassung (der Schwerpunkt liegt auf der Bedeutung, nicht auf der Größe der Schätzung).
Ich bin auch über den Posten von Duke gestolpert.Es berührt das Thema sehr gut, leider hilft es in meinem Fall nicht, da ich keine Variablenauswahl durchführe. Ich habe 3 Variablen erhalten, die eine Beziehung zur Ausgabe haben sollen (überprüfen). Das Bereinigen der Daten ist immer hilfreichIch denke, ich habe mit der Entfernung von Ausreißern experimentiert, aber die Situation hat sich nicht wesentlich geändert (Überprüfung). Alle Schätzungen werden als signifikant angezeigt (Überprüfung). Eine Kreuzvalidierung ist keine Option, da ich nicht genügend Daten für so kleine Effekte habeIch habe stattdessen den Bootstrap ausprobiert.
@Silverfish: Sieht gut aus für mich.Vielen Dank für die Aktualisierung.
@means-to-meaning: Vielen Dank für das Feedback.Ich war mir nicht sicher über die Details, die Sie erwähnen.Diese Antwort (wie viele meiner Antworten) impliziert jedoch die Absicht, dass eine Antwort in einem breiteren Spektrum von Situationen möglicherweise nützlich ist, ähnlich der, die OP beschreibt, daher mein Beitrag.
Silverfish
2015-01-13 19:07:09 UTC
view on stackexchange narkive permalink

Wenn Ihr Modell korrekt angegeben ist und die entsprechenden Bedingungen für Ihre Inferenzmethode erfüllt sind (z. B. Gaußsche Fehler, wenn Sie ein t em verwenden möchten > -test), dann sollten Sie in der Lage sein, Ihre nominelle Fehlerrate vom Typ I zu erreichen, unabhängig von n und unabhängig von $ R ^ 2 $. (Obwohl als separates Problem eine große Stichprobengröße Ihre Typ-II-Fehlerrate durch Erhöhen der Leistung senkt, kann es sich lohnen, Ihr Signifikanzniveau $ \ alpha $ zu verringern, um auch Ihre Typ-I-Fehlerrate zu senken; Die Kosten für eine erhöhte Typ-II-Fehlerrate können sich lohnen, wenn Sie jetzt mehr Leistung zum Spielen haben. Wenn Sie dies tun, sieht Ihr p -Wert möglicherweise nicht mehr ganz so beeindruckend aus !)

Mit anderen Worten: Es besteht kein Grund, einem signifikanten Ergebnis misstrauischer gegenüberzustehen, nur weil $ R ^ 2 $ niedrig ist und nicht wahr ist, dass "jede Variable" signifikant ist nur weil die Stichprobengröße groß ist. Wenn die Variable Ihre Antwortvariable nicht wirklich beeinflusst, sobald andere Variablen berücksichtigt wurden, hat die Variable nur eine 5% ige Chance (falsch), wenn wir das 5% -Niveau als signifikant betrachten. gilt als signifikant , auch wenn Ihre Stichprobengröße in den Billionen liegt. Aber denken Sie daran, dass dies den Bedingungen unterliegt, die ich zuvor erwähnt habe. Darüber hinaus ist es viel wahrscheinlicher, dass eine Variable, die nur eine sehr schwache Beziehung zur abhängigen Variablen hat (die wahre Steigung $ \ beta $ liegt nahe, aber nicht genau Null), in einer großen Stichprobe aufgrund der erhöhte Leistung. Hier ist der Unterschied zwischen "statistischer Signifikanz" und "praktischer Signifikanz" wichtig. Wenn Sie sich das Konfidenzintervall für die Steigung ansehen, werden Sie feststellen, dass die Variable nur einen vernachlässigbaren Einfluss auf die Vorhersagen hat, selbst wenn sie auf der Seite des Konfidenzintervalls liegt, das am weitesten von Null entfernt ist. Dies ist ein Merkmal großer Stichprobengrößen, kein Fehler. Je größer die Stichprobengröße, desto besser verstehen Sie die Beziehungen Ihrer Variablen, selbst die schwer zu erkennenden schwachen Beziehungen.

Andererseits bedeutet ein hohes $ R ^ 2 $ nicht, dass Sie sicher sind, keine falsche Beziehung zu erkennen, die zu einer schlechten Leistung außerhalb der Stichprobe führt. Eine Situation wie Bias mit ausgelassenen Variablen kann unabhängig davon auftreten, ob Ihr $ R ^ 2 $ hoch oder niedrig ist: Wenn Sie Ihr Modell falsch angeben und eine der Variablen, die Sie in das Modell aufnehmen, mit einem korreliert Wenn die Variable weggelassen wird (eine, die Sie möglicherweise noch nicht einmal gemessen haben), wird ihre Koeffizientenschätzung verzerrt. Es kann sein, dass es keinen Einfluss auf Ihre abhängige Variable haben sollte (das wahre $ \ beta $ ist Null), aber Sie können feststellen, dass es sich signifikant von Null unterscheidet. Wenn die Korrelation mit der ausgelassenen Variablen sehr schwach ist, ist es unwahrscheinlich, dass diese falsche Signifikanz auftritt, es sei denn, Ihre Stichprobengröße ist ziemlich groß. Dies ist jedoch kein Grund, kleinere Stichprobengrößen zu bevorzugen, und im Zusammenhang mit einem niedrigen $ R ^ 2 $ gibt es nichts Besonderes zu befürchten. Eine schnelle Demonstration durch Simulation in R , dass Sie auch bei hohen $ R ^ 2 $ eine falsche Beziehung finden können:

  erfordert (MASS) # für multivariates normales Simulationsset. Samen (123) n <-10000X <-mvrnorm (n = n, mu = c (10, 10), Sigma = Matrix (c (1,0,9,0,9,1), nrow = 2)) xomitted <-X [ , 1] xspurious <-X [, 2] # korreliert mit xomitted, rho = 0,9y <-3 * xomitted + rnorm (n = n, Mittelwert = 0, sd = 1) # wahres Modell mit Rauschen sd = 1ovb.lm. <-lm (y ~ xspurious) Zusammenfassung (ovb.lm) # xspurious sollte den Koeffizienten 0 haben, ist aber stark sig  

Die Ausgabe der Regression zeigt einen signifikanten Koeffizienten für xomitted obwohl die wahre Steigung Null ist. Das hohe $ R ^ 2 $ war kein Garant für eine nicht störende Beziehung.

  Koeffizienten: Schätzen Sie Std. Fehler t Wert Pr (> | t |) (Intercept) 2.90353 0.16600 17.49 <2e-16 *** xspurious 2.71003 0.01652 164.00 <2e-16 *** --- Signif. Codes: 0 "***" 0,001 "**" 0,01 "*" 0,05 "." 0,1 "" 1
Reststandardfehler: 1,653 bei 9998 FreiheitsgradenMehrfaches R-Quadrat: 0,729, angepasstes R-Quadrat: 0,729 F-Statistik: 2,689e + 04 bei 1 und 9998 DF, p-Wert: < 2,2e-16  

Wenn Sie es mit einer experimentellen Situation zu tun haben, in der alle relevanten Variablen gemessen oder gesteuert werden und Sie möglicherweise klare theoretische Gründe für die Struktur Ihres Modells haben, kann dies als Problem etwas verblassen. In einem Experiment können wir möglicherweise nicht gemessene Variablen konstant halten oder sie randomisieren (z. B. Zuordnungen in einer klinischen Studie) - dies beseitigt die Korrelation zwischen den ausgelassenen und beobachteten Variablen. Das Problem kann in Beobachtungsdaten akuter sein, wo es ein Gewirr von Korrelationen zwischen den Dingen geben kann, die wir messen können, und - möglicherweise wichtiger - nicht beobachtbaren Dingen, und in Bereichen wie den Sozialwissenschaften kann es unmöglich sein, eine bestimmte Modellspezifikation zu rechtfertigen em> a priori aus der Theorie (insbesondere Dinge wie die Potenz einer Variablen).

Zum Schluss noch eine allgemeinere Aussage darüber, ob Ihr Modell "nutzlos" ist. Offensichtlich werden Sie mit einem $ R ^ 2 $ unter 1% keine gute Prognoseleistung erhalten. Wenn wir jedoch einen verrauschten Prozess modellieren oder einen mit vielen Faktoren, aber nur wenigen, die wir messen können, ist eine gute Vorhersageleistung zu viel, um darauf zu hoffen. Es kann immer noch nützlich sein zu wissen, dass zwei Variablen nicht besonders verwandt sind - im Allgemeinen möchten wir, dass das 95% -Konfidenzintervall für unsere Regressionskoeffizienten sehr eng ist (was auf eine geringere Unsicherheit über die Steigung hinweist, für die Zweck wir wünschen eine große Stichprobengröße), und wenn dies nahe Null ist, haben wir die nützliche Tatsache gelernt, dass wir nicht erwarten, dass Änderungen an dieser Variablen einen großen Einfluss auf unsere Antwortvariable haben. Aber wenn die Antwortvariable für uns wichtig ist (Frank Harrells medizinisches Beispiel ist gut, ein anderes könnte die Theorie der "marginalen Gewinne" im Sport sein), könnten sogar Möglichkeiten, sie schwach zu beeinflussen, für uns wichtig sein. Wenn Ihr Hauptanliegen die Leistung außerhalb der Stichprobe ist, sollten Sie wahrscheinlich die Modellspezifikation genau beachten.

(+1) Das Hauptanliegen ist "die Beziehung zwischen den abhängigen und unabhängigen Variablen in einem experimentellen Umfeld", über die vielleicht ein wenig gesagt werden könnte.
@scortchi Ja, ich denke, das ist ein guter Punkt.Ich habe etwas mehr in den vorletzten Absatz eingefügt, der hoffentlich einige relevante Punkte hervorhebt.
aleatorio
2015-01-13 16:26:48 UTC
view on stackexchange narkive permalink

Ein Modell ist nützlich, wenn Sie besser verstehen können, was mit Ihren Daten / Ihrer Theorie geschieht, und wenn es korrekt berechnet wird. In einigen Fällen, wenn die Kriteriumsvariable durch eine große Anzahl von Ursachen bestimmt wird, ist es sehr schwierig, ein hohes $ R ^ 2 $ zu erreichen.

Ihre Antwort widerspricht direkt meiner Beschreibung, wie nützlich das oben beschriebene Modell für mich ist.Bitte entschuldigen Sie auch die Formulierung der Frage, wenn sie unklar war, aber ich suche nach einer klaren Antwort auf den Wert der Entdeckung signifikanter Effekte in schwachen Modellen.Die Antwort, dass ein Modell nützlich ist, wenn es "korrekt berechnet" wird, hilft nicht.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...