Lineare Regression - ist ein Modell "nutzlos", wenn $ R ^ 2 $ sehr klein ist?

means-to-meaning

2015-01-12 20:25:34 UTC

view on stackexchange narkive permalink

Angesichts einer komplexen Ausgabe, die von vielen zugrunde liegenden Faktoren abhängt, werden mir 3 erklärende Variablen und etwa 10.000 Datenpunkte sowie die Aufgabe gegeben, ihre Auswirkungen auf die Ausgabe zu bewerten.

Das OLS-Modell ist sehr schwach - es hat einen $ R ^ 2 $ von ungefähr 0,7%. Es gibt deutliche Abweichungen von der Normalität und die Darstellung des Kochs zeigt zahlreiche Ausreißer. Die Schätzungen der Koeffizienten für die erklärenden Variablen sind jedoch hoch signifikant (95% iges Vertrauen).

BEARBEITEN: Aufgrund einiger hilfreicher Kommentare habe ich die Frage festgehalten weiter zu:

Ist der t-Test der Koeffizienten ausreichend, um zu gewährleisten, dass den Ergebnissen des Modells trotz der hohen Varianz der abhängigen Variablen und des niedrigen $ R ^ 2 vertraut werden kann (dh nicht falsch ist) $?

Ich halte das Modell nicht für nützlich, wenn es nicht gut passt oder eine gute Vorhersagekraft hat, sondern wenn wir die Beziehung zwischen abhängigen und unabhängigen Variablen in einer experimentellen Umgebung testen würden Das Erhöhen der unabhängigen Variablen würde im Durchschnitt den gleichen Effekt auf die abhängige Variable zeigen, wie vom Modell geschätzt.

Um die Nicht-Normalität und die Ausreißer zu behandeln, habe ich eine robuste Regression durchgeführt und ich berechnete die Koeffizientenverteilung unter Verwendung eines nicht parametrischen Bootstraps mit einer Bootstrap-Stichprobengröße von 80% des t Gesamtstichprobengröße. Die geschätzten Koeffizienten sind ziemlich ähnlich

Siehe: http://stats.stackexchange.com/questions/13314/is-r2-useful-or-dangerous

0,7% $ R ^ 2 $ ist sehr niedrig, unabhängig davon, wie Sie es umgehen.Es sagt mir im Grunde, dass Ihre erklärenden Variablen nichts erklären.

@Aksakal, yep, das wäre auch meine Interpretation.Ich kann dies jedoch nicht mit der Tatsache vereinbaren, dass sich die Auswirkungen der erklärenden Variablen als statistisch signifikant herausstellen?!

Weil Ihr $ n $ groß genug ist, dass kleine Effekte dennoch von Null unterscheidbar sind.

Wenn Sie 10.000 Punkte einwerfen, ist einerseits fast alles von Bedeutung.Andererseits bedeutet statistische Signifikanz nicht immer, dass Sie ein nützliches Modell haben.Wirtschaftliche Bedeutung berücksichtigen.

@Tim Danke für den Link.Ich habe Whubers Kommentare zu R ^ 2 gelesen.Was ich mitgenommen habe, ist, dass R ^ 2 keine sehr intuitive Metrik ist, um die Modellanpassung zu bewerten oder verschiedene Modelle zu vergleichen.Das zentrale Stück seiner Erklärung ist jedoch ein Modell mit stückweisen Regressionen, die individuell ein sehr niedriges R ^ 2 haben.Aber es gibt keine Notiz darüber, was das "allgemeine" stückweise R ^ 2 ist (nun, es gibt es nicht, da es nicht existiert, denke ich).Aber obwohl ich sehr lehrreich bin, scheint mir der Vergleich der stückweisen Modelle und des vollständigen Modells ein bisschen wie der Vergleich von Birnen und Äpfeln aus der Sicht von R ^ 2.

@Glen_b Sicher.Mit zunehmender Probengröße steigt die Leistung des t-Tests.Meine Frage: Bedeutet das, dass ich mich darauf verlassen kann, dass die Effekte trotz der überwältigenden Varianz der abhängigen Variablen echt und nicht falsch sind?Bitte formulieren Sie die Frage neu, wenn es nicht klar ist, oder ich würde es gerne tun.

@Aksakal Vielen Dank für den Kommentar zur Nützlichkeit.Ich habe der Frage eine Klarstellung hinzugefügt, wie ich die Nützlichkeit des Modells in diesem speziellen Fall einschätze.

Sie müssen den Lärm reduzieren.Sie können um niedrige $ R ^ 2 $ tanzen, wenn es 20-30% sind, aber mit 0,7% ist es zu viel, um von einem Leser zu verlangen, Ihr Modell ernst zu nehmen.

@Aksakal Ich habe mich gefragt, ob es in der Theorie zu linearen Modellen einen bestimmten Aspekt gibt, der ein Modell mit einem so niedrigen R ^ 2 entweder direkt oder als Folge einer anderen Regel unzulässig macht.Die Gefahr, die ich mir vorstellen kann, besteht darin, dass die Lösung nicht robust ist, aber die robuste Regression sehr ähnliche Ergebnisse liefert.

Tr aus der Probenvalidierung.Trainieren Sie Ihr Modell anhand der Teilmenge der Daten und prüfen Sie, ob die Vorhersagen im Holdout-Beispiel enthalten sind.Die Sorge ist, dass Sie einen Störeffekt wahrnehmen.

Es gibt viele Gründe, warum eine Regression falsch sein kann.Ein $ R ^ 2 $ über 0,9 - oder sogar höher - verhindert das nicht

Wenn die Variablen, die Sie untersuchen, nur eine kleine Subpopulation in Ihrem Datensatz beeinflussen, würde ich sagen, dass das Modell für diese bestimmte Population interessant ist.Z.B.wenige werden nach einer Hüftendoprothese erneut operiert, aber diejenigen, die einen starken negativen Einfluss auf ihre postoperative Lebensqualität haben - ich würde dies als interessant einstufen, obwohl der R ^ 2 für diese Variable vernachlässigbar ist

Dies mag ein banaler Punkt sein, aber es kann sehr nützlich sein, zwei Variablen zu entdecken, die nichts miteinander zu tun haben!Oder sogar, dass sie eine Beziehung haben, aber wenn sie quantifiziert werden, ist es eine sehr schwache.Mit einer großen Stichprobengröße können Sie sie auf ein sinnvoll enges Konfidenzintervall festlegen.Wenn das CI keine 0 enthält, ist die Steigung statistisch signifikant, aber es ist nützlicher, wenn Sie mit Sicherheit wissen, dass sie klein ist.In diesem Sinne kann Ihr geschätztes Modell nützlicher sein als eines mit breiten CIs an den Hängen, unabhängig davon, ob diese Steigungen "signifikant" waren oder nicht oder was der $ R ^ 2 $ ist.

@Aksakal würde es Ihnen etwas ausmachen, dies formal zu erklären, vermutlich ohne Antwort?"Wenn Sie 10.000 Punkte einwerfen, ist einerseits fast alles von Bedeutung."

erfordert (MASS) # für multivariates normales Simulationsset. Samen (123) n <-10000X <-mvrnorm (n = n, mu = c (10, 10), Sigma = Matrix (c (1,0,9,0,9,1), nrow = 2)) xomitted <-X [ , 1] xspurious <-X [, 2] # korreliert mit xomitted, rho = 0,9y <-3 * xomitted + rnorm (n = n, Mittelwert = 0, sd = 1) # wahres Modell mit Rauschen sd = 1ovb.lm. <-lm (y ~ xspurious) Zusammenfassung (ovb.lm) # xspurious sollte den Koeffizienten 0 haben, ist aber stark sig

Koeffizienten: Schätzen Sie Std. Fehler t Wert Pr (> | t |) (Intercept) 2.90353 0.16600 17.49 <2e-16 *** xspurious 2.71003 0.01652 164.00 <2e-16 *** --- Signif. Codes: 0 "***" 0,001 "**" 0,01 "*" 0,05 "." 0,1 "" 1 Reststandardfehler: 1,653 bei 9998 FreiheitsgradenMehrfaches R-Quadrat: 0,729, angepasstes R-Quadrat: 0,729 F-Statistik: 2,689e + 04 bei 1 und 9998 DF, p-Wert: < 2,2e-16