Wenn Ihr Modell korrekt angegeben ist und die entsprechenden Bedingungen für Ihre Inferenzmethode erfüllt sind (z. B. Gaußsche Fehler, wenn Sie ein t em verwenden möchten > -test), dann sollten Sie in der Lage sein, Ihre nominelle Fehlerrate vom Typ I zu erreichen, unabhängig von n und unabhängig von $ R ^ 2 $. (Obwohl als separates Problem eine große Stichprobengröße Ihre Typ-II-Fehlerrate durch Erhöhen der Leistung senkt, kann es sich lohnen, Ihr Signifikanzniveau $ \ alpha $ zu verringern, um auch Ihre Typ-I-Fehlerrate zu senken; Die Kosten für eine erhöhte Typ-II-Fehlerrate können sich lohnen, wenn Sie jetzt mehr Leistung zum Spielen haben. Wenn Sie dies tun, sieht Ihr p -Wert möglicherweise nicht mehr ganz so beeindruckend aus !)
Mit anderen Worten: Es besteht kein Grund, einem signifikanten Ergebnis misstrauischer gegenüberzustehen, nur weil $ R ^ 2 $ niedrig ist und nicht wahr ist, dass "jede Variable" signifikant ist nur weil die Stichprobengröße groß ist. Wenn die Variable Ihre Antwortvariable nicht wirklich beeinflusst, sobald andere Variablen berücksichtigt wurden, hat die Variable nur eine 5% ige Chance (falsch), wenn wir das 5% -Niveau als signifikant betrachten. gilt als signifikant , auch wenn Ihre Stichprobengröße in den Billionen liegt. Aber denken Sie daran, dass dies den Bedingungen unterliegt, die ich zuvor erwähnt habe. Darüber hinaus ist es viel wahrscheinlicher, dass eine Variable, die nur eine sehr schwache Beziehung zur abhängigen Variablen hat (die wahre Steigung $ \ beta $ liegt nahe, aber nicht genau Null), in einer großen Stichprobe aufgrund der erhöhte Leistung. Hier ist der Unterschied zwischen "statistischer Signifikanz" und "praktischer Signifikanz" wichtig. Wenn Sie sich das Konfidenzintervall für die Steigung ansehen, werden Sie feststellen, dass die Variable nur einen vernachlässigbaren Einfluss auf die Vorhersagen hat, selbst wenn sie auf der Seite des Konfidenzintervalls liegt, das am weitesten von Null entfernt ist. Dies ist ein Merkmal großer Stichprobengrößen, kein Fehler. Je größer die Stichprobengröße, desto besser verstehen Sie die Beziehungen Ihrer Variablen, selbst die schwer zu erkennenden schwachen Beziehungen.
Andererseits bedeutet ein hohes $ R ^ 2 $ nicht, dass Sie sicher sind, keine falsche Beziehung zu erkennen, die zu einer schlechten Leistung außerhalb der Stichprobe führt. Eine Situation wie Bias mit ausgelassenen Variablen kann unabhängig davon auftreten, ob Ihr $ R ^ 2 $ hoch oder niedrig ist: Wenn Sie Ihr Modell falsch angeben und eine der Variablen, die Sie in das Modell aufnehmen, mit einem korreliert Wenn die Variable weggelassen wird (eine, die Sie möglicherweise noch nicht einmal gemessen haben), wird ihre Koeffizientenschätzung verzerrt. Es kann sein, dass es keinen Einfluss auf Ihre abhängige Variable haben sollte (das wahre $ \ beta $ ist Null), aber Sie können feststellen, dass es sich signifikant von Null unterscheidet. Wenn die Korrelation mit der ausgelassenen Variablen sehr schwach ist, ist es unwahrscheinlich, dass diese falsche Signifikanz auftritt, es sei denn, Ihre Stichprobengröße ist ziemlich groß. Dies ist jedoch kein Grund, kleinere Stichprobengrößen zu bevorzugen, und im Zusammenhang mit einem niedrigen $ R ^ 2 $ gibt es nichts Besonderes zu befürchten. Eine schnelle Demonstration durch Simulation in R
, dass Sie auch bei hohen $ R ^ 2 $ eine falsche Beziehung finden können:
erfordert (MASS) # für multivariates normales Simulationsset. Samen (123) n <-10000X <-mvrnorm (n = n, mu = c (10, 10), Sigma = Matrix (c (1,0,9,0,9,1), nrow = 2)) xomitted <-X [ , 1] xspurious <-X [, 2] # korreliert mit xomitted, rho = 0,9y <-3 * xomitted + rnorm (n = n, Mittelwert = 0, sd = 1) # wahres Modell mit Rauschen sd = 1ovb.lm. <-lm (y ~ xspurious) Zusammenfassung (ovb.lm) # xspurious sollte den Koeffizienten 0 haben, ist aber stark sig
Die Ausgabe der Regression zeigt einen signifikanten Koeffizienten für xomitted
obwohl die wahre Steigung Null ist. Das hohe $ R ^ 2 $ war kein Garant für eine nicht störende Beziehung.
Koeffizienten: Schätzen Sie Std. Fehler t Wert Pr (> | t |) (Intercept) 2.90353 0.16600 17.49 <2e-16 *** xspurious 2.71003 0.01652 164.00 <2e-16 *** --- Signif. Codes: 0 "***" 0,001 "**" 0,01 "*" 0,05 "." 0,1 "" 1
Reststandardfehler: 1,653 bei 9998 FreiheitsgradenMehrfaches R-Quadrat: 0,729, angepasstes R-Quadrat: 0,729 F-Statistik: 2,689e + 04 bei 1 und 9998 DF, p-Wert: < 2,2e-16
Wenn Sie es mit einer experimentellen Situation zu tun haben, in der alle relevanten Variablen gemessen oder gesteuert werden und Sie möglicherweise klare theoretische Gründe für die Struktur Ihres Modells haben, kann dies als Problem etwas verblassen. In einem Experiment können wir möglicherweise nicht gemessene Variablen konstant halten oder sie randomisieren (z. B. Zuordnungen in einer klinischen Studie) - dies beseitigt die Korrelation zwischen den ausgelassenen und beobachteten Variablen. Das Problem kann in Beobachtungsdaten akuter sein, wo es ein Gewirr von Korrelationen zwischen den Dingen geben kann, die wir messen können, und - möglicherweise wichtiger - nicht beobachtbaren Dingen, und in Bereichen wie den Sozialwissenschaften kann es unmöglich sein, eine bestimmte Modellspezifikation zu rechtfertigen em> a priori aus der Theorie (insbesondere Dinge wie die Potenz einer Variablen).
Zum Schluss noch eine allgemeinere Aussage darüber, ob Ihr Modell "nutzlos" ist. Offensichtlich werden Sie mit einem $ R ^ 2 $ unter 1% keine gute Prognoseleistung erhalten. Wenn wir jedoch einen verrauschten Prozess modellieren oder einen mit vielen Faktoren, aber nur wenigen, die wir messen können, ist eine gute Vorhersageleistung zu viel, um darauf zu hoffen. Es kann immer noch nützlich sein zu wissen, dass zwei Variablen nicht besonders verwandt sind - im Allgemeinen möchten wir, dass das 95% -Konfidenzintervall für unsere Regressionskoeffizienten sehr eng ist (was auf eine geringere Unsicherheit über die Steigung hinweist, für die Zweck wir wünschen eine große Stichprobengröße), und wenn dies nahe Null ist, haben wir die nützliche Tatsache gelernt, dass wir nicht erwarten, dass Änderungen an dieser Variablen einen großen Einfluss auf unsere Antwortvariable haben. Aber wenn die Antwortvariable für uns wichtig ist (Frank Harrells medizinisches Beispiel ist gut, ein anderes könnte die Theorie der "marginalen Gewinne" im Sport sein), könnten sogar Möglichkeiten, sie schwach zu beeinflussen, für uns wichtig sein. Wenn Ihr Hauptanliegen die Leistung außerhalb der Stichprobe ist, sollten Sie wahrscheinlich die Modellspezifikation genau beachten.