Frage:
Grundlegendes zu Standardfehlern in einer Regressionstabelle
Amstell
2014-12-04 00:42:13 UTC
view on stackexchange narkive permalink

Ich beginne in meinen Studien immer mehr, Tabellen zu betrachten, aber ich verstehe die Bedeutung der Standardfehler unterhalb der Koeffizientenschätzungen nicht. Ich weiß, ob Sie die Schätzung durch die s.e. Sie erhalten eine Statistik, die einen Signifikanztest liefert, aber anscheinend kann mein Professor sie nur ansehen und feststellen, auf welcher Ebene sie signifikant ist.

Kann jemand eine einfache Möglichkeit bieten, die s.e. auf einer Regressionstabelle? Vermisse ich etwas?

Bearbeiten: Dies war eine großartige Diskussion, und ich werde einige Informationen zusammenfassen, bevor ich weiter kommentiere und mich für eine Antwort entscheide. Vielen Dank für alle Ihre Antworten.

Wird diese Frage im Thread unter http://stats.stackexchange.com/questions/5135/interpretation-of-rs-lm-output nicht beantwortet?Wenn Sie Standardfehler besser verstehen möchten, sollten Sie sich einige der Top-Treffer in einer [Site-Suche] ansehen (http://stats.stackexchange.com/search?tab=votes&q=%22standard%20error%22)hilfreich.
Wenn Ihre ns groß sind, ist alles, was Ihr Professor wahrscheinlich tut, das Verhältnis Est / se mit einer Handvoll von z-Werten zu vergleichen, die er oder sie auswendig gelernt hat, z.(1,645, 1,96, 2,58, 3,29).Das ist nichts Erstaunliches - nach ein paar Dutzend solcher Tests sollte das Zeug einfach sein.
Der Wert des Koeffizienten muss doppelt so hoch sein wie der Standardfehler (s.e) 2 für ein 5% iges Signifikanzniveau.
Fünf antworten:
#1
+9
Silverfish
2014-12-04 06:03:26 UTC
view on stackexchange narkive permalink

Ich werde mich an den Fall einer einfachen linearen Regression halten. Die Verallgemeinerung auf multiple Regression ist in den Prinzipien einfach, wenn auch in der Algebra hässlich. Stellen Sie sich vor, wir haben einige Werte eines Prädiktors oder einer erklärenden Variablen, $ x_i $, und wir beobachten die Werte der Antwortvariablen an diesen Punkten, $ y_i $. Wenn die wahre Beziehung linear ist und mein Modell korrekt angegeben ist (z. B. kein ausgelassener variabler Bias von anderen Prädiktoren, die ich vergessen habe), wurden diese $ y_i $ generiert aus:

$$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $$

Jetzt ist $ \ epsilon_i $ ein zufälliger Fehler- oder Störungsterm, der beispielsweise $ \ mathcal {N hat } (0, \ sigma ^ 2) $ Verteilung. Diese Annahme der Normalität mit der gleichen Varianz ( Homoskedastizität) für jedes $ \ epsilon_i $ ist wichtig, damit all diese schönen Konfidenzintervalle und Signifikanztests funktionieren. Aus dem gleichen Grund gehe ich davon aus, dass $ \ epsilon_i $ und $ \ epsilon_j $ nicht korreliert sind, solange $ i \ neq j $ (wir müssen natürlich die unvermeidliche und harmlose Tatsache zulassen, dass $ \ epsilon_i $ perfekt korreliert ist mit sich selbst) - dies ist die Annahme, dass Störungen nicht autokorreliert sind.

Beachten Sie, dass wir nur $ x_i $ und $ y_i $ beobachten können, aber dass wir ' Ich sehe nicht direkt die $ \ epsilon_i $ und ihr $ \ sigma ^ 2 $ oder (interessanter für uns) die $ \ beta_0 $ und $ \ beta_1 $. Wir erhalten ( OLS oder "kleinste Quadrate") Schätzungen dieser Regressionsparameter $ \ hat {\ beta_0} $ und $ \ hat {\ beta_1} $, aber wir würden nicht erwarten, dass sie übereinstimmen $ \ beta_0 $ und $ \ beta_1 $ genau. Wenn ich weggehen und meinen Stichprobenvorgang wiederholen würde, würde ich selbst dann, wenn ich dieselben $ x_i $ 's wie die erste Stichprobe verwende, nicht dieselben $ y_i $' s erhalten - und daher meine Schätzungen $ \ hat {\ beta_0} $ und $ \ hat {\ beta_1} $ unterscheiden sich von zuvor. Dies liegt daran, dass ich bei jeder neuen Realisierung unterschiedliche Werte des Fehlers $ \ epsilon_i $ erhalte, die zu meinen $ y_i $ -Werten beitragen.

Die Tatsache, dass meine Regressionsschätzer bei jeder erneuten Abtastung anders aussehen, zeigt mir, dass sie einer Stichprobenverteilung folgen. Wenn Sie ein wenig statistische Theorie kennen, ist dies für Sie möglicherweise keine Überraschung - auch außerhalb des Regressionskontexts haben Schätzer Wahrscheinlichkeitsverteilungen, da es sich um Zufallsvariablen handelt, was wiederum darauf zurückzuführen ist, dass sie Funktionen von Beispieldaten sind, die selbst sind zufällig. Mit den oben aufgeführten Annahmen stellt sich heraus, dass:

$$ \ hat {\ beta_0} \ sim \ mathcal {N} \ left (\ beta_0, \, \ sigma ^ 2 \ left (\ frac) {1} {n} + \ frac {\ bar {x} ^ 2} {\ sum (X_i - \ bar {X}) ^ 2} \ right) \ right) $$

$$ \ hat {\ beta_1} \ sim \ mathcal {N} \ left (\ beta_1, \, \ frac {\ sigma ^ 2} {\ sum (X_i - \ bar {X}) ^ 2} \ right) $$

Es ist schön zu wissen, dass $ \ mathbb {E} (\ hat {\ beta_i}) ​​= \ beta_i $, so dass "im Durchschnitt" meine Schätzungen mit den wahren Regressionskoeffizienten übereinstimmen (tatsächlich stimmt diese Tatsache nicht überein). Ich brauche nicht alle Annahmen, die ich zuvor getroffen habe - zum Beispiel spielt es keine Rolle, ob der Fehlerterm nicht normal verteilt ist oder ob sie heteroskedastisch sind, aber eine korrekte Modellspezifikation ohne Autokorrelation von Fehlern ist wichtig). Wenn ich viele Stichproben nehmen würde, würde der Durchschnitt der Schätzungen, die ich erhalte, gegen die wahren Parameter konvergieren. Sie werden dies vielleicht weniger beruhigend finden, wenn Sie sich daran erinnern, dass wir nur eine Probe sehen können! Aber die Unparteilichkeit unserer Schätzer ist eine gute Sache.

Interessant ist auch die Varianz. Im Wesentlichen ist dies ein Maß dafür, wie stark unsere Schätzer wahrscheinlich falsch liegen. Zum Beispiel wäre es sehr hilfreich, wenn wir ein $ z $ -Intervall konstruieren könnten, das uns sagen lässt, dass die Schätzung für den Steigungsparameter $ \ hat {\ beta_1} $, die wir aus einer Stichprobe erhalten würden, zu 95% wahrscheinlich ist liegen innerhalb von ungefähr $ \ pm 1.96 \ sqrt {\ frac {\ sigma ^ 2} {\ sum (X_i - \ bar {X}) ^ 2}} $ des wahren (aber unbekannten) Werts der Steigung, $ \ beta_1 $. Leider ist dies nicht so nützlich, wie wir es gerne hätten, da wir $ \ sigma ^ 2 $ nicht kennen. Es ist ein Parameter für die Varianz der gesamten Population zufälliger Fehler, und wir haben nur beobachtet eine endliche Stichprobe.

Wenn wir anstelle von $ \ sigma $ die Schätzung $ s $ verwenden, die wir aus unserer Stichprobe berechnet haben (verwirrenderweise wird dies oft als "Standardfehler der Regression" oder "Reststandard" bezeichnet Fehler ") Wir können den Standardfehler für unsere Schätzungen der Regressionskoeffizienten finden. Für $ \ hat {\ beta_1} $ wäre dies $ \ sqrt {\ frac {s ^ 2} {\ sum (X_i - \ bar {X}) ^ 2}} $. Da wir nun die Varianz einer normalverteilten Variablen schätzen mussten, müssen wir Student $ t $ anstelle von $ z $ verwenden, um Konfidenzintervalle zu bilden - wir verwenden die verbleibenden Freiheitsgrade von Die Regression, die in der einfachen linearen Regression $ n-2 $ beträgt, und für die multiple Regression subtrahieren wir einen weiteren Freiheitsgrad für jede zusätzliche geschätzte Steigung. Aber für einigermaßen große $ n $ und damit größere Freiheitsgrade gibt es keinen großen Unterschied zwischen $ t $ und $ z $. Faustregeln wie "Es besteht eine Wahrscheinlichkeit von 95%, dass der beobachtete Wert innerhalb von zwei Standardfehlern des korrekten Werts liegt" oder "Eine beobachtete Steigungsschätzung, die vier Standardfehler von Null entfernt ist, ist eindeutig statistisch hoch signifikant" funktioniert einwandfrei .

Ich finde, ein guter Weg, um Fehler zu verstehen, besteht darin, über die Umstände nachzudenken, unter denen ich erwarten würde, dass meine Regressionsschätzungen mehr (gut!) oder weniger (schlecht!) sind und wahrscheinlich nahe an den wahren Werten liegen. Angenommen, meine Daten waren "lauter", was passiert, wenn die Varianz der Fehlerterme $ \ sigma ^ 2 $ hoch war. (Ich kann das nicht direkt sehen, aber in meiner Regressionsausgabe würde ich wahrscheinlich feststellen, dass der Standardfehler der Regression hoch war.) Dann ist der größte Teil der Variation, die ich in $ y $ sehen kann, auf den zufälligen Fehler zurückzuführen. Dies maskiert das " -Signal" der Beziehung zwischen $ y $ und $ x $, was nun einen relativ kleinen Bruchteil der Variation erklärt und die Form dieser Beziehung schwieriger zu bestimmen macht. Beachten Sie, dass dies nicht bedeutet, dass ich die Steigung unterschätzen werde - wie ich bereits sagte, ist der Steigungsschätzer unvoreingenommen, und da er normal verteilt ist, unterschätze ich ihn wahrscheinlich genauso wie ich überschätzen. Da es jedoch schwieriger ist, die Beziehung aus dem Hintergrundgeräusch herauszusuchen, ist es wahrscheinlicher als zuvor, dass ich große Unterschätzungen oder große Überschätzungen mache. Mein Standardfehler hat zugenommen und meine geschätzten Regressionskoeffizienten sind weniger zuverlässig.

Intuition entspricht Algebra - beachten Sie, wie $ s ^ 2 $ im Zähler meines Standardfehlers für $ erscheint \ hat {\ beta_1} $. Wenn es also höher ist, ist die Verteilung von $ \ hat {\ beta_1} $ weiter verteilt. Dies bedeutet mehr Wahrscheinlichkeit in den Schwänzen (genau dort, wo ich es nicht will - dies entspricht Schätzungen, die weit vom wahren Wert entfernt sind) und weniger Wahrscheinlichkeit um den Peak (also weniger Wahrscheinlichkeit, dass sich die Steigungsschätzung in der Nähe der wahren Steigung befindet). Hier sind die Wahrscheinlichkeitsdichtekurven von $ \ hat {\ beta_1} $ mit hohem und niedrigem Standardfehler:

Probably density of regression slope estimator with high and low standard error

Es ist lehrreich, den Standardfehler von $ \ neu zu schreiben hat {\ beta_1} $ unter Verwendung der mittleren quadratischen Abweichung, $$ \ text {MSD} (x) = \ frac {1} {n} \ sum (x_i - \ bar {x}) ^ 2 $$ Dies ist ein Maß dafür, wie verteilt der Bereich der beobachteten $ x $ -Werte war. In diesem Sinne lautet der Standardfehler von $ \ hat {\ beta_1} $:

$$ \ text {se} (\ hat {\ beta_1}) = \ sqrt {\ frac {s ^ 2} {n \ text {MSD} (x)}} $$

Die Tatsache, dass $ n $ und $ \ text {MSD} (x) $ im Nenner stehen, bestätigt zwei weitere intuitive Fakten über unsere Unsicherheit. Wir können die Unsicherheit verringern, indem wir die Stichprobengröße erhöhen und gleichzeitig den Bereich der $ x $ -Werte, über die wir die Stichprobe erstellen, konstant halten. Wie immer ist dies mit Kosten verbunden - diese Quadratwurzel bedeutet, dass wir unsere Stichprobengröße vervierfachen müssen, um unsere Unsicherheit zu halbieren (eine Situation, die aus vielen Anwendungen außerhalb der Regression bekannt ist, z. B. Auswahl einer Stichprobengröße für politische Umfragen ). Es ist aber auch einfacher, den Trend von $ y $ gegenüber $ x $ zu erkennen, wenn wir unsere Beobachtungen auf einen größeren Bereich von $ x $ -Werten verteilen und damit die MSD erhöhen. Durch Vervierfachen der Streuung von $ x $ -Werten können wir unsere Unsicherheit in den Steigungsparametern halbieren.

Wenn Sie Ihre Stichprobengröße ausgewählt haben, haben Sie Schritte unternommen, um zufällige Fehler (z. B. aufgrund von Messfehlern) und möglicherweise zu reduzieren Sie entschieden sich für den Bereich der Prädiktorwerte, über die Sie eine Stichprobe erstellen würden, und hofften, die Unsicherheit in Ihren Regressionsschätzungen zu verringern. In dieser Hinsicht zeigen die Standardfehler an, wie erfolgreich Sie waren.

Ich füge Code für das Diagramm hinzu:

  x <-seq (-5, 5, Länge = 200) y <-dnorm (x, Mittelwert = 0, sd = 1) y2 <-dnorm (x, Mittelwert = 0, sd = 2) Diagramm (x, y, Typ = "l", lwd = 2, Achsen = FALSE, xlab = "geschätzter Koeffizient", ylab = "") Linien (x, y2, lwd = 2, col = "blau") Achse (1, at = c (-5, -2,5, 0, 2,5,) 5), Labels = c ("", "große Unterschätzung", "wahres β", "große Überschätzung", "")) abline (v = 0, lty = "gepunktet") Legende ("topright", title = " Standardfehler des Schätzers ", c (" Niedrig "," Hoch "), Füllung = c (" Schwarz "," Blau "), Horizont = WAHR)  
#2
+4
Underminer
2014-12-04 01:02:41 UTC
view on stackexchange narkive permalink

Der Standardfehler bestimmt, wie viel Variabilität eine Koeffizientenschätzung "umgibt". Ein Koeffizient ist signifikant, wenn er nicht Null ist. Die typische Faustregel lautet, dass Sie zwei Standardabweichungen über und unter der Schätzung vornehmen, um ein 95% -Konfidenzintervall für eine Koeffizientenschätzung zu erhalten.

Ihr Professor prüft also höchstwahrscheinlich, ob die Koeffizientenschätzung mindestens zwei Standardfehler von 0 entfernt ist (oder mit anderen Worten, ob der Standardfehler im Verhältnis zum Standard klein ist Koeffizientenwert). Auf diese Weise können Sie die Bedeutung eines Augapfels ohne einen p-Wert bestimmen.

"Ein Koeffizient ist signifikant", wenn * was * ungleich Null ist?Der Standardfehler?Die Variabilität?Der Koeffizient?(Da keines davon wahr ist, scheint etwas mit Ihrer Behauptung nicht zu stimmen. Ich stelle Ihr Wissen nicht infrage, aber es scheint an dieser Stelle ein Mangel an Klarheit in Ihrer Exposition zu bestehen.)
@whuber Aus Gründen der Klarheit sollte es möglicherweise wie folgt angepasst werden: "Eine Variable ist signifikant, wenn sich die entsprechende Koeffizientenschätzung signifikant von Null unterscheidet."
Das klingt für mich eher kreisförmig - Sie versuchen, "signifikant" mit "signifikant unterschiedlich" zu beschreiben oder zu erklären.
@whuber Können Sie erklären, warum das kreisförmig klingt?Wenn sich die Koeffizientenschätzung einer Variablen signifikant von Null (oder einem anderen Nullhypothesenwert) unterscheidet, wird die entsprechende Variable als signifikant bezeichnet.Es scheint mir eine einfache Wenn-Dann-Logik zu sein.
@Underminer dankt für diese Klarstellung.Ich ging zurück und schaute auf einige meiner Tische und kann sehen, wovon Sie gerade sprechen.Zwei S.D.für 95% Vertrauen und eine S.D.für 90%?
@Amstell 1.645 S.D.für eine 90% C.I.1,96 ist der genauere 95% C.I., wird aber der Einfachheit halber oft auf 2 gerundet.
#3
+2
whauser
2014-12-04 02:11:42 UTC
view on stackexchange narkive permalink

Die SE ist ein Maß für die Genauigkeit der Schätzung. Es kann auch auf Modellanpassungsprobleme hinweisen. Wenn es beispielsweise im Verhältnis zum Koeffizienten ungewöhnlich groß ist, ist dies eine rote Fahne für (Mehrfach-) Kollinearität. Das Modell ist aufgrund der Kollinearität mit einem oder mehreren der anderen Prädiktoren im Wesentlichen nicht in der Lage, den Parameter genau abzuschätzen.

Die SE ist im Wesentlichen die Standardabweichung der Stichprobenverteilung für diese bestimmte Statistik. Aus diesem Grund ist ein Koeffizient, der mehr als doppelt so groß wie die SE ist, bei p = <.05 statistisch signifikant. Sie können zurückgehen und sich die Standardabweichungstabelle für die Standardnormalverteilung ansehen (Wikipedia hat ein schönes Bild der Verteilung).

Stellen Sie sich das so vor, wenn Sie davon ausgehen, dass die Nullhypothese wahr ist - Nehmen wir also an, dass der tatsächliche Koeffizient in der Population Null ist. Wie unwahrscheinlich wäre es, dass Ihre Stichprobe sein muss, um den Koeffizienten zu erhalten, den Sie erhalten haben? Wenn Ihre Stichprobenstatistik (der Koeffizient) 2 Standardfehler (denken Sie erneut an "Standardabweichungen") von Null entfernt ist, ist dies einer von nur 5% (dh p = 0,05) der Stichproben, die unter der Annahme möglich sind, dass der wahre Wert ( der Populationsparameter) ist Null. Das ist eine ziemlich unwahrscheinliche Probe, oder? Wir schließen stattdessen, dass unsere Stichprobe nicht so unwahrscheinlich ist, sondern dass die Nullhypothese falsch ist und der Populationsparameter ein Wert ungleich Null ist. Wir "lehnen die Nullhypothese ab". Daher ist die Statistik "signifikant", wenn sie 2 oder mehr Standardabweichungen von Null entfernt ist, was im Grunde bedeutet, dass die Nullhypothese wahrscheinlich falsch ist, da dies dazu führen würde, dass wir zufällig eine eher nicht repräsentative und unwahrscheinliche Stichprobe auswählen.

Ich spiele ein bisschen schnell und verliere mit den Zahlen. Es gibt natürlich eine Korrektur für die Freiheitsgrade und eine Unterscheidung zwischen 1 oder 2 Schwanztests von Bedeutung. Bei einer guten Anzahl von Freiheitsgraden (ungefähr 70, wenn ich mich recht erinnere) ist der Koeffizient bei einem zweiseitigen Test signifikant, wenn er (mindestens) doppelt so groß ist wie der Standardfehler. Bei einem 1-Tailed-Test, bei dem alle 5% der Stichprobenverteilung in diesem einen Tail zusammengefasst sind, erfordert derselbe 70-Grad-Freiheitsgrad, dass der Koeffizient nur (mindestens) ~ 1,7-mal größer als der Standardfehler ist.

Doppelt so groß wie der Koeffizient ist also eine gute Faustregel, vorausgesetzt, Sie haben anständige Freiheitsgrade und einen zweiseitigen Signifikanztest. Weniger als 2 können statistisch signifikant sein, wenn Sie einen 1-Schwanz-Test verwenden. Möglicherweise sind mehr als 2 erforderlich, wenn Sie nur wenige Freiheitsgrade haben und einen Test mit zwei Endpunkten verwenden.

bearbeitet, um Folgendes hinzuzufügen: Noch etwas zu beachten: Wenn das Konfidenzintervall Null enthält, ist der Effekt statistisch nicht von Bedeutung. Das Konfidenzintervall (bei 95%) beträgt ungefähr 2 Standardfehler. Konfidenzintervalle und Signifikanztests beruhen im Wesentlichen auf derselben Logik und es kommt alles auf Standardabweichungen zurück.

#4
+2
Dimitriy V. Masterov
2014-12-04 03:25:53 UTC
view on stackexchange narkive permalink

Wenn Sie den Koeffizienten durch seinen Standardfehler in Ihrem Kopf dividieren können, können Sie diese groben Faustregeln verwenden, vorausgesetzt, die Stichprobengröße ist "groß" und Sie haben nicht "zu viele" Regressoren. Wenn dies nicht der Fall ist, sollten Sie die $ t $ -Verteilung wirklich verwenden, aber die meisten Leute haben sie nicht sofort in ihrem Gehirn verfügbar.

Diese Regeln werden aus der normalen Standardnäherung für einen zweiseitigen Test abgeleitet ($ H_0: \ beta = 0 $ vs. $ H_a: \ beta \ ne0 $)):

  • 1,28 gibt Ihnen SS zu $ ​​20 \% $.

  • 1,64 gibt Ihnen SS zu $ ​​10 \% $

  • 1,96 gibt Ihnen SS bei $ 5 \% $

  • 2,56 gibt Ihnen SS bei $ 1 \% $

SS ist die Abkürzung für "statistisch signifikant von Null in einem zweiseitigen Test".

Oft wird die 1,96 auf 2 aufgerundet.

Diese Regeln scheinen ziemlich pingelig - und möglicherweise irreführend - zu sein, da man in den meisten Fällen eher auf eine Student t-Verteilung als auf eine Normalverteilung verweisen möchte.Es sollte ausreichen, sich an die groben Wertepaare $ (5/100, 2) $ und $ (2/1000, 3) $ zu erinnern und zu wissen, dass der zweite Wert für kleine Stichprobengrößen (weniger als $ 20 $) wesentlich nach oben angepasst werden mussoder so).
@whuber Ich habe noch nie eine Regression mit einer so kleinen Stichprobengröße in einer Klasse gesehen, aber ich werde diese Einschränkung hinzufügen.
#5
+1
robin.datadrivers
2014-12-04 01:29:52 UTC
view on stackexchange narkive permalink

Regressionskoeffizienten sind Schätzungen eines Populationsparameters. Aufgrund von Stichprobenfehlern (und anderen Dingen, wenn Sie diese berücksichtigt haben) zeigt Ihnen die SE, wie viel Unsicherheit in Bezug auf Ihre Schätzung besteht. Wenn Sie ein 95% -Konfidenzintervall unter Verwendung des Standardfehlers berechnen, erhalten Sie die Sicherheit, dass 95 von 100 ähnlichen Schätzungen den wahren Populationsparameter in ihren Intervallen erfassen. Eine andere Möglichkeit, den p-Wert zu sagen, ist die Wahrscheinlichkeit, dass der Koeffizient einen zufälligen Fehler verursacht.

SEs sind auch nützlich, um andere Hypothesentests durchzuführen - nicht nur um zu testen, ob ein Koeffizient 0 ist, sondern um sie zu vergleichen Koeffizienten über Variablen oder Teilpopulationen hinweg.

Sie haben bis zur letzten Zeile des ersten Absatzes großartige Arbeit geleistet.Behauptest du wirklich, dass ein großer p-Wert bedeuten würde, dass der Koeffizient wahrscheinlich "aufgrund eines zufälligen Fehlers" ist?In der Tat, wenn der p-Wert die Wahrscheinlichkeit für ein Ereignis ist, das von der Annahme der Nullhypothese abhängig ist, wenn Sie nicht sicher wissen, ob die Null wahr ist, warum sollte es dann sinnvoll sein, den p-Wert als zu interpretieren* tatsächliche * (statt rein hypothetische) Wahrscheinlichkeit?
Hervorragender Punkt - einer von vielen Statistikern (ich selbst eingeschlossen), mit denen ich ignoriere.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...