Frage:
Summe der Quadrate der Residuen anstelle der Summe der Residuen
Blee
2013-01-27 20:15:55 UTC
view on stackexchange narkive permalink

Während ich mich durch mein Buch über Statistik arbeitete, stieß ich auf das Thema der linearen Regression. Während des Kapitels beginnt der Autor mit der Erklärung, dass Sie die Residuen minimieren möchten, um Ihr y = a + bx so gut wie möglich anzupassen: Ich verstehe das, aber nach der Hälfte des Kapitels ändern sich die Residuen plötzlich in Summe Quadrate von Residuen. Warum wird das gemacht? Ich habe gegoogelt, konnte aber nicht die richtige Antwort finden. Wer möchte mir helfen zu verstehen, warum die Quadratsummen der Residuen anstelle der Summen der Residuen verwendet werden?

Mit freundlichen Grüßen, Bas

Sie müssen die Residuen in einem bestimmten Kriterium kombinieren, um sie insgesamt zu minimieren. Quadratsummen sind eine algebraisch bequeme Methode und haben einige wohl nützliche Eigenschaften.
http://stats.stackexchange.com/questions/46019/why-squared-residuals-instead-of-absolute-residuals-in-ols-estimation ist im Wesentlichen ein Duplikat.
Fünf antworten:
#1
+10
Peter Flom
2013-01-27 20:23:40 UTC
view on stackexchange narkive permalink

Die Summe der Residuen ist immer 0, sodass dies nicht funktioniert.

Eine interessantere Frage ist, warum die Summe der quadratischen Residuen gegenüber der Summe des absoluten Werts der Residuen verwendet wird. Dies bestraft große Residuen mehr als kleine. Ich glaube, der Grund dafür ist, dass die Mathematik einfacher funktioniert und es vor Computern viel einfacher war, die Regression mithilfe quadratischer Residuen abzuschätzen. Heutzutage gilt dieser Grund nicht mehr. mittlere absolute Abweichungsregression ist tatsächlich möglich. Es ist eine Form der robusten Regression.

@Peter Flom, ich dachte, die zusätzliche Bestrafung großer Residuen sei ein ** Vorteil ** der Verwendung der quadratischen Werte? Da größere Residuen weniger wahrscheinlich zufällige Abweichungen sind. Sie scheinen zu denken, dass es ein ** Nachteil ** ist? Kennen Sie Gründe dafür?
@kwanti Wenn Sie Ausreißer haben, führt die Verwendung der quadratischen Werte normalerweise dazu, dass sich die Anpassung stärker an die Ausreißer anpasst, als wenn Sie den absoluten Wert der Residuen verwendet haben. Die Minimierung der Summe der absoluten Residuen könnte daher als widerstandsfähiger gegen Ausreißer angesehen werden.
Die Summe der Residuen ist nicht unbedingt Null. Im Modell muss ein Achsenabschnitt vorhanden sein, damit dies im Allgemeinen zutrifft.
@cardinal guter Punkt. Ich habe das vergessen. Ein Abfangen ist natürlich Standard, aber keineswegs universell
@kwanti Es ist nicht unbedingt ein Vorteil oder ein Nachteil; es ist ein Unterschied. Die MAD-Regression ist resistenter gegen Ausreißer. Das kann gut oder schlecht sein.
Ein weiterer Unterschied zwischen kleinsten Quadraten und MAD besteht darin, dass kleinste Quadrate eine einzige eindeutige Antwort geben, während es Fälle gibt, in denen MAD verwendet wird, die zu unendlich vielen Zeilen führen, die zu demselben minimalen MAD-Wert führen.
@GregSnow Das wusste ich nicht. Können Sie das erläutern? Oder haben Sie eine Referenz? Welche Fälle führen zu diesem Problem?
@PeterFlom, sieht die Antwort, die ich hinzugefügt habe (es gibt mehr als in einen Kommentar passen würde).
#2
+10
Lucas
2013-01-27 23:04:12 UTC
view on stackexchange narkive permalink

Eine andere Möglichkeit, die quadratischen Residuen zu motivieren, besteht darin, die oft vernünftige Annahme zu treffen, dass die Residuen Gauß-verteilt sind. Mit anderen Worten, wir nehmen an, dass $$ y = ax + b + \ varepsilon $$ für das Gaußsche Rauschen $ \ varepsilon $. In diesem Fall ist die Log-Wahrscheinlichkeit der Parameter $ a, b $ gegeben durch $$ \ log p (y \ mid x, a, b) = \ log \ mathcal {N} (y; ax + b, 1) ) = - \ frac {1} {2} (y - [a + bx]) ^ 2 + \ text {const}, $$, so dass Maximieren der Wahrscheinlichkeit der Minimierung der quadratischen Residuen gleichkommt.

Wenn das Rauschen $ \ varepsilon $ Laplace verteilt wäre, wäre der absolute Wert der Residuen angemessener. Aufgrund des zentralen Grenzwertsatzes ist das Gaußsche Rauschen jedoch weitaus häufiger.

Dies ist richtig, aber es ist interessant, dass es sich aus historischer Sicht um ein vollkommen kreisförmiges Argument handelt: Die Gaußsche Verteilung entstand zuerst, weil Gauß feststellte, dass es die Verteilung ist, für die der MLE die Summe der quadratischen Residuen minimiert!
@whuber, ja, aber da die Gaußsche Verteilung eindeutig ihren Platz in der Natur hat (dh viele andere "natürliche Eigenschaften" hat), können Sie darauf aufbauen, wenn Sie die Geschichte anders erzählen :-) ("natürliche Eigenschaften" -> Gaußsche Verteilung) . -> quadratische Residuen)
#3
+6
Mike Dunlavey
2013-01-29 03:45:09 UTC
view on stackexchange narkive permalink

Gute Antworten, aber vielleicht kann ich eine intuitivere Antwort geben. Angenommen, Sie passen ein lineares Modell an, das hier durch eine gerade Linie dargestellt wird, die durch eine Steigung und einen Achsenabschnitt parametrisiert wird.

Jeder Rest ist eine Feder dazwischen Jeder Datenpunkt und die Linie, und es wird versucht, die Linie zu sich selbst zu ziehen. enter image description here
Es ist sinnvoll, die Steigung und den Achsenabschnitt zu finden, die die Energie des Systems minimieren. Die Energie in jeder Feder (d. H. Der Rest) ist proportional zu ihrer Länge im Quadrat. Das System minimiert also die Summe der quadratischen Residuen, d. H. Minimiert die Summe der Energie in den Federn

#4
+4
Adam Bailey
2013-01-29 01:13:12 UTC
view on stackexchange narkive permalink

Zusätzlich zu den Punkten von Peter Flom und Lucas ist der Gauß-Markov-Satz ein Grund für die Minimierung der Summe der quadratischen Residuen. Dies besagt, dass, wenn die Annahmen der klassischen linearen Regression erfüllt sind, der gewöhnliche Schätzer der kleinsten Quadrate effizienter ist als jeder andere lineare unverzerrte Schätzer. "Effizienter" bedeutet, dass die Varianzen der geschätzten Koeffizienten geringer sind. Mit anderen Worten sind die geschätzten Koeffizienten genauer. Der Satz gilt auch dann, wenn die Residuen keine Normal- oder Gaußsche Verteilung haben.

Der Satz ist jedoch für den spezifischen Vergleich zwischen der Minimierung der Summe der absoluten Werte und der Minimierung der Summe der Quadrate seit der ersteren nicht relevant ist kein linearer Schätzer. In dieser -Tabelle werden ihre Eigenschaften gegenübergestellt. Sie zeigt die Vorteile der kleinsten Quadrate als Stabilität als Reaktion auf kleine Datenänderungen und hat immer eine einzige Lösung.

* "Effizienter bedeutet, dass die Varianzen geringer sind" * - Ich denke, Sie fahren im Kreis, weil die Varianz auf der Summe der Quadrate basiert. Wenn Sie stattdessen ein anderes Maß verwendet hätten, das auf absoluten Werten basiert, würde dies möglicherweise die absoluten Werte begünstigen.
@Tomas Vielen Dank, ich verstehe den Punkt, es führt zurück zu der Frage, warum oder sollten wir wollen, dass Schätzungen von Koeffizienten präzise sind, gemessen anhand der minimalen Varianz, und nicht irgendein anderes Maß für die Genauigkeit. Allerdings ist die minimale Varianz ein beliebtes Maß für die Präzision. Das G-M-Theorem hilft daher zu erklären, warum die OLS-Regression weit verbreitet ist.
Es gibt viel gutes Material zu diesen Themen in http://stats.stackexchange.com/questions/46019/why-squared-residuals-instead-of-absolute-residuals-in-ols-estimation?rq=1 und http : //stats.stackexchange.com/questions/118/why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia.
Gaus-Markov impliziert, dass keine andere Methode eine geringere Varianz aufweist. Wenn Sie die Varianz minimieren möchten, verwenden Sie die kleinsten Quadrate. Ich sehe nicht so sehr, wo es "im Kreis geht", als dass es Sinn macht. Um die Antwort auf die gestellte Frage zu vervollständigen, würde man sagen: "Wir verwenden die Quadrate anstelle der absoluten, weil wir die Varianz minimieren wollen. Der GM-Satz zeigt uns, dass die Verwendung der Quadrate (OLS) tatsächlich die Methode ist, die minimiert." die Varianz ". Es ist eine sehr gute Erklärung für die Verwendung der Quadrate (Bearbeiten: unter Berücksichtigung aller Annahmen usw.)
Diese Kommentare erscheinen an Stellen, an denen "Varianz" in zweierlei Hinsicht verwendet wird: die Varianz der * Residuen * und die Varianz der * Schätzungen. * Unter * linearen * Schätzern (nicht "alle" Schätzer, * Tempo * IMA) kleinste Quadrate minimiert die Schätzungsvarianz. Es ist ein Satz, dass die Schätzungsvarianz "basierend auf der Summe der Quadrate" * der Residuen * ist, * vorausgesetzt * der Schätzer ist linear. @Tomas Wenn der Schätzer nicht linear ist, ist die Schätzungsvarianz nicht proportional zur Summe der Quadrate der Residuen, sodass Adams Aussage nichts Zirkuläres enthält - und er ist sich über die Annahmen im Klaren.
#5
+3
Greg Snow
2013-01-31 01:11:15 UTC
view on stackexchange narkive permalink

Dies ist eher eine Antwort auf den Kommentar von @ PeterFlom zu meinem Kommentar, aber er ist zu groß, um in einen Kommentar zu passen (und bezieht sich auf die ursprüngliche Frage).

Hier ist ein R-Code zum Anzeigen Ein Fall, in dem es mehrere Zeilen gibt, die alle die gleichen minimalen MAD / SAD-Werte ergeben.

Der erste Teil des Beispiels enthält eindeutig erfundene Daten, die demonstriert werden sollen, aber das Ende enthält eher ein zufälliges Element, um dies zu demonstrieren Das allgemeine Konzept wird in einigen realistischeren Fällen noch gelten.

  x <-rep (1:10, jeweils = 2) y <-x / 10 + 0: 1plot (x, y) traurige <-Funktion (x, y, coef) {# mad ist traurig / n yhat <-coef [1] + coef [2] * x resid <-y - yhat sum (abs (resid))} Bibliothek (quantreg) fit0 <-rq (y ~ x) abline (fit0) fit1 <-lm (y ~ x, Teilmenge = c (1,20)) fit2 <-lm (y ~ x, Teilmenge = c (2,19)) fit3 <-lm (y ~ x, Teilmenge = c (2,20)) fit4 <-lm (y ~ x, Teilmenge = c (1,19)) fit5.coef <-c (0,5, 1/10) abline ( fit1) ablin e (fit2) abline (fit3) abline (fit4) abline (fit5.coef) für (i in seq (-0,5, 0,5, by = 0,1)) {abline (fit5.coef + c (i, 0))} tmp1 <-seq (coef (fit1) [1], coef (fit2) [1], len = 10) tmp2 <-seq (coef (fit1) [2], coef (fit2) [2], len = 10) für (i in seq_along (tmp1)) {abline (tmp1 [i], tmp2 [i])} traurig (x, y, coef (fit0)) traurig (x, y, coef (fit1)) traurig (x, y, coef (fit2)) traurig (x, y, coef (fit3)) traurig (x, y, coef (fit4)) traurig (x, y, fit5.coef) für (i in seq (-0,5, 0,5, by =) 0.1)) {print (traurig (x, y, fit5.coef + c (i, 0)))} für (i in seq_along (tmp1)) {print (traurig (x, y, c (tmp1 [i], tmp2 [i])))} set.seed (1) y2 <-y + rnorm (20,0,0,25) plot (x, y2) fitnew <-rq (y2 ~ x) # Beachten Sie die immer noch nicht eindeutige Warnlinie (fitnew) abline (coef (fitnew) + c (.1,0)) abline (coef (fitnew) + c (0, 0,01)) traurig (x, y2, coef (fitnew)) traurig (x, y2, coef (fitnew) + c (.1,0)) traurig (x, y2, coef (fitnew) + c (0.0.01))  


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...