Beim Erzwingen des Abfangens von 0 in linearer Regression ist dies akzeptabel / ratsam

Glen_b

2014-06-10 04:06:55 UTC

view on stackexchange narkive permalink

Es ist ungewöhnlich, dass kein Intercept passt und im Allgemeinen nicht ratsam ist - man sollte dies nur tun, wenn man weiß, dass es 0 ist, aber ich denke das (und die Tatsache, dass man die $ R ^ 2 $ für Passungen mit und ohne nicht vergleichen kann Intercept) ist bereits wirklich abgedeckt (wenn im Fall des 0-Intercept möglicherweise etwas überbewertet); Ich möchte mich auf Ihr Hauptproblem konzentrieren, nämlich, dass die angepasste Funktion positiv sein muss, obwohl ich in einem Teil meiner Antwort auf das 0-Intercept-Problem zurückkomme.

Der beste Weg, um ein Immer zu erhalten Positive Passform bedeutet, etwas zu passen, das immer positiv sein wird. Dies hängt zum Teil davon ab, welche Funktionen Sie anpassen müssen.

Wenn Ihr lineares Modell weitgehend zweckmäßig war (anstatt aus einer bekannten funktionalen Beziehung zu stammen, die beispielsweise aus einem physischen Modell stammen könnte), dann Sie könnte stattdessen mit der Protokollzeit arbeiten; Das angepasste Modell ist dann garantiert positiv in $ t $. Alternativ können Sie eher mit Geschwindigkeit als mit Zeit arbeiten. Bei linearen Anpassungen kann es jedoch zu Problemen mit kleinen Geschwindigkeiten (langen Zeiten) kommen.

Wenn Sie wissen, dass Ihre Antwort in den Prädiktoren linear ist, Sie können versuchen, eine eingeschränkte Regression anzupassen, aber bei mehrfacher Regression hängt die genaue Form, die Sie benötigen, von Ihren speziellen x ab (es gibt keine lineare Einschränkung, die für alle $ x $ funktioniert) Bit ad-hoc.

Sie können sich auch GLMs ansehen, mit denen Modelle angepasst werden können, die nicht negative Anpassungswerte aufweisen und (falls erforderlich) sogar $ E (Y) = X \ beta $ haben können .

Beispielsweise kann ein Gamma-GLM mit Identitätsverknüpfung versehen werden. Sie sollten keinen negativen Anpassungswert für eines Ihrer x erhalten (aber in einigen Fällen können Konvergenzprobleme auftreten, wenn Sie den Identitätslink erzwingen, wo er wirklich nicht passt).

Hier ist ein Beispiel: Der Datensatz cars in R, der Geschwindigkeit und Bremswege (die Antwort) aufzeichnet.

enter image description here

Man könnte sagen "oh, aber der Abstand für Geschwindigkeit 0 ist garantiert 0, also sollten wir den Achsenabschnitt weglassen", aber das Problem mit dieser Argumentation ist, dass das Modell auf verschiedene Weise falsch spezifiziert ist und dieses Argument nur gut funktioniert genug, wenn das Modell nicht falsch spezifiziert ist - ein lineares Modell mit einem Achsenabschnitt von 0 passt in diesem Fall überhaupt nicht gut, während eines mit einem Achsenabschnitt tatsächlich eine halbwegs anständige Annäherung ist, obwohl es nicht wirklich "korrekt" ist.

Das Problem ist, wenn Sie eine gewöhnliche lineare Regression anpassen, ist der angepasste Achsenabschnitt ziemlich negativ, was dazu führt, dass die angepassten Werte negativ sind.

Die blaue Linie entspricht der OLS-Anpassung. Der angepasste Wert für die kleinsten x-Werte im Datensatz ist negativ. Die rote Linie ist das Gamma-GLM mit Identitätsverknüpfung - während es einen negativen Achsenabschnitt hat, hat es nur positiv angepasste Werte. Dieses Modell weist eine Varianz auf, die proportional zum Mittelwert ist. Wenn Sie also feststellen, dass Ihre Daten mit zunehmender erwarteter Zeit weiter verbreitet sind, ist es möglicherweise besonders geeignet.

Dies ist also ein möglicher alternativer Ansatz, der einen Versuch wert sein kann. Es ist fast so einfach wie das Anpassen einer Regression in R.

Wenn Sie den Identitätslink nicht benötigen, können Sie andere Linkfunktionen wie den Log-Link und den inversen Link in Betracht ziehen, die sich auf die Transformationen beziehen bereits besprochen, aber ohne die Notwendigkeit einer tatsächlichen Transformation.

Da die Leute normalerweise danach fragen, ist hier der Code für meine Handlung:

  Handlung (Geschwindigkeit, Daten = Autos, xlim = c (0, 30), ylim = c (-5.120)) abline (h = 0, v = 0, col = 8) abline (glm (Geschwindigkeit, Daten = Autos, Familie = Gamma (Link = Identität)), col = 2 , lty = 2) abline (lm (dist ~ speed, data = cars), col = 4, lty = 2)

(Die Ellipse wurde anschließend von Hand hinzugefügt, obwohl dies einfach genug ist auch in R zu tun)

Vielen Dank für die Antwort. Ich bin etwas verwirrt über den Zweck der Gamma- und Abline-Funktionen. Wenn ich versuche, denselben Befehl für meine Daten auszuführen, wird Folgendes angezeigt: "Nur die ersten beiden von 130 Regressionskoeffizienten verwenden". Ich sollte nicht sagen, dass mein Modell komplizierter ist als "dist ~ speed", es gibt 9 Faktoren und ich verwende derzeit alle 3-Faktor-Wechselwirkungen. Wenn ich versuche, die Abline-Funktion zu zeichnen, erhalte ich nur eine vertikale Linie bei 0. Ich habe versucht, das Modell zu vereinfachen (und den Protokolllink zu verwenden) und auch eine nahezu horizontale Linie erhalten. Wie interpretiere ich diese Daten mit der obigen Methode?

`abline` zeichnet eine Linie, wenn Sie Steigung (a) und Schnittpunkt (b) angeben. Wenn Sie ein angepasstes einfaches lineares Modell übergeben, werden sie daraus extrahiert. Wenn Sie mehrere Prädiktoren haben * können Sie keine Linie zeichnen * (wie würde das funktionieren? Sie haben keine Linie angepasst). Ich habe meinen Vorschlag illustriert, ein GLM zu verwenden, damit Sie sehen können, was es bewirkt, und kein Rezept angegeben, dem Sie folgen können. Ich weiß nicht, wie Ihre Daten angeordnet sind, daher ist es schwierig, Ratschläge zu geben, was mit Ihrer Passform schief gelaufen ist. Das Anpassen eines GLM ist fast so einfach wie das Anpassen einer Regression in fast jedes Statistikpaket. Wenn Sie an etwas anderes gewöhnt sind, verwenden Sie es.

kjetil b halvorsen

2014-06-10 00:30:50 UTC

view on stackexchange narkive permalink

Kurze Antwort auf die Frage im Titel: (fast) NIE. Im linearen Regressionsmodell $$ y = \ alpha + \ beta x + \ epsilon $$ span>, wenn Sie $ \ festlegen alpha = 0 $ span>, dann sagen Sie, dass Sie wissen, dass der erwartete Wert von $ y $ span> $ x ist = 0 $ span> ist Null. Das wissen Sie fast nie.

$ R ^ 2 $ span> wird ohne Unterbrechung höher, nicht weil das Modell besser ist, sondern weil die Definition von $ R ^ 2 $ span> verwendet ist eine andere! $ R ^ 2 $ span> ist ein Ausdruck eines Vergleichs des geschätzten Modells mit einem Standardmodell, ausgedrückt als Verringerung der Quadratsumme im Vergleich zur Quadratsumme mit dem Standardmodell . In dem Modell mit Achsenabschnitt liegt die Vergleichssumme der Quadrate um den Mittelwert. Ohne Abfangen ist es um Null! Der letzte ist normalerweise viel höher, so dass es einfacher ist, die Summe der Quadrate stark zu reduzieren.

Fazit: Lassen Sie das Intercept nicht aus dem Modell heraus (es sei denn, Sie wissen wirklich, wirklich, was Sie tun ).

BEARBEITEN (aus den Kommentaren unten): Eine Ausnahme wird an anderer Stelle in den Kommentaren erwähnt (dies ist jedoch nur scheinbar eine Ausnahme, der konstante Vektor 1 befindet sich im Spaltenraum der Entwurfsmatrix $ X $ span>. Andernfalls wie z. B. physische Beziehungen $ s = vt $ span>, bei denen es keine Konstante gibt. Aber selbst dann, wenn die Das Modell ist nur ungefähr (die Geschwindigkeit ist nicht wirklich konstant). Es ist möglicherweise besser, eine Konstante beizubehalten, auch wenn sie nicht interpretiert werden kann. Bei nichtlinearen Modellen wird dies zu einem größeren Problem.

Aber wenn Daten vorliegen, die besagen, dass die tatsächliche Zeit 0 ist (oder nahe daran liegt), bedeutet dies, dass ich ziemlich sicher bin, dass wenn X = 0, Y = 0?

In Ihrem Fall wissen Sie, dass die Fertigstellungszeiten nicht negativ sein können, ja. Ein lineares Modell ist also vielleicht nicht geeignet? Versuchen Sie es mit einem anderen Modell, einer Überlebensanalyse oder einem GLM mit einer Verteilung auf der positiven reellen Linie (Gamma-Verteilung, weibliche Verteilung ...).

Eine Ausnahme wird an anderer Stelle in den Kommentaren erwähnt (aber das scheint nur eine Ausnahme zu sein, der Konstantenvektor 1 befindet sich im Spaltenraum der Regressormatrix $ X $. Andernfalls wie z. B. physikalische Beziehungen $ s = vt $, in denen es keine Konstante gibt Aber selbst dann, wenn das Modell nur ungefähr ist (Geschwindigkeit ist nicht wirklich konstant), ist es möglicherweise besser, eine Konstante beizubehalten, auch wenn sie nicht interpretiert werden kann. Bei nichtlinearen Modellen wird dies zu einem größeren Problem.

Bei der Berechnung von R ^ 2 liegt das Vergleichsmodell immer um den Mittelwert, niemals um Null, unabhängig davon, ob Ihr Modell einen Achsenabschnitt enthält oder nicht.Daher ist Ihr Argument zur leichteren Reduzierung von Fehlern falsch.

AdamO

2014-06-10 00:27:24 UTC

view on stackexchange narkive permalink

1) Es ist niemals akzeptabel, einen Abschnitt zu unterdrücken, außer in sehr seltenen Arten von DiD-Modellen, bei denen das Ergebnis und die Prädiktoren tatsächlich berechnete Unterschiede zwischen Gruppen sind (dies ist bei Ihnen nicht der Fall).

2). Nein, tut es nicht. Dies bedeutet, dass Sie möglicherweise einen höheren Grad an interner Gültigkeit haben (z. B. das Modell passt zu den Daten), aber wahrscheinlich einen niedrigen Grad an externer Gültigkeit (z. B. das Modell) schlechte Anpassung der experimentellen Daten, die unter ähnlichen Bedingungen erhalten wurden). Dies ist im Allgemeinen eine schlechte Sache.

3) Das Unterdrücken des Abschnitts führt nicht unbedingt dazu, aber ich gehe davon aus, dass der Prädiktor kontinuierlich bewertet wurde. In vielen Situationen werden Prozessabschlusszeiten unter Verwendung einer inversen Transformation analysiert, z. $ x = 1 / t $ wobei $ t $ die Zeit ist, die benötigt wird, um einen Prozess abzuschließen. Die Umkehrung des Mittelwerts der invers transformierten Daten wird als harmonischer Mittelwert bezeichnet und repräsentiert die durchschnittliche Gesamtzeit für eine Aufgabe.

$$ \ mbox {HM} = \ frac {1} {\ mathbb {E} (x)} = \ frac {1} {\ mathbb {E} (1 / t)} $$

Sie können auch ein parametrisches Exponential- oder Gamma- oder Weibull-Time-to-Event-Modell verwenden, bei dem es sich um Modelltypen handelt, die speziell für die Vorhersage von Abschlusszeiten erstellt wurden. Diese ergeben Ergebnisse, die den invers transformierten Ergebnissen sehr ähnlich sind.

Ich denke, es ist ein bisschen stark zu behaupten, dass man einen Intercept niemals unterdrücken kann. Was ist, wenn Sie $ k $ Dummy-Gruppen anstelle der üblichen $ k-1 $ codieren möchten / müssen?

In dem von Ihnen erwähnten Beispiel schätzen Sie immer noch $ k $ -Effekte. Die Frage von OP ist eine Frage von 2 gegen 1 Effekten (* avec * Intercept versus * sans * Intercept, kontinuierlicher Prädiktor).

user777: Ja, aber das funktioniert nur in ganz bestimmten Fällen. Wenn Sie beispielsweise Kreuzklassifizierungen in zwei Gruppen haben, funktioniert Ihr Trick nicht.

@AdamO Wollen Sie wirklich sagen, dass die einzige Ausnahme, die Sie in (1) auflisten, die einzig mögliche Ausnahme für "nie" ist, oder meinen Sie, dass es die einzige ist, die Ihnen bekannt ist?

@Glen_b Ich kann mir wirklich kein gutes Beispiel vorstellen, wenn eine Spezifikation des Abfangens durch den Ursprung sonst Sinn macht. Selbst in sehr praktischen Situationen, wie der Analyse des Bremswegs oder der chemischen Zusammensetzung nach dem Aufbringen eines Katalysators auf ein Substrat, können Abschnitte, die durch Ursprünge ungleich Null passen, bei der Behandlung von Messfehlern, Kalibrierungsproblemen, Zeitproblemen usw. usw. helfen In den Jahren, in denen ich Analysen durchgeführt habe, habe ich immer Grund gesehen, Abschnitte anzupassen, auch wenn die Werte, die sie annehmen, keinen Sinn ergeben.

Es hört sich so an, als hätten wir dann keine wesentlichen Meinungsverschiedenheiten.

@Glen_b denkt darüber nach, wenn sich der Achsenabschnitt mit Werten überschneidet, die nicht mit der Wissenschaft des Problems übereinstimmen, und 95% CIs hat, die * keine * Werte enthalten, die * mit der Wissenschaft des Problems * übereinstimmen *, was * Steigung * tut Vertraust du mehr? Derjenige, der vom tatsächlichen Wert des Abschnitts nicht beeinflusst wird (da er geschätzt wird) oder derjenige, der durch einen unrealistischen Wert verzerrt wird, der niemals gemessen und extrapoliert wurde, basierend auf Überlegungen und starken Annahmen, dass sich die Linie schneiden muss (0, 0) ).

@Glen_b Ich stimme zu. Ich denke, es gibt unterschiedliche Konfessionen in dieser Angelegenheit, ich bin einfach besonders eifrig :)

PA6OTA

2014-06-10 09:10:38 UTC

view on stackexchange narkive permalink

1) Das Erzwingen des Abfangens von $ 0 $ ist ratsam, wenn Sie wissen, dass es 0 ist. Alles, was Sie a priori wissen, sollten Sie in Ihrem Modell verwenden.

Eins Beispiel ist das Hubble-Modell zur Erweiterung des Universums (verwendet in Statistical Sleuth ):

$$ \ mbox {Galaxy Speed} = k (\ mbox {Entfernung von der Erde}) $$

Dieses Modell ist ziemlich grob, verwendet jedoch den 0-Achsenabschnitt als Konsequenz der Urknalltheorie: Zum Zeitpunkt $ 0 $ befindet sich die gesamte Angelegenheit an einem Ort.

Auf der anderen Seite Andererseits benötigt das Modell, das Sie beschreiben, wahrscheinlich einen Intercept-Term.

2) Möglicherweise werden Sie besser oder nicht $ R ^ 2_ {adj} $, oder Sie akzeptieren eine Nullhypothese für den Test für Intercept ist 0, aber beide sind keine Gründe, den Intercept-Term zu entfernen.

3) Um die Positivität der Antworten sicherzustellen, können Sie manchmal die Antwortvariable transformieren. Log oder sqrt funktionieren möglicherweise abhängig von Ihren Daten. Natürlich müssen Sie die Residuen überprüfen.

Dies ist ein ganz besonderer Fall!Die meisten Anwendungen sind nicht so.

Christoph Hanck

2015-12-29 18:31:18 UTC

view on stackexchange narkive permalink

Es ist sinnvoll (tatsächlich notwendig), den Abschnitt in der zweiten Stufe des Engle / Granger-Kointegrationstests wegzulassen. Der Test schätzt zunächst eine kointegrierende Kandidatenbeziehung über eine Regression einer abhängigen Variablen auf eine Konstante (plus manchmal einen Trend) und die anderen nichtstationären Variablen.

In der zweiten Stufe werden die Residuen dieser Regression auf eine Einheitswurzel getestet, um zu testen, ob der Fehler tatsächlich eine Gleichgewichtsbeziehung darstellt. Da die Regression der ersten Stufe eine Konstante enthält, sind die Residuen konstruktionsbedingt Mittelwert Null. Daher benötigt der Einheitswurzeltest der zweiten Stufe keine Konstante, und tatsächlich wird die Grenzverteilung für diesen Einheitswurzeltest unter der Annahme abgeleitet, dass diese Konstante tatsächlich nicht angepasst wurde

IrishStat

2014-06-10 14:38:07 UTC

view on stackexchange narkive permalink

Die einzige Möglichkeit, alle angepassten Werte auf größer als Null zu beschränken, besteht darin, einen linearen Programmieransatz zu verwenden und diesen als Einschränkung anzugeben.

Nicht so. Die Poisson-Regression und jedes verallgemeinerte lineare Modell mit logarithmischer Verknüpfung geben alle positiven vorhergesagten Werte zurück. @Glen_b hat dies bereits in seiner Antwort ausgeführt.

@Nick ... Sicher ... Da Poisson-Variablen durch 0 eingeschränkt sind, ist dies so. Vielen Dank ...

Ricardo Marques

2016-09-23 21:04:13 UTC

view on stackexchange narkive permalink

Das eigentliche Problem ist, dass eine lineare Regression, die den Achsenabschnitt = 0 erzwingt, eine mathematische Inkonsistenz ist, die niemals durchgeführt werden sollte:

Es ist klar, dass wenn y = a + bx, dann Durchschnitt (y) = a + Durchschnitt (x), und tatsächlich können wir leicht erkennen, dass wir, wenn wir a und b unter Verwendung einer linearen Schätzung in Excel schätzen, die obige Beziehung erhalten.

Wenn wir jedoch willkürlich a = 0 machen, dann notwendigerweise b = Durchschnitt (y) / Durchschnitt (x). Dies steht jedoch nicht im Einklang mit dem Algorithmus für minimale Quadrate. In der Tat können Sie leicht erkennen, dass die obige Beziehung nicht erfüllt ist, wenn Sie b unter Verwendung einer linearen Schätzung in Excel schätzen

Ihr Argument scheint auseinanderzufallen, wenn tatsächlich $ a = 0 $ ist, denn dann gibt es keine "mathematische Inkonsistenz", das Setzen von $ a $ auf Null ist nicht willkürlich und es gibt kein Problem mit den kleinsten Quadraten.

Curious

2014-06-10 17:29:41 UTC

view on stackexchange narkive permalink

Bei Modellen mit kategorialer Kovariate ist dies ziemlich sinnvoll. In diesem Fall führt das Entfernen des Abschnitts zu einem äquivalenten Modell mit nur unterschiedlicher Parametrisierung:

  >-Daten (mtcars) > mtcars $ cyl_factor <- as.factor (mtcars $ cyl) > Zusammenfassung lm (mpg ~ cyl_factor, data = mtcars)) Aufruf: lm (Formel = mpg ~ cyl_factor, data = mtcars) Residuen: Min 1Q Median 3Q Max -5,2636 -1,8357 0,0286 1,3893 7,2364 Koeffizienten: Schätzung Std. Fehler t Wert Pr (> | t |) (Achsenabschnitt) 26,6636 0,9718 27,437 < 2e-16 *** cyl_factor6 -6,9208 1,5583 -4,441 0,000119 *** cyl_factor8 -11,5636 1,2986 -8,905 8,57e-10 *** . Codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Restlicher Standardfehler: 3,223 bei 29 FreiheitsgradenMehrfaches R-Quadrat: 0,7325, angepasstes R-Quadrat: 0,714 F-Statistik: 39,7 auf 2 und 29 DF, p-Wert: 4,979e-09> Zusammenfassung (lm (mpg ~ 0 + cyl_factor, Daten = mtcars)) Aufruf: lm (Formel = mpg ~ 0 + cyl_factor, Daten = mtcars) Residuen: Min 1Q Median 3Q Max -5,2636 -1,8357 0,0286 1,3893 7,2364 Koeffizienten: Schätzung Std. Fehler t Wert Pr (> | t |) cyl_factor4 26.6636 0.9718 27.44 < 2e-16 *** cyl_factor6 19.7429 1.2182 16.21 4.49e-16 *** cyl_factor8 15.1000 0.8614 17.53 < 2e-16 *** --- Sign. Codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Restlicher Standardfehler: 3,223 bei 29 FreiheitsgradenMehrfaches R-Quadrat: 0,9785, angepasstes R-Quadrat: 0,9763 F-Statistik: 440.9 auf 3 und 29 DF, p-Wert: < 2.2e-16

Das zweite Beispiel führt tatsächlich dazu, dass die kategoriale Variable ein kategoriespezifischer Achsenabschnitt ist, sodass der Achsenabschnitt in Wirklichkeit nicht ist wird nicht wirklich entfernt, es scheint nur so.

Bezieht sich das wirklich auf die Frage? Sie erzwingen im zweiten Modell nicht einfach einen Achsenabschnitt auf Null, sondern fordern R auf, für einen kategorialen Prädiktor anstelle einer Codierung auf Referenzebene die Summe auf Null zu verwenden.

Tatsächlich ist es rückwärts: "Auch in Modellen mit kategorialen Kovariaten macht es oft keinen Sinn: Wenn Sie Code ausprobieren, von dem Sie glauben, dass er den Achsenabschnitt auf Null zwingen würde, geht R davon aus, dass Sie das Modell lediglich neu parametrisieren möchten." wäre richtig.

Sie beide spielen nur mit Worten. Das übliche Verständnis von "0 +" oder "-1" in "lm" ist das Entfernen des * globalen * Abschnitts, was es tatsächlich tut. Übrigens sage ich genau das Gleiche wie Sie beide im letzten Satz meiner Antwort, also verstehe ich nicht wirklich, warum jemand herabgestimmt hat.

(Ich bin eine Person und der Wähler.) `+ 0` kann ** zwei völlig verschiedene Dinge ** tun **. Wenn Sie $ x_1 $ & $ x_2 $ Dummies für `cyl` manuell als 0 oder 1 codieren, erzwingt * die Verwendung * den Achsenabschnitt auf Null und passt das Zwei-Parameter-Modell $ \ operatorname {E} Y = \ beta_1 x_1 an + \ beta_2 x_2 $. Aber wenn R gesagt wurde, dass "cyl_factor" kategorisch ist, wird es klug und passt zu dem von Ihnen beschriebenen Drei-Parameter-Modell. "Entfernen des Abschnitts" ist also nicht eindeutig. Jetzt weiß ich das alles und du weißt das alles, aber IMO ist die Antwort unklar - möglicherweise irreführend - für jemanden, der dies nicht tut.