Frage:
Vorzeichen für Koeffizientenänderungen beim Hinzufügen einer Variablen in der logistischen Regression
Greg Snow
2013-12-17 03:13:02 UTC
view on stackexchange narkive permalink

Zusätzlich zu den Links zu Simpsons Paradoxon in den Kommentaren gibt es hier eine andere Möglichkeit, darüber nachzudenken.

Stellen Sie sich einen Datensatz vor, der durch Zählen der Anzahl und Art der Münzen gesammelt wird, mit denen verschiedene Personen arbeiten sie (ich werde US-Währung für das Beispiel verwenden, aber es könnte auch in andere Währungen umgerechnet werden).

Jetzt erstellen wir 3 Variablen, die y-Variable ist ein Indikator dafür, ob die Änderung mehr als beträgt 1 Dollar (\ $ 1,00), x1 ist die Gesamtzahl der Münzen und x2 ist die Gesamtzahl der Pennys (\ $ 0,01) und Nickel (\ $ 0,05) (dies ist eine Teilmenge von x1). Wenn wir nun einzeln zurückgehen würden, würden wir erwarten, dass x1 und x2 positive Koeffizienten haben würden. Je mehr Münzen, desto wahrscheinlicher ist es, dass die Summe über 1 $ liegt. Wenn es jedoch zusammen in ein Regressionsmodell eingefügt wird, ist es sinnvoll, dass der Koeffizient auf x2 negativ wird. Denken Sie daran, dass die Definition des einzelnen Koeffizienten die Änderung von y (oder im logistischen Fall die Änderung der logarithmischen Quoten von y) für a ist Änderung von 1 Einheit in x , während die anderen Variablen konstant bleiben . Wenn wir also die gleiche Anzahl an Gesamtmünzen (x1) haben, aber die Anzahl an Münzen mit kleinem Wert (x2) erhöhen, haben wir weniger Münzen mit großem Wert und damit eine geringere Chance, mehr als \ $ 1 zu erhalten.

Fünf antworten:
aruna r
2014-09-26 02:49:50 UTC
view on stackexchange narkive permalink

In meiner logistischen Regression ändert sich das Vorzeichen der Koeffizienten einer Variablen (Ortsentfernung einer Annehmlichkeit) basierend auf anderen Variablen (mit Zeit -ve, mit Fahrentfernung + ve) im Modell. Wenn die Positionsentfernung die einzige Variable im Modell ist, hat sie das Vorzeichen + ve.

  • Sollte die Variable das Vorzeichen + ve beibehalten müssen, unabhängig davon, welche anderen Variablen im Modell hinzugefügt wurden?
  • Bedeutet das Ändern des Vorzeichens ein Multikollinearitätsproblem? Einige IVs gewinnen an Bedeutung, während sie in einem bivariaten Modell keine Bedeutung zeigten und umgekehrt.
  • Ist es in Ordnung, Variablen hinzuzufügen, die keine große Bedeutung haben (z. B.: Fahrstrecke hat eine Bedeutung von 0,33 einzeln, aber 0,05, wenn mit anderen Variablen hinzugefügt), wird aber im Modell signifikant - danke.
Ich passiert aus dem gleichen Grund, aus dem es bei gewöhnlicher multipler Regression passiert. Siehe das Diagramm [hier] (http://en.wikipedia.org/wiki/Simpson%27s_paradox). Es wird eine gewisse Kollinearität zwischen den Variablen geben, diese kann jedoch recht mild sein.
Simpsons Paradoxon wird hier erklärt. http://stats.stackexchange.com/questions/78255/how-to-resolve-simpsons-paradox
Sie haben das Tag "[multivariate Regression]" und den Status "Ich habe es in eine multivariate Regression eingegeben" eingefügt. Meinen Sie damit, dass Sie das Modell mit> 1 Prädiktorvariable oder das Modell mit> 1 Antwort / abhängigem Modell erneut analysieren? Beachten Sie, dass> 1 * Prädiktor *, aber nur 1 * Antwort * Variable ** multiple logistische Regression ** ist. * Multivariate * LR ist, wenn> 1 Antwortvariable vorhanden ist. Wenn Ihre Situation tatsächlich die erstere ist (was ich vermute), bearbeiten Sie sie bitte, um das Tag zu klären und zu ändern.
Wenn Ihre Situation mehrere LR ist, dann ist Simpsons Paradox das, was los ist. Um die Idee des Einschlusses / Ausschlusses einer verwirrenden Variablen zu verstehen, die das Vorzeichen einer Fokusvariablen ändert, kann es Ihnen helfen, meine Antwort hier zu lesen: [Gibt es einen Unterschied zwischen 'Steuern für' und 'Ignorieren' anderer Variablen in mehreren Regression?] (http://stats.stackexchange.com/questions/78828//78830#78830) Obwohl sich diese Antwort auf eine andere Frage konzentriert und im Kontext der linearen Regression geschrieben wurde, zeigt sie Verwirrung auf eine mögliche Weise machen Sie es intuitiv zugänglich.
siehe [Simpsons Paradoxon] (https://en.wikipedia.org/wiki/Simpson%27s_paradox)
Masato Nakazawa
2014-09-26 20:13:06 UTC
view on stackexchange narkive permalink

Prädiktoren ändern ihre Vorzeichen in Gegenwart anderer in einem Modell. Ich denke, Sie sehen einen Sonderfall der "Unterdrückung". Lassen Sie mich anhand von Korrelationen erklären (dieses Prinzip sollte auf die logistische Regression anwendbar sein). Angenommen, Sie versuchen, das Ausmaß des einem Haus zugefügten Brandschadens ($ Y $) anhand der Schwere des Feuers ($ X_1 $) und der Anzahl der Feuerwehrleute, die zum Löschen des Feuers geschickt wurden ($ X_2 $), vorherzusagen. Angenommen, $ r_ {YX_1} = 0,65, \: r_ {YX_2} = 0,25, \: r_ {X_1X_2} = 0,70 $. Wenn Sie dann semi-partielle Korrelationen berechnen, ist

$ r_ {Y (X_1X_2)} = \ displaystyle \ frac {0,65-0,25 * 0,70} {\ sqrt {1-0,70 ^ 2}} = 0,67 , \: r_ {Y (X_2X_1)} = \ displaystyle \ frac {0,25-0,65 * 0,70} {\ sqrt {1-0,70 ^ 2}} = -0,29 $

Dies ist ein Fall der Unterdrückung (wenn auch sehr geringfügig), weil $ X_2 $ die von $ X_1 $ nicht berücksichtigte Varianz unterdrückte, was zu $ ​​r_ {Y (X_1X_2)} > r_ {YX_1} $ führte. Auch die semi-partielle Korrelation von $ X_2 $ ($ r_ {Y (X_2X_1)} $) hat ihr Vorzeichen geändert, da seine positive Korrelation mit Y hauptsächlich durch seine große positive Korrelation mit $ X_1 $ zustande kam. Konzeptionell ist dies sinnvoll: Wenn die Brandschwere konstant gehalten wird, sollte das Senden von mehr Feuerwehrleuten zu weniger Schäden an einem Haus führen (Messick & Van de Geer, 1981).

In Ihrem Fall müssen Sie sich überlegen, ob es sinnvoll ist, den Standortabstand einer Annehmlichkeit bei konstanter Zeitvariable negativ auf die abhängige Variable zu beziehen. Ich schlage auch einige großartige Beiträge zu diesem Thema in Cross Validated vor.

Bei der Beantwortung Ihrer anderen Fragen glaube ich nicht, dass Ihre Daten unter Multikollinearität leiden. Andernfalls sollten alle Prädiktoren überhöhte Standardfehler und niedrigere p-Werte aufweisen. Schließlich können Sie natürlich die Variable für die Fahrstrecke zum Modell hinzufügen, da die wahre Beziehung anscheinend durch irrelevante Varianz maskiert wurde (die von anderen Prädiktoren "unterdrückt" wurde).

Es liegt wirklich an den ursprünglichen Fragen, die Sie beim Entwerfen Ihrer Studie beantworten wollten.

Referenz

Messick, D.M. & Van de Geer, J. P. "Ein Umkehrparadoxon." Psychological Bulletin 90.3 (1981): 582.

Glen_b
2014-09-27 20:52:39 UTC
view on stackexchange narkive permalink

In meiner logistischen Regression ändert sich das Vorzeichen der Koeffizienten einer Variablen (Ortsentfernung einer Annehmlichkeit) basierend auf anderen Variablen (mit Zeit -ve, mit Reisestrecke + ve) im Modell. Wenn die Positionsentfernung die einzige Variable im Modell ist, hat sie das Vorzeichen + ve.

Dies ist nicht überraschend. Dies geschieht auch bei gewöhnlicher Regression. Siehe das Beispiel im Bild hier

Sollte die Variable das Vorzeichen + ve beibehalten müssen, unabhängig davon, welche anderen Variablen im Modell hinzugefügt wurden?

Ich verstehe nicht, warum dies zu erwarten ist.

Bedeutet ein Vorzeichenwechsel ein Multikollinearitätsproblem?

Nicht unbedingt Multikollinearität; Es kann mit ganz normaler Nichtorthogonalität auftreten.

Einige IVs gewinnen an Bedeutung, während sie in einem bivariaten Modell keine Bedeutung zeigten und umgekehrt.

Sicher, auch häufig.

Ist es in Ordnung, Variablen hinzuzufügen, die nicht viel Bedeutung haben (Beispiel: Die Fahrstrecke hat einzeln eine Bedeutung von 0,33, aber 0,05, wenn sie mit anderen Variablen hinzugefügt wird). aber wird im Modell bedeutsam?

Sicher. Es ist auch in Ordnung, Variablen hinzuzufügen, die in beiden Fällen nicht signifikant sind (wenn Sie jedoch eine große Anzahl von Variablen einwerfen, kann dies zu Problemen führen. Es hört sich jedoch so an, als würden Sie Variablen auswählen. Seien Sie bei der Interpretation von p-Werten sehr vorsichtig / Teststatistiken, wenn Sie das tun.

Dimitriy V. Masterov
2014-09-26 22:42:17 UTC
view on stackexchange narkive permalink

Ich denke, dies kann ein Fall von ceteris paribus Verwirrung sein. Wenn die Fahrstrecke die einzige Variable ist, ist die Auswirkung auf das Ergebnis positiv. Wenn das Ergebnis ein Kauf ist, kann dies durch die Tatsache erklärt werden, dass ein Ausflug in den Laden teurer ist, wenn ein Agent weit weg wohnt, sodass er sich eher eindecken kann, wenn er bereits dort ist. Menschen, die weit weg wohnen, füllen ihre Karren vollständig, machen aber weniger Fahrten als Menschen, die näher leben. Ich würde Dollar auf Donuts wetten. Dies ist auch das, was Sie finden würden, wenn Sie nur die Reisezeit im Modell als Maß für die Kosten verwenden würden.

Wenn Sie sowohl die Fahrstrecke als auch die Fahrzeit im Modell haben, gibt Ihnen das Vorzeichen des Entfernungskoeffizienten ein Zeichen für den Effekt, die Reisezeit festzuhalten. Wenn die Entfernung länger wird, aber Die Fahrzeit bleibt konstant, der Effekt wird negativ. Wie kann die Entfernung länger werden, aber die Reisezeit bleibt gleich? Wenn die Fahrgeschwindigkeit auf der Straße schneller wurde, vielleicht weil es sich um eine Autobahn mit einer höheren Geschwindigkeitsbegrenzung handelte. Der Vergleich, den Sie jetzt durchführen, wenn beide Variablen im Modell enthalten sind, besteht zwischen zwei identischen Personen, die beide $ X $ Minuten von einem Geschäft entfernt wohnen, aber eine weiter entfernt wohnt und eine Autobahn nimmt, um dorthin zu gelangen. Es ist weniger wahrscheinlich, dass dieser Agent einen Kauf tätigt, vielleicht weil das Fahren auf der Autobahn einfacher ist als das Befahren der örtlichen Straßen mit Benzinverbrauch, oder vielleicht ist dies die Straße, auf der er zur Arbeit pendelt und auf dem Heimweg am Geschäft vorbeikommt (a Art der ausgelassenen Variablen in Ihrem Modell).

Zusammenfassend lässt sich sagen, dass bei unterschiedlichen Regressoren die Koeffizienten unterschiedlichen Vergleichen von Gedankenexperimenten entsprechen und sich die Interpretation entsprechend ändert. Die sich ändernden Vorzeichen weisen nicht unbedingt auf Multikollinearität hin. Die Variablenauswahl sollte von der Theorie, sorgfältigen Überlegungen und Ihren endgültigen Zielen abhängen.

Obwohl ich den Gedanken, der in diese Sache ging, zu schätzen weiß, -1 wegen "Wenn die Reisestrecke die einzige Variable ist, ist die Auswirkung auf das Ergebnis positiv."Ich bemerkte, dass das OP darauf achtete, eine Sprache zu verwenden, die die unangemessene Zuschreibung von Kausalität vermeidet.
@rolando2 Ich stimme zu, dass man mit Beobachtungsdaten vorsichtig sein sollte, aber warum sollte sich jemand mit Zeichen befassen, wenn er nicht darauf hoffte, kausale Schlussfolgerungen zu ziehen?
Mein Punkt ist, dass, wie Sie sicher wissen, "die Auswirkung auf das Ergebnis", falls jemals bestimmt, eine reale Sache wäre und sich niemals ändern würde, je nachdem, wie wir sie modellieren.Was das Modell zeigt, ist ein Koeffizient, eine statistische Assoziation, ... vielleicht "ein offensichtlicher Effekt"?
Maarten Buis
2014-09-26 13:32:18 UTC
view on stackexchange narkive permalink

Nichts, was Sie gesagt haben, weist mich darauf hin, dass es ein Problem mit Ihren Modellen gibt: Sie sind alle gute Antworten auf verschiedene Fragen. Es liegt an Ihnen, zu entscheiden, welche Frage Sie beantworten möchten und somit welches Modell Sie melden möchten.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...