Frage:
Log Odds Ratio - Was passiert, wenn die Linearität ausfällt?
Janono
2017-05-19 19:00:55 UTC
view on stackexchange narkive permalink

Ich habe nicht viele Informationen dazu gefunden, indem ich gegoogelt habe, also dachte ich, vielleicht jemand, der einige Antworten für mich hat.

Bei der binären logistischen Regression geht das Modell davon aus, dass das Log Odds Ratio eine lineare Beziehung zu den unabhängigen Variablen hat.Ich frage mich, was mit dem Modell passieren würde, wenn diese Annahme nicht erfüllt wäre, und wie würde man dieses Problem angehen, um es zu lösen?

Drei antworten:
Kenji
2017-05-19 19:42:02 UTC
view on stackexchange narkive permalink

Sie erhalten voreingenommene und inkonsistente Koeffizientenschätzungen sowie voreingenommene Standardfehler.Die Verzerrung bei Standardfehlern kann in beide Richtungen erfolgen, und die Wahrscheinlichkeit von Fehlern des Typs I und II kann zunehmen.

Sie können die Nichtlinearität bekämpfen, indem Sie verschiedene Funktionsformen des Prädiktors einführen, die eine nichtlineare Beziehung zu Y hatten. Übliche Funktionsformen sind unter anderem quadratische, logarithmische, kubische und quadratische Wurzeln.Sie können auch darüber nachdenken, Splines und möglicherweise Interaktionen zwischen zwei oder mehr Prädiktoren einzuschließen.Eine letzte Möglichkeit besteht darin, eine andere Verknüpfungsfunktion für die binäre Beziehung zu verwenden, da Funktionen wie Probit und Clog-Log leicht unterschiedliche Formen haben, obwohl alle einer synodalen Form folgen.

+1.Sie können auch verschiedene Linkfunktionen verwenden.
Tatsächlich.Ich werde die Antwort bearbeiten, um dies widerzuspiegeln.
AdamO
2017-05-19 20:47:12 UTC
view on stackexchange narkive permalink

Wenn die funktionale Beziehung zwischen Exposition und durchschnittlicher Reaktion keine S-förmige Logistikkurve ist, gibt es immer noch Gründe, warum wir eine S-förmige Logistikkurve als aussagekräftige Zusammenfassung dieser Daten betrachten könnten.

Als Beispiel haben wir möglicherweise einen Prognosefaktor in einem Modell weggelassen, was bedeutet, dass die wahre marginale Beziehung zwischen der Exposition und dem Ergebnis nicht logistisch ist, sondern eine komplizierte halblogistische Funktion, die gemittelt wird Risiken über mehrere bedingte logistische Kurven hinweg erhöhen. Dies ist das Prinzip der Nichtkollabierbarkeit bei der logistischen Regression.

Grundsätzlich können wir selten sicher sein, dass der S-förmige logistische Trend tatsächlich der "richtige" ist ... aber er ist nützlich! Alle Modelle sind falsch, einige Modelle sind nützlich.

Kenji hat Recht, wenn wir versuchen, einen S-förmigen Trend zu approximieren und die Daten starke Verteilungsverletzungen zeigen, müssen möglicherweise einige Sensitivitätsanalysen in Betracht gezogen werden, beispielsweise das Testen auf Polynomeffekte höherer Ordnung. Eine andere Art von Test, die berücksichtigt werden muss, sind Haltepunkte, bei denen "Knoten" angepasst werden, damit Trends die Richtung ändern können. Diese Ansätze werden in Splines hybridisiert und durch Verwendung von LOESS-Kurven noch allgemeiner gestaltet, um allgemeine nichtlineare Beziehungen zwischen Expositionen und Ergebnissen zu untersuchen.

Sie können jedoch zur ursprünglichen Frage zurückkehren: Sie können sagen: "Ich möchte diese Daten mit einer einzigen logistischen Kurve zusammenfassen, deren Achsenabschnitt die logarithmischen Quoten des Ergebnisses für Exposition = 0 darstellt und deren Steigung das logarithmische Quotenverhältnis istals Maß für die Assoziation zwischen einer Exposition und einem Ergebnis. "Der Wunsch besteht dann darin, eine robuste Fehler -Schätzung zu erhalten, die unvoreingenommen und konsistent ist.Die S-Kurve wird dann verwendet, um einen Trend erster Ordnung in den Daten zusammenzufassen, den Sie als Faustregel betrachten können: Steigt oder sinkt das Risiko tendenziell mit steigender Exposition und um wie viel?Dazu müssen Sie nur Sandwich-basierte Standardfehler anwenden.Dies kann unter Verwendung von verallgemeinerten Schätzungsgleichungen mit Kovarianzstruktur der Arbeitsunabhängigkeit, logistischer Verknüpfung und binomialer Varianzstruktur erfolgen.

+1 für die Erwähnung von Splines und LOESS.Robuste Fehler befassen sich damit, dass die SE durch die Verletzung der Funktionsform durcheinander gebracht werden, aber werden die Koeffizienten nicht auch verzerrt?
@Kenji ja und nein.Wenn der wahre Trend, der ein Ergebnis mit einer Kovariate in Beziehung setzt, exponentiell ist, hat der lineare Term einen wahren Koeffizienten von 0. Wir können jedoch eine gerade Linie durch diesen exponentiellen Trend über eine Domäne ziehen und ihn etwas interpolieren.Diese lineare Näherung kann analytisch ausgedrückt werden.Das falsch spezifizierte GEE schätzt diese Annäherung tatsächlich ohne Verzerrung und konsistent.
Oh.Macht Sinn.Würde das für alle funktionalen Formen außer exponentiell funktionieren?
Mein Fehler.Ich habe deine Antwort falsch verstanden.Sie versuchen, nur den Trend erster Ordnung zu approximieren, um festzustellen, ob das Risiko steigt oder sinkt.Jetzt habe ich es verstanden.
Neil G
2017-05-20 02:04:17 UTC
view on stackexchange narkive permalink

Die Annahme, dass Ihre Zielwahrscheinlichkeit als lineare Kombination von Log-Odds-Verhältnissen modelliert werden kann, die durch Ihre Eingaben skaliert werden, entspricht der Annahme, dass es sich um eine Kombination unabhängiger Bernoulli-Beweise handelt.Wenn dies nicht der Fall ist, erstellen Sie normalerweise ein komplexeres Modell mit Kreuzbegriffen.

Wenn Sie die logistische Funktion als eine beliebige Sigmoid-Link-Funktion betrachten, wird Ihre Annahme wirklich verborgen.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...