Frage:
Regression auf eine nicht normal abhängige Variable
Dominic Comtois
2011-05-26 09:36:58 UTC
view on stackexchange narkive permalink

Ich muss eine Regression mit einem nicht normalen DV durchführen, für die keine ordnungsgemäße nichtlineare Transformation (von der ich weiß) existiert:

enter image description here

Es ist Ein Wert zwischen 10 und 50, mit einem hohen Peak bei 10, einem Abfall bei 11 und einem regelmäßigen Rückgang von 11 auf 50. Die Verteilung der Residuen ist nicht normal.

enter image description here

Es gibt mehr oder weniger 500 Probanden in der Studie, und die Kovariaten sind alle dichotom.

Ich dachte daran, n-Kacheln zu verwenden und eine ordinale Regression für die resultierende Variable durchzuführen, aber dann ende ich mit einem hohen Anteil leerer Zellen - nicht wegen einer geringen Stichprobengröße, sondern wegen der verschiedenen Kovariaten, die im Modell enthalten sein müssen.

Das Beste, was ich jetzt tun kann, ist, Kovariaten zu entfernen und verwenden Sie Tertile (anstelle von beispielsweise Quintilen), um die Anzahl leerer Zellen zu minimieren. Ich bin mir jedoch nicht sicher, inwieweit es so wichtig ist, leere Zellen zu vermeiden. Im Vergleich zur ursprünglichen Analyse eines Rohwerts scheint die Regression auf Tertile mit weniger Kovariaten eine Menge Opfer zu bringen.

Basierend auf der anständigen Stichprobengröße und angesichts der Tatsache, dass die Verteilung der Residuen nicht so weit ist Normalerweise frage ich mich, ob die Ergebnisse der Regression so zuverlässig sind, wie sie sind.

Was ist der Zweck der Regression? Vorhersage, Erkundung, Modellanpassung, noch etwas?
Das macht Sinn. Als ich darüber nachdachte, fragte ich mich, wie Sie überhaupt eine bestimmte Hypothese formulieren könnten, wenn Sie noch kein spezifisches Modell für das Datenverhalten haben. Was für eine Hypothese könnte das sein? Ich versuche nicht pedantisch oder schwierig zu sein; es scheint nur, dass dies ein wichtiger Punkt sein könnte. Dies kann Ihre Optionen einschränken und Anpassungen der p-Werte erforderlich machen.
@whuber Ich bin mir nicht sicher, ob ich Ihrem Denken folge, aber ich werde versuchen, expliziter zu sein ... Wir sind daran interessiert, einen Effekt zu messen (Änderung von Y in Verbindung mit dem Vorhandensein von beispielsweise X1). Wie wir erwartet hatten, ist der Effekt von X1 signifikant, wie aus der ersten, etwas sperrigen Regression hervorgeht, und wird durch die folgende ordinale Regression weiter bestätigt (in beiden Fällen haben wir p <0,0005). Bevor ich jedoch eine lineare Regression ausschloss und die Ergebnisse der ordinalen Regression berichtete, wollte ich hier einige Standpunkte hören.
@whuber Eigentlich hätte ich "Schätzung" als Hauptzweck sagen sollen. Entschuldigung für die Verwirrung. Ich habe meinen vorherigen Kommentar gelöscht und gesagt, dass es sich um einen Hypothesentest handelt (es ist nicht möglich, ihn zu bearbeiten).
Zwei antworten:
#1
+8
Frank Harrell
2011-05-26 17:42:06 UTC
view on stackexchange narkive permalink

Die ordinale Regression wird durch leere Zellen von Y nicht beeinflusst. Eine Quantilgruppierung ist nur erforderlich, wenn Sie nur den Rechenaufwand reduzieren möchten. Proportional-Odds- oder Continuation-Ratio-Ordnungslogistikmodelle sind wahrscheinlich in der Lage, die von Ihnen geplottete Verteilung von Y zu handhaben (ohne Gruppierung von Y).

(+1) Es wäre toll, einige allgemeine Links zu den von Ihnen genannten Modellen zu haben.
Weitere Informationen finden Sie unter http://biostat.mc.vanderbilt.edu/wiki/pub/Main/FHHandouts/asa96.pdf
Danke Frank, ich werde das untersuchen. Ich bin noch nicht so sicher, die Koeffizienten der ordinalen Regression zu interpretieren, aber ich denke, ich muss diesen Weg gehen.
#2
+7
Dmitrij Celov
2011-05-26 10:26:42 UTC
view on stackexchange narkive permalink

Die Annahme Normalität ist eine bequeme Eigenschaft der Residuen des Modells, da sie korrekte Rückschlüsse auf die geschätzten Parameter ermöglicht und kritische Werte vieler anderer Tests ebenfalls von dieser Annahme abhängen (Daher sollten einige Korrekturen vorgenommen werden, oder Sie können grob strengere Faustregelkriterien anwenden, um den akzeptablen Bereich Ihrer Tests zu erhöhen.) Die Regressionsschätzer werden jedoch nicht ruiniert.

Somit kann (Sie müssen noch die anderen Annahmen überprüfen) gut verhaltene Vorhersagen erzeugen, aber Data-Mining und Hypothesentest wäre etwas schwieriger. An dieser Stelle stimme ich Huber zu, dass Sie den Zweck des Modells klären müssen.


In Bezug auf einige Tipps :

Auf den ersten Blick Es scheint, dass Ihre Verteilung nach der $ Y-10 $ -Transformation durch einige abgeschnittene Versionen kontinuierlicher Verteilungen angenähert werden könnte: Exponential ( Gamma), log-normal, Pareto oder ein anderes. Im logarithmischen Normalfall können Sie also immer noch zu etwas wechseln, das der Normalität nahe kommt.

Eine andere Option könnte darin bestehen, die Kombination aus generalisierter Logistikfunktion und Logistik anzupassen Regression. Da Sie die oberen und unteren Grenzen kennen, scheint dies machbar.

Bitte lesen Sie meinen vorherigen Kommentar zu whuber, um eine bessere Vorstellung vom Zweck all dessen zu bekommen. Meinten Sie für die Transformationsvorschläge nach _Y - 9_ Transformation? Ansonsten verliere ich eine ganze Reihe von Fällen, die mit Nullen enden. Die letzte Option, die Sie vorschlagen, ist ziemlich weit fortgeschritten ... Ich bin mir nicht sicher, ob ich das jetzt richtig machen kann.
Sind Ihre Punktzahlen diskrete Werte ($ 10, 11, \ Punkte, 50 $) oder einige reelle Zahlen? Bei kontinuierlichen Verteilungen kann mit vielen Nullen begonnen werden (versuchen Sie es mit Exponential- oder Pareto-Näherungen). Wenn Sie nur eine einfache logarithmische Transformation wünschen, können Sie $ X: = Y-9 $ wählen, da für die logarithmische Normalnäherung die Werte nur für $ X> 0 $ definiert sind.
@Dmitij - Die Scores stellen diskrete Werte dar. Die Transformationen mit _Y-9_ führten leider zu nichts, was dem Normalen nahe genug kam.
@dominic, tut dies in der Tat nicht. Für die logarithmisch normale Näherung führen Sie tatsächlich eine $ \ log {Y-9} $ -Transformation durch, wobei $ \ log $ für natürlichen Logarithmus steht.
:) Ja, ich weiß. Was ich damit meinte war, dass das Log oder ln von $ Y-9 $ nichts annähernd Gaußsches annäherte. Wie auch immer, nach weiterem Lesen scheint ich bei der Effektschätzung meinen Rohkoeffizienten vertrauen zu können.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...