Frage:
Welche Regression / Schätzung ist keine MLE?
High GPA
2019-12-27 06:02:36 UTC
view on stackexchange narkive permalink

Ich habe gerade rigoros gelernt, dass OLS ein Sonderfall von MLE ist.Es überrascht mich, weil die beliebten und "zuverlässigen" Quellen wie researchgate und this diese wichtigste Verbindung zwischen MLE und OLS nicht erwähnen!

Ich bin nicht sicher, ob es eine einfache Regressions- oder Schätzmethode gibt, die nicht zu MLE gehört.

Nach dem, was ich gesehen habe, ist Q & A Researchgate nicht besonders zuverlässig.Ich habe noch nie von "Unterschied zwischen" gehört.Passen Sie auf, was Sie im Internet lesen (oder in einigen Lehrbüchern, obwohl die Häufigkeit guter Quellen dann besser ist).
... und ja, ich erkenne voll und ganz, dass meine Aussage diese Seite enthält.So sollte es auch sein - Sie sollten auf jeden Fall in jedem Fall ein skeptischer Verbraucher von Informationen und Ratschlägen sein.Zumindest StackExchange erleichtert es jedoch, Fehler im Laufe der Zeit zu finden und zu beheben, indem beispielsweise die fortlaufende Kuratierung von Antworten gefördert und Fragen in kanonischen Threads zusammengefasst werden.Es beseitigt keine Probleme, verbessert aber die durchschnittliche Qualität spürbar.
Fünf antworten:
#1
+27
Glen_b
2019-12-27 06:23:17 UTC
view on stackexchange narkive permalink

Die kleinsten Quadrate sind in der Tat die maximale Wahrscheinlichkeit, wenn die Fehler normal sind, aber wenn sie nicht normal sind, sind die kleinsten Quadrate nicht die maximale Wahrscheinlichkeit. Wenn meine Fehler beispielsweise logistisch wären, wären die kleinsten Quadrate keine schreckliche Idee, aber keine maximale Wahrscheinlichkeit.

Viele Schätzer sind keine Schätzer für die maximale Wahrscheinlichkeit. Während Maximum-Likelihood-Schätzer normalerweise eine Reihe nützlicher und attraktiver Eigenschaften haben, sind sie nicht das einzige Spiel in der Stadt (und in der Tat nicht immer eine großartige Idee).

Einige Beispiele für andere Schätzmethoden wären

  • Methode der Momente (dies beinhaltet das Gleichsetzen von genügend Stichproben- und Populationsmomenten, um nach Parameterschätzungen zu suchen; manchmal stellt sich heraus, dass dies die maximale Wahrscheinlichkeit ist, aber normalerweise nicht)

    Zum Beispiel Gleichsetzen des ersten und zweiten Moments, um die Parameter einer Gammaverteilung oder einer gleichmäßigen Verteilung abzuschätzen; in beiden Fällen nicht die maximale Wahrscheinlichkeit.

  • Methode von Quantilen (Gleichsetzen von ausreichenden Stichproben- und Populationsquantilen zur Lösung von Parameterschätzungen; gelegentlich ist dies die maximale Wahrscheinlichkeit, normalerweise jedoch nicht),

  • Minimierung eines anderen Maßes für mangelnde Anpassung als $ - \ log \ mathcal {L} $ span> (z. B. minimales Chi-Quadrat, minimaler KS-Abstand) .

  • Bei der Anpassung von Modellen vom Typ der linearen Regression können Sie beispielsweise eine robuste Regression betrachten (von denen einige ML-Methoden für eine bestimmte Fehlerverteilung entsprechen, viele jedoch nicht).

    Im Fall der einfachen linearen Regression zeige ich ein Beispiel für zwei Methoden zum Anpassen von Linien, die nicht die maximale Wahrscheinlichkeit hier haben - dort wird die Steigung geschätzt, indem einige auf 0 gesetzt werden anderes Maß für die Korrelation (dh anders als das übliche Pearson) zwischen Residuen und dem Prädiktor.

    Ein anderes Beispiel wäre die resistente Linie des Tukey / die Drei-Gruppen-Linie des Tukey (siehe z. B. ? line in R).Es gibt viele andere Möglichkeiten, obwohl sich viele von ihnen nicht ohne weiteres auf die multiple Regressionssituation verallgemeinern lassen.

    Vielen Dank für diese ausführliche Antwort!Ich frage mich, ob jede Regressionsmethode eine Art Wahrscheinlichkeitsfunktion hat, auch wenn es sich nicht um eine Max-Likelihood-Prozedur handelt.
    Ich weiß wirklich nicht, was Sie dort fragen, sorry.Parameter in ansonsten vollständig spezifizierten Verteilungen haben Wahrscheinlichkeitsfunktionen.
    Entschuldigung für die Unklarheit.Ich möchte nur bestätigen, dass wir die Wahrscheinlichkeitsfunktion aus dem erhaltenen Modell berechnen können, auch wenn eine Regressionsmethode (z. B. OLS) nicht MLE ist.Ist es wahr?Vielen Dank für Ihre Hilfe und ich hoffe, das ist klarer
    * Wenn * Sie ein Verteilungsmodell (z. B. für die bedingte Verteilung in einer regressionsähnlichen Situation) und die Daten haben, können Sie eine Wahrscheinlichkeitsfunktion ohne Bezugnahme auf bestimmte Schätzungen berechnen.Sie können diese Funktion dann verwenden, um eine Wahrscheinlichkeit * Wert * für die angepassten Parameterwerte zu berechnen, die Sie erhalten haben (wie auch immer Sie sie erhalten haben), genau wie Sie es mit einem bestimmten Satz von Werten für die Parameter können - aber zu welchem Zweck?
    "Wenn meine Fehler beispielsweise logistisch wären, wären die kleinsten Quadrate keine schreckliche Idee, aber es wäre keine maximale Wahrscheinlichkeit."- Vielleicht verstehe ich falsch, was Sie unter logistischen Fehlern verstehen, aber wenn es das ist, was Sie meinen, dann ist logistische Fehler die maximale Wahrscheinlichkeit für die Bernoulli-Schätzung.Die meisten GLMs können für eine exponentielle Familienverteilung als MLE angesehen werden.
    Ich glaube, Sie haben die in diesem Teil beschriebene Situation möglicherweise falsch verstanden.In der Situation, in der die Fehlerverteilung eine [logistische Verteilung] ist (https://en.wikipedia.org/wiki/Logistic_distribution), die Schätzung jedoch OLS ist (gemäß dem in der Frage genannten Schätzer), haben Sie kein MLETrotzdem ist es (OLS) ein durchaus vernünftiger Schätzer - nur suboptimal, da es empfindlich auf die extremeren Punkte reagiert, die häufiger auftreten, als es am besten ist.
    #2
    +4
    Cliff AB
    2019-12-28 00:19:28 UTC
    view on stackexchange narkive permalink

    Bayesianische Ansätze beinhalten nicht die Maximierung einer Wahrscheinlichkeitsfunktion, sondern die Integration über eine posteriore Verteilung. Es ist zu beachten, dass das zugrunde liegende Modell genau identisch sein kann (d. H. Lineare Regression, verallgemeinerte lineare Regression), aber wir müssen auch eine vorherige Verteilung bereitstellen, die unsere Unsicherheit in den Parametern erfasst, bevor die Daten angezeigt werden. Die hintere Verteilung ist einfach die normalisierte Verteilung der früheren Zeiten der Wahrscheinlichkeit

    Ich glaube, dass die meisten Statistiker heutzutage im Allgemeinen der Meinung sind, dass ein Bayes'scher Ansatz einem MLE-Ansatz zur Parameterschätzung im Allgemeinen überlegen ist. Wenn man jedoch viele Daten hat, ist es möglicherweise nicht so viel besser, dass es sowohl die zusätzlichen Rechenkosten (Integration ist schwieriger als Optimierung!) Als auch den zusätzlichen Aufwand sind mit einer vorherigen Verteilung kommen. Tatsächlich kann man zeigen, dass sich die MLE + -Normalnäherung unter bestimmten Bedingungen asymptotisch der posterioren Verteilung nähert.

    #3
    +4
    AdamO
    2019-12-28 00:23:42 UTC
    view on stackexchange narkive permalink

    Alle MLE sind Minimax, aber nicht alle Minimax sind MLE.Einige Beispiele für Minimax-Schätzer, die eine Wahrscheinlichkeit nicht maximieren, sind ROC-Regression, bedingte logistische Regression, Cox-Proportional-Hazard-Modelle, nächster Nachbar, Quasilikelihood. Die Liste geht weiter und weiter.Hodges "supereffizienter" Schätzer übertrifft die maximale Wahrscheinlichkeit als effizienterer UMVUE-Schätzer (unverzerrte minimale Varianz) des Mittelwerts in einer normalen Stichprobe, ist jedoch KEIN Minimax

    Ich bin mir nicht sicher, ob ich sagen würde, dass Cox PH-Modelle keine MLE sind.Die Cox PH-Lösung ist der optimale Parameterwert für die Partial Likelihood-Funktion.
    @CliffAB Stiglers "Epic History of Maximum Likelihood" bietet eine hervorragende historische Darstellung des Dialogs zu diesem Thema.Die Wahrheit ist, wenn wir Hilfsparameter von der Schätzung ausschließen (wie die Streuung in QuasiMLE oder für Cox die Ereigniszeiten, die von der Statistik der Risikosatzreihenfolge abhängig sind), können wir nicht die gleichen Optimalitäts- oder Regelmäßigkeitskriterien wie bei MLEs garantieren.Die asymptotische Effizienz des MLE basiert auf einer Taylor-Erweiterung unter Verwendung der Informationsmatrix.Wenn wir einige Dimensionen von Hilfsparametern ausschalten, passieren seltsame Dinge.
    Oh interessant, ich wusste nicht, dass es große Diskussionen darüber gab, ob man das Cox PH-Modell als MLE betrachten sollte!
    #4
    +3
    Michael Hardy
    2019-12-29 05:27:08 UTC
    view on stackexchange narkive permalink

    $$ Y_i = \ alpha + \ beta x_i + \ varepsilon_i $$

    • $ \ alpha, \ beta $ sind nicht zufällig und nicht beobachtbar.
    • $ \ varepsilon_i $ sind zufällig und nicht beobachtbar.
    • $ x_i $ sind nicht zufällig und beobachtbar.
    • $ Y_i $ sind folglich zufällig und beobachtbar.
    an Angenommen, Sie haben die Gauß-Markov-Annahmen:
    • Die Fehler $ \ varepsilon_i $ haben den erwarteten Wert Null.
    • Die Fehler haben alle die gleiche (endliche) Varianz, aber nicht unbedingt die gleiche Verteilung (insbesondere wird nicht angenommen, dass sie normal sind).
    • Die Fehler sind nicht korreliert, aber nicht unbedingt unabhängig.
    Ob MLE kann nicht ausgeführt werden, da es keine parametrisierte Verteilungsfamilie gibt. Aber man kann immer noch gewöhnliche kleinste Quadrate machen.

    Und unter allen linearen Kombinationen der $ y $ span> -Werte mit nicht zufällig beobachtbaren Koeffizienten sind dies nicht geschätzte Schätzer von $ \ alpha $ span> und $ \ beta, $ span> Die Schätzer der kleinsten Quadrate haben die geringste Varianz.

    #5
    +2
    AJKOER
    2019-12-27 23:40:31 UTC
    view on stackexchange narkive permalink

    Eine Antwort auf die Frage "Welche Regression / Schätzung ist kein MLE?", eine einfache und robuste Alternative zu Least-Squares (LS), ist angeblich Least-Absolute Deviation (LAD).

    So zitieren Sie eine Quelle:

    "Die Methode der kleinsten absoluten Abweichungen (LAD) ist eine der Hauptalternativen zur Methode der kleinsten Quadrate, wenn Regressionsparameter geschätzt werden sollen. Das Ziel der LAD-Regression besteht darin, einen robusten Schätzer bereitzustellen."

    Interessanterweise wird gemäß einer Referenz zitiert: "Die Schätzung der geringsten absoluten Abweichungen ergibt sich auch als Schätzung der maximalen Wahrscheinlichkeit, wenn die Fehler eine Laplace-Verteilung aufweisen." Hier ist ein Link, der einige interessante Anwendungen des Laplace beschreibt (wie als Bayes-Prior und für extreme Ereignisse).

    Historisch gesehen wurde das LAD-Verfahren 50 Jahre vor der Methode der kleinsten Quadrate (1757) von Roger Joseph Boscovich eingeführt, der es verwendete, um inkohärente Maßnahmen in Bezug auf die Form der Erde in Einklang zu bringen.

    Ein veranschaulichender Unterschied besteht im sehr einfachen Fall von Y = Konstante, bei dem der LS den Stichprobenmittelwert zurückgibt, während die KOP den Stichprobenmedian auswählt! In Kontexten mit einem oder zwei Extremwerten, die aus irgendeinem Grund (wie Heteroskedastizität) auftreten können, kann LS eine erhebliche Verschiebung der tatsächlichen Steigungsschätzung aufweisen, insbesondere wenn eine sehr niedrige und / oder eine hohe Beobachtung vorliegt eine festgestellte Schwäche. Wikipedia zu robuster Regression gibt einen unterstützenden Kommentar ab:

    "Insbesondere Schätzungen der kleinsten Quadrate für Regressionsmodelle reagieren sehr empfindlich auf Ausreißer."

    In Bezug auf Anwendungen kann dies beispielsweise bei der chemiebasierten Datenanalyse besonders wichtig sein, um das Geschwindigkeitsgesetz einer sogenannten Reaktion vorherzusagen (das auf der Steigungsschätzung basiert).

    LAD ist die MLE für bedingte Antworten mit Laplace-Verteilungen.


    Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
    Loading...