Frage:
Warum sorgen wir uns um Überanpassung, auch wenn "alle Modelle falsch sind"?
Gillian
2019-10-31 18:27:31 UTC
view on stackexchange narkive permalink

Ich frage mich, warum uns Überanpassung so wichtig ist.Wir wissen, dass statistische Modelle Werkzeuge sind, um uns einige Informationen zu liefern, aber sie sind nicht einmal vollständig genau.

Kein Anzug hat genau die Form seines Trägers.Warum sollten wir uns dann für eine gute Schneiderei interessieren?
"Alle" Modelle bedeuten wirklich * alle * Modelle.Einschließlich des Modells Ihrer Umgebung, das Ihr Gehirn bei der Interpretation der empfangenen Lichtsignale bildet.Also schließe einfach deine Augen, du kannst ihnen sowieso nicht vertrauen.
> [...] aber sie sind nicht einmal ganz genau.Sie müssen nicht genau sein, um nützlich zu sein.
Willkommen im Lebenslauf, Gillian."Alle Theorien werden schließlich als falsch erwiesen und verworfen, aber einige Theorien sind nicht einmal vorübergehend richtig." - Richard Levins
Ein anderer Grund, "warum wir uns so sehr um Überanpassung kümmern müssen", könnte in der Funktionsweise unseres Gehirns liegen: Wir Menschen sind möglicherweise ziemlich schlecht darin, Überanpassung zu erkennen, d. H. Wir neigen dazu, die Modelle in unserem Gehirn ebenfalls zu überanpassen.Aus diesem Grund müssen wir dem Thema besondere Aufmerksamkeit widmen, sowohl für unsere Modelle in vivo als auch für diejenigen in silico.
"Es ist besser, ungefähr richtig als genau falsch zu sein" - verschiedene Zuschreibungen
-1.Es gibt viel Literatur zu diesem Thema, von der viele für Nichtfachleute (wie mich) leicht zugänglich sind.Es ist nicht klar, was die Frage ist oder ob es überhaupt eine Frage gibt.
Alle Modelle sind falsch, aber einige sind viel weniger falsch als andere.
Sieben antworten:
Dave
2019-10-31 18:31:58 UTC
view on stackexchange narkive permalink

Das Zitat von Box lautet wie folgt: "Alle Modelle sind falsch, aber einige sind nützlich."

Wenn wir eine schlechte Überanpassung haben, ist unser Modell nicht hilfreich, um Vorhersagen für neue Daten zu treffen.

Es sollte wirklich lauten: "Alle Modelle sind falsch, aber einige sind nützlicher als andere."
Derzeit ist dies die Antwort mit den meisten positiven Stimmen.Ich denke, diese Frage verdient eine längere Antwort, z.eine, die erklärt, warum Überanpassung eine schlechte Verallgemeinerung impliziert, was Überanpassung verursacht und vielleicht sogar, was Überanpassung ist und was nicht.
Zum Beispiel: Wenn Überanpassung so definiert wird, dass ein Stichprobenvorhersagefehler auftritt, der weit unter dem Fehler in den Daten liegt, sehe ich nicht, wie oder warum dies eine schlechte Verallgemeinerung impliziert.
Ben
2019-11-01 08:32:36 UTC
view on stackexchange narkive permalink

Warum sorgen wir uns um eine Überanpassung, auch wenn „alle Modelle falsch sind“?

Ihre Frage scheint eine Variation des Nirvana-Irrtums zu sein, was implizit darauf hindeutet, dass jedes Modell gleichermaßen zufriedenstellend ist, wenn es kein perfektes Modell gibt (und daher sind Fehler in Modellen irrelevant). Beachten Sie, dass Sie genauso leicht dieselbe Frage zu jedem Fehler in einem Modell stellen können:

  • Warum sorgen wir uns um die Schätzung der maximalen Wahrscheinlichkeit, auch wenn „alle Modelle falsch sind“?

  • Warum sorgen wir uns um Standardfehler, auch wenn „alle Modelle falsch sind“?

  • Warum sorgen wir uns um die Bereinigung unserer Daten, auch wenn „alle Modelle falsch sind“?

  • Warum sorgen wir uns um die richtige Arithmetik, auch wenn „alle Modelle falsch sind“?

Die richtige Antwort auf all diese Fragen ist, dass wir den Feind des Guten nicht perfekt machen sollten --- auch wenn "alle Modelle falsch sind", ein Modell, das weniger ist falsch ist einem Modell vorzuziehen, das falscher ist.

Cliff AB
2019-11-01 05:47:41 UTC
view on stackexchange narkive permalink

Das vollständige Zitat lautet "Alle Modelle sind falsch, aber einige sind nützlich".Überanpassung ist uns wichtig, da wir weiterhin möchten, dass unsere Modelle nützlich sind.

Wenn Sie mit dem Bias-Varianz-Kompromiss vertraut sind, entspricht die Aussage "Alle Modelle sind falsch" in etwa der Aussage "Alle Modelle haben eine Vorspannung ungleich Null".Überanpassung ist das Problem, dass wir zwar die Anzahl der Parameter in einem Modell erhöhen können, um die Verzerrung zu verringern. Je mehr Parameter wir haben, desto größer ist jedoch die Varianz unserer Schätzung.Ein nützliches Modell ist eines, das zwischen Flexibilität genug, um die Vorspannung zu verringern, aber nicht so flexibel ist, dass die Varianz zu hoch ist.

@CagdasOzgenc, das ist interessant.Wie genau definieren Sie Model Bias?(Ein triviales Beispiel, das die theoretische Antwort ergänzt, könnte hilfreich sein.) Ein verwandter Thread ist [Was ist die Zufallsvariable, wenn wir über ein Modell mit hoher Varianz oder ein Modell mit hoher Verzerrung sprechen?] (Https://stats.stackexchange.com/questions/433972)/ Was ist die Zufallsvariable, wenn wir über ein Modell mit hoher Varianz oder eine hohe Verzerrung sprechen? / 433988 # 433988).Ihre Antwort dort könnte auch geschätzt werden;Ich kämpfe immer noch mit meiner Formulierung.
"Die Standardliteratur geht davon aus, dass das parametrische Modell die Wahrheit subsumiert, daher können wir über einen Bias-Vektor sprechen, der sich Null nähert."Der Punkt des Zitats "Alle Modelle sind falsch" ist, dass wir zwar oft mit dieser Annahme beginnen, weil sie die Mathematik erleichtert, aber eine grundlegend fehlerhafte Annahme sind.
@CagdasOzgenc, ist Ihre Definition der Modellverzerrung im Einklang mit der folgenden Charakterisierung?Der erwartete quadratische Vorhersagefehler kann additiv in quadratische Vorspannung, Varianz und irreduziblen Fehler zerlegt werden.Der deterministische Teil des Modells führt zu einem erwarteten quadratischen Fehler, der gleich der quadratischen Vorspannung + Varianz ist.Bei perfekter Schätzgenauigkeit ist die Varianz Null.Daher ist die quadratische Vorspannung der erwartete quadratische Fehler bei der Schätzung des deterministischen Teils des Ergebnisses, wenn die Schätzgenauigkeit perfekt ist.Die Verzerrung spiegelt somit die bestmögliche Annäherung des vom Modell zulässigen DGP wider.
@CagdasOzgenc: Ich denke, Ihr Argument ist dann "es gibt Modelle, die nicht falsch sind".Das ist eine Diskussion wert, wird aber wesentlich komplizierter.Außerdem führen wir in solche Modelle typischerweise eine Verzerrung ein, ohne die Flexibilität (d. H. Regularisierung) einzuschränken, um die Varianz zu zähmen.Es gibt verschiedene Möglichkeiten, dies zu diskutieren, daher würde ich sagen, dass dies den Rahmen dieser Frage sprengt.
Die @CliffAB,-Regularisierung führt zu einer Verzerrung in einem Parameterschätzer und nicht in einem Modell.Wenn beispielsweise das Modell (die funktionale Form) zufällig mit dem DGP übereinstimmt (wie unwahrscheinlich es auch sein mag, nehmen wir zur Veranschaulichung an, dass es keine Modellverzerrung gibt).Wir können jedoch immer noch eine Verzerrung in einen Parameterschätzer dieses Modells einführen, indem wir eine Regularisierung durchführen.
@CagdasOzgenc, danke.Die Abbildung ist auch hilfreich;Ich hatte es vergessen, aber jetzt bin ich glücklich, es wiederzuentdecken.
James
2019-10-31 19:19:39 UTC
view on stackexchange narkive permalink

Ein Citroën 2CV ist in vielerlei Hinsicht ein schlechtes Auto. Langsam, raffiniert und billig. Aber es ist vielseitig und kann sowohl auf asphaltierten Straßen als auch auf frisch gepflügten Feldern effektiv eingesetzt werden.

Ein F1-Auto gilt im Vergleich dazu als Höhepunkt der Automobiltechnik. Schnell, präzise und nur mit den besten Komponenten. Ich würde allerdings nicht gerne über ein offenes Feld fahren.

Der 2CV ist allgemein anwendbar, während das F1-Auto nur sehr spezifisch anwendbar ist. Das F1-Auto wurde für das spezielle Problem, eine Rennstrecke so schnell wie möglich zu befahren, mit dem Vorteil eines Teams professioneller Ingenieure ausgestattet, um alle Probleme zu überwachen, zu bewerten und Probleme zu lösen, die sich aus dem Hochleistungsbetrieb ergeben können.

In ähnlicher Weise funktioniert ein überangepasstes Modell in Situationen, in denen es überpasst ist, aber anderswo schlecht (oder gar nicht). Ein Modell mit allgemeiner Anwendbarkeit ist nützlicher, wenn es anderen Umgebungen ausgesetzt ist, die außerhalb Ihrer Kontrolle liegen, auch wenn es nicht so gut ist wie bestimmte Modelle.

Devil's Advocate: Das Problem beim Fahren einer F1 über ein offenes Feld ist nicht, dass die F1 so gut für Rennstrecken geeignet ist (ich könnte mir vorstellen, dass es ein Auto gibt, das sowohl für offene Felder als auch für Rennstrecken geeignet ist).aber dass die F1 nur schlecht für offene Felder geeignet ist.
@Dirk eigentlich ja, im wahrsten Sinne des Wortes, das Problem beim Fahren einer F1 über ein offenes Feld ist, dass es so gut für Rennstrecken geeignet ist.Es passt nämlich sehr gut zum Boden einer flachen Laufbahn (geringe Bodenfreiheit), ist aber daher nicht so flexibel, um auch auf etwas nicht flaches zu passen.Ein normales Auto hat eine flexiblere Federung, was bedeutet, dass es nicht auch auf dem Bürgersteig haftet, sondern im Gegenzug auch einige andere Aufgaben erledigt.- „Es kann ein Auto geben, das sowohl für offene Felder als auch für Rennstrecken geeignet ist“ - das würde eine sehr gute aktive Federung erfordern, wahrscheinlich schwer und daher langsamer sein.
Ich finde das keine sehr gute Analogie.Ein stark überpasstes Modell (wie ein an n + 1 Punkte angepasstes n-Grad-Polynom) ist für nichts nützlich.Ein F1 ist nicht überpasst, sondern nur ein hochspezialisiertes Werkzeug, das für eine ganz bestimmte Rolle nützlich ist.Die statistische Analogie wäre ein Modell, das für eine ganz bestimmte Art der Prognose trainiert und nützlich ist, für andere Rollen jedoch nicht.Ein solches Modell ist nicht überpasst, nur in seinem Umfang sehr begrenzt.
@gerrit Das überangepasste Modell sagt n + 1 Punkte genau voraus.Es ist nur anderswo nutzlos.
@Caleth Die Trainingspunkte sind keine Prognose, sondern eine Messung.
@gerrit Überangepasste Modelle sind nützlich bei Aufgaben wie der Datenkomprimierung, bei denen das Ziel die Rekonstruktion der Testdaten ist.F1-Autos rekonstruieren die Strecke.Aus diesem Grund ändern sie das Setup für jeden Track, anstatt ein allgemeines Setup für die gesamte Saison zu verwenden.
@James Ich gebe zu, ich weiß nicht viel über Komprimierung oder was Überanpassung bedeutet, obwohl es mir scheint, dass das Speichern eines n-Grad-Polynoms anstelle von (n + 1) Datenpunkten nicht viel oder keinen Platz spart.
@gerrit Ich kann Ihnen 10.000 Datenpunkte aus einer quadratischen Kurve geben, aber Sie können sie vollständig mit nur 3 Parametern beschreiben.
@James Ja - aber dann sind Sie nicht überpassend.Ich kann sehen, wie Modelle für die Komprimierung verwendet werden können, bin mir aber nicht sicher, wie die Überanpassung dort hineinpasst.In Ihrem Beispiel funktioniert eine verlustfreie Komprimierung nur, wenn die verbleibenden Datenpunkte perfekt zum Modell passen. Für eine verlustbehaftete Komprimierung (möglicherweise gibt es Rauschen auf der quadratischen Kurve) benötigt man erneut ein Modell, das gut verallgemeinert (interpoliert), so dass auch verwendet wirdViele Parameter würden die Passform verschlechtern, nicht wahr?Überanpassung führt nicht immer zu einer falschen Verallgemeinerung.
@gerrit Das Rauschen ist das Signal.Sie passen zu viel an, bis Sie das gesamte Rauschen erfasst haben, sodass Sie die Originaldaten mit dem spezifischen Eingang (des komprimierten Signals) wiederherstellen und sich nicht darum kümmern, dass es mit einem anderen Eingang nicht von Nutzen ist (und dies tatsächlich vorziehen).
Lassen Sie uns [diese Diskussion im Chat fortsetzen] (https://chat.stackexchange.com/rooms/100584/discussion-between-gerrit-and-james).
Peter Flom
2019-11-01 16:57:29 UTC
view on stackexchange narkive permalink

Wie andere angemerkt haben, lautet das vollständige Zitat "Alle Modelle sind falsch, aber einige sind nützlich".

Wenn wir einen Datensatz überanpassen, erstellen wir ein Modell, das nicht nützlich ist. Lassen Sie uns zum Beispiel einige Daten zusammenstellen: set.seed (123)

  x1 <norm (6)
x2 <norm (6)
x3 <norm (6)
x4 <norm (6)
y <rnorm (6)
 

, wodurch 5 Variablen erstellt werden, jede eine Standardnormalen mit jeweils N = 6.

Nun passen wir ein Modell an:

  überpasst <lm (y ~ x1 + x2 + x3 + x4)
 

Das Modell hat $ R ^ 2 $ span> von 0,996. x2 hat einen signifikanten p-Wert und x4 ist fast sig. (auf dem üblichen Niveau von 0,05).

  Koeffizienten:
            Schätzung Std. Fehler t Wert Pr (> | t |)
(Intercept) -0,54317 0,08887 -6,112 0,1032
x1 2,01199 0,14595 13,785 0,0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1,21557 0,15086 8,058 0,0786.
--- ---.
Signif. Codes: 0 "***" 0,001 "**" 0,01 "*" 0,05 "." 0,1 "" 1

Reststandardfehler: 0,1601 bei 1 Freiheitsgraden
Mehrfaches R-Quadrat: 0,9961, angepasstes R-Quadrat: 0,9805
F-Statistik: 64,01 bei 4 und 1 DF, p-Wert: 0,09344
 

Es passt fast perfekt zu den Daten, z. versuchen Sie es mit

Plot (vorhersagen (Überanpassung), y)

Aber es ist alles zufälliges Rauschen.

Wenn wir versuchen, dieses Modell auf andere Daten anzuwenden, erhalten wir Junk.

Carl
2019-11-01 16:46:54 UTC
view on stackexchange narkive permalink

Jedes Modell hat einen Fehler. Das beste Modell ist das, das den mit seinen Vorhersagen verbundenen Fehler minimiert. Aus diesem Grund werden Modelle normalerweise nur mit einem Teil der Daten (In-Sample) erstellt und dann auf den verbleibenden Datensatz "Out of Sample" angewendet. Ein überangepasstes Modell weist in der Praxis typischerweise einen größeren Vorhersagefehler auf als ein gut formuliertes. Darüber hinaus sollte ein Modell intellektuell robust sein: Es macht keinen Sinn, ein Modell zu konstruieren, das in einem „Regime“ funktioniert, wenn es im Falle eines Regimewechsels überhaupt nicht funktioniert. Ein solches Modell scheint sehr gut geformt zu sein, bis sich das Regime ändert, da im Wesentlichen ein solches Modell "in-sample" konstruiert wurde. Eine andere Art zu sagen ist, dass der erwartete Fehler des Modells ebenfalls gut formuliert sein muss. Es gibt auch die Frage von 'Occams Rasiermesser', eine philosophische Idee, dass das Modell im Wesentlichen so einfach wie möglich sein sollte, wobei die geringste Anzahl von Variablen verwendet wird, die zur Beschreibung des zu modellierenden Systems erforderlich sind. Dies dient eher als nützlicher Leitfaden als als in Stein gemeißelte Regel, aber ich glaube, dass dies die Idee ist, die hinter der Verwendung des "angepassten R-Quadrats" anstelle des R-Quadrats steckt, um die natürliche Verbesserung der mit der Verwendung verbundenen Passform auszugleichen mehr Variablen (z. B. hätten Sie eine perfekte Anpassung, ein R-Quadrat von 100%, wenn Sie für jedes Datenelement eine separate Variable hätten!). Es ist auch eine Idee, die auf moderne ML-Techniken angewendet werden sollte: Werfen, z. Tausende von Variablen bei einem ML-Algorithmus sind gefährlich, es sei denn, Sie haben Millionen von Daten (und selbst dann ... ist es möglicherweise besser, Ihre Daten zu transformieren, um zuerst die Anzahl der Variablen zu verringern). Ein letzter Punkt: Jedes Modell erfordert Glauben. Sogar unsere Gesetze der Physik basieren auf Beobachtung, und tatsächlich mussten sie geändert werden, als wir von der Newtonschen Physik in die Bereiche der sehr kleinen (Quantenmechanik) und der sehr großen (Allgemeine Relativitätstheorie) übergingen. Wir können nicht mit absoluter Sicherheit sagen, dass unsere gegenwärtigen Gesetze der Physik in der Zukunft oder sogar in der Vergangenheit (z. B. um die Zeit des Urknalls) gelten werden. Wenn wir jedoch unseren philosophischen Glauben an Occams Rasiermesser ansprechen, akzeptieren wir diese Modelle und Ideen, weil sie die einfachsten Modelle sind, die bisher entwickelt wurden und zu unseren Beobachtungen und Daten passen.

Zusammenfassend gibt es keine festen Regeln.Stellen Sie sich ein komplexes (chaotisches?) Dynamisches System vor, zum Beispiel die Weltwirtschaft.Sie können ein wohlgeformtes Modell erstellen, das für kurze Zeit gut funktioniert.Der „Regimewechsel“ ist jedoch ein sehr reales Problem: Das Wirtschaftssystem ist sehr komplex und nicht linear, und es gibt weit mehr Variablen, als Sie messen können. Dies ist für das In-Sample-Regime möglicherweise nicht von Bedeutung, aber von enormer Bedeutungin einem anderen "Regime".In Ihrem kurzen Zeitraum, der im Wesentlichen in der Stichprobe enthalten ist, stellen Sie möglicherweise fest, dass die lineare Regression recht gut funktioniert.Der gesunde Menschenverstand sollte sich durchsetzen: Manchmal ist ein sehr komplexes Modell erforderlich, aber es sollte stark eingeschränkt werden, wenn der mit seinen Vorhersagen verbundene Fehler unbekannt ist.

Ich bin sicher, dass ein richtiger Statistiker eine viel bessere Antwort geben kann, aber da noch keiner der oben genannten Punkte angesprochen worden zu sein scheint, dachte ich, ich würde meinen Hals herausstrecken ...

NotThatGuy
2019-11-01 20:27:51 UTC
view on stackexchange narkive permalink

Alle Modelle sind falsch, aber einige sind weniger falsch als andere.

Überanpassung führt im Allgemeinen dazu, dass Ihr Modell im Umgang mit realen Daten falscher ist.

Wenn ein Arzt versuchen würde zu diagnostizieren, ob Sie Krebs haben, möchten Sie lieber, dass sie 50% der Zeit ( sehr falsch) oder 0,1% der Zeit (viel weniger falsch) falsch sind.?

Oder nehmen wir an, Sie verschenken etwas kostenlos, wenn Ihr Modell vorhersagt, dass der Kunde später etwas kauft.Möchten Sie lieber viele Dinge kostenlos verschenken, ohne dass dies einen Unterschied macht, ob Kunden Dinge später kaufen (ganz falsch) oder ob die meisten Kunden zurückkommen, um Dinge später zu kaufen (weniger falsch)?

Offensichtlich ist weniger falsch besser.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...