Ich frage mich, warum uns Überanpassung so wichtig ist.Wir wissen, dass statistische Modelle Werkzeuge sind, um uns einige Informationen zu liefern, aber sie sind nicht einmal vollständig genau.
Ich frage mich, warum uns Überanpassung so wichtig ist.Wir wissen, dass statistische Modelle Werkzeuge sind, um uns einige Informationen zu liefern, aber sie sind nicht einmal vollständig genau.
Das Zitat von Box lautet wie folgt: "Alle Modelle sind falsch, aber einige sind nützlich."
Wenn wir eine schlechte Überanpassung haben, ist unser Modell nicht hilfreich, um Vorhersagen für neue Daten zu treffen.
Warum sorgen wir uns um eine Überanpassung, auch wenn „alle Modelle falsch sind“?
Ihre Frage scheint eine Variation des Nirvana-Irrtums zu sein, was implizit darauf hindeutet, dass jedes Modell gleichermaßen zufriedenstellend ist, wenn es kein perfektes Modell gibt (und daher sind Fehler in Modellen irrelevant). Beachten Sie, dass Sie genauso leicht dieselbe Frage zu jedem Fehler in einem Modell stellen können:
Warum sorgen wir uns um die Schätzung der maximalen Wahrscheinlichkeit, auch wenn „alle Modelle falsch sind“?
Warum sorgen wir uns um Standardfehler, auch wenn „alle Modelle falsch sind“?
Warum sorgen wir uns um die Bereinigung unserer Daten, auch wenn „alle Modelle falsch sind“?
Warum sorgen wir uns um die richtige Arithmetik, auch wenn „alle Modelle falsch sind“?
Die richtige Antwort auf all diese Fragen ist, dass wir den Feind des Guten nicht perfekt machen sollten --- auch wenn "alle Modelle falsch sind", ein Modell, das weniger ist falsch ist einem Modell vorzuziehen, das falscher ist.
Das vollständige Zitat lautet "Alle Modelle sind falsch, aber einige sind nützlich".Überanpassung ist uns wichtig, da wir weiterhin möchten, dass unsere Modelle nützlich sind.
Wenn Sie mit dem Bias-Varianz-Kompromiss vertraut sind, entspricht die Aussage "Alle Modelle sind falsch" in etwa der Aussage "Alle Modelle haben eine Vorspannung ungleich Null".Überanpassung ist das Problem, dass wir zwar die Anzahl der Parameter in einem Modell erhöhen können, um die Verzerrung zu verringern. Je mehr Parameter wir haben, desto größer ist jedoch die Varianz unserer Schätzung.Ein nützliches Modell ist eines, das zwischen Flexibilität genug, um die Vorspannung zu verringern, aber nicht so flexibel ist, dass die Varianz zu hoch ist.
Ein Citroën 2CV ist in vielerlei Hinsicht ein schlechtes Auto. Langsam, raffiniert und billig. Aber es ist vielseitig und kann sowohl auf asphaltierten Straßen als auch auf frisch gepflügten Feldern effektiv eingesetzt werden.
Ein F1-Auto gilt im Vergleich dazu als Höhepunkt der Automobiltechnik. Schnell, präzise und nur mit den besten Komponenten. Ich würde allerdings nicht gerne über ein offenes Feld fahren.
Der 2CV ist allgemein anwendbar, während das F1-Auto nur sehr spezifisch anwendbar ist. Das F1-Auto wurde für das spezielle Problem, eine Rennstrecke so schnell wie möglich zu befahren, mit dem Vorteil eines Teams professioneller Ingenieure ausgestattet, um alle Probleme zu überwachen, zu bewerten und Probleme zu lösen, die sich aus dem Hochleistungsbetrieb ergeben können.
In ähnlicher Weise funktioniert ein überangepasstes Modell in Situationen, in denen es überpasst ist, aber anderswo schlecht (oder gar nicht). Ein Modell mit allgemeiner Anwendbarkeit ist nützlicher, wenn es anderen Umgebungen ausgesetzt ist, die außerhalb Ihrer Kontrolle liegen, auch wenn es nicht so gut ist wie bestimmte Modelle.
Wie andere angemerkt haben, lautet das vollständige Zitat "Alle Modelle sind falsch, aber einige sind nützlich".
Wenn wir einen Datensatz überanpassen, erstellen wir ein Modell, das nicht nützlich ist. Lassen Sie uns zum Beispiel einige Daten zusammenstellen: set.seed (123)
x1 <norm (6)
x2 <norm (6)
x3 <norm (6)
x4 <norm (6)
y <rnorm (6)
, wodurch 5 Variablen erstellt werden, jede eine Standardnormalen mit jeweils N = 6.
Nun passen wir ein Modell an:
überpasst <lm (y ~ x1 + x2 + x3 + x4)
Das Modell hat $ R ^ 2 $ span> von 0,996. x2 hat einen signifikanten p-Wert und x4 ist fast sig. (auf dem üblichen Niveau von 0,05).
Koeffizienten:
Schätzung Std. Fehler t Wert Pr (> | t |)
(Intercept) -0,54317 0,08887 -6,112 0,1032
x1 2,01199 0,14595 13,785 0,0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1,21557 0,15086 8,058 0,0786.
--- ---.
Signif. Codes: 0 "***" 0,001 "**" 0,01 "*" 0,05 "." 0,1 "" 1
Reststandardfehler: 0,1601 bei 1 Freiheitsgraden
Mehrfaches R-Quadrat: 0,9961, angepasstes R-Quadrat: 0,9805
F-Statistik: 64,01 bei 4 und 1 DF, p-Wert: 0,09344
Es passt fast perfekt zu den Daten, z. versuchen Sie es mit
Plot (vorhersagen (Überanpassung), y)
Aber es ist alles zufälliges Rauschen.
Wenn wir versuchen, dieses Modell auf andere Daten anzuwenden, erhalten wir Junk.
Jedes Modell hat einen Fehler. Das beste Modell ist das, das den mit seinen Vorhersagen verbundenen Fehler minimiert. Aus diesem Grund werden Modelle normalerweise nur mit einem Teil der Daten (In-Sample) erstellt und dann auf den verbleibenden Datensatz "Out of Sample" angewendet. Ein überangepasstes Modell weist in der Praxis typischerweise einen größeren Vorhersagefehler auf als ein gut formuliertes. Darüber hinaus sollte ein Modell intellektuell robust sein: Es macht keinen Sinn, ein Modell zu konstruieren, das in einem „Regime“ funktioniert, wenn es im Falle eines Regimewechsels überhaupt nicht funktioniert. Ein solches Modell scheint sehr gut geformt zu sein, bis sich das Regime ändert, da im Wesentlichen ein solches Modell "in-sample" konstruiert wurde. Eine andere Art zu sagen ist, dass der erwartete Fehler des Modells ebenfalls gut formuliert sein muss. Es gibt auch die Frage von 'Occams Rasiermesser', eine philosophische Idee, dass das Modell im Wesentlichen so einfach wie möglich sein sollte, wobei die geringste Anzahl von Variablen verwendet wird, die zur Beschreibung des zu modellierenden Systems erforderlich sind. Dies dient eher als nützlicher Leitfaden als als in Stein gemeißelte Regel, aber ich glaube, dass dies die Idee ist, die hinter der Verwendung des "angepassten R-Quadrats" anstelle des R-Quadrats steckt, um die natürliche Verbesserung der mit der Verwendung verbundenen Passform auszugleichen mehr Variablen (z. B. hätten Sie eine perfekte Anpassung, ein R-Quadrat von 100%, wenn Sie für jedes Datenelement eine separate Variable hätten!). Es ist auch eine Idee, die auf moderne ML-Techniken angewendet werden sollte: Werfen, z. Tausende von Variablen bei einem ML-Algorithmus sind gefährlich, es sei denn, Sie haben Millionen von Daten (und selbst dann ... ist es möglicherweise besser, Ihre Daten zu transformieren, um zuerst die Anzahl der Variablen zu verringern). Ein letzter Punkt: Jedes Modell erfordert Glauben. Sogar unsere Gesetze der Physik basieren auf Beobachtung, und tatsächlich mussten sie geändert werden, als wir von der Newtonschen Physik in die Bereiche der sehr kleinen (Quantenmechanik) und der sehr großen (Allgemeine Relativitätstheorie) übergingen. Wir können nicht mit absoluter Sicherheit sagen, dass unsere gegenwärtigen Gesetze der Physik in der Zukunft oder sogar in der Vergangenheit (z. B. um die Zeit des Urknalls) gelten werden. Wenn wir jedoch unseren philosophischen Glauben an Occams Rasiermesser ansprechen, akzeptieren wir diese Modelle und Ideen, weil sie die einfachsten Modelle sind, die bisher entwickelt wurden und zu unseren Beobachtungen und Daten passen.
Zusammenfassend gibt es keine festen Regeln.Stellen Sie sich ein komplexes (chaotisches?) Dynamisches System vor, zum Beispiel die Weltwirtschaft.Sie können ein wohlgeformtes Modell erstellen, das für kurze Zeit gut funktioniert.Der „Regimewechsel“ ist jedoch ein sehr reales Problem: Das Wirtschaftssystem ist sehr komplex und nicht linear, und es gibt weit mehr Variablen, als Sie messen können. Dies ist für das In-Sample-Regime möglicherweise nicht von Bedeutung, aber von enormer Bedeutungin einem anderen "Regime".In Ihrem kurzen Zeitraum, der im Wesentlichen in der Stichprobe enthalten ist, stellen Sie möglicherweise fest, dass die lineare Regression recht gut funktioniert.Der gesunde Menschenverstand sollte sich durchsetzen: Manchmal ist ein sehr komplexes Modell erforderlich, aber es sollte stark eingeschränkt werden, wenn der mit seinen Vorhersagen verbundene Fehler unbekannt ist.
Ich bin sicher, dass ein richtiger Statistiker eine viel bessere Antwort geben kann, aber da noch keiner der oben genannten Punkte angesprochen worden zu sein scheint, dachte ich, ich würde meinen Hals herausstrecken ...
Alle Modelle sind falsch, aber einige sind weniger falsch als andere.
Überanpassung führt im Allgemeinen dazu, dass Ihr Modell im Umgang mit realen Daten falscher ist.
Wenn ein Arzt versuchen würde zu diagnostizieren, ob Sie Krebs haben, möchten Sie lieber, dass sie 50% der Zeit ( sehr falsch) oder 0,1% der Zeit (viel weniger falsch) falsch sind.?
Oder nehmen wir an, Sie verschenken etwas kostenlos, wenn Ihr Modell vorhersagt, dass der Kunde später etwas kauft.Möchten Sie lieber viele Dinge kostenlos verschenken, ohne dass dies einen Unterschied macht, ob Kunden Dinge später kaufen (ganz falsch) oder ob die meisten Kunden zurückkommen, um Dinge später zu kaufen (weniger falsch)?
Offensichtlich ist weniger falsch besser.