Sie erwähnen in den Kommentaren, dass Sie die AUC mit einem 75-25-Zugtest-Split berechnen, und Sie sind verwirrt, warum die AUC maximiert wird, wenn Sie Ihr Modell nur an 8 Ihrer 30 Regressoren trainieren. Daraus haben Sie den Eindruck gewonnen, dass AUC die Komplexität in Ihrem Modell irgendwie beeinträchtigt.
In Wirklichkeit gibt es etwas, das die Komplexität in Ihrem Modell beeinträchtigt, aber es ist nicht die AUC-Metrik. Es handelt sich um die Aufteilung der Zugtests. Aufteilung der Zugtests ermöglicht die Verwendung nahezu aller Metriken, auch der AUC, für die Modellauswahl, auch wenn keine vorhanden sind Inhärente Beeinträchtigung der Modellkomplexität.
Wie Sie wahrscheinlich wissen, messen wir die Leistung nicht an denselben Daten, auf denen wir unsere Modelle trainieren, da die Fehlerrate der Trainingsdaten in der Praxis im Allgemeinen ein zu optimistisches Maß für die Leistung ist (siehe Abschnitt 7.4 des ESL-Buches). Dies ist jedoch nicht der wichtigste Grund für die Verwendung von Zugtest-Splits. Der wichtigste Grund ist, eine Überanpassung mit übermäßig komplexen Modellen zu vermeiden.
Bei zwei Modellen A und B, so dass B "A enthält" (der Parametersatz von B enthält den von A), ist der Trainingsfehler mathematisch garantiert , um Modell B zu bevorzugen, wenn Sie passen an, indem Sie ein Anpassungskriterium optimieren und den Fehler anhand desselben Kriteriums messen. Dies liegt daran, dass B die Daten auf alle Arten anpassen kann, die A kann, sowie auf zusätzliche Arten, die möglicherweise weniger Fehler verursachen als die beste Anpassung von A. Aus diesem Grund hatten Sie einen geringeren Fehler erwartet, als Sie Ihrem Modell mehr Prädiktoren hinzugefügt haben.
Indem Sie Ihre Daten jedoch für Training und Tests in zwei relativ unabhängige Gruppen aufteilen, schützen Sie sich vor dieser Gefahr. Wenn Sie die Trainingsdaten mit vielen Prädiktoren und Parametern aggressiv anpassen, wird die Anpassung der Testdaten nicht unbedingt verbessert. Unabhängig vom Modell oder Anpassungskriterium können wir im Allgemeinen erwarten, dass ein Modell, das die Trainingsdaten überpasst, mit einem unabhängigen Satz von Testdaten, den es noch nie gesehen hat, nicht gut abschneidet. Mit zunehmender Komplexität des Modells in Richtung Überanpassung verschlechtert sich die Leistung des Testsatzes im Allgemeinen, wenn das Modell zunehmend unechte Trainingsdatenmuster aufgreift und seine Vorhersagen immer weiter von den tatsächlichen Trends in dem System entfernt, das es vorhersagen möchte. Siehe zum Beispiel Folie 4 von dieser Präsentation und die Abschnitte 7.10 und 7.12 von ESL.
Wenn Sie noch überzeugen müssen, kann ein einfaches Gedankenexperiment hilfreich sein. Stellen Sie sich vor, Sie haben einen Datensatz von 100 Punkten mit einem einfachen linearen Trend plus Gaußschem Rauschen und möchten ein Polynommodell an diese Daten anpassen. Angenommen, Sie teilen die Daten in Trainings- und Testsätze der Größe 50 auf und passen ein Polynom vom Grad 50 an die Trainingsdaten an. Dieses Polynom interpoliert die Daten und gibt keinen Trainingssatzfehler aus, zeigt jedoch ein wildes Schwingungsverhalten, das es weit weg von der einfachen linearen Trendlinie trägt. Dies führt zu extrem großen Fehlern im Testsatz, die viel größer sind als bei einem einfachen linearen Modell. Das lineare Modell wird also durch einen CV-Fehler begünstigt. Dies ist auch der Fall, wenn Sie das lineare Modell mit einem stabileren Modell wie dem Glätten von Splines vergleichen, obwohl der Effekt weniger dramatisch ist.
Zusammenfassend lässt sich sagen, dass wir durch die Verwendung von Aufteilungstechniken für Zugtests wie CV und die Messung der Leistung der Testdaten eine implizite Bestrafung der Modellkomplexität erhalten, unabhängig davon, welche Metrik wir verwenden, nur weil das Modell Daten vorhersagen muss es hat nicht gesehen. Aus diesem Grund wird die Aufteilung von Zugtests im modernen Ansatz zur Bewertung der Leistung bei Regression und Klassifizierung allgemein verwendet.