Was passiert, wenn ein Modell mehr Parameter als Trainingsmuster hat?

Frage:

Upendra01

2018-02-21 22:42:31 UTC

view on stackexchange narkive permalink

In einem einfachen neuronalen Netzwerk wird beispielsweise die Anzahl der Parameter im Vergleich zur Anzahl der für das Training verfügbaren Stichproben klein gehalten, und dies zwingt das Modell möglicherweise dazu, die Muster in den Daten zu lernen.Richtig?

Meine Frage ist, welche Auswirkungen könnten wir in einem Szenario haben, in dem die Anzahl der Parameter in einem Modell größer ist als die Anzahl der verfügbaren Trainingsinstanzen?

Kann ein solches Modell zu einer Überanpassung führen?Welchen Effekt können diese zusätzlichen Parameter auf die Modellleistung haben?

Bitte werfen Sie etwas Licht darauf.Ich glaube, dass nur die Datendarstellung (Anzahl der verborgenen Schichten, Anzahl der Neuronen in jeder Schicht usw.) die Anzahl der Parameter im Modell bestimmt.Ist mein Verständnis richtig?

Einer antworten:

Jan Kukacka

2018-02-25 19:09:46 UTC

view on stackexchange narkive permalink

Wenn es um neuronale Netze geht (heutzutage besonders tiefe neuronale Netze), ist es fast immer so, dass das Netzwerk weit mehr Parameter hat als Trainingsbeispiele.

Theoretisch kann ein einfaches zweischichtiges neuronales Netzwerk mit $ 2n + d $ -Parametern jeden Datensatz von $ n $ Stichproben der Dimension $ d $ perfekt anpassen (Zhang et al., 2017). Um Ihre Frage zu beantworten, kann ein so großes Modell zu einer Überanpassung führen.

Das Tolle an tiefen neuronalen Netzen ist, dass sie trotz dieser potenziellen Überanpassungsprobleme sehr gut funktionieren. Normalerweise ist dies auf verschiedene Regularisierungseffekte zurückzuführen, die auf den Trainings- / Optimierungsalgorithmus und die Netzwerkarchitektur zurückzuführen sind, sowie auf explizit verwendete Regularisierungsmethoden wie Dropout, Gewichtsabfall und Datenerweiterung. In meinem Artikel Regularisierung für tiefes Lernen: Eine Taxonomie werden einige dieser Effekte ausführlich beschrieben.

Der offensichtliche Vorteil von bene mit vielen Parametern ist, dass Sie viel kompliziertere Funktionen darstellen können als mit weniger Parametern. Die Beziehungen, die neuronale Netze modellieren, sind oft sehr kompliziert und die Verwendung eines kleinen Netzwerks (Anpassen der Größe des Netzwerks an die Größe des Trainingssatzes, dh Anpassen Ihrer Daten durch die Verwendung eines kleinen Modells) kann zu dem Problem führen, wenn Ihr Netzwerk ist zu einfach und kann die gewünschte Zuordnung nicht darstellen (hohe Verzerrung). Wenn Sie dagegen viele Parameter haben, ist das Netzwerk flexibel genug, um die gewünschte Zuordnung darzustellen, und Sie können immer eine stärkere Regularisierung anwenden, um eine Überanpassung zu verhindern.

Um den letzten Teil Ihrer Frage zu beantworten: Die Anzahl der Parameter wird vollständig durch die Anzahl der Schichten im Netzwerk, die Anzahl der Einheiten in jeder Schicht und die Dimensionalität der Eingabe und der Ausgabe definiert.

Weitere Informationen finden Sie auch unter Beziehung zwischen Modell über Anpassung und Anzahl der Parameter.

Super Antwort!

ⓘ

Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.

über - juristisches