Frage:
Why is leave-one-out cross-validation (LOOCV) variance about the mean estimate for error high?
xyzzy
2014-03-21 21:55:32 UTC
view on stackexchange narkive permalink

Bei der einmaligen Kreuzvalidierung (LOOCV) sieht jeder Trainingssatz den anderen sehr ähnlich und unterscheidet sich nur in einer Beobachtung. Wenn Sie den Testfehler schätzen möchten, nehmen Sie den Durchschnitt der Fehler über die Falten. Dieser Durchschnitt weist eine hohe Varianz auf.

Gibt es eine mathematische Formel, eine visuelle oder eine intuitive Methode, um zu verstehen, warum dieser Durchschnitt eine höhere Varianz aufweist als die $ k $ -fache Kreuzvalidierung?

Fünf antworten:
amoeba
2014-03-21 22:12:37 UTC
view on stackexchange narkive permalink

In der Originalversion dieser Antwort fehlte der Punkt (da erhielt die Antwort einige negative Stimmen). Die Antwort wurde im Oktober 2015 festgelegt.

Dies ist ein etwas kontroverses Thema.

Es wird oft behauptet, dass LOOCV eine höhere Varianz aufweist als der $ k $ -fache Lebenslauf. und das ist so, weil die Trainingssätze in LOOCV mehr Überlappungen haben. Dies macht die Schätzungen aus verschiedenen Falten abhängiger als im $ k $ -Falten-Lebenslauf, so die Argumentation, und erhöht somit die Gesamtvarianz. Siehe zum Beispiel ein Zitat aus The Elements of Statistical Learning von Hastie et al. (Abschnitt 7.10.1):

Welchen Wert sollten wir für $ K $ wählen? Mit $ K = N $ ist der Kreuzvalidierungsschätzer für den wahren (erwarteten) Vorhersagefehler ungefähr unvoreingenommen, kann jedoch eine hohe Varianz aufweisen, da die "Trainingssätze" von $ N $ einander so ähnlich sind.

Siehe auch ein ähnliches Zitat in der Antwort von @BrashEquilibrium (+1). Die akzeptierten und am besten bewerteten Antworten in Varianz und Voreingenommenheit bei der Kreuzvalidierung: Warum weist ein ausgelassener Lebenslauf eine höhere Varianz auf? geben die gleiche Begründung.

Beachten Sie jedoch, dass Hastie et al. Geben Sie keine Zitate an, und obwohl diese Argumentation plausibel klingt, würde ich gerne einige direkte Beweise dafür sehen, dass dies tatsächlich der Fall ist. Eine Referenz, die manchmal zitiert wird, ist Kohavi 1995, aber ich finde sie in dieser speziellen Behauptung nicht sehr überzeugend.

MOREOVER, hier sind zwei Simulationen Dies zeigt, dass LOOCV entweder die gleiche oder sogar eine etwas geringere Varianz als der 10-fache Lebenslauf aufweist:

Könnten Sie auch die Intuition für eine Regression geben?
@xyzzy: Können Sie näher erläutern, an welches Regressionsproblem Sie denken und was genau die Kreuzvalidierung damit zu tun hat? Falls ich Ihre Frage falsch verstanden habe, können Sie sie möglicherweise aktualisieren. Ich dachte, Sie sprechen von einem Klassifizierungsproblem, weil Sie "Fehlerrate" erwähnt haben.
Dies ist eine Frage für die grundlegende Intuition. Ich denke, Sie können für jedes Regressionsproblem eine Kreuzvalidierung durchführen. Sie erhalten jedoch immer noch Vorhersagefehler, die Sie als mittleren quadratischen Fehler messen können. Vielleicht ist es jedoch am besten als Klassifizierungsproblem zu verstehen, und das Regressionsproblem wäre insofern ähnlich, als das Varianzrate für k-fach wäre N / k mal kleiner?
@xyzzy: Ja, ich denke, die gleiche Intuition gilt. Im k-fachen CV berücksichtigen Sie N / k-Stichproben in jedem Testsatz anstelle von nur 1, sodass eine Mittelung Ihrer Vorhersagefehler über diese N / k-Stichproben (um den mittleren Vorhersagefehler in jeder Falte zu erhalten) zu einer Verringerung der Varianz führt ( über diese mittleren Vorhersagefehler) um N / k. Der entscheidende Punkt hier ist wiederum, dass je mehr Stichproben Sie in Ihrem Testsatz haben, desto genauer die Schätzung des Vorhersage- / Klassifizierungsfehlers in jeder Falte ist und je genauer die Schätzungen sind, desto geringer ist ihre Varianz.
Aber der Durchschnitt über alle $ k $ - und $ n $ -Falten ergibt jeweils die gleiche Anzahl von Fällen ...
@cbeleites: Ja, sicher. Ich verstand die Frage als Frage nach der Varianz * über Falten *, nicht * über Wiederholungen *. Vielleicht könnte OP klarstellen, was er oder sie meinte.
Ich glaube, ich meinte eine höhere Varianz in der mittleren Schätzung über alle Falten (für LOOCV vs k-fach). Ich versuche einen Kommentar zu unterscheiden, von dem ich gehört habe, dass LOOCV eine höhere Varianz im mittleren Fehler aufweist, da die Trainingssätze alle stark korreliert sind. Ich bin mir nicht sicher, wie ich verstehen soll, warum das so ist. Ich frage mich, ob es eine Kombination aus der kleinen Stichprobengröße (1) ist, auf die Amöben und Cbeleites anspielten, und ob es auch etwas mit der Korrelation in allen Zuggruppen zu tun hat, aber immer noch nicht in der Lage ist, dies zu verstehen. Hoffe das ist klar.
Diese Antwort zeigt, dass die Varianz von * einer einzelnen Schätzung * für LOO höher ist als für k-fach.Wenn ich mich nicht irre, wird in der Praxis angenommen, dass die endgültige Schätzung der Durchschnitt der Schätzungen über alle k-Falten ist (mit k = n im Fall von LOO).Die relevante Varianz ist also die Varianz des * Mittelwerts * der k Schätzungen, richtig?In diesem Fall reduzieren sich für Ihr Beispiel von LOO vs. 10-fach beide Varianzausdrücke auf $ p (1-p) / N $ und sind somit gleich.Dies würde auch mit Korollar 2 hier übereinstimmen: http://ai.stanford.edu/~ronnyk/accEst.pdf.Möchtest du das kommentieren?Habe ich etwas falsch verstanden?
Ich sehe jetzt, dass mein Kommentar die Kovarianz zwischen den gemittelten Schätzungen ignorierte.Aber auf jeden Fall ist die Varianz der Mittel von Interesse, ja?
@Jake, Sie haben Recht, meine Antwort (von vor über einem Jahr) macht nicht viel Sinn;Ich habe es selbst schon bemerkt, aber vergessen, mich damit zu befassen.Komisch, dass es 12 positive Stimmen bekommen hat: - / Ich werde es aktualisieren, wenn ich etwas Zeit habe, aber ich habe eigentlich kein sehr gutes Verständnis für die Sache.Ich weiß, dass die Leute sagen, dass eine hohe Varianz von LOOCV darauf zurückzuführen ist, dass die Testsätze fast gleich sind (siehe das Zitat aus Brashs Antwort, +1), und das macht irgendwie Sinn, aber dieses ganze Problem ist mir nicht ganz klar.
@amoeba Ich habe mich damit befasst und viele widersprüchliche Aussagen aus verschiedenen Quellen darüber gefunden, ob es wahr ist.Die meisten Quellen haben nur eine Bestandsaufstellung über die korrelierten Schätzungen und zitieren dann möglicherweise ESL.Mindestens einer sagt, dass es keine Rolle spielt (siehe vorheriges Zitat).Andere Quellen sagen ausdrücklich das Gegenteil (z. B. S. 60 hier: http://projecteuclid.org/euclid.ssu/1268143839).Ich habe eine kleine Simulation durchgeführt, in der die Anzahl der Falten $ k $ = 2, 5, 10, $ n $ verglichen wurde, was darauf hindeutet, dass zumindest für die multiple Regression die Varianz für $ k = n $ am geringsten ist.Ich denke darüber nach, eine Antwort mit meinen Erkenntnissen zu schreiben
Das ist interessant, @Jake.Ich bin gerade auf Reisen und habe wenig Zeit, daran zu arbeiten.Aber auf jeden Fall eine Antwort posten.Beachten Sie, dass es zwei ältere Threads gibt, die sehr stark mit diesem verwandt sind.Vielleicht sollte dieser sogar als Duplikat geschlossen werden, aber vielleicht auch nicht.Hier sind die Themen: [Anzahl der Falten für K-Fold] (http://stats.stackexchange.com/questions/61546) und [Modellvarianz und Verzerrung bei der Kreuzvalidierung] (http://stats.stackexchange.com/)Fragen / 61783).
@Jake, Ich habe jetzt meine Antwort korrigiert (veranlasst durch ein paar Abstimmungen), aber auch dafür gestimmt, diese Frage als Duplikat einer anderen zu schließen.Ich denke jedoch immer noch, dass dieses Thema eine nachdenklichere / ausführlichere Antwort erfordert als alle vorhandenen.Ich frage mich, ob Sie mit diesem Problem weiter experimentiert haben.
@amoeba Ich bin endlich dazu gekommen, eine Frage zu diesem Problem zu stellen. Vielleicht möchten Sie sie überprüfen: https://stats.stackexchange.com/q/280665/5829
Brash Equilibrium
2014-08-04 10:13:09 UTC
view on stackexchange narkive permalink

Von Eine Einführung in das statistische Lernen

Wenn wir LOOCV ausführen, werden die Ausgaben von $ n $ span> angepasste Modelle, von denen jedes auf einem nahezu identischen Satz von Beobachtungen trainiert wird; Daher sind diese Ausgaben stark (positiv) miteinander korreliert. Wenn wir dagegen einen $ k $ span> -fachen Lebenslauf mit $ k<n $ span> ausführen, werden die Ausgaben gemittelt von $ k $ span> angepassten Modellen, die etwas weniger miteinander korreliert sind, da die Überlappung zwischen den Trainingssätzen in jedem Modell kleiner ist. Da der Mittelwert vieler stark korrelierter Größen eine höhere Varianz aufweist als der Mittelwert vieler nicht so stark korrelierter Größen, weist die aus LOOCV resultierende Testfehlerschätzung tendenziell eine höhere Varianz auf als die aus $ k $ span> -facher Lebenslauf.

Zusammenfassend lässt sich sagen, dass mit der Auswahl von ein Kompromiss zwischen Bias und Varianz verbunden ist $ k $ span> in $ k $ span> -fache Kreuzvalidierung. In Anbetracht dieser Überlegungen führt man normalerweise eine $ k $ span> -fache Kreuzvalidierung mit $ k = 5 $ span> durch oder $ k = 10 $ span>, da empirisch gezeigt wurde, dass diese Werte Schätzungen der Testfehlerrate ergeben, die weder unter einer übermäßig hohen Vorspannung noch unter einer sehr hohen Varianz leiden.

cbeleites unhappy with SX
2014-03-22 09:51:20 UTC
view on stackexchange narkive permalink
    • In einfachen Fällen denke ich, dass die Antwort lautet: Der Mittelwert (über alle Testfälle und alle Falten) hat die gleiche Varianz für die $ k $ -Faltung und die LOO-Validierung.

    • Einfach bedeutet hier: Modelle sind stabil, sodass jedes der Ersatzmodelle $ k $ oder $ n $ dieselbe Vorhersage für dieselbe Stichprobe ergibt (Gedankenexperiment: Ersatzmodelle mit großem unabhängigen Testsatz testen.)

    • Wenn die Modelle nicht stabil sind, wird die Situation komplexer: Jedes der Ersatzmodelle hat seine eigene Leistung Sie haben also zusätzliche Varianz. In diesem Fall sind alle Wetten offen, unabhängig davon, ob LOO oder $ k $ -fold mehr zusätzliche Varianz * aufweist. Sie können jedoch den $ k $ -fachen Lebenslauf iterieren und den Mittelwert über alle Testfälle und alle $ i \ times k $ Ersatzmodelle ziehen, um diese zusätzliche Varianz zu verringern. Für LOO gibt es keine solche Möglichkeit: Die $ n $ -Ersatzmodelle sind alle mögliche Ersatzmodelle.

    • Die große Varianz ist normalerweise auf zwei Faktoren zurückzuführen :

    • kleine Stichprobengröße (wenn Sie sich nicht in einer Situation mit kleiner Stichprobengröße befänden, würden Sie sich keine Sorgen um Varianz machen ;-)).
    • Fehlermaß mit hoher Varianz. Alle Klassifizierungsfehler vom Typ Testfall unterliegen einer hohen Varianz. Dies ist eine grundlegende Eigenschaft der Schätzung von Brüchen durch Zählen von Fällen. Regressionsfehler wie MSE verhalten sich in dieser Hinsicht viel harmloser.

Bei Klassifizierungsfehlern gibt es eine Reihe von Artikeln, in denen die Eigenschaften von untersucht werden verschiedene Resampling-Validierungsschemata, in denen Sie auch Abweichungen sehen, z. B.:

(Ich denke, ähnliche Papiere als auch für Regressionsfehler existieren können, aber ich bin von ihnen nicht bewusst)

* ein LOO erwarten kann habe weniger Varianz, da die Ersatzmodelle mit mehr Fällen ausgebildet werden, aber zumindest für bestimmte Arten von Klassifizierungsmodellen, LOO verhält sich nicht sehr gut.

Thilanka-minion91
2015-09-26 14:07:34 UTC
view on stackexchange narkive permalink

In LOOCV gibt es keine Falten wie bei der k-Fold Cross-Validierung (tatsächlich können sie als Falten bezeichnet werden, sind aber bedeutungslos). In LOOCV belässt es eine Instanz aus dem gesamten Datensatz für Testdaten und verwendet alle anderen Instanzen für das Training. In jeder Iteration bleibt also eine Instanz aus dem Datensatz zum Testen übrig. In einer bestimmten Iteration der Auswertung befindet sich also nur eine Instanz in den Testdaten und der Rest in den Trainingsdaten. Aus diesem Grund haben Sie gesehen, dass alle Trainingsdatensätze alle gleich sind die Zeit.

Bei der K-fachen Kreuzvalidierung mithilfe von Stratifizierung (eine erweiterte Methode zum Ausgleichen des Datensatzes, um sicherzustellen, dass jede Klasse in allen Stichproben ungefähr den gleichen Anteil darstellt) Wir können die Varianz der Schätzungen reduzieren.

Da LOOCV nur eine Instanz zum Testen verwendet, kann es keine Stratifizierung anwenden. Daher weist LOOCV eine höhere Varianz bei Fehlerschätzungen auf als die k-fache Kreuzvalidierung.

-1.Ich sehe nicht, wie wichtig die Schichtung hier ist.Haben Sie Referenzen, die Ihren Standpunkt unterstützen?
danuker
2015-06-19 15:49:22 UTC
view on stackexchange narkive permalink

Es ist, als würde man einen Test mit nur einer Frage machen - es ist viel mehr Erfolg und Misserfolg.

Dies ist eine intuitive Erklärung der Standardabweichung einer Instanz gegenüber der eines Mittelwerts - der Punktzahl Bei einer Reihe von Instanzen ist die Varianz geringer.

Hier sind einige weitere Details.

Und warum ist das?Können Sie das etwas näher erläutern?Im Moment ist dies eher ein Kommentar als eine Antwort.
Dies gibt keine Antwort auf die Frage.Um einen Autor zu kritisieren oder um Klärung zu bitten, hinterlassen Sie einen Kommentar unter seinem Beitrag. Sie können jederzeit Ihre eigenen Beiträge kommentieren und sobald Sie über einen ausreichenden [Ruf] verfügen (http://stats.stackexchange.com/help/whats-reputation).Sie können [jeden Beitrag kommentieren] (http://stats.stackexchange.com/help/privileges/comment).
Wenn Sie einen Test mit mehr Fragen durchführen, wird die Punktzahl gemittelt. Und die Varianz eines Mittelwerts ist geringer als die Varianz einer einzelnen Frage. Weitere Details finden Sie hier: [Standardabweichung des Mittelwerts] (https://en.wikipedia.org/wiki/Standard_deviation#Standard_deviation_of_the_mean).
@ChristophHanck Es ist eine intuitive Erklärung, obwohl es keine vollständige Antwort ist.
Deshalb habe ich vorgeschlagen, es stattdessen als Kommentar zu posten.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...