Frage:
Gibt es ein kanonisches Beispiel dafür, wann Ridge das Lasso übertrifft?
Frank
2020-01-25 10:57:05 UTC
view on stackexchange narkive permalink

Kann mir bitte jemand ein Beispiel geben, wann Ridge Lasso spielen würde?

Wird Lasso unter den meisten Umständen nicht besser?Wenn ein Regressor einen großen Koeffizienten hat, bedeutet dies, dass der Regressor ein guter Prädiktor ist. Wenn wir also Grat verwenden, bestrafen wir diesen Koeffizienten mehr.Ist das nicht schlimm?Lasso bestraft die kleineren Koeffizienten mehr und die größeren Koeffizienten weniger, da der Grat den Koeffizienten in der Verlustfunktion (L2-Norm) quadriert, während Lasso nur die L1-Norm ist.

Wir möchten weniger Koeffizienten, um eine Überanpassung zu verhindern. Wäre Lasso also nicht IMMER besser?

Lasso wird offensichtlich besser sein, wenn es 2 gute und 15 schlechte Regressoren gibt. Gibt es ein kanonisches Beispiel dafür, wann Ridge das Lasso übertreffen würde?

Tibshiranis Originalarbeit, in der er LASSO vorstellt, diskutiert einen Fall (oder einige Fälle), in dem Ridge LASSO schlägt.Das könnte wahrscheinlich als kanonisch angesehen werden.
Zwei antworten:
Ben
2020-01-25 11:29:08 UTC
view on stackexchange narkive permalink

Beide Modelle bestrafen die Einbeziehung eines Koeffizienten ungleich Null mithilfe einer Straffunktion. Die LASSO-Regression wird in einer Weise bestraft, die proportional zur absoluten Größe des Koeffizienten ist, und die Ridge-Regression wird in einer Weise bestraft, die proportional zum Quadrat des Koeffizienten ist. Keines der Modelle bestraft Eingaben in der Wahrscheinlichkeitsfunktion, bei der der Koeffizient auf Null gesetzt ist. Bei Eingaben in die Wahrscheinlichkeitsfunktion, bei denen ein Koeffizient ungleich Null ist, werden durch die LASSO-Regression Werte nahe Null stärker bestraft, während durch die Ridge-Regression Werte, die weit von Null entfernt sind, stärker bestraft werden. (In Ihrer Frage scheinen Sie den Fehler zu machen, dass der quadratische Wert immer größer als der absolute Wert ist. Dies ist nicht der Fall. Bei Eingabewerten mit einer Größe von weniger als eins ist der absolute Wert größer als das Quadrat.)

Die Intuition sagt uns, dass die Gratregression tendenziell die LASSO-Regression übertrifft, wenn die wahren Nicht-Null-Koeffizienten relativ zum Rauschen in der Regression nahe Null liegen. In diesem Fall werden diese Werte durch die Gratregression weniger benachteiligt, sodass es wahrscheinlicher ist, dass für diese Koeffizienten Werte ungleich Null geschätzt werden. Die LASSO-Regression bestraft diese Koeffizienten stärker, sodass es wahrscheinlicher ist, dass sie fälschlicherweise auf Null geschätzt werden. Auf der Grundlage dieser Intuition würde ich empfehlen, diese Modelle für einige Daten zu vergleichen, die aus einer Regression mit Koeffizienten generiert wurden, die im Verhältnis zum Rauschen in der Regression klein sind. Wenn Sie eine Simulationsstudie mit solchen Fällen durchführen, sollten Sie feststellen, dass die Gratregression in diesen Fällen tendenziell besser abschneidet als LASSO.

Das kanonische LASSO-Papier von 1996, das @RichardHardy in einem Kommentar zu dieser Frage notiert hat, ist von [dieser Seite] (http://statweb.stanford.edu/~tibs/lasso.html) verlinkt.In Übereinstimmung mit dieser Antwort war das Beispiel, in dem Ridge LASSO übertraf, der Fall mit dem niedrigsten Signal-Rausch-Verhältnis und ohne echte Koeffizientenwerte von 0.
@EdM Sehr cooler Link.
seanv507
2020-01-26 03:22:57 UTC
view on stackexchange narkive permalink

Ridge wurde ursprünglich für korrelierte Variablen entwickelt, und dort ist es am besten.

Betrachten Sie Prüfungen, um einen Abschluss zu bestimmen.(Was angeblich Messfähigkeit ist)

Was ist Ihrer Meinung nach zuverlässiger: den Durchschnitt aller Prüfungen ablegen oder eine einzelne Prüfung auswählen, die am besten mit den Fähigkeiten korreliert (falls es eine gibt)?Durch Mittelwertbildung über die verschiedenen Prüfungen werden entfernt (unabhängiger Lärm - Sie haben eines Tages nicht gut geschlafen usw.)

Ridge nimmt den Durchschnitt dieser korrelierten Eingaben (dh die separaten Prüfungen), während Lasso nur eine auswählt.

Lasso ist nur eine Norm anstelle einer Zwei-Norm.Wenn in Ihrem Beispiel ein Regressor "Stunden, die er studiert" hat, hat er möglicherweise einen großen Koeffizienten, weil er der wichtigste Regressor ist, und vielleicht ist Schlafverlust im Vergleich wirklich unbedeutend.Wäre Ridge als Zwei-Norm-Regressor für den "Lernzeit" -Regressor nicht härter, da es sich um eine Zwei-Norm (quadratische Strafe) handelt, was bedeutet, dass es für Regressoren mit größeren Koeffizienten schwieriger ist?Ist Ridge nicht schlecht für das, was wir wollen, was stark korrelierte Regressoren sind, und besser, wenn Sie eine Gruppe nicht so guter Regressoren haben?
Ich meinte, dass die Regressoren untereinander korreliert sind (sowie abhängige Variablen).Eine Reihe von Mathematikprüfungen - anstatt einen großen Koeffizienten für eine einzelne Mathematikprüfung festzulegen, wird für jede Prüfung ein kleiner Koeffizient festgelegt [was zu demselben Gesamteffekt führt].
Ich bin damit einverstanden, dass Lasso besser ist, wenn Sie ein paar wichtige Variablen haben.Das ist aber nicht immer der Fall.Ich habe andere Situationen erklärt.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...