Frage:
Kullback-Leibler-Divergenz - Interpretation
user3016
2011-02-02 21:07:43 UTC
view on stackexchange narkive permalink

Ich habe eine Frage zur Kullback-Leibler-Divergenz.

Kann jemand erklären, warum der "Abstand" zwischen der blauen Dichte und der "roten" Dichte kleiner ist als der Abstand zwischen der "grünen" Kurve und die "rote"?

Graph of three pdfs

Ich habe keine Antwort ... aber ich bin mir nicht sicher, ob es in diesem Zusammenhang wirklich sinnvoll ist, eine inverse Gauß-Verteilung mit Mittelwert 1 und Varianz 3 oder 5 zu betrachten ...
Vorsichtig! Die KL-Divergenz ist keine echte "Distanz", da sie * asymmetrisch * ist. Welchen der beiden möglichen Werte haben Sie jeweils berechnet?
Welche Distributionen sind das? Sowohl das Gamma als auch das inverse Gaußsche nehmen zwei Parameter an. Das rote ist eindeutig * kein * Gamma mit einem Formparameter von 0,85. Durch Versuch und Irrtum sieht es so aus, als hätte das Gamma eine Skala von 1 und eine Form von 1 / 0,85, während die inversen Gaußschen Mittelwerte von 1 und die angegebenen Skalenparameter haben. Ist das richtig?
Die informationstheoretische Interpretation der KL-Divergenz finden Sie hier - http://stats.stackexchange.com/questions/1028/questions-about-kl-divergence/1569#1569
Außerdem ist die KL-Divergenz nicht symmetrisch. Um Mehrdeutigkeiten zu beseitigen, ist es besser, KL (A, B) oder KL (B, A) anstelle von "Abstand zwischen A und B" zu sagen.
Zwei antworten:
#1
+28
whuber
2011-02-03 00:11:20 UTC
view on stackexchange narkive permalink

Da ich geringfügig andere Werte der KL-Divergenz als hier angegeben berechne, beginnen wir mit meinem Versuch, die Diagramme dieser PDFs zu reproduzieren:

PDFs for red, blue, and green

Der KL-Abstand von $ F $ span> bis $ G $ span> ist die Erwartung nach dem Wahrscheinlichkeitsgesetz $ F $ span>, der Unterschied in den Logarithmen ihrer PDFs. Schauen wir uns daher die log PDFs genauer an. Die Werte in der Nähe von 0 sind sehr wichtig. Lassen Sie uns sie untersuchen. In der nächsten Abbildung sind die Protokoll-PDFs in der Region von $ x = 0 $ span> bis $ x = 0,10 $ span> dargestellt :

Log PDFs in the interval from 0 to 0.10

Mathematica berechnet, dass KL (rot, blau) = 0,574461 und KL (rot, grün) = 0,641924. In der Grafik ist klar, dass sich log (grün) zwischen 0 und 0,02 ungefähr stärker von log (rot) unterscheidet als log (blau). Darüber hinaus gibt es in diesem Bereich immer noch eine wesentlich große Wahrscheinlichkeitsdichte für Rot: Der Logarithmus ist größer als -1 (die Dichte ist also größer als etwa 1/2).

Sehen Sie sich die Unterschiede in den Logarithmen an . Jetzt ist die blaue Kurve das Differenzprotokoll (rot) - log (blau) und die grüne Kurve ist log (rot) - log (grün). Die KL-Divergenzen (rot) sind die Erwartungen (gemäß dem roten PDF) dieser Funktionen.

Log PDFs for red:blue and red:green, over the interval from 0 to 0.04

(Beachten Sie die Änderung der horizontalen Skala, die sich jetzt stärker konzentriert nahe bei 0.)

Sehr grob sieht es so aus, als ob ein typischer vertikaler Abstand zwischen diesen Kurven über das Intervall von 0 bis 0,02 etwa 10 beträgt, während ein typischer Wert für das rote PDF etwa 1/2 beträgt. Somit sollte dieses Intervall allein etwa 10 · 0,02 / 2 = 0,1 zu den KL-Divergenzen addieren. Dies erklärt gerade den Unterschied von .067. Ja, es stimmt, dass die blauen Logarithmen für größere horizontale Werte weiter entfernt sind als die grünen Logs, aber die Unterschiede sind nicht so extrem und das rote PDF zerfällt schnell.

Kurz gesagt erklären extreme Unterschiede in den linken Schwänzen der blauen und grünen Verteilung für Werte zwischen 0 und 0,02, warum KL (rot, grün) KL (rot, blau) überschreitet.

Übrigens , KL (blau, rot) = 0,454776 und KL (grün, rot) = 0,254469.

Code

Geben Sie die Verteilungen an

  rot = GammaDistribution [1 / .85, 1]; grün = InverseGaussianDistribution [1, 1/3.]; blau = InverseGaussianDistribution [1, 1/5.];  

Berechne KL

  Lösche [kl]; (* Numerische Ganzzahl zwischen angegebenen Endpunkten. *) kl [pF_, qF_, l_, u_]: = Modul [{p, q}, p [x_]: = PDF [pF, x]; q [x_]: = PDF [qF, x]; NIntegrate [p [x] (Protokoll [p [x]] - Protokoll [q [x]]), {x, l, u}, Methode -> "LocalAdaptive"]]; (* Integration über die gesamte Domäne. * ) kl [pF_, qF_]: = Modul [{p, q}, p [x_]: = PDF [pF, x]; q [x_]: = PDF [qF, x]; Integriere [p [x] (Log [p [x]] - Log [q [x]]), {x, 0, \ [Unendlichkeit]}]; kl [rot, blau] kl [rot, grün] kl [blau, rot, 0, \ [Unendlichkeit]] kl [grün, rot, 0, \ [Unendlichkeit]]  

Machen Sie die Diagramme

  [Plot] löschen; Plot [{f_, u_, r_}]: = Plot [Auswerten [f [#, x] & / @ {blau, rot, grün}], {x, 0, u}, PlotStyle -> {{Dick, Dunkler [Blau]}, {Dick, Dunkler [Rot]}, {Dick, Dunkler [Grün]}}, PlotRange -> r, Ausschlüsse -> {0}, ImageSize -> 400]; Tabelle [Diagramm [f], {f, {{PDF, 4, {Voll, {0, 3}}}, {Protokoll [PDF [##]] &, 0.1, {Voll, Automatisch}}} }] // TableFormPlot [{Protokoll [PDF [rot, x]] - Protokoll [PDF [blau, x]], Protokoll [PDF [rot, x]] - Protokoll [PDF [grün, x]]}, {x , 0, 0.04}, PlotRange -> {Voll, Automatisch}, PlotStyle -> {{Dick, Dunkler [Blau]}, {Dick, Dunkler [Grün]}}  
Können Sie einen Link zur Mathematica-Quelle geben?
@Yaroslav Ich habe es am Ende hinzugefügt.
@Whuber: Wahou! Vielen Dank. Ich werde einen Kaffee zubereiten und mich dann auf Ihre Antwort konzentrieren!
@whuber +1, ausgezeichnete und detaillierte Antwort wie immer :)
@Whuber: Ich habe Ihre Antwort sorgfältig gelesen. Soweit ich weiß, ist die blaue Kurve tatsächlich näher an der roten als an der grünen Kurve, selbst wenn meine Augen mir das Gegenteil nahe legen. Der Weg, dies zu realisieren, besteht darin, die Logarithmen anstelle der Dichten selbst zu zeichnen. Richtig? Vielen Dank!
@Marco Ja. Es ist auch eine gute Idee, das PDF für die Dichte zu zeichnen, gegen die Sie integrieren (was Sie bereits für diese Frage getan haben). Es kann hilfreich sein, den Abschnitt "Grafische Momente" unter http://www.quantdec.com/envstats/notes/class_06/properties.htm zu lesen.
Der Logarithmus ist monoton.Das Vorzeichen des Verlaufs bleibt also zwischen dem Originaldiagramm und dem Protokolldiagramm unverändert.Dies ist jedoch nicht der Fall, wenn Sie Ihre ersten beiden Diagramme vergleichen.Ich gehe davon aus, dass der zweite Graph die kumulative Wahrscheinlichkeit ist.
@Hugh Sehen Sie sich die Skalen auf den horizontalen Achsen genauer an.
Oh, ich verstehe, Sie zeigen nur den am weitesten links stehenden Teil des Originaldiagramms?
#2
+12
Did
2011-02-02 23:23:44 UTC
view on stackexchange narkive permalink

KL-Divergenz misst, wie schwierig es ist, eine Verteilung mit einer anderen zu fälschen. Angenommen, Sie zeichnen einen i.i.d. Stichprobe der Größe $ n $ aus der roten Verteilung und dass $ n $ groß ist. Es kann vorkommen, dass die empirische Verteilung dieser Stichprobe die blaue Verteilung nachahmt. Dies ist selten, aber dies kann passieren, wenn auch mit einer Wahrscheinlichkeit, die verschwindend gering ist und sich wie $ \ mathrm {e} ^ {- nH} $ verhält. Der Exponent $ H $ ist die KL-Divergenz der blauen Verteilung in Bezug auf die rote.

Trotzdem frage ich mich, warum Ihre KL-Divergenzen in der Reihenfolge eingestuft werden, in der Sie sie angeben. P. >

+1. Vielleicht hängt das Ranking von der Reihenfolge ab, in der H berechnet wurde. Zum Beispiel könnte einer KL (grün, rot) und der andere KL (rot, blau) sein. Darüber hinaus kann das Schwanzverhalten einen tiefgreifenden Einfluss auf den Wert haben: Was wir wirklich sehen müssen, sind Diagramme der * Logarithmen * der Dichten, nicht der Dichten selbst.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...