Frage:
Wie lautet die Formel von Silverman zur Berechnung der Bandbreite bei einer Schätzung der Kerneldichte?
ddalo
2011-01-28 21:37:17 UTC
view on stackexchange narkive permalink

Ich möchte eine bessere Bandbreite für meinen Kernel-Dichteschätzer berechnen, bei dem es sich um eine Epanechnikov handelt. Ich verwende die Silverman-Formel, die die Standardabweichung der Stichprobe, die Stichprobengröße und eine Konstante beinhaltet, aber in den meisten Fällen erhalte ich eine sehr glatte Kurve, und ich würde es vorziehen, wenn sie ausgewogener wäre. Vielen Dank für jede Hilfe, die Sie mir geben können.

Was genau ist Silvermans Formel?
Vier antworten:
#1
+10
onestop
2011-01-28 22:00:10 UTC
view on stackexchange narkive permalink

Um den manuellen Eintrag von Stata für kdensity schamlos zu zitieren:

Die optimale Breite ist die Breite, die die minimieren würde mittlerer integrierter quadratischer Fehler, wenn die Daten Gauß'sch und ein Gauß'scher Kernel verwendet wurden, ist dies in keinem globalen Sinne optimal. Tatsächlich ist diese Breite für multimodale und stark verzerrte Dichten normalerweise zu breit und glättet die Dichte (Silverman 1992).

Silverman, BW 1992. Dichteschätzung für Statistik und Datenanalyse . London: Chapman & Hall. ISBN 9780412246203

Die Formel Stata für die optimale Bandbreite $ h $ lautet:
$$ h = \ frac {0,9 m} {n ^ {1/5}} \ quad \ mbox {with } m = \ min \ left (\ sqrt {\ operatorname {Var} (X)}, \ frac {\ operatorname {IQR} (X)} {1.349} \ right), $$ wobei $ n $ die Anzahl von ist Beobachtungen zu $ ​​X $, $ \ operatorname {Var} (X) $ ist seine Varianz und $ \ operatorname {IQR} (X) $ sein Interquartilbereich.

Für alle anderen, die sich fragen, ist $ \ frac {\ operatorname {IQR} (X)} {1.349} $ das * F-Pseudosigma *.Dieser $ m $ -Wert ist weniger anfällig für Ausreißer als immer die Varianz zu verwenden.
#2
+6
csgillespie
2011-01-29 03:58:46 UTC
view on stackexchange narkive permalink

Ich habe vor einigen Monaten eine ähnliche Frage gestellt. Rob Hyndman lieferte eine ausgezeichnete Antwort, die die Sheather-Jones-Methode empfiehlt.

Ein zusätzlicher Punkt. In R legen Sie für die Funktion Dichte die Bandbreite explizit über das Argument bw fest. Ich finde jedoch oft, dass das Argument adjust hilfreicher ist. Das Argument adjust skaliert den Wert der Bandbreite. adjust = 2 bedeutet also die doppelte Bandbreite.

#3
+2
shabbychef
2011-01-29 01:00:01 UTC
view on stackexchange narkive permalink

Ich stimme @onestop zu, zitiere aber Wilcox, 'Einführung in die robuste Schätzung und das Testen von Hypothesen', 2. Auflage, Seite 50: $$ h = 1.06 \ frac {A} {n ^ {1/5}}, \ qquad A = \ min {\ left (s, \ frac {IQR (x)} {1.34} \ right)}, $$ wobei $ s $ die Standardabweichung der Stichprobe ist.

Die beiden Formeln sind im Wesentlichen gleich: 1,34 ist 1,349 abgerundet und 0,9 wurde auf 1,06 erhöht. Diese Änderung hat jedoch nur einen geringen Einfluss auf das Erscheinungsbild der Glätte. Daher können wir genauso gut erkennen, was vor sich geht, und eine einfachere Formel bereitstellen: ** Teilen Sie die kleinere von zwei Schätzungen der Standardabweichung durch die fünfte Wurzel der Anzahl der Beobachtungen. ** Die beiden Schätzungen sind die Standardabweichung der Stichprobe * s * und ein neu skalierter IQR (der für Normalverteilungen asymptotisch mit * s * übereinstimmt).
@whuber: Ja, tatsächlich sind die beiden Antworten bis zu einem Faktor von etwa 15% für jeden Datensatz gleich. Ich bin mir jedoch nicht sicher, ob der konstante Faktor vorne irrelevant ist!
Da diese Formeln nur annähernd sind und nur (a) asymptotisch und (b) für normalverteilte Daten optimale Eigenschaften aufweisen, ist ein Unterschied von 15% unerheblich. Denken Sie auch daran, dass sie nur im Sinne einer Reduzierung des mittleren quadratischen Fehlers "optimal" sind, was dazu führt, dass viel Glätte entsteht. Sie sind für andere Zwecke nicht unbedingt optimal. Aus diesem Grund sollte sich das OP frei fühlen, von solchen Empfehlungen abzuweichen: Sie sollten nur als Anfangswerte betrachtet werden.
#4
+1
user2964
2011-01-30 10:40:55 UTC
view on stackexchange narkive permalink

Normalerweise berechne ich die Plugin-Bandbreite nach der Silverman-Formel (h_p) und validiere sie dann im Bereich von [h_p / 5, 5h_p], um die optimale Bandbreite zu finden. Diese Kreuzvalidierung kann entweder durch Verwendung einer Kreuzvalidierung mit kleinsten Quadraten oder durch Kreuzvalidierung mit einer Wahrscheinlichkeit ohne Auslassung erfolgen.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...