Warum sollte die Bootstrap-Stichprobengröße der ursprünglichen Stichprobengröße entsprechen?

Andrew

2017-02-24 04:24:12 UTC

view on stackexchange narkive permalink

Wenn ich im Internet nach der Stichprobengröße von nach Boostrap-Stichproben suche, stelle ich im Allgemeinen fest, dass die Größe der ursprünglichen Stichprobengröße entsprechen sollte.Ich kann jedoch keine Erklärung dafür finden, warum dies der Fall sein sollte.

Inwiefern ist es schlecht, eine kleinere Stichprobengröße zu verwenden?
Ist es immer besser, eine größere Stichprobe zu verwenden?

Einige der Websites, die dies melden: http://www.stata.com/support/faqs/statistics/bootstrapped-samples-guidelines/ http://www2.stat.duke.edu/courses/Fall12/sta101.002/Sec3-34.pdf

Diese Websites enthalten auch die Antwort auf Ihre Frage.Können Sie klarstellen, warum Sie mit diesen Antworten nicht zufrieden sind?

@MaartenBuis Die Links sagen nur, dass wir es mit der ursprünglichen Stichprobengröße machen sollten, haben aber weder erklärt noch einen Beweis erbracht.

Im Kern versuchen Sie, etwas über das Verhalten eines Aspekts der Stichprobenverteilung einer interessierenden Statistik (z. B. eines Standardfehlers) * bei der Stichprobengröße, die Sie haben *, abzuleiten.

Zitat aus Ihrem ersten Link: "Die Standardfehlerschätzungen hängen jedoch von der Anzahl der Beobachtungen in jeder Replikation ab. Hier würden wir im Durchschnitt erwarten, dass die Varianzschätzung von _b [fremd] für eine Stichprobe von 37 doppelt so groß istBeobachtungen als die für 74 Beobachtungen. Dies ist hauptsächlich auf die Form der Varianz des Stichprobenmittelwerts s2 / n zurückzuführen. "

Wie man den Standardfehler des Mittelwerts mit dem Bootstrap schätzt und wie man sich etwas vormacht, wenn man Bootstrap-Beispiele mit einer anderen Größe als $ n $ zeichnet.

Bootstrap-Prinzip besteht darin, dass sich ein Bootstrap-Beispiel auf Ihr Beispiel bezieht, während sich Ihr Beispiel auf die Grundgesamtheit bezieht. Mit anderen Worten, Sie gehen davon aus, dass Ihre Stichprobe eine ziemlich gute Annäherung an die Grundgesamtheit darstellt und dass Sie sie als Proxy verwenden können. Sei $ x ^ {* b} $ das $ b $ -th Bootstrap-Beispiel und sei $ \ hat \ mu ^ * _ b $ der Mittelwert dieses Bootstrap-Beispiels. Die Bootstrap-Schätzung des Standardfehlers lautet: die Bootstrap-Schätzung des Standardfehlers einfach die Standardabweichung der Bootstrap-Statistik ist. Sie verwenden den Spread in den Bootstrap-Mitteln, um etwas über die Genauigkeit des Stichprobenmittelwerts zu sagen.

Jetzt booten wir, also behandeln wir die ursprüngliche Stichprobe als Population: Es handelt sich um eine diskrete Verteilung mit der Masse $ 1 / n $ an jedem Datenpunkt $ x_i $. Wir können so viele Proben daraus ziehen, wie wir wollen, und im Prinzip können wir sie so groß oder klein machen, wie wir wollen. Wenn wir ein Bootstrap-Beispiel mit einer Größe von $ n ^ * $ zeichnen und dessen Mittelwert $ \ hat \ mu ^ * $ schätzen, wissen wir, dass $ \ hat \ mu ^ * \ sim N (\ hat \ mu, s / \ sqrt { n ^ *}) $. For $ n ^ * = n $ ist die Standardabweichung Ihres Bootstrap-Mittelwerts genau die vom zentralen Grenzwert diktierte $ SEM $ für die ursprüngliche Stichprobe. Dies gilt nicht für andere $ n ^ * $.

Beispiel Wenn in diesem Beispiel $ n ^ * = n $ ist, ist die Stichprobe-Standardabweichung von $ \ {\ hat \ mu ^ * _ b \} $ eine gute Darstellung des korrekten Standardfehlers des Mittelwerts. Wenn Sie größere Bootstrap-Stichproben zeichnen, erhalten Sie wirklich gute Schätzungen des Stichprobenmittelwerts, aber their-Spread bezieht sich nicht mehr direkt auf den Standardfehler, den Sie versuchen, zu schätzen, da Sie deren Verteilung beliebig eng machen können.