Frage:
Varianz des Durchschnitts von $ n $ korrelierten Zufallsvariablen
OmegaD
2019-02-10 20:58:29 UTC
view on stackexchange narkive permalink

Als ich über tiefes Neigen las, stieß ich auf die folgende Formel.

$$ \ mbox {var} \ left (\ frac {1} {n} \ sum_ {i = 1} ^ {n} X_i \ right) = \ rho \Sigma ^ 2 + \ frac {1- \ rho} {n} \ Sigma ^ 2 $$ span>

wobei $ X_1, \ dots, X_n $ span> identisch verteilte Zufallsvariablen mit sind paarweise Korrelation $ \ rho > 0 $ span> und Varianz $ \ mbox {var} (X_i) = \ sigma ^ 2 $ span>.

  1. Wie kann man das ableiten?
  2. Wie verringert die Bootstrap-Aggregation den Effekt einer Überanpassung gemäß dieser Formel?Was ist die Beziehung?
  3. ol>
Einer antworten:
gunes
2019-02-10 21:59:53 UTC
view on stackexchange narkive permalink

Per Definition haben wir

$$ \ operatorname {var} \ left (\ sum_ {i = 1} ^ n {X_i} \ right) = \ operatorname {cov} \ left (\ sum_ { i = 1} ^ n {X_i}, \ sum_ {i = 1} ^ n {X_i} \ right) = \ sum_ {i = 1} ^ n {\ operatorname {var} (X_i)} + \ sum_ {i \ neq j} \ operatorname {cov} (X_i, X_j) $$ span>

ist $ n \ operatorname {var} (X_i) + n (n-1) \ operatorname {cov} (X_i, X_j) = n \ sigma ^ 2 + n (n-1) \ rho \ sigma ^ 2 $ span>, wobei $ i \ neq j $ span>. Wenn Sie dies in die ursprüngliche Gleichung einsetzen, erhalten Sie Folgendes:

$$ \ operatorname {var} \ left (\ frac {1} {n} \ sum_ {i = 1} ^ nX_i \ right) = \ frac {1} { n ^ 2} (n \ sigma ^ 2 + n (n-1) \ rho \ sigma ^ 2) = \ rho \ sigma ^ 2 + \ frac {1- \ rho} {n} \ sigma ^ 2 $$

Jeder $ X_i $ span> kann als ein einzelner Entscheidungsmechanismus betrachtet werden, nennen wir ihn DM (z. B. Regressor). Die Varianz Ihrer Entscheidung war $ \ sigma ^ 2 $ span>. Wenn Sie Bootstrap-Beispiele verwenden und die Ausgaben Ihrer DMs aggregieren, erhalten Sie eine Entscheidungsvarianz wie oben, die streng kleiner ist als $ \ sigma ^ 2 $ span>, wenn $ \ rho \ neq 1 $ span> und $ n \ neq 1 $ span>. DMs weisen natürlich einen gewissen Grad an Korrelation auf, da sie über Bootstrap-Samples trainiert werden, die aus demselben Basisdatensatz stammen. Die Korrelation zwischen ihnen wird jedoch höchstwahrscheinlich nicht gleich $ 1 $ span> sein. Überangepasste Mechanismen weisen im Allgemeinen eine große Varianz auf. Wenn Sie also darauf abzielen, die Varianz Ihres DM zu verringern, lösen Sie das Problem der impliziten Überanpassung tatsächlich.

Fantastisch!Vielen Dank für Ihre Antwort.Kurze Frage, aus dem Term $ n var (X_i) + n (n-1) cov (X_i, X_j) $ n und n-1 stammen.Entschuldigung, wenn es zu offensichtlich ist.
@OmegaD Es gibt $ n ^ 2 $ Paare von $ i, j $, wobei $ n $ von ihnen $ i = j $ und $ n ^ 2-n = n (n-1) $ von ihnen $ i \ habenneq j $.
@gunes Dies ist eine großartige Antwort. Können Sie bitte [meine Frage] beantworten (https://stats.stackexchange.com/questions/459216/shouldnt-we-take-absolute-values-when-or-sign-indicates-only-Richtung-nicht) auch.
Ich weiß, dass $ \ rho \ geq -1 / (B-1) $, aber das bedeutet nicht, dass $ \ rho> 0 $ im Buch angegeben ist?Angenommen, wir haben $ B = 3 $. Wir haben, dass $ \ rho $ die Werte $ -0,5 $ annehmen kann, ohne etwas zu verletzen.Wie kommt es, dass der Beweis nur für $ \ rho \ geq 0 $ ist?
@CutePoison wird im OP $ \ rho> 0 $ angenommen und mein Beweis basiert auf dieser Annahme.Ich weiß nicht, in welchem Buch es sich befindet. Wenn Sie also den Link teilen können, kann ich ihn zumindest lesen und kommentieren.
Ich kämpfe um zu sehen;Wo ist die Verwendung der Annahme, dass $ \ rho> 0 $?
Ich habe mich schlecht auf "das Buch" bezogen (ich habe einfach vergessen, es hinzuzufügen), aber es liegt in "den Elementen des statistischen Lernens".


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...