Ich habe mich über Daten-Snooping informiert, und wie dies bedeuten kann, dass der Fehler innerhalb der Stichprobe keine gute Annäherung an den Fehler außerhalb der Stichprobe liefert.
Angenommen, wir erhalten einen Datensatz $ (x_1, y_1), (x_2, y_2), ..., (x_n, y_n) $ span>, den wir Zeichnen Sie und beobachten Sie eine scheinbar quadratische Beziehung zwischen den Variablen. Wir gehen also davon aus, dass $$ y_i = \ beta_0 + \ beta_1 x_i + \ beta_2 x_i ^ 2 + \ varepsilon, $$ span> Dabei ist $ \ varepsilon $ span> eine Variable, die Rauschen darstellt.
Schnüffeln diese Daten nicht? Wir haben die Daten unser Modell beeinflussen lassen. Welche Auswirkungen hat dies auf die Koeffizienten $ \ beta_0, \ beta_1, \ beta_2 $ span>, die wir finden? Können sie als zuverlässig angesehen werden, um zukünftige Vorhersagen mit verschiedenen Eingabevariablen zu treffen?
Ich frage, weil es unzählige Notizen / Artikel / Bücher / usw. zur Regression gibt, in denen empfohlen wird, die Daten zu betrachten und dann ein Modell auszuwählen, das so aussieht, als würde es gut zu den Daten passen. Zum Beispiel hat der Autor hier einige Daten, probiert ein lineares Modell aus und wechselt zu einem quadratischen Modell, das besser zu den Daten passt, wenn er es für unbefriedigend hält. In ähnlicher Weise hier diskutieren die Leute Protokolltransformationen, und das Originalplakat erhält die folgenden Ratschläge:
Wenn es keine Theorie gibt, die Sie leiten könnte, können Sie die grafische Untersuchung der Beziehung zwischen den Variablen oder Betrachtung von angepasst gegen beobachtet Diagramme in beide Richtungen zeigen Ihnen, welches Modell geeignet ist.
Wenn wir unser Modell auf eine Beobachtung der aufgezeichneten Daten stützen, schnüffeln diese Daten dann oder nicht? Wenn dies nicht der Fall ist, kann jemand eine Erklärung geben, warum dies kein Daten-Snooping ist?
Wenn es sich um Daten-Snooping handelt, dann:
- Welche Konsequenzen hat dies für die Leistung außerhalb der Stichprobe?
- Was sollten wir tun, um das Problem des Daten-Snooping in einem Regressionsmodell zu vermeiden / zu überwinden, damit wir eine gute Leistung außerhalb der Stichprobe erzielen? ol>