Frage:
Benötigen wir Hypothesentests, wenn wir die gesamte Bevölkerung haben?
Siddhi Kiran Bajracharya
2020-07-21 09:27:12 UTC
view on stackexchange narkive permalink

Soweit ich weiß, werden Hypothesentests durchgeführt, um festzustellen, ob ein Befund in der Stichprobenpopulation statistisch signifikant ist.Aber wenn ich Volkszählungsdaten habe, brauchen wir wirklich Hypothesentests?

Ich dachte, ich sollte möglicherweise mehrere Zufallsstichproben aus den Volkszählungsdaten durchführen und prüfen, ob es ein zufälliges Verhalten gibt.

Nein, es gibt keine Hypothesentests, wenn Sie die gesamte Bevölkerung haben. Es ist genau so, wie die Daten zeigen.Ob das "bedeutend" ist, liegt bei Ihnen zu entscheiden.
Sie können jedoch statistische Ideen verwenden, um die Daten zusammenzufassen oder grafisch darzustellen.
Wie viele Volkszählungen haben vollkommen genaue Daten?
Wie groß sind Ihre Daten?Dies könnte relevant sein [Praktische Bedeutung] (https://online.stat.psu.edu/stat200/lesson/6/6.4#:~:text=Practical%20significance%20refers%20to%20the,may%20depend%20on%20der% 20Kontext.)
Überprüfen Sie die Randomisierungsinferenz.Es ist ein Paradebeispiel für statistische Inferenz, bei der es nicht um Stichproben aus einer größeren Population von Personen geht, sondern um Stichproben möglicher Behandlungszuordnungen, die auf dieselbe Gruppe von Personen angewendet werden, sei es eine Population oder eine Stichprobe.
Angenommen, ich habe zuverlässige Maßnahmen für * jeden * Einwohner aller 50 Vereinigten Staaten.Angenommen, ich habe diese Maßnahmen für jedes Jahr beispielsweise bis 1962. ** Ich benötige immer noch statistische Rückschlüsse, da ich in diesen (und zukünftigen) US-Bundesstaaten keine Maßnahmen für * zukünftige * Jahre * habe.und es ist mir wichtig, zukünftige Erfahrungen vorherzusagen oder zu erklären. (Natürlich ist die statistische Inferenz nicht auf p-Werte beschränkt, aber der Punkt gilt immer noch.)
Sieben antworten:
Sergio
2020-07-21 11:36:44 UTC
view on stackexchange narkive permalink

Es hängt alles von Ihrem Ziel ab.

Wenn Sie wissen möchten, wie viele Menschen rauchen und wie viele Menschen an Lungenkrebs sterben, können Sie sie einfach zählen. Wenn Sie jedoch wissen möchten, ob Rauchen das Risiko für Lungenkrebs erhöht, benötigen Sie statistische Rückschlüsse.

Wenn Sie die Bildungsergebnisse von Schülern kennen möchten, können Sie sich nur die vollständigen Daten ansehen. Wenn Sie jedoch die Auswirkungen des familiären Hintergrunds und der geistigen Fähigkeiten von Schülern auf ihre späteren Bildungsergebnisse kennen möchten, benötigen Sie statistische Rückschlüsse .

Wenn Sie das Einkommen der Arbeitnehmer wissen möchten, können Sie sich nur die Daten der Volkszählung ansehen. Wenn Sie jedoch die Auswirkungen des Bildungsabschlusses auf das Einkommen untersuchen möchten, benötigen Sie statistische Rückschlüsse (weitere Beispiele finden Sie in Morgan & Winship, Kontrafakten und kausale Folgerungen: Methoden und Prinzipien der Sozialforschung .)

Wenn Sie nur nach zusammenfassenden Statistiken suchen, um die größtmögliche Menge an Informationen so einfach wie möglich zu kommunizieren, können Sie einfach zählen, summieren, teilen, zeichnen usw.

Wenn Sie jedoch vorhersagen möchten, was passieren wird, oder verstehen möchten, was was verursacht, benötigen Sie statistische Schlussfolgerungen: Annahmen, Paradigmen, Schätzungen, Hypothesentests, Modelle Validierung usw.

Gute Antwort, aber ich würde argumentieren, dass Sie in Fällen, in denen Sie versuchen, Vorhersagen zu generieren oder ein Kausalmodell zu entwickeln, diese normalerweise auf unsichtbare Daten anwenden. Dies sind also nicht die Fälle, in denen Sie "die gesamte Bevölkerung" haben.Das Generieren von "Vorhersagen" für Daten, bei denen Sie die Antwort bereits kennen, ist eine rein akademische Übung - dies wird in der Praxis nur durchgeführt, wenn es unsichtbare Mitglieder der Bevölkerung gibt.Ob Rauchen mit Lungenkrebs assoziiert ist, ist vor allem deshalb interessant, weil wir auf unsichtbare Mitglieder der Bevölkerung mit unbekanntem Krebsstatus schließen können.
Würden Sie voraussagen, was bereits in den Dingen geschehen ist, die Rückschlüsse erfordern?Angenommen, ich habe eine Umsatzbevölkerung, die auf $ t = 0 $ zurückgeht.Ich versuche zu entscheiden, ob die heutigen Verkäufe angesichts dieser Geschichte niedrig sind.Würde ich Rückschlüsse brauchen, um diese rein beschreibende, nicht kausale Frage zu beantworten?
@DimitriyV.Masterov Was bedeutet "niedrig"?Es ist keine rein beschreibende Frage.Und es gibt prädiktive und kausale Fragen.Wenn "niedrig" "weniger als erwartet" bedeutet, hätte ich höhere Umsätze vorhersagen sollen, und Vorhersage ist keine Beschreibung.
Für mich bedeutet "niedrig" im linken Ende eines Vorhersageintervalls für die heutigen Daten, was Versprechungen hinsichtlich der Abdeckung macht.Dies scheint mir nicht kausal zu sein, und es ist nicht gerade eine Vorhersage über die Zukunft.
Angesichts der Tatsache, dass OP über Volkszählungsdaten verfügt, können wir den Schluss ziehen, dass die "Stichprobe" groß ist. Wenn sie groß ist, sind Hypothesentests wahrscheinlich sinnlos, da alle Ergebnisse wahrscheinlich hoch signifikant sind (der Punkt von praktischer Bedeutung).
@NuclearWang: Oder aus einer anderen Perspektive ist unsere Bevölkerung (im statistischen Sinne) nicht die aktuelle Bevölkerung (im demografischen Sinne), sondern alle möglichen zukünftigen Populationen (demografisch) unter bestimmten Voraussetzungen (wie gleicher Tabakkonsum).
Ich denke, diese Antwort wäre noch besser, wenn eine angemessenere Definition der statistischen Population aufgenommen würde, wie es @Wrzlprmft gibt.Der Punkt ist, dass es tatsächlich unmöglich ist, die gesamte statistische Grundgesamtheit in Ihren Beispielen zu haben, wenn Sie nicht alle Daten am Ende der Zeit aufgezeichnet haben.
@Fnguyen Es ist sehr einfach: Ich kann Vorhersagen oder Kausalmodelle auf unsichtbare Daten anwenden, aber dies geschieht, weil ich kann.Sie können Ursachen nicht vorhersagen oder suchen, indem Sie lediglich Daten zusammenfassen.Zusammenfassungsstatistiken können nicht auf unsichtbare Daten angewendet werden.Sie benötigen statistische Inferenz.Und statistische Inferenz basiert immer auf verfügbaren Daten, nicht auf zukünftigen, unbekannten Daten :)
@Sergio Ich verstehe voll und ganz, dass ich nur hinzugefügt habe, dass Ihre Antwort noch besser wäre, wenn Sie die Definition der Bevölkerung hinzufügen würden.OP fragt sich grundsätzlich, warum die "Bevölkerungsdaten" (wie bei der Volkszählung) unsichtbare Daten enthalten, die nicht die statistische Bevölkerung sind.Ihre Antwort erklärt sehr gut den Unterschied zwischen Zusammenfassung und Interferenz, aber nicht, warum wir immer noch Interferenz benötigen, selbst wenn wir die gesamte (demografische) Bevölkerung untersuchen.Sie müssen es mir also nicht noch einmal erklären, sondern nur einen Vorschlag, um Ihre Antwort zu verbessern.
@Fnguyen mag sein, aber "es ist tatsächlich unmöglich, die gesamte statistische Grundgesamtheit in Ihren Beispielen zu haben, wenn Sie nicht alle Daten zum Ende der Zeit aufgezeichnet haben" macht für mich keinen Sinn :)
@Sergio nehmen Sie Ihr Beispiel für Rauchen und Krebs.Warum gibt es überhaupt unsichtbare Daten?Weil die "Bevölkerung" nicht jeder ist, der jetzt lebt, sondern jeder Raucher, der jemals bis zum Ende der Zeit gelebt hat oder jemals leben wird.Wenn wir diese Daten tatsächlich hätten, würden wir keine Netzstörungen verursachen, wir hätten wirklich die gesamte Bevölkerung und daher wäre eine zusammenfassende Statistik alles, was wir brauchen würden.Da wir keine Eingriffe benötigen, müssen wir Entscheidungen treffen, wie wir am besten mit statistischer Unsicherheit umgehen und wie wir unsichtbare Daten vorhersagen können.
@Fnguyen Sie können eine ständige Korrelation zwischen Rauchen und Lungenkrebs sehen, aber das wäre keine Ursache, da es möglicherweise eine verwirrende Variable gibt (Fisher's Einwand).Ich kann dir nicht zustimmen.Es tut uns leid.
@Sergio Fair genug, um dies an dieser Stelle zu stoppen, aber es fällt mir schwer zu sehen, dass Sie mich nicht verstehen, da ich Ihnen zu 100% zustimme und nur einen anderen Aspekt hinzufüge, den Sie bei der Erklärung dessen, was OP nicht versteht, nicht berücksichtigt haben.
Ich habe eine Antwort gepostet, die meinen Gedankengang erweitert (CC @Fnguyen).
"Wenn Sie wissen möchten, wie viele Menschen rauchen und wie viele Menschen an Lungenkrebs sterben, können Sie sie einfach zählen. Wenn Sie jedoch wissen möchten, ob Rauchen das Risiko für Lungenkrebs erhöht, benötigen Sie statistische Rückschlüsse."Bitte beachten Sie, dass der Grund dafür ist, dass Sie diese Ergebnisse wahrscheinlich verwenden möchten, um in Zukunft über eine andere Population zu sprechen, und dass Sie die aktuelle Population als Stichprobe für die Population "aller potenziellen Menschen, die existieren könnten" verwenden.
Wrzlprmft
2020-07-23 13:05:59 UTC
view on stackexchange narkive permalink

Um meine Punkte zu veranschaulichen, gehe ich davon aus, dass jeder gefragt wurde, ob er Star Trek oder Doctor Who bevorzugt, und einen von ihnen auswählen muss (es gibt keinen neutralen Punkt) Möglichkeit). Nehmen wir zur Vereinfachung auch an, dass Ihre Volkszählungsdaten tatsächlich vollständig und genau sind (was selten der Fall ist).

Es gibt einige wichtige Vorbehalte zu Ihrer Situation:

  1. Ihre demografische Bevölkerung ist selten Ihre statistische Bevölkerung. Tatsächlich kann ich mir kein einziges Beispiel vorstellen, bei dem es sinnvoll ist, die Art von Fragen zu stellen, die durch statistische Tests zu einer statistischen Bevölkerung beantwortet werden, bei der es sich um eine demografische Bevölkerung handelt.

    Angenommen, Sie möchten ein für alle Mal die Frage klären, ob Star Trek oder Doctor Who besser ist, und Sie definieren besser über die Präferenz aller zum Zeitpunkt der Volkszählung lebenden Personen. Sie finden, dass 1234567 Menschen Star Trek und 1234569 bevorzugen Doctor Who. Wenn Sie dieses Urteil so akzeptieren möchten, wie es ist, ist kein statistischer Test erforderlich.

    Wenn Sie jedoch herausfinden möchten, ob dieser Unterschied die tatsächliche Präferenz widerspiegelt oder erklärt werden kann, indem Sie unentschlossene Personen dazu zwingen, eine zufällige Auswahl zu treffen. Beispielsweise können Sie jetzt das Nullmodell untersuchen, das zufällig zwischen den beiden ausgewählt wird, und feststellen, wie extrem ein Unterschied von 2 für Ihre demografische Bevölkerungsgröße ist. In diesem Fall ist Ihre statistische Bevölkerung nicht Ihre demografische Bevölkerung, sondern das aggregierte Ergebnis einer unendlichen Anzahl von Volkszählungen, die für Ihre aktuelle demografische Bevölkerung durchgeführt wurden.

  2. Wenn Sie Daten zur Bevölkerungsgröße einer Verwaltungsregion mit angemessener Größe und für die normalerweise von ihr beantworteten Fragen haben, sollte sich you auf die Effektgröße konzentrieren, nicht auf die Signifikanz.

    Zum Beispiel gibt es keine praktischen Auswirkungen darauf, ob Star Trek mit einem kleinen Vorsprung besser ist als Doctor Who , aber Sie möchten entscheiden, wie viel Zeit dafür benötigt wird Zuteilung zu den Shows im nationalen Fernsehen. Wenn 1234567 Personen Star Trek und 1234569 Personen Doctor Who bevorzugen, würden Sie sich dafür entscheiden, beiden die gleiche Bildschirmzeit zuzuweisen, unabhängig davon, ob dieser winzige Unterschied statistisch signifikant ist oder nicht.

    Nebenbei bemerkt, wenn Sie sich für die Effektgröße interessieren, möchten Sie vielleicht die Fehlerquote kennen, und dies kann tatsächlich durch eine Zufallsstichprobe bestimmt werden, auf die Sie in Ihrer Frage anspielen, nämlich Bootstrapping.

  3. Us demografische Populationen führen tendenziell zu Pseudoreplikation. Ihr typischer statistischer Test geht von nicht korrelierten Stichproben aus. In einigen Fällen können Sie diese Anforderung vermeiden, wenn Sie über gute Informationen zur Korrelationsstruktur verfügen und ein darauf basierendes Nullmodell erstellen. Dies ist jedoch eher die Ausnahme. Stattdessen vermeiden Sie bei kleineren Stichproben korrelierte Stichproben, indem Sie explizit vermeiden, zwei Personen aus demselben Haushalt oder ähnlichem zu befragen. Wenn Ihre Stichprobe die gesamte demografische Bevölkerung umfasst, können Sie dies nicht tun und haben daher zwangsläufig Korrelationen. Wenn Sie sie dennoch als unabhängige Stichproben behandeln, begehen Sie eine Pseudoreplikation.

    In unserem Beispiel kommen Menschen nicht unabhängig voneinander zu einer Präferenz für Star Trek oder Doctor Who , sondern werden von ihren Eltern, Freunden, Partnern usw. beeinflusst. und ihre Schicksale stimmen überein. Wenn die Matriarchin eines populären Clans Doctor Who bevorzugt, wird dies viele andere Menschen beeinflussen und somit zu einer Pseudoreplikation führen. Oder wenn vier Fans bei einem Autounfall auf dem Weg zu einer Star Trek -Konvention, einem Boom oder einer Pseudoreplikation getötet werden.

  4. ol>

    Um dies aus einer anderen Perspektive zu betrachten, betrachten wir ein anderes Beispiel, das das zweite und dritte Problem so weit wie möglich vermeidet und etwas praktischer ist: Angenommen, Sie sind verantwortlich für ein Wildreservat mit den einzigen verbliebenen rosa Elefanten der Welt. Wenn rosa Elefanten auffallen (raten Sie, warum sie gefährdet sind), können Sie leicht eine Volkszählung durchführen. Sie bemerken, dass Sie 50 weibliche und 42 männliche Elefanten haben und fragen sich, ob dies auf ein echtes Ungleichgewicht hinweist oder durch zufällige Schwankungen erklärt werden kann. Sie können einen statistischen Test mit der Nullhypothese durchführen, dass das Geschlecht von rosa Elefanten zufällig (mit gleicher Wahrscheinlichkeit) und unkorreliert (z. B. keine monozygoten Zwillinge) ist. Aber auch hier ist Ihre statistische Population nicht Ihre ökologische Population, sondern alle rosa Elefanten, die jemals im Multiversum waren, dh sie enthält unendliche hypothetische Replikationen des Experiments, Ihr Wildreservat ein Jahrhundert lang zu betreiben (Details hängen vom Umfang Ihrer wissenschaftlichen Frage ab ).

Vielen Dank, dass Sie diese Erklärung und Perspektive hinzugefügt haben!Ich denke, das bringt die Verwirrung von OP perfekt auf den Punkt, warum es nicht ausreicht, die "Bevölkerung" zu haben.
Klingt alles gut, aber - was ist mit New Who vs. Old Who?
@HagenvonEitzen: Aufgrund der Altersabhängigkeit wird es kompliziert, und ich bin mir nicht sicher, ob Elizabeth Mountbatten-Windsors Präferenz dafür bekannt ist.
+1 für Ihren Punkt (1).Statistische Bevölkerung bedeutet "die Bevölkerung aller möglichen Amerikaner", nicht nur die begrenzte Anzahl von Amerikanern, die zufällig existieren (EDIT: Hoppla, ich nahm an, dass das OP aus den USA stammt.
@MichaelReid In Volkszählungsdaten haben Sie tatsächlich die begrenzte Anzahl von Amerikanern, die zufällig existieren.Statistische Inferenz erfordert "die Bevölkerung aller möglichen Amerikaner", da sie nicht nur Daten zusammenfasst, sondern tendenziell Inferenzen zieht, die auf unsichtbare Daten angewendet werden können.Zum Beispiel: Wie viele Leute werden Star Trek bevorzugen?
zbicyclist
2020-07-22 00:07:32 UTC
view on stackexchange narkive permalink

Lustig.Ich habe Kunden jahrelang erklärt, dass es in Fällen mit echten Volkszählungsinformationen keine Varianz gibt und daher die statistische Signifikanz bedeutungslos ist.

Beispiel: Wenn ich Daten aus 150 Geschäften in einer Supermarktkette habe, die besagen, dass 15000 Fälle von Cola und 16000 Fälle von Pepsi in einer Woche verkauft wurden, können wir definitiv sagen, dass mehr Fälle von Pepsi verkauft wurden.[Möglicherweise liegt ein Messfehler vor, jedoch kein Stichprobenfehler.]

Aber, wie @Sergio in seiner Antwort bemerkt, möchten Sie vielleicht eine Schlussfolgerung.Ein einfaches Beispiel könnte sein: Ist dieser Unterschied zwischen Pepsi und Coke größer als normalerweise?Dazu würden Sie die Variation der Verkaufsdifferenz gegenüber der Verkaufsdifferenz in den vergangenen Wochen betrachten und ein Konfidenzintervall zeichnen oder einen statistischen Test durchführen, um festzustellen, ob diese Differenz ungewöhnlich war.

Es gibt immer noch Fehler, aber jeder Fehler ist systematisch.Die CLT hängt davon ab, dass der Fehler einigermaßen unabhängig ist. Daher ist die Modellierung systematischer Fehler als Gaußscher Fehler problematisch.Manchmal ist das Zipf-Gesetz genauer.
Lukas McLengersdorff
2020-07-21 13:42:40 UTC
view on stackexchange narkive permalink

In typischen Anwendungen des Hypothesentests haben Sie nicht Zugriff auf die gesamte interessierende Population, möchten jedoch Aussagen zu den Parametern treffen, die die Verteilung der Daten in der Population steuern (Mittelwert, Varianz, Korrelation, ...). .). Anschließend nehmen Sie eine Stichprobe aus der Population und prüfen, ob die Stichprobe mit der Hypothese kompatibel ist, dass der Populationsparameter ein vordefinierter Wert ist (Hypothesentest), oder Sie schätzen den Parameter aus Ihrer Stichprobe (Parameterschätzung).

Wenn Sie jedoch wirklich die gesamte Bevölkerung haben, sind Sie in der seltenen Position, dass Sie direkten Zugriff auf die wahren Bevölkerungsparameter haben - zum Beispiel ist der Bevölkerungsdurchschnitt nur der Mittelwert aller Werte der Bevölkerung. Dann müssen Sie keine weiteren Hypothesentests oder Schlussfolgerungen durchführen - der Parameter ist genau das, was Sie haben.

Natürlich sind Situationen, in denen Sie wirklich Daten aus der gesamten interessierenden Bevölkerung haben, außergewöhnlich selten und meist auf Lehrbuchbeispiele beschränkt.

David
2020-07-23 13:21:56 UTC
view on stackexchange narkive permalink

Nehmen wir an, Sie messen die Körpergröße in der aktuellen Weltbevölkerung und möchten die männliche und weibliche Körpergröße vergleichen.

Um die Hypothese zu überprüfen, dass die durchschnittliche männliche Größe für heute lebende Männer höher ist als für heute lebende Frauen, können Sie einfach jeden Mann und jede Frau auf dem Planeten messen und die Ergebnisse vergleichen.Wenn die männliche Größe trotz einer Billionen-mal größeren Standardabweichung im Durchschnitt 0,0000000000000001 cm größer ist, hat sich Ihre Hypothese als richtig erwiesen.

Eine solche Schlussfolgerung ist jedoch in der Praxis wahrscheinlich nicht sinnvoll.Da Menschen ständig geboren werden und sterben, interessiert Sie wahrscheinlich nicht die aktuelle Bevölkerung, sondern eine abstraktere Bevölkerung von "potenziell existierenden Menschen" oder "allen Menschen in der Geschichte", von der Sie heute Menschen als Beispiel nehmen.Hier müssen Sie Hypothesen testen.

LiKao
2020-07-23 13:36:43 UTC
view on stackexchange narkive permalink

Ich wäre sehr vorsichtig mit jemandem, der behauptet, Wissen über die gesamte Bevölkerung zu haben. Es gibt viel Verwirrung darüber, was dieser Begriff in einem statistischen Kontext bedeutet, was dazu führt, dass Menschen behaupten, sie hätten die gesamte Bevölkerung, wenn sie dies tatsächlich nicht tun. Und wo die gesamte Bevölkerung bekannt ist, ist der wissenschaftliche Wert nicht klar.

Angenommen, Sie möchten herausfinden, ob Hochschulbildung in den USA zu einem höheren Einkommen führt. So erhalten Sie 2015 das Bildungsniveau und das Jahreseinkommen jeder Person in den USA. Das ist Ihre demografische Bevölkerung.

Aber das ist es nicht. Die Daten stammen aus dem Jahr 2015, aber die Frage betraf die Beziehung im Allgemeinen. Die tatsächliche Bevölkerung wäre die Daten von jeder Person in den USA in jedem Jahr in der Vergangenheit und noch zu kommen. Es gibt keine Möglichkeit, jemals Daten für diese statistische Grundgesamtheit abzurufen.

Wenn Sie sich auch die Definition einer Theorie ansehen, die z. von Popper geht es dann in einer Theorie darum, etwas Unbekanntes vorherzusagen. Das heißt, Sie müssen verallgemeinern. Wenn Sie eine vollständige Bevölkerung haben, beschreiben Sie lediglich diese Bevölkerung. Das mag in einigen Bereichen relevant sein, aber in theoretisch gesteuerten Bereichen hat es nicht viel Wert.

In der Psychologie gab es einige Forscher, die dieses Missverständnis zwischen Bevölkerung und Stichprobe missbraucht haben. Es gab Fälle, in denen Forscher behaupteten, dass ihre Stichprobe die tatsächliche Population ist, d. H. Die Ergebnisse gelten nur für diejenigen Personen, die in die Stichprobe einbezogen wurden, und daher ist ein Versagen bei der Replikation der Ergebnisse nur auf die Verwendung einer anderen Population zurückzuführen. Schöner Ausweg, aber ich weiß wirklich nicht, warum ich einen Artikel lesen sollte, der nur eine Theorie über eine kleine Anzahl anonymer Personen enthält, denen ich wahrscheinlich nie begegnen werde und die möglicherweise nicht auf andere anwendbar ist.

markowitz
2020-08-27 19:08:00 UTC
view on stackexchange narkive permalink

Lassen Sie mich zu den obigen guten Antworten etwas hinzufügen. Einige von ihnen befassen sich hauptsächlich mit dem Problem der Zuverlässigkeit der Erkrankung „die gesamte Bevölkerung haben“, wie die akzeptierte, und verwandten praktischen Punkten. Ich schlage eine theoretischere Perspektive vor, die sich auf die Antwort von Sergio bezieht, aber nicht gleich ist.

Wenn Sie sagen, dass Sie „die gesamte Bevölkerung haben“, konzentriere ich mich auf den Fall, in dem die Bevölkerung endlich ist. Ich betrachte im Folgenden auch den Fall unendlicher Daten. Ein anderer Aspekt scheint mir ebenfalls relevant zu sein. Bei den Daten handelt es sich nur um eine Variable (Fall 1) oder es werden mehrere Variablen erfasst (Fall 2): ​​

  1. Wenn es sich bei den Daten um eine Variable handelt, können Sie alle gewünschten Momente und Indikatoren perfekt berechnen. Außerdem kennen / sehen Sie durch Zeichnen die genaue Verteilung. Beachten Sie, dass endliche Daten bei kontinuierlicher Variable kaum perfekt zu einer parametrischen Verteilung passen. Wenn die Daten unendlich sind, können im Idealfall alle falschen Verteilungen durch einen Test definitiv zurückgewiesen werden, und nur die richtige wird nicht zurückgewiesen (der Test kann nur dann nützlich bleiben, wenn durch Zeichnen etwas verloren gehen kann). In diesem Fall können auch Parameter perfekt berechnet werden. Das Testen von Hypothesen über die Zuverlässigkeit einer statistischen Größe (ihre richtige Bedeutung) wird sinnlos.

  2. Wenn mehrere Variablen erfasst werden, gelten die obigen Überlegungen, es muss jedoch eine weitere hinzugefügt werden. In einer rein beschreibenden Situation wie in Fall 1 ist zu beachten, dass multivariate Konzepte wie Korrelationen und andere Abhängigkeitsmetriken perfekt bekannt werden.

    Ich mag jedoch keine Beschreibung im multivariaten Fall, da meiner Erfahrung nach jedes multivariate Maß, vor allem die Regression, dazu führt, über eine Art von Effekt nachzudenken, der mehr mit Kausalität und zu tun hat / oder Vorhersage als Beschreibung (siehe: Regression: Ursache vs. Vorhersage vs. Beschreibung). Wenn Sie die Daten zur Beantwortung kausaler Fragen verwenden möchten, ist die Tatsache, dass Sie die gesamte Bevölkerung kennen (genaue gemeinsame Verteilung), keine Garantie. Kausale Effekte, die Sie versuchen können, mit Ihren Daten durch Regression oder andere Metriken zu messen, können völlig falsch sein. Die Standardabweichung dieser Effekte ist $ 0 $ span>, aber eine Verzerrung kann bestehen bleiben.

    Wenn Ihr Ziel die Vorhersage ist, wird die Frage etwas komplizierter. Wenn die Bevölkerung endlich ist, bleibt nichts vorherzusagen. Wenn die Daten unendlich sind, können Sie nicht alle haben. Lassen Sie mich aus rein theoretischer Sicht im Regressionsfall bleiben. Sie können über eine unendliche Datenmenge verfügen, mit der Sie die Parameter berechnen (mehr als schätzen) können. So können Sie einige neue Daten vorhersagen. Welche Daten Sie haben, ist jedoch noch wichtig. Es kann gezeigt werden, dass bei einer unendlichen Datenmenge das beste Vorhersagemodell mit dem wahren Modell (Datenerzeugungsprozess) übereinstimmt, wie in der Kausalfrage (siehe Referenz im vorherigen Link). Dann kann Ihr Vorhersagemodell weit vom besten entfernt sein. Wie zuvor ist die Standardabweichung $ 0 $ span>, aber eine Verzerrung kann bestehen bleiben.

  3. ol>
Sie sprechen ziemlich viel über den Fall unendlicher Daten.Wie ist das jemals relevant?Offensichtlich können Sie nicht unendlich viele Proben sammeln.
Ich konzentrierte mich hauptsächlich auf den endlichen Fall, dann auch auf den unendlichen Fall;Es gibt mehrere nützliche Links.Ich habe mich auf theoretische Grundlagen konzentriert, auch wenn mehrere Praxisvorschläge zu finden sind.„Wie ist das jemals relevant?Offensichtlich können Sie nicht unendlich viele Samples sammeln. “Dieser Satz klingt wie„ der Fall von Samples mit unendlicher Dimension ist nicht relevant “.Ich stimme dir nicht zu.Offensichtlich können wir in der Praxis niemals unendlich viele Daten sammeln.Diese Tatsache schließt jedoch jede Nützlichkeit der Argumentation über den Fall von Proben unendlicher Dimension aus?
Tatsächlich befasst sich die gesamte asymptotische Theorie mit ihnen.Asymptotische Ergebnisse geben uns die Möglichkeit zu verstehen, was in großen Proben passiert ist.Zu sagen, wie groß diese Stichproben in der Praxis sein sollten, um die Zuverlässigkeit eines bestimmten Ergebnisses zu klären, ist eine andere Frage.Noch allgemeiner ist das Konzept der „Unendlichkeit“, auch wenn nur das Theoretische weitgehend verwendet wird und in der Wissenschaft sehr nützlich ist.
Ich bestreite nicht die Nützlichkeit des Konzepts der Unendlichkeit im Allgemeinen (tatsächlich habe ich [eine Antwort darauf] geschrieben (https://math.stackexchange.com/a/1888971/65502)).Mein Problem ist vielmehr, dass Ihre Antwort nicht klar macht, wie sich Ihre Erkenntnisse für den unendlichen Fall auf die Realität sehr großer Stichprobengrößen übertragen lassen.Darüber hinaus scheinen einige Ihrer Erkenntnisse diese Übersetzung nicht zu überleben.
Meine Antwort bezieht sich auf theoretische Punkte, die informell analysiert wurden.In wenigen Worten sagte ich, dass auf Bevölkerungsebene Präzisionsprobleme ausschließen, jedoch kein statistisches Problem.Insbesondere in multivariaten Fällen sind Korrelation und andere Abhängigkeitsmaße vollkommen genau, jedoch sind wir häufig an etwas anderem interessiert.
Sagte, dass.Verbindungen zwischen Theorie und Realität sind fast immer umstritten.Genau das, was ich geschrieben habe, scheint Ihnen problematisch zu sein?
Zunächst einmal ist nicht ganz klar, was die Verbindung ist, insbesondere zu jemandem, der nicht knietief in das Thema eintaucht, wie (vermutlich) dem Fragesteller.
Sie haben sich hauptsächlich mit dem Definitionsproblem in Bezug auf Bevölkerung und Volkszählung sowie der Zuverlässigkeit dieser Konzepte befasst.Wenn der Fragesteller Ihre Antwort akzeptiert hat, bedeutet dies, dass sie zufrieden war.Schön für dich.Ich habe mich hauptsächlich auf den Titel konzentriert und Volkszählung und Bevölkerung als Synonym betrachtet.Dann hoffe ich, dass meine Antwort für den Fragesteller nützlich sein kann, aber auch für jede Person, die den Titel / die Frage liest.Das heißt, Ihre Frage zum Link wurde meiner Ansicht nach zu allgemein, noch mehr hier in den Kommentaren.Die gezielte Antwort hängt vom Umfang des Akers ab.
Sagte, dass.Über die obige Frage nehme ich an, dass Daten ginen und endlich und multivariat sind.So können Momente, Korrekturen, ecc genau berechnet werden.Kein Hypnosetest erforderlich.Fragen zu Vorhersagen verschwinden.Fragen zur Kausalität bleiben umstritten.
Wenn die Stichprobe sehr groß ist, sich jedoch nicht auf Bevölkerungsebene befindet, verschwinden Präzisionsprobleme unter den üblichen Annahmen.Vorhersagen und kausale Fragen bleiben umstritten.Ich sage nur diese Dinge beim Fragesteller.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...