Warum nimmt die statistische Signifikanz mit den Daten zu, ABER die Auswirkungen sind möglicherweise nicht aussagekräftig?

Max S.

2013-12-12 08:11:38 UTC

view on stackexchange narkive permalink

Ich denke, das liegt daran, dass Sie in der realen Welt nicht wirklich erwarten, dass die Standard-Nullhypothese wahr ist. Wenn Sie die Mittelwerte zweier Populationen vergleichen, besagt die Nullhypothese, dass $ \ mu_1 = \ mu_2 $, dh die beiden Mittelwerte sind genau gleich. In vielen Situationen würde jedoch eine genauere Nullhypothese besagen, dass $ \ mu_1 $ und $ \ mu_2 $ fast gleich sind (was auch immer das bedeutet).

Für kleine Stichprobengrößen gilt die Die Differenz zwischen den Mitteln ergibt nur dann einen niedrigen p-Wert, wenn die gemessene Differenz "relativ" groß ist. Bei ausreichend großen Stichproben kann jedoch auch ein winziger Mittelwertunterschied statistisch signifikant werden, obwohl die Zahlen aus praktischen Gründen gleich sind.

Auch hier gibt es einige gute Informationen für diese Frage:

Warum reicht "statistisch signifikant" nicht aus?

Flask

2013-12-13 02:41:49 UTC

view on stackexchange narkive permalink

Ich habe gelesen, dass "Wenn Sie immer mehr Daten erhalten, können Sie statistisch signifikante Unterschiede finden, wo immer Sie hinschauen"

Dies ist jedoch nicht immer der Fall, wenn Sie jedoch null sind Die Hypothese ist, dass zwei Gruppen von Menschen genau 100% gleich sind, weil diese Nullhypothese fast immer oder immer falsch ist. Wenn Ihre Nullhypothese lautet, dass die Lichtgeschwindigkeit 299.792.458 m / s beträgt und Sie dies viele Male messen, ohne Werkzeuge zu verwenden, die voreingenommen sind, um Messfehler in die eine oder andere Richtung zu machen, ist es nicht wahrscheinlicher, dass Sie eine Signifikanz erhalten.

Warum ist das so? (Gibt es intuitive Beispiele, die dieses Verhalten zeigen?)

Wenn dies der Fall ist, liegt dies daran, dass die Nullhypothese falsch ist oder dass das Messwerkzeug eine gewisse Verzerrung aufweist.

Warum bedeuten solche Erhöhungen der statistischen Unterschiede nicht unbedingt, dass die beobachteten Effekte bedeutsam / wichtig sind?

Weil sehr kleine Unterschiede genauso wahrscheinlich aus anderen Gründen auftreten als die, mit der Sie das Experiment getestet haben (z. B. Problem mit dem Messgerät, Grundlinienunterschied zwischen Gruppen), und es gibt keine Möglichkeit zu erraten, was aufgetreten ist. Beachten Sie, dass dies immer der Fall ist, auch wenn der Effekt groß ist. Es ist jedoch weniger wahrscheinlich (soweit ich das beurteilen kann, dass dies "handgewellt", aber intuitiv offensichtlich ist), einen großen Effekt zu beobachten, wenn alle Faktoren außer Ihrer unabhängigen Variablen wurden relativ konstant gehalten.

Auch sehr kleine Unterschiede bieten normalerweise keinen Grund, basierend auf dem Ergebnis Maßnahmen zu ergreifen. Die Kosten für die Ausführung der Aktion überwiegen normalerweise die Vorteile.

Bearbeiten: Eine andere Sache ist, dass im Fall einer von der Theorie vorhergesagten Nullhypothese offensichtlich ein nicht signifikantes Ergebnis wichtig ist, da Ihre Theorie bestätigt wurde. Selbst im Fall der häufigeren "immer falschen" Nullhypothese könnten Datenergebnisse mit "Nicht-Signifikanz" sinnvoll sein. Die mangelnde Signifikanz, insbesondere bei großen Stichproben, zeigt, dass jeder Effekt / Unterschied im Verhältnis zum Hintergrundrauschen gering ist. Ich würde sagen, dass die Praxis, nicht signifikante Ergebnisse zu ignorieren, ernsthaft fehlerhaft ist.

Behacad

2013-12-12 05:51:11 UTC

view on stackexchange narkive permalink

Ich möchte auch hervorheben, dass Sie selbst bei nahezu unendlichen Daten nicht immer statistisch signifikante Ergebnisse finden. Statistisch signifikante Ergebnisse repräsentieren nur die wahrscheinlich tatsächlichen Unterschiede, unabhängig von der Größe. Wenn dieser Unterschied nicht besteht, spielt die Anzahl der Fälle keine Rolle. Betrachten Sie zwei Proben von 10 Millionen Bäumen, die im Durchschnitt genau die gleiche Höhe haben. Eine Gesamtstichprobe von 20 Millionen Bäumen führt niemals dazu, dass der Unterschied statistisch signifikant ist. Es ist immer wichtig, die Größe des Effekts zu bewerten, wenn die Ergebnisse statistisch signifikant sind. Die Ergebnisse sind im Kontext Ihrer Erkundung wichtig / aussagekräftig. Die Wichtigkeit wird immer davon abhängen. Ein Unterschied von 1% mag bei der Betrachtung der Schuhgröße sehr unwichtig sein, ist jedoch sehr bedeutsam, wenn er die Wahrscheinlichkeit darstellt, an einer Krankheit in einer Bevölkerung von 10 Milliarden Menschen zu sterben.

Der p-Wert sollte nicht systematisch erhöht oder verringert werden, wenn die Null wahr ist.

Ich habe lediglich gemeint, dass der Fehler abnimmt, je größer die Stichprobe wird, sodass der p-Wert "genauer" wird.

Ich bin mir nicht sicher, was du damit meinst, wenn die Null wahr ist. Die Verteilung ändert sich, so dass Sie eine höhere Leistung erhalten, wenn die Alternative zutrifft, dass der p-Wert eher kleiner ist, aber unter Null ist die Verteilung für jede Stichprobengröße einheitlich. Wie also ist eine gleichmäßige Verteilung bei n = 20 weniger genau als eine gleichmäßige Verteilung bei n = 2000?

Ich habe das Bit über die Erhöhung des p-Werts gelöscht, hoffe, dass dies genauer ist.

Der $ p $ -Wert hat eine gleichmäßige Verteilung unter der Null (für "exakte" Tests), unabhängig von der Stichprobengröße.

Fomite

2013-12-13 02:02:24 UTC

view on stackexchange narkive permalink

Es ist nicht unbedingt so, dass Sie immer signifikante Unterschiede feststellen, wenn Sie die Stichprobengröße erhöhen, aber es wird immer wahrscheinlicher. Wie mehrere Personen betont haben, führen wirklich identische Proben möglicherweise nicht zu einem signifikanten Unterschied. Was es tut, ist, sehr, sehr kleine Unterschiede viel wahrscheinlicher zu erkennen - Unterschiede, auf die wir in der realen Welt nicht wirklich sinnvoll reagieren können.

Zum Beispiel, wenn ich Haben Sie gesagt, dass der durchschnittliche IQ einer Gruppe 100.0001 und der anderen 100.0002 beträgt? Würden Sie die zweite Gruppe wirklich als "intelligenter" behandeln können (angesichts aller Vorbehalte um den IQ als Maß für die Intelligenz)?

Ich werde ein Beispiel aus meiner eigenen Arbeit verwenden: Ich habe eine Intervention in einem Krankenhaus simuliert, um zu verhindern, dass Patienten eine bestimmte Krankheit entwickeln. Mein Datensatz bestand aus einer Reihe von simulierten Krankenhäusern mit Behandlung und einer Reihe von Krankenhäusern ohne Behandlung.

Der Unterschied zwischen ihnen war statistisch signifikant und stark. Dies war vollständig , da die Krankenhäuser "Keine Behandlung" einige Beispiele mit etwas mehr Infektionen hatten. Aber auf höchst sinnvolle Weise waren die beiden Arme identisch. Sie hatten die gleiche mittlere Anzahl von Fällen, das gleiche Minimum, das gleiche 75. Perzentil und das 95. Perzentil und sogar das 99. Perzentil der Fälle. Die Signifikanz wurde vollständig von einigen Randfällen am äußersten Ende der Verteilung bestimmt… und einer großen Stichprobengröße.

Die Wirkung der Behandlung war in der realen Welt völlig nicht nachweisbar und bedeutungslos. Aber weil ich eine große Stichprobe hatte, war sie statistisch signifikant. Wenn ich es mehr gewollt hätte, hätte ich zum Abendessen gehen und die Simulation länger laufen lassen können, aber das hätte die Intervention nicht effektiver gemacht.

Arthur B.

2013-12-12 05:42:51 UTC

view on stackexchange narkive permalink

Angenommen, Sie haben eine Behandlung gegen Erkältung, die möglicherweise wirkt oder nicht. Sie verabreichen es einer Person, und diese Person wird besser. Es könnte sein, dass Ihre Behandlung funktioniert, oder dass die Person zufällig zufällig besser wird.

Wenn Sie diese Behandlung nun auf zwei Personen anwenden und beide besser werden, ist dies bereits mehr überzeugend ... wie stehen die Chancen, dass zwei Personen, denen Sie eine Behandlung gegeben haben, besser wurden?

Stellen Sie sich nun vor, Sie geben die Behandlung einer Gruppe von 500 Personen und alle werden besser, während sie in einer anderen Gruppe sind Von 500 Menschen, die Ihre Behandlung nicht erhalten, werden nur 10 besser. Es könnte sein, dass die Gruppe, die Sie behandelt haben, zufällig mehr Glück hatte, aber mit zunehmender Anzahl von Menschen wird die Wahrscheinlichkeit, dass dieser Zufall auftritt, extrem gering ... es ist wahrscheinlicher, dass Ihre Behandlung tatsächlich einen Effekt hat. P. >

Je mehr Daten Sie haben, desto weniger wahrscheinlich ist es, dass die beobachteten Muster ein Zufall sind.

Vielen Dank, @Arthur,, aber ich glaube nicht, dass Ihre Antwort meine Frage beantwortet. Ich kann mich irren, aber der Punkt der Aussage * "Wenn Sie immer mehr Daten erhalten, können Sie statistisch signifikante Unterschiede finden, wo immer Sie hinschauen" * ist, dass wir mit zunehmenden Daten leichter statistische Unterschiede finden können, die ** ist möglicherweise nicht wichtig **. Wie zeigt Ihr Beispiel das?

Wenn Sie viel mehr Daten erhalten, können Sie feststellen, dass Ihr Erkältungsmedikament 0,01% besser wirkt, wenn es nach einer Mahlzeit eingenommen wird. Das Ergebnis wäre im statistischen Sinne signifikant, das ist wahrscheinlich kein Zufall, aber nicht wichtig.

@ArthurB. Es könnte auch wahrscheinlich ein Zufall sein, da kleine Ungleichgewichte zwischen den beiden Gruppen leicht für kleine Auswirkungen verantwortlich sind. Ohne jedoch alle wichtigen möglichen Grundlinienunterschiede zwischen Gruppen zu kennen, die wichtig sein könnten, können wir dies nicht sicher wissen.

Wayne

2013-12-12 21:06:47 UTC

view on stackexchange narkive permalink

Ich glaube, user27840 hat die richtige Antwort, trifft aber nicht ganz die Intuition ...

Nehmen wir einen allgemeinen Fall: Sie vergleichen die Mittelwerte zweier Gruppen, und Ihre Nullhypothese lautet: sie sind (genau) gleich. Der Test geht auch von der Verteilung der Daten aus, häufig davon, dass die Daten eine "Normalverteilung" aufweisen. (Technisch gesehen ist dieser Ausdruck falsch, wird aber häufig verwendet.)

Der Mittelwert an sich hat nicht viel Bedeutung. Es gibt auch den Standardfehler des Mittelwerts, der Ihre Unsicherheit über den tatsächlichen Mittelwert widerspiegelt. Der Standardfehler des Mittelwerts ist an die angenommene Verteilung gebunden. Je mehr Punkte Sie in Ihrer Berechnung haben, desto kleiner wird er: desto sicherer sind Sie bei der Berechnung des Mittelwerts.

Dies ist das, was gegen dich arbeitet. Bei einer kleinen Datenmenge sind die Standardfehler Ihrer Mittelwerte größer. Wenn die Mittelwerte nicht weit voneinander entfernt sind, müssen Sie die Nullhypothese (dass sie gleich sind) ablehnen, da die Mittelwerte möglicherweise unterschiedlich erscheinen, Ihre Unsicherheit jedoch groß ist genug, dass Sie nicht sicher sein können. Wenn Sie mehr und mehr Daten erhalten, werden Sie sich des Mittelwerts immer sicherer - die Standardfehler Ihrer Mittelwerte verringern sich - und die Mittelwerte können immer näher beieinander liegen, aber Sie werden immer noch sicher sein, dass sie nicht gleich sind.

Das Problem ist, dass Sie sich über immer kleinere Unterschiede sicher sein können, aber praktisch gesehen spielen sehr kleine Unterschiede keine Rolle. Natürlich bestimmen die Einheiten, in denen Sie messen, und das Thema, was ein "sehr kleiner" Unterschied ist.

Frank Harrell

2013-12-13 03:10:50 UTC

view on stackexchange narkive permalink

Das traditionelle Hypothesentest-Framework versucht, den Fehler vom Typ I konstant zu halten. Man könnte sagen, dass das Wahrscheinlichkeitsparadigma in dieser Hinsicht aussagekräftiger ist, da sowohl Fehler vom Typ I als auch vom Typ II $ \ rightarrow 0 $ als $ n \ rightarrow \ infty $ sind. Dies macht es weniger wahrscheinlich, dass ein rein wahrscheinlichkeitsbasierter Ansatz (im Gegensatz zu häufig auf Stichprobenraum basierenden frequentistischen Methoden) triviale Unterschiede findet.

Können Sie dies weiter erläutern und Referenzen für diejenigen von uns angeben, die mit dem Wahrscheinlichkeitsparadigma nicht so vertraut sind?

Klingt so, als würde man eine traditionelle Hypothese mit dem Signifikanzniveau $ \ alpha = \ alpha (n) \ bis 0 $ testen?

Frequentisten würden nicht wissen, wie man das macht. Ich habe einen Wahrscheinlichkeitsexperten gebeten, dies in diesem Forum zu kommentieren, wenn er verfügbar ist.

probabilityislogic

2013-12-13 17:36:56 UTC

view on stackexchange narkive permalink

Ich denke, das passiert, weil Leute ihre Daten analysieren, nachdem sie beobachtet wurden. Darüber hinaus wird diese Analyse nicht "nur deswegen" durchgeführt - Sie können Ihre Meinung darüber ändern, was aufgrund dieser Analyse wichtig ist (wie Sie sollten).

Als einfaches Beispiel dient der Vergleich der Mittel aus zwei Gruppen - sagen wir, Gerichtsbarkeit A hat höhere Testergebnisse als Gerichtsbarkeit B. Nach Analyse der Daten stellen Sie jedoch fest, dass die Verteilung der Punktzahlen Gerichtsbarkeit A drei Modi hat und Gerichtsbarkeit B zwei Modi hat. Nachdem Sie dies gesehen haben, warum sollte es Sie interessieren, ob "insgesamt" die Mittel unterschiedlich sind oder nicht?

Sie werden die ursprüngliche Hypothese wahrscheinlich als "bedeutungslos" abtun und den "interessanten Befund" eines Multimodals melden Verteilung, möglicherweise ein statistisch signifikanter Test dazu. Eine Follow-up-Analyse würde wahrscheinlich nach einer Variablen suchen, die diese Modi erfasst.

Dies wurde als "Freiheitsgrade für Forscher" bezeichnet und wird in Ihrem Standard-p-Wert nicht berücksichtigt. Dies liegt daran, dass Ihre Teststatistik jetzt eine Funktion Ihrer Analyse ist. Beachten Sie dazu, dass Sie den neuen Datensatz analysieren würden, wenn Sie den Vorgang wiederholen würden (z. B. in einer Folgeumfrage).

Außerdem wird dieses Problem schlimmer, wenn Ihre Datensätze größer werden, weil Es gibt viel umfangreichere Analysetypen und mehr "echte" Unterschiede, die Sie erkennen können. Beispielsweise können Sie mit einem kleinen Datensatz nicht drei Modi erkennen.