Sollte ich bei statistischen Tests dem $ p $ -Wert vertrauen?

Lucia

2019-10-09 23:33:40 UTC

view on stackexchange narkive permalink

Ich habe mit meinem Vorgesetzten eine Debatte über ein kürzlich veröffentlichtes Papier geführt. Der Korrelationstest in einer Stichprobe von 77 Teilnehmern ergab einen p-Wert von weniger als 0,05. Nach dem Entfernen einiger Teilnehmer (weil wir später herausfanden, dass sie minderjährig sind) beträgt der p-Wert 0,06 (r = 0,21).

Dann sagt mein Vorgesetzter: "Sie sollten melden, dass zwischen diesen beiden Variablen keine Korrelationen bestehen. Der p-Wert ist nicht signifikant."

Folgendes antworte ich: Es macht keinen Sinn, den Menschen zu sagen, dass das Ergebnis in einer Stichprobe von 71 nicht signifikant ist, aber es ist in einer Stichprobe von 77 signifikant. Es ist wichtig, die Ergebnisse mit den Ergebnissen in der Literatur zu verknüpfen, wenn ein Trend interpretiert wird. Obwohl wir hier einen schwachen Trend finden, stimmt dieser Trend mit zahlreichen Studien in der Literatur überein, die signifikante Korrelationen in diesen beiden Variablen finden.

Hier ist die Antwort meines Vorgesetzten: Ich würde anders argumentieren: Wenn es in der Stichprobe von 71 nicht mehr signifikant ist, ist es zu schwach, um gemeldet zu werden. Wenn es ein starkes Signal gibt, sehen wir es auch in der kleineren Stichprobe.

Soll ich dieses "nicht signifikante" Ergebnis nicht melden?

Ich bin bei deinem Vorgesetzten

Warum nicht einen statistischen Analyseplan erstellen, bevor Sie sich die Daten ansehen?Das spart so viel Zeit und macht die Forschung so viel ehrlicher.

Ich verstehe nicht, warum Ihr Vorgesetzter erwarten würde, dass sich der p-Wert nicht erhöht, wenn Sie einige Punkte entfernen.Wenn Sie die "richtigen" Punkte entfernen, können Sie in einigen Fällen die p-Werte dramatisch verschieben (in einigen Fällen sogar von deutlich unter 0,01 bis weit über 0,10).Warum wurden die Daten entfernt?

Interessanter als die Frage, ob der p-Wert 0,05 oder 0,06 beträgt (was keinen großen Unterschied macht), ist der tatsächliche Wert der Korrelation."(keine) Korrelation" bedeutet nicht "p-Wert niedriger (größer) als 0,05", sondern ob | r |ist nah an eins.

Die Korrelation beträgt 0,21, andere Studien finden eine ähnliche Korrelation zwischen diesen beiden Variablen, einschließlich meiner eigenen Studie zu einem viel größeren Datensatz.

Ich denke nicht, dass die Kommentare Ihres Professors viel Sinn machen.Selbst wenn wir p = 0,05 als magischen Wert nehmen (was, wie viele Leute betonen, nicht der Fall ist), bedeutet dies nur, dass 77 Teilnehmer kaum genug waren, um ein signifikantes Ergebnis zu erzielen (vorausgesetzt, die sechs Personen, die Sie entfernt haben, wurden zufällig ausgewählt)..Wie viele Leute betonen ... warum haben Sie sechs Leute entfernt?Die einzige Rechtfertigung, an die ich denken kann, ist, dass Sie vielleicht im Voraus einen Angriffsplan hatten, und es stellt sich heraus, dass aufgrund eines ansonsten harmlosen Fehlers sechs Personen in den Datensatz gelangt sind, die dies nicht haben sollten.

@cdalitz Sie sind sich nicht sicher, woher Sie Ihre Mathematik beziehen: $ | r |\ ca. 1 $ ist nahezu * perfekte * Korrelation.Ein $ | r |\ ca. 0 $ bedeutet "keine Korrelation".

Zugegeben, nicht mein Forschungsgebiet, aber haben Sie versucht, simulierte Korrelationen von $ \ rho = 0,21 $ zu visualisieren?Dies ist kaum etwas, worüber man nach Hause schreiben kann.

Wenn die Korrelation $ r = 0,21 $ ist, ist der p-Wert irrelevant (ein größerer Wert vergrößert das Konfidenzintervall nur geringfügig).Unabhängig vom p-Wert bedeutet dies, dass nur eine sehr schwache Korrelation besteht.Die Faustregel in vielen Mathematiklehrbüchern lautet, dass Werte $ | r |> 0,5 $ als "Korrelation" betrachtet werden, wobei Werte $ | r |> 0,8 $ als "starke Korrelation" betrachtet werden.Ich verstehe immer noch nicht, warum Sie den p-Wert überhaupt berücksichtigen oder warum er in diesem Fall von Bedeutung sein sollte.

Die Personen, die wir entfernt haben, sind unter 18 Jahre alt und können daher nicht an der Studie teilnehmen, wie wir später herausfanden.Für mich würde ich berichten, dass das Ergebnis p = 0,06 ist und sagen würde, dass dieser Trend mit vielen Studien übereinstimmt, bei denen festgestellt wurde, dass die beiden Variablen leicht korreliert sind.Mein Vorgesetzter berichtet jedoch, dass "im Widerspruch zu den Ergebnissen vieler Studien festgestellt wird, dass sie nicht korrelieren".Ich denke, das ist eine schlechte Idee.

Dieses Mal hatten Sie Pech. Ich hätte Angst, wenn die Wahrscheinlichkeit eines Ereignisses 0,5 beträgt und alle 100 Wissenschaftler über Erfolg berichten und 0 fehlschlägt ...

Nein, vertraue dem p-Wert nicht.

1 Es wird nicht angezeigt, ob Sie einen Effekt haben oder nicht.

Das Hauptproblem sollte sein, ob der von Ihnen gemessene Effekt (die Effektgröße ) relevant ist oder nicht. Sie sagen, dass Sie $ \ rho = 0,21 $ span> gemessen haben und dass dies in Ihrem Bereich wichtig ist. Dann sollten Sie es melden.

Der p-Wert ist eher ein Indikator für die Genauigkeit Ihres Experiments. Wenn Ihr Experiment entweder aufgrund des großen Rauschens oder aufgrund der kleinen Stichprobengröße nicht genau ist, kann es auch ohne einen Effekt zu einem Effekt im Rauschen kommen (der p-Wert gibt an, wie wahrscheinlich es ist).

In Ihrem Fall, der Korrelation, wird der p-Wert häufig basierend auf der Statistik $$ t = \ rho \ sqrt {\ frac {n-2} {1 berechnet - \ rho ^ 2}} $$ span> Wird mit $ \ nu = n-2 $ span> Freiheitsgraden t-verteilt, wenn bestimmte Annahmen a richtig sind (dazu später mehr).

Dies bedeutet, dass der p-Wert mit der gemessenen Korrelation und der Stichprobengröße zusammenhängt. Mal sehen, wie das aussieht:

Die Grafik zeigt, wie die Signifikanz sowohl von der gemessenen Korrelation als auch von der Stichprobengröße abhängt (die Linien sind Konturlinien für p-Werte 0,001, 0,01, 0,02, 0,05, 0,1). Beachten Sie Folgendes: Für den gleichen gemessenen Effekt (z. B. eine Korrelation von 0,21) können Sie je nach Experiment (Stichprobengröße) unterschiedliche Signifikanz haben. (Wenn die Signifikanz "nicht gut genug" ist, kann dies vom Experiment abhängen.)

Es wäre falsch zu sagen, dass es keinen Effekt gibt (beim Messen von $ \ rho = 0,21 $ span>) nur weil Sie keine Bedeutung über einer beliebigen Ebene hatten. Stattdessen sollten Sie den Schluss ziehen, dass möglicherweise einen Effekt hat, aber die Signifikanz zeigt an, dass Ihr Experiment wiederholt / verfeinert werden muss (verbesserte Genauigkeit), um sicherer zu sein.

Die Korrelation ist nur eine Möglichkeit, um auszudrücken, dass ein Effekt vorliegt. Es ist nur auf lineare Beziehungen beschränkt. Möglicherweise haben Sie eine starke (nichtlineare) Beziehung zwischen Ihren Variablen, aber immer noch eine geringe Korrelation (und wenn dies eine Rolle spielt, haben Sie noch mehr Gründe, sich weniger um den p-Wert zu kümmern)

Machen Sie eine Handlung, um besser zu sehen, was los ist. Sehen Sie mehr hier: Anscombe's Quartett

2 Die zugrunde liegenden Annahmen für die Berechnung sind möglicherweise falsch.

Die Berechnung des p-Werts einer Korrelation ist nicht eindeutig. Es gibt verschiedene Möglichkeiten. Wenn Sie die zuvor erwähnte t-Statistik verwenden, gehen Sie davon aus, dass die beiden Variablen unabhängige, nicht korrelierte normalverteilte Variablen sind. Möglicherweise haben Sie stattdessen eine andere Verteilung für Ihre Daten (z. B. einige breitere Schwänze). In diesem Fall ist eine Bootstrap-Methode möglicherweise besser.

Beispiel. Lassen Sie Ihre Daten zwei identische unabhängige verteilte Bernoulli-Variablen sein (mit $ p_ {succes} = 0.05 $ span>). Lassen Sie uns diese Situation simulieren und sehen, wie die p-Werte verteilt sind (es sollte eine gleichmäßige Verteilung sein).

Diese verteilten Bernoulli-Variablen sind nichts, auf das man normalerweise eine Korrelation und Berechnung des p-Werts anwenden würde. Es ist jedoch ein einfaches Modell für Fälle, in denen Sie eine kontinuierliche Verteilung haben, die eine multimodale Verteilung ist.

Sie können ähnliche Simulationen mit verschiedenen Variablen durchführen. Im Allgemeinen unterschätzen die beobachteten p-Werte die wahre Wahrscheinlichkeit (sagen wir, ein p-Wert unter x% tritt in der Realität häufiger auf als x% der Fälle). Ihr berechneter p-Wert p = 0,06 unterschätzt möglicherweise den wahren p-Wert (wenn Sie die t-Verteilung verwenden und die Annahmen nicht richtig sind).

Philosophisch

Außerdem ist der Unterschied zwischen p = 0,05 und p = 0,06 nicht sehr relevant. Es ist jedoch etwas schwierig zu sagen, bei welchem Wert eine „Grenze“ zwischen Ja / Nein-Signifikanz besteht. Dies hängt mit dem Sorites-Paradoxon zusammen. Mein Standpunkt ist, dass es eine Art falsche Dichotomie ist, zu bedenken, dass es eine Grenze gibt. Das Konzept der p-Werte und der Signifikanz ist nicht schwarz und weiß (und die auferlegten Grenzen, die unrealistisch sind, werden in der Praxis sehr willkürlich sein).

Übe

Leistungsanalyse Normalerweise vermeiden Sie diese Probleme, indem Sie im Voraus berechnen, welche Art von Probe Sie benötigen, um im erwarteten Bereich genau messen zu können Effektgrößen.

Zweiseitige T-Tests. Neben dem Testen der Nullhypothese (entsprechen meine Daten / Experimente) der Nullhypothese oder können sie der Nullhypothese entgegenwirken, können Sie auch prüfen, ob Ihre Daten / Experimente der alternativen Hypothese entsprechen. Dies geschieht mit den zweiseitigen T-Tests. Sie können die Situation haben, dass Ihre Daten weder (signifikant) mit der Nullhypothese (keine Wirkung) noch mit einer alternativen Hypothese (ein Mindestmaß an Wirkung) nicht übereinstimmen.

Idealerweise melden Sie alle Ihre Werte. Und nicht nur die bedeutenden. (aber vielleicht meinen Sie mit "den Wert melden" so etwas wie "den Wert im Text diskutieren")