Frage:
Sollte ich bei statistischen Tests dem $ p $ -Wert vertrauen?
Lucia
2019-10-09 23:33:40 UTC
view on stackexchange narkive permalink

Ich habe mit meinem Vorgesetzten eine Debatte über ein kürzlich veröffentlichtes Papier geführt. Der Korrelationstest in einer Stichprobe von 77 Teilnehmern ergab einen p-Wert von weniger als 0,05. Nach dem Entfernen einiger Teilnehmer (weil wir später herausfanden, dass sie minderjährig sind) beträgt der p-Wert 0,06 (r = 0,21).

Dann sagt mein Vorgesetzter: "Sie sollten melden, dass zwischen diesen beiden Variablen keine Korrelationen bestehen. Der p-Wert ist nicht signifikant."

Folgendes antworte ich: Es macht keinen Sinn, den Menschen zu sagen, dass das Ergebnis in einer Stichprobe von 71 nicht signifikant ist, aber es ist in einer Stichprobe von 77 signifikant. Es ist wichtig, die Ergebnisse mit den Ergebnissen in der Literatur zu verknüpfen, wenn ein Trend interpretiert wird. Obwohl wir hier einen schwachen Trend finden, stimmt dieser Trend mit zahlreichen Studien in der Literatur überein, die signifikante Korrelationen in diesen beiden Variablen finden.

Hier ist die Antwort meines Vorgesetzten: Ich würde anders argumentieren: Wenn es in der Stichprobe von 71 nicht mehr signifikant ist, ist es zu schwach, um gemeldet zu werden. Wenn es ein starkes Signal gibt, sehen wir es auch in der kleineren Stichprobe.

Soll ich dieses "nicht signifikante" Ergebnis nicht melden?

Ich bin bei deinem Vorgesetzten
Warum nicht einen statistischen Analyseplan erstellen, bevor Sie sich die Daten ansehen?Das spart so viel Zeit und macht die Forschung so viel ehrlicher.
Ich verstehe nicht, warum Ihr Vorgesetzter erwarten würde, dass sich der p-Wert nicht erhöht, wenn Sie einige Punkte entfernen.Wenn Sie die "richtigen" Punkte entfernen, können Sie in einigen Fällen die p-Werte dramatisch verschieben (in einigen Fällen sogar von deutlich unter 0,01 bis weit über 0,10).Warum wurden die Daten entfernt?
Interessanter als die Frage, ob der p-Wert 0,05 oder 0,06 beträgt (was keinen großen Unterschied macht), ist der tatsächliche Wert der Korrelation."(keine) Korrelation" bedeutet nicht "p-Wert niedriger (größer) als 0,05", sondern ob | r |ist nah an eins.
Die Korrelation beträgt 0,21, andere Studien finden eine ähnliche Korrelation zwischen diesen beiden Variablen, einschließlich meiner eigenen Studie zu einem viel größeren Datensatz.
Ich denke nicht, dass die Kommentare Ihres Professors viel Sinn machen.Selbst wenn wir p = 0,05 als magischen Wert nehmen (was, wie viele Leute betonen, nicht der Fall ist), bedeutet dies nur, dass 77 Teilnehmer kaum genug waren, um ein signifikantes Ergebnis zu erzielen (vorausgesetzt, die sechs Personen, die Sie entfernt haben, wurden zufällig ausgewählt)..Wie viele Leute betonen ... warum haben Sie sechs Leute entfernt?Die einzige Rechtfertigung, an die ich denken kann, ist, dass Sie vielleicht im Voraus einen Angriffsplan hatten, und es stellt sich heraus, dass aufgrund eines ansonsten harmlosen Fehlers sechs Personen in den Datensatz gelangt sind, die dies nicht haben sollten.
@cdalitz Sie sind sich nicht sicher, woher Sie Ihre Mathematik beziehen: $ | r |\ ca. 1 $ ist nahezu * perfekte * Korrelation.Ein $ | r |\ ca. 0 $ bedeutet "keine Korrelation".
Zugegeben, nicht mein Forschungsgebiet, aber haben Sie versucht, simulierte Korrelationen von $ \ rho = 0,21 $ zu visualisieren?Dies ist kaum etwas, worüber man nach Hause schreiben kann.
Wenn die Korrelation $ r = 0,21 $ ist, ist der p-Wert irrelevant (ein größerer Wert vergrößert das Konfidenzintervall nur geringfügig).Unabhängig vom p-Wert bedeutet dies, dass nur eine sehr schwache Korrelation besteht.Die Faustregel in vielen Mathematiklehrbüchern lautet, dass Werte $ | r |> 0,5 $ als "Korrelation" betrachtet werden, wobei Werte $ | r |> 0,8 $ als "starke Korrelation" betrachtet werden.Ich verstehe immer noch nicht, warum Sie den p-Wert überhaupt berücksichtigen oder warum er in diesem Fall von Bedeutung sein sollte.
Die Personen, die wir entfernt haben, sind unter 18 Jahre alt und können daher nicht an der Studie teilnehmen, wie wir später herausfanden.Für mich würde ich berichten, dass das Ergebnis p = 0,06 ist und sagen würde, dass dieser Trend mit vielen Studien übereinstimmt, bei denen festgestellt wurde, dass die beiden Variablen leicht korreliert sind.Mein Vorgesetzter berichtet jedoch, dass "im Widerspruch zu den Ergebnissen vieler Studien festgestellt wird, dass sie nicht korrelieren".Ich denke, das ist eine schlechte Idee.
Dieses Mal hatten Sie Pech. Ich hätte Angst, wenn die Wahrscheinlichkeit eines Ereignisses 0,5 beträgt und alle 100 Wissenschaftler über Erfolg berichten und 0 fehlschlägt ...
Acht antworten:
#1
+14
mkt - Reinstate Monica
2019-10-09 23:51:45 UTC
view on stackexchange narkive permalink

Für die Zwecke dieser Antwort gehe ich davon aus, dass das Ausschließen dieser wenigen Teilnehmer völlig gerechtfertigt war, aber ich stimme Patrick zu, dass dies ein Problem ist.


Es gibt keinen signifikanten Unterschied zwischen p ~ 0,05 oder p = 0,06. Der einzige Unterschied besteht darin, dass die Konvention darin besteht, erstere als äquivalent zu "wahr" und letztere als äquivalent zu "falsch" zu behandeln. Diese Konvention ist schrecklich und nicht zu rechtfertigen. Die Debatte zwischen Ihnen und Ihrem Professor läuft darauf hinaus, eine Faustregel zu bilden, um mit der Willkür der Grenze von p = 0,05 umzugehen. In einer vernünftigeren Welt würden wir nicht so viel Wert auf winzige Schwankungen einer Stichprobenstatistik legen.

Oder um es bunter auszudrücken:

... sicherlich liebt Gott die .06 fast so sehr wie die .05. Kann es irgendeinen Zweifel geben, dass Gott die Stärke der Beweise für oder sieht? gegen die Null als eine ziemlich kontinuierliche Funktion der Größe von p? ”

-Rosnow, R. L. & Rosenthal, R. (1989). Statistische Verfahren und die Rechtfertigung von Wissen in der Psychologie. amerikanisch Psychologist, 44, 1276 & ndash; 1284.

Geben Sie also an, dass p = 0,06 ist. Die Zahl selbst ist in Ordnung, es ist wichtig, wie sie anschließend beschrieben und interpretiert wird. Beachten Sie, dass "signifikant" und "nicht signifikant" irreführende Begriffe sind. Sie müssen darüber hinausgehen, um Ihre Ergebnisse genau zu beschreiben.

Außerdem empfehle ich Ihnen, die Antworten auf Was bedeuten p-Werte und t-Werte in statistischen Tests?

Welche Entscheidungsregel verwenden Sie, um "[eine bestimmte Menge] als äquivalent zu 'wahr' und [eine bestimmte Menge] als äquivalent zu 'falsch' zu behandeln?"Wenn Sie * keine * Entscheidungsregel haben, wie liefern Sie Beweise für oder gegen einen Wahrheitsanspruch in den Wissenschaften?[Relevant] (https://stats.stackexchange.com/questions/204843/is-this-the-solution-to-the-p-value-problem)
@Alexis Da es nicht ganz klar ist, ob Sie meiner Antwort widersprechen, werde ich für zukünftige Leser antworten: (1) Das Sammeln von Beweisen für oder gegen eine Behauptung erfordert keine binäre Entscheidungsregel.Der kontinuierliche p-Wert liefert (einige) Beweise - aber es gibt absolut keinen Grund für eine harte Grenze bei 0,05.Die meisten Bayesianer kommen ohne eine solche Schwelle gut zurecht.
(2) Außerhalb der Mathematik ist nichts jemals "bewiesen".Wir sammeln Beweise für oder gegen Aussagen.Dies genau zu beschreiben ist hässlich, daher verwenden wir standardmäßig eine Sprache, die die feinen Details dessen ignoriert, was eine Studie tatsächlich identifiziert / feststellt.Irgendwo entlang der Kette, normalerweise aufgrund schlechten Unterrichts, geht die Nuance verloren.Verwirrung schleicht sich ein. Und am Ende haben wir wieder den Irrtum „p <0,05 ist gleich Wahrheit“.Stattdessen müssen wir uns daran erinnern, dass keine Studie feststellt, was wahr oder falsch ist: Sie fügt lediglich Beweise für oder gegen Aussagen hinzu.Was auch immer Ihre Ergebnisse sind, was zählt, ist der Grad, in dem ...
Sie fügen Beweise hinzu (für oder gegen).Welches ist eine * kontinuierliche * Funktion und keine binäre.(3) Manchmal benötigen Sie eine binäre Entscheidungsregel (z. B. sollte ich Objekt A oder Objekt B verkaufen?).Ein sorgfältiger Analyst würde jedoch immer zusätzliche Informationen berücksichtigen, einschließlich Kosten, Nutzen und Vorinformationen (und nicht unbedingt im formalen Bayes'schen Sinne).Die falsche Binärzahl bei p = 0,05 ist NICHT die einzige Möglichkeit, eine binäre Entscheidungsregel zu erstellen.Es ignoriert viele wertvolle Informationen.
Keine Argumentation, dass es kontinuierliche Beweismaßnahmen gibt (etwas, mit dem ich nicht einverstanden bin), liefert ein gültiges Argument dafür, dass ** Wissenschaftler (und Menschen im Allgemeinen) auch * Entscheidungsregeln haben müssen ***."Ein sorgfältiger Analyst würde immer zusätzliche Informationen berücksichtigen, einschließlich Kosten, Nutzen und Vorinformationen." Meine Frage bleibt: Mit welcher Entscheidungsregel?
@Alexis Ich bin mir nicht sicher, ob ich dich verstehe.Wollen Sie damit sagen, dass es ein universelles Kriterium / eine universelle Entscheidungsregel geben sollte?Wenn ja, bin ich anderer Meinung.Kosten und Nutzen unterscheiden sich zwischen den Umständen.Eine Entscheidungsregel sollte auf das jeweilige Problem zugeschnitten sein.
Ich sagte nichts über "universelles Kriterium" (was eine unaufrichtige Lesart von Hypothesentests ist: Verschiedene $ \ alpha $ und $ \ delta $ können mit ihnen verwendet werden, ebenso wie [TOST] (https: //stats.stackexchange).com / tags / tost / info), ganz zu schweigen von verschiedenen Arten von Teststatistiken, die verschiedenen Arten von Variablen, Verteilungen und Studiendesigns entsprechen.Ich habe nach dem gefragt, was Sie als alternative Form der Entscheidungsregel vorschlagen, und Sie haben keine angeboten.
@Alexis Ich glaube, ich habe darauf bereits in meinem vorherigen Kommentar geantwortet: "Kosten und Nutzen unterscheiden sich zwischen den Umständen. Eine Entscheidungsregel sollte auf das jeweilige Problem zugeschnitten sein."Ich würde bei der Entscheidung, ob Zahnbürstenmarken gewechselt werden sollen, nicht die gleiche Regel anwenden wie bei der Entscheidung, ob ein Glied amputiert werden soll.Ihre Position dazu ist weit weniger klar, da Sie auf Nachfrage nicht geklärt haben.
@Alexis Und ich glaube nicht, dass die unaufrichtige Lektüre meinerseits ist.Ich habe in der Antwort deutlich gemacht, dass das Problem, das ich habe, der Missbrauch von p-Werten und Hypothesentests ist.Ich ermutigte das OP, das Ergebnis von p = 0,06 zu melden und vorsichtig zu interpretieren, was ein p-Wert bedeutet.Ich habe ihnen nicht gesagt, dass sie p-Werte insgesamt vermeiden sollen (obwohl dies eine vernünftige Position ist).Ich habe ein Problem mit der Verwendung des p-Werts als Entscheidungskriterium ohne Berücksichtigung anderer wichtiger Faktoren, die ich als sehr häufiges Problem betrachte.Hoffentlich klärt dies dies, obwohl es den Anschein hat, dass wir keine Einigung erzielen werden.
(+1), Das Gelman-Zitat kommt in den Sinn "der Unterschied zwischen signifikant und nicht signifikant ist selbst nicht statistisch signifikant".
#2
+8
Ben
2019-10-11 05:00:34 UTC
view on stackexchange narkive permalink

In Ihrer Frage werden sehr viele Fragen aufgeworfen, daher werde ich versuchen, Antworten auf alle von Ihnen aufgeworfenen Fragen zu geben. Um einige dieser Probleme klar zu formulieren, ist es wichtig, zu Beginn festzustellen, dass ein p-Wert ein kontinuierliches Maß für Beweise gegen die Nullhypothese ist (zugunsten der angegebenen Alternative), aber wenn wir Vergleichen Sie es mit einem festgelegten Signifikanzniveau, um eine Schlussfolgerung aus der "statistischen Signifikanz" zu ziehen. Wir unterteilen dieses kontinuierliche Beweismaß in ein binäres Maß

.

Es macht keinen Sinn, den Leuten zu sagen, dass das Ergebnis in einer Stichprobe von 71 nicht signifikant ist, aber es ist in einer Stichprobe von 77 signifikant.

Sie müssen entscheiden, welches dieser beiden Beispiele tatsächlich das richtige ist - d. h., es ist angemessen, sechs Datenpunkte aus Ihren Daten zu entfernen. Aus Gründen, die auf dieser Site häufig erläutert wurden (z. B. hier und hier), ist es eine schlechte Idee, "Ausreißer" zu entfernen, die nicht auf eine falsche Aufzeichnung von Beobachtungen zurückzuführen sind. Wenn Sie also keinen Grund zu der Annahme haben, dass dies der Fall ist, ist es wahrscheinlich angebracht, alle 77 Datenpunkte zu verwenden. In diesem Fall ist es nicht sinnvoll, etwas über die von Kirschen gepflückte Teilstichprobe von 71 Daten zu sagen Punkte.

Beachten Sie hier, dass das Problem nichts mit dem Problem der statistischen Signifikanz zu tun hat. Es ist durchaus sinnvoll, dass das Ergebnis verschiedener Hypothesentests (z. B. der gleiche Test mit verschiedenen Daten) unterschiedlich sein kann. Daher gibt es keinen Grund, es als problematisch anzusehen, dass es in einem Fall statistisch signifikante Beweise für die alternative Hypothese gibt. aber nicht in der anderen. Dies ist eine natürliche Folge eines binären Ergebnisses, das durch Zeichnen einer Linie von "Signifikanz" in einem kontinuierlichen Beweismaß erhalten wird.

Bei der Interpretation eines Trends ist es wichtig, die Ergebnisse mit den Ergebnissen in der Literatur zu verknüpfen. Obwohl wir hier einen schwachen Trend finden, stimmt dieser Trend mit zahlreichen Studien in der Literatur überein, die signifikante Korrelationen in diesen beiden Variablen finden.

Wenn Sie dies tun möchten, sollten Sie eine Metaanalyse durchführen, um alle Daten in der Literatur zu berücksichtigen. Die bloße Tatsache, dass es andere Literatur mit anderen Daten / Beweisen gibt, ist keine Rechtfertigung dafür, die Daten in diesem Dokument anders zu behandeln, als Sie es sonst tun würden. Führen Sie Ihre Datenanalyse anhand der Daten in Ihrem eigenen Papier durch. Wenn Sie befürchten, dass Ihr eigenes Ergebnis eine Abweichung von der Literatur ist, beachten Sie diese anderen Beweise. Sie können dann entweder eine ordnungsgemäße Metaanalyse durchführen, bei der alle Daten (Ihre und die andere Literatur) berücksichtigt werden, oder Sie können Ihren Leser zumindest auf den Umfang der verfügbaren Daten aufmerksam machen.

Hier ist die Antwort meines Vorgesetzten: Ich würde anders argumentieren: Wenn es in der Stichprobe von 71 nicht mehr signifikant ist, ist es zu schwach, um gemeldet zu werden. Wenn es ein starkes Signal gibt, sehen wir es auch in der kleineren Stichprobe. Soll ich dieses "nicht signifikante" Ergebnis nicht melden?

Die Entscheidung, keine Daten zu melden , weil sich die statistischen Ergebnisse von anderer Literatur unterscheiden, ist eine terrible, schreckliche, statistisch bankrotte -Praxis. In der statistischen Theorie gibt es eine Menge Literatur, die vor dem Problem der Publikationsverzerrung warnt, das auftritt, wenn Forscher zulassen, dass das Ergebnis ihrer statistischen Tests ihre Entscheidung beeinflusst, ihre Daten zu melden / zu veröffentlichen. In der Tat ist die Publikationsverzerrung aufgrund von Publikationsentscheidungen, die auf der Grundlage von p-Werten getroffen werden, der Fluch der wissenschaftlichen Literatur. Es ist wahrscheinlich eines der größten Probleme in der wissenschaftlichen und akademischen Praxis.

Unabhängig davon, wie "schwach" die Beweise für die alternative Hypothese sind, enthalten die von Ihnen gesammelten Daten Informationen, die gemeldet / veröffentlicht werden sollten.Es fügt der Literatur 77 Datenpunkte hinzu, für was auch immer das wert ist.Sie sollten Ihre Daten und den p-Wert für Ihren Test angeben.Wenn dies keinen statistisch signifikanten Beweis für den untersuchten Effekt darstellt, dann sei es so.

(+1).Ich vermute, Sie wollten auf zwei Beiträge verlinken, als Sie "(z. B. hier und hier)" geschrieben haben, aber vergessen haben, die Hyperlinks hinzuzufügen?
@COOLSerdash: Danke, Sie haben Recht - aktualisiert.
#3
+5
Patrick
2019-10-09 23:45:22 UTC
view on stackexchange narkive permalink

Im Allgemeinen macht das Ändern der Daten, die in einen Test eingegeben wurden, die Verwendung von Hypothesentests zum Auffinden signifikanter Effekte ungültig. Wenn Sie mit der Bearbeitung der Daten beginnen und den Test erneut ausführen, um festzustellen, welche Änderungen Sie erzielen können, können Sie fast jedes gewünschte Ergebnis erzielen. Stellen Sie sich vor, was passieren würde, wenn Sie 6 Teilnehmer entfernen und Ihre Entdeckung dadurch bedeutender wird. Ich würde dringend empfehlen, dies zu lesen: http://www.stat.columbia.edu/~gelman/research/unpublished/p_hacking.pdf, da hier die Probleme, die bei der Analyse auftreten können, ausführlich diskutiert werden Entscheidungen werden getroffen, nachdem die Daten und die Tatsache gesehen wurden, dass dies die übliche Interpretation von p-Werten ungültig macht.

Meine Frage in diesem Fall lautet also wie folgt: Was ist die Motivation, diese Teilnehmer zu entfernen? Basierte es nur auf der Ergebnismetrik (d. H. Diese 6 Teilnehmer hatten den stärksten Effekt)? Oder gab es einen Grund für diese Teilnehmer (die Aufgaben wurden nicht korrekt ausgeführt, die Einreisebestimmungen wurden nicht erfüllt usw.)?

Um p-Werte zur Erörterung der Signifikanz zu verwenden, sollten diese Entscheidungen vor dem Ausführen Ihres statistischen Tests und nicht danach getroffen worden sein. Daher würde ich die Ergebnisse mit den 77 Teilnehmern so melden, wie Sie es ursprünglich getan haben, und die Kommentare Ihrer Vorgesetzten ignorieren.

Ich möchte hier nur wiederholen: Es ist nicht wahr, dass eine kleinere Stichprobe den gleichen Effekt zeigen muss, wenn Sie die Einschluss- / Ausschlussentscheidungen basierend auf dem Anzeigen der Daten treffen.

Die Personen, die wir entfernt haben, sind unter 18 Jahre alt und können daher nicht an der Studie teilnehmen, wie wir später herausfanden.Für mich würde ich sagen, dass das Ergebnis p = 0,06 ist und sagen, dass dieser Trend mit vielen Studien übereinstimmt, bei denen festgestellt wurde, dass die beiden Variablen signifikant korrelieren.Mein Vorgesetzter berichtet jedoch, dass "im Widerspruch zu den Ergebnissen vieler Studien festgestellt wird, dass sie nicht korrelieren".Ich denke, das ist eine schlechte Idee.
Ich stimme Ihnen zu und habe Probleme mit dem Wort "widersprochen" und einem so engen p-Wert."Widerspruch" ist ein starker Anspruch.Jede Studie, die Sie einzeln durchführen, ist laut und Sie haben bereits gesehen, welche Auswirkungen das Entfernen einiger Teilnehmer auf die Ergebnisse hat.Dies ist ein Problem beim Treffen einer Ja / Nein-Entscheidung bei einem einzelnen Grenzwert.Ich stimme der Antwort von mkt unten zu, dass Sie Ihre Ergebnisse vollständig beschreiben und über die Sprache "signifikant oder nicht" hinausgehen sollten.
@Lucia Wenn Sie testen möchten, ob Ihre Studie der Literatur widerspricht, möchten Sie testen, ob sich die Steigung zwischen X und Y von der in der Literatur angegebenen Steigung unterscheidet, und nicht prüfen, ob die Steigung sowohl in Ihrer Studie als auch in der Literatur signifikant ist.
@Lucia Bryan Krause macht einen wichtigen Punkt, der sich auch auf das bezieht, was ich über p-Werte geschrieben habe.Ob der p-Wert 0,04 oder 0,06 beträgt, sagt NICHT, ob er mit früheren Studien übereinstimmt oder diesen widerspricht!Korreliert / unkorreliert behandelt diese Situation als binär, wenn dies nicht der Fall ist.Ich empfehle dringend, mehr darüber zu lesen, was p-Werte genau bedeuten.Dies könnte Ihnen helfen, erhebliche statistische Fehler zu vermeiden.
@Lucia Dies sind wichtige Informationen, die die Frage erheblich ändern.Wenn die Studienpopulation * falsch * war, müssen Sie Ausschlüsse anwenden.Dies bedeutet jedoch immer noch, dass Sie eine unterversorgte Studie haben.Die korrekte Interpretation lautet nicht "Die Daten sind nicht korreliert", sondern "Wir konnten keine Korrelation nachweisen".
@AdamO "Wir konnten keine Korrelation nachweisen."könnte falsch gelesen werden als "wir konnten keine Korrelation nachweisen (daher gibt es zusätzliche Beweise dafür, dass es keine Korrelation gibt)".Möglicherweise könnte es so formuliert werden, dass "wir keine Korrelation * über einem Niveau von x * nachweisen konnten" (wobei 'x' durch den für das Experiment angegebenen Wert ersetzt werden muss, und es könnte sein, dass dieser Wert zu hoch ist, nichtso viele aussagekräftige Daten, dass es sinnvoll ist, die Arbeit zu veröffentlichen).
#4
+5
Sextus Empiricus
2019-10-11 03:02:32 UTC
view on stackexchange narkive permalink

Nein, vertraue dem p-Wert nicht.

1 Es wird nicht angezeigt, ob Sie einen Effekt haben oder nicht.

  • Das Hauptproblem sollte sein, ob der von Ihnen gemessene Effekt (die Effektgröße ) relevant ist oder nicht. Sie sagen, dass Sie $ \ rho = 0,21 $ span> gemessen haben und dass dies in Ihrem Bereich wichtig ist. Dann sollten Sie es melden.

    Der p-Wert ist eher ein Indikator für die Genauigkeit Ihres Experiments. Wenn Ihr Experiment entweder aufgrund des großen Rauschens oder aufgrund der kleinen Stichprobengröße nicht genau ist, kann es auch ohne einen Effekt zu einem Effekt im Rauschen kommen (der p-Wert gibt an, wie wahrscheinlich es ist).

    In Ihrem Fall, der Korrelation, wird der p-Wert häufig basierend auf der Statistik $$ t = \ rho \ sqrt {\ frac {n-2} {1 berechnet - \ rho ^ 2}} $$ span> Wird mit $ \ nu = n-2 $ span> Freiheitsgraden t-verteilt, wenn bestimmte Annahmen a richtig sind (dazu später mehr).

    Dies bedeutet, dass der p-Wert mit der gemessenen Korrelation und der Stichprobengröße zusammenhängt. Mal sehen, wie das aussieht:

    significance as a function of sample size and observed correlation

    Die Grafik zeigt, wie die Signifikanz sowohl von der gemessenen Korrelation als auch von der Stichprobengröße abhängt (die Linien sind Konturlinien für p-Werte 0,001, 0,01, 0,02, 0,05, 0,1). Beachten Sie Folgendes: Für den gleichen gemessenen Effekt (z. B. eine Korrelation von 0,21) können Sie je nach Experiment (Stichprobengröße) unterschiedliche Signifikanz haben. (Wenn die Signifikanz "nicht gut genug" ist, kann dies vom Experiment abhängen.)

    Es wäre falsch zu sagen, dass es keinen Effekt gibt (beim Messen von $ \ rho = 0,21 $ span>) nur weil Sie keine Bedeutung über einer beliebigen Ebene hatten. Stattdessen sollten Sie den Schluss ziehen, dass möglicherweise einen Effekt hat, aber die Signifikanz zeigt an, dass Ihr Experiment wiederholt / verfeinert werden muss (verbesserte Genauigkeit), um sicherer zu sein.

  • Die Korrelation ist nur eine Möglichkeit, um auszudrücken, dass ein Effekt vorliegt. Es ist nur auf lineare Beziehungen beschränkt. Möglicherweise haben Sie eine starke (nichtlineare) Beziehung zwischen Ihren Variablen, aber immer noch eine geringe Korrelation (und wenn dies eine Rolle spielt, haben Sie noch mehr Gründe, sich weniger um den p-Wert zu kümmern)

    Machen Sie eine Handlung, um besser zu sehen, was los ist. Sehen Sie mehr hier: Anscombe's Quartett

2 Die zugrunde liegenden Annahmen für die Berechnung sind möglicherweise falsch.

  • Die Berechnung des p-Werts einer Korrelation ist nicht eindeutig. Es gibt verschiedene Möglichkeiten. Wenn Sie die zuvor erwähnte t-Statistik verwenden, gehen Sie davon aus, dass die beiden Variablen unabhängige, nicht korrelierte normalverteilte Variablen sind. Möglicherweise haben Sie stattdessen eine andere Verteilung für Ihre Daten (z. B. einige breitere Schwänze). In diesem Fall ist eine Bootstrap-Methode möglicherweise besser.

    Beispiel. Lassen Sie Ihre Daten zwei identische unabhängige verteilte Bernoulli-Variablen sein (mit $ p_ {succes} = 0.05 $ span>). Lassen Sie uns diese Situation simulieren und sehen, wie die p-Werte verteilt sind (es sollte eine gleichmäßige Verteilung sein).

    p-values when distribution is Bernoulli instead of normal

    Diese verteilten Bernoulli-Variablen sind nichts, auf das man normalerweise eine Korrelation und Berechnung des p-Werts anwenden würde. Es ist jedoch ein einfaches Modell für Fälle, in denen Sie eine kontinuierliche Verteilung haben, die eine multimodale Verteilung ist.

    Sie können ähnliche Simulationen mit verschiedenen Variablen durchführen. Im Allgemeinen unterschätzen die beobachteten p-Werte die wahre Wahrscheinlichkeit (sagen wir, ein p-Wert unter x% tritt in der Realität häufiger auf als x% der Fälle). Ihr berechneter p-Wert p = 0,06 unterschätzt möglicherweise den wahren p-Wert (wenn Sie die t-Verteilung verwenden und die Annahmen nicht richtig sind).


Philosophisch

Außerdem ist der Unterschied zwischen p = 0,05 und p = 0,06 nicht sehr relevant. Es ist jedoch etwas schwierig zu sagen, bei welchem ​​Wert eine „Grenze“ zwischen Ja / Nein-Signifikanz besteht. Dies hängt mit dem Sorites-Paradoxon zusammen. Mein Standpunkt ist, dass es eine Art falsche Dichotomie ist, zu bedenken, dass es eine Grenze gibt. Das Konzept der p-Werte und der Signifikanz ist nicht schwarz und weiß (und die auferlegten Grenzen, die unrealistisch sind, werden in der Praxis sehr willkürlich sein).

Übe

  • Leistungsanalyse Normalerweise vermeiden Sie diese Probleme, indem Sie im Voraus berechnen, welche Art von Probe Sie benötigen, um im erwarteten Bereich genau messen zu können Effektgrößen.

  • Zweiseitige T-Tests. Neben dem Testen der Nullhypothese (entsprechen meine Daten / Experimente) der Nullhypothese oder können sie der Nullhypothese entgegenwirken, können Sie auch prüfen, ob Ihre Daten / Experimente der alternativen Hypothese entsprechen. Dies geschieht mit den zweiseitigen T-Tests. Sie können die Situation haben, dass Ihre Daten weder (signifikant) mit der Nullhypothese (keine Wirkung) noch mit einer alternativen Hypothese (ein Mindestmaß an Wirkung) nicht übereinstimmen.

  • Idealerweise melden Sie alle Ihre Werte. Und nicht nur die bedeutenden. (aber vielleicht meinen Sie mit "den Wert melden" so etwas wie "den Wert im Text diskutieren")

Können Sie bitte erklären, was die Linien in Ihrem ersten Diagramm zeigen?Es ist mir nicht wirklich klar, Ihre Antwort zu lesen.
"In diesem Fall ist eine Bootstrap-Methode möglicherweise besser", ah, ich vergesse zu erwähnen, dass ich bereits einen Permutationstest durchführe.
Ich bemerke eine Ablehnung.Ich bin bereit, diese Antwort zu verbessern, wenn jemand einen Zeiger gibt.
#5
+3
LSC
2019-10-23 05:37:09 UTC
view on stackexchange narkive permalink

Im Allgemeinen sollten Sie sich nicht dafür entscheiden, Ergebnisse auf der Grundlage der Bedeutung oder der Übereinstimmung mit Ihren Zielen zu melden.

Ich stimme Ihnen zu, dass sich ein p-Wert von 0,06 nicht wesentlich von 0,04 unterscheidet (wie andere angegeben haben, ist ein p-Wert eine kontinuierliche Zusammenfassung der beobachteten Daten " kompatibel "mit der spezifischen Nullhypothese und kleinerem p-Wert bedeutet geringere Kompatibilität). Daher liefern beide (.04 vs .06) milde (in einer typischen Beobachtungsstudie sehr milde) Beweise, die der Nullhypothese widersprechen, und die Alpha-Schwelle ist keine magische Zahl.

Zweitens ist Ihr Berater bei der Interpretation von "..." eindeutig falsch . Sie sollten angeben, dass zwischen diesen beiden Variablen keine Korrelationen bestehen. Der p-Wert ist nicht signifikant. '"Dies ist ein Fehler, mangelnde Bedeutung als "keine Beziehung / Korrelation" zu interpretieren. Bitte beachten Sie mindestens Punkt 6. Dies ist ein rudimentärer logischer Irrtum, der verallgemeinert wird als "Fehlen von Beweisen gleich Beweisen von Fehlen", von dem wir wissen, dass es aus verschiedenen Gründen falsch ist, von denen einer das Problem der Induktion ist.

Ihr Berater sollte am besten die folgende Referenz lesen.

https://link.springer.com/article/10.1007/s10654-016-0149-3#Sec2

#6
+2
AdamO
2019-10-11 03:21:11 UTC
view on stackexchange narkive permalink

EDIT: In dieser Antwort wird davon ausgegangen, dass dies, wie geschrieben, ein Beispiel für eine Datenerfassungsübung war. Kommentare zeigen jedoch, dass sich hier ein ganz anderes Szenario abspielt.

Dies ist ein umgekehrtes Beispiel für Münchhausens statistisches Raster. Die Frage lautet dann: Wie viele Probanden muss ich entfernen, bevor das Ergebnis statistisch nicht mehr signifikant ist? Und die Antwort ist (wenn ich absichtlich Beobachtungen mit hohem Einfluss / hoher Hebelwirkung entfernen kann) nicht so viele! Dies sollte es sein, eine ideale Studie wird entsprechend ihrer Effektgröße betrieben. Wenn ich zum Beispiel möchte, dass 90% Leistung die Nullhypothese auf der Ebene von 0,05 ablehnt, sollte ich mit meiner Berechnung der Stichprobengröße sehr zufrieden sein, wenn ich nach Durchführung meines Versuchs die Null nur auf dieser Ebene ablehne . Jede Probe weniger und ich kann die Null nicht ablehnen. Jede Probe im Übermaß und ich habe zu viel Geld oder Zeit für mein Studium ausgegeben.

Das Entfernen von Beobachtungen verringert die Leistung. Das ist nicht interessant.

Ich würde antworten, dass die Löschdiagnose nützlich ist, um Beobachtungen mit hohem Hebel und hohem Einfluss zu identifizieren. Ohne eine vorgeplante Analyse, um diese Beobachtungen zu entfernen, sind die Ergebnisse jedoch bedeutungslos.

#7
+2
cdalitz
2019-10-12 00:16:25 UTC
view on stackexchange narkive permalink

Darf ich Ihre Frage wie folgt umformulieren: "Soll ich den p-Wert bei der Schätzung der Korrelation angeben ?" Ich würde diese Frage mit "Nein" beantworten: Geben Sie stattdessen ein Konfidenzintervall für Ihre gemessene Korrelation an!

Dadurch wird deutlich, ob Ihre Ergebnisse mit den in der Literatur angegebenen Ergebnissen kompatibel sind (überprüfen Sie einfach, ob diese Ergebnisse in Ihr Konfidenzintervall fallen). Wenn andererseits Ihr p-Wert der Hypothese $ H_0: \, r = 0 $ span> 0,06 beträgt und der anderer Studien weniger als 0,05 beträgt, ist dies der Fall bedeutet nicht, dass Ihr Ergebnis den anderen Studien widerspricht.

Zur Bemerkung Ihres Vorgesetzten: Die Korrelation in Ihrem Fall ist so gering (0,21), dass Sie eine große Stichprobengröße benötigen, um ein Konfidenzintervall ohne Null zu erhalten. Sie können die kleinste Korrelation immer "statistisch signifikant" machen, indem Sie einfach die Stichprobengröße erhöhen. Je kleiner die Korrelation ist, desto größer muss jedoch die Stichprobengröße sein, um sie "signifikant" zu machen. Deshalb würde ich nicht den p-Wert, sondern den gemessenen Wert mit einem Konfidenzintervall angeben. Es scheint mir, dass Ihre Ergebnisse mit den anderen Studien übereinstimmen, wenn sie auch eine lediglich schwache positive Korrelation aufweisen.

Danksagung: Ich bin nicht der erste, der diese Empfehlung abgibt ;-)

#8
  0
JaeHyeok Shin
2019-10-12 05:22:31 UTC
view on stackexchange narkive permalink

Ich stimme Ihrem Berater teilweise zu.Manchmal sind sogar statistisch signifikante Ergebnisse überhaupt nicht signifikant zu melden.

Sie müssen sich überlegen, ob die Stichprobenkorrelation groß genug ist, um eine aussagekräftige Aussage zu treffen.Nehmen wir als Extremfall an, dass die wahre Korrelation tatsächlich 0,01 beträgt.Wenn Sie genügend Teilnehmer haben, können Sie immer noch einen sehr kleinen p-Wert erhalten (da er nicht Null ist!).Je nach Kontext kann eine Korrelation von 0,01 jedoch nichts bedeuten.In Ihrem Fall kann die wahre Korrelation ungleich Null sein, ist aber immer noch zu klein, um von 71 Stichproben erfasst zu werden.Ich denke, ein besseres Diskussionsthema mit dem Berater ist, ob die Effektgröße groß genug ist, um nicht darüber zu berichten, ob der Test statistisch signifikant ist.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...