Frage:
Empfohlene Terminologie "statistisch signifikant"
Eddy Simms
2019-12-24 19:39:21 UTC
view on stackexchange narkive permalink

Nach der jüngsten ASA und anderen Kommentaren zu p-Werten und ohne Verwendung des Begriffs "statistisch signifikant", was ist die Empfehlung für die Darstellung der Ergebnisse einer Analyse?

Wenn ich zum Beispiel aufgrund der Art und Weise, wie mir Statistik beigebracht wurde, einen T-Test durchführen würde, würde ich so etwas wie "p = 0,03, das Ergebnis war statistisch signifikant" sagen (vorausgesetzt, ich hätte die Signifikanz auf 0,05 festgelegt).Würde ich jetzt nur noch 'p = 0.03' angeben und möglicherweise ein Konfidenzintervall angeben müssen?

Unter [datamethods] (https://discourse.datamethods.org/t/language-for-communicating-frequentist-results-about-treatment-effects/934) gibt es einen großartigen Beitrag über die Kommunikation von Frequentist-Ergebnissen.
Die Signifikanz wird auch von der Größe des Befundes beeinflusst.Wenn Sie mit 80% iger Sicherheit feststellen, dass ein Apfel pro Tag 50-70% der Krebsfälle heilt, ist dies sicherlich von Bedeutung.
Trotz mehrerer hervorragender Antworten.Ich schlage vor, dass keine wirklich eine von mehreren Dimensionen mit der Frage konfrontiert: Für wen Sie schreiben und was sie wissen.Ich kann mir hier ein ganzes Spektrum vorstellen, von Leuten, die Statistiker sind oder ein sehr starkes Verständnis von Statistik haben, bis hin zu Gruppen, die ein gewisses Verständnis von Statistik haben sollten (aber in der Praxis können viele Mitglieder schlecht oder falsch informiert sein), um das Publikum zu erreichen.Der erste ist am einfachsten, und ich kann mir oft vorstellen, etwas wie "formal angegeben, der P-Wert aus dem Foobar-Test von $ \ theta = 0 $ ist 0,03" zu schreiben.
Sechs antworten:
#1
+28
Peter Flom
2019-12-24 19:58:36 UTC
view on stackexchange narkive permalink

Ich glaube nicht, dass der Einwand nur gegen den Begriff "statistisch signifikant" gerichtet ist, sondern gegen den Missbrauch des gesamten Konzepts der statistischen Signifikanzprüfung und gegen die Fehlinterpretation von Ergebnissen, die vorliegen (oder nicht) ) statistisch signifikant.

Sehen Sie sich insbesondere diese sechs Aussagen an:

  1. P-Werte können angeben, wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind.
  2. P-Werte messen nicht die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, oder die Wahrscheinlichkeit, dass die Daten zufällig erzeugt wurden Chance allein.
  3. Wissenschaftliche Schlussfolgerungen und geschäftliche oder politische Entscheidungen sollten nicht nur darauf beruhen, ob ein p-Wert einen bestimmten Schwellenwert überschreitet.
  4. Die richtige Schlussfolgerung erfordert vollständige Berichterstattung und Transparenz.
  5. Ein p-Wert oder eine statistische Signifikanz misst nicht die Größe eines Effekts oder die Wichtigkeit eines Ergebnisses.
  6. Ein p-Wert allein liefert keinen guten Beweis für ein Modell oder eine Hypothese.
  7. ol>

Sie empfehlen daher eine umfassendere Methode zur Durchführung und Berichterstellung als nur die Angabe eines p-Werts oder sogar eines p-Werts mit einem CI. Ich denke, das ist klug und ich denke nicht, dass es kontrovers sein sollte.

Nun, wenn ich von ihrer Aussage zu meinen eigenen Ansichten gehe, würde ich sagen, dass wir den p-Wert oft überhaupt nicht erwähnen sollten. In vielen Fällen enthält es keine nützlichen Informationen. Fast immer wissen wir im Voraus, dass die Null nicht genau wahr ist, und oft wissen wir, dass sie nicht einmal annähernd wahr ist.

Was ist stattdessen zu tun? Ich kann die MAGIC-Kriterien von Robert Abelson nur empfehlen: Größe, Artikulation, Allgemeinheit, Interesse und Glaubwürdigkeit. Ich sage viel mehr darüber in meinem Blog-Beitrag: Statistik 101: Die MAGISCHEN Kriterien.

(Meine Ansichten sind im Gegensatz zu denen der ASA umstritten. Viele Menschen stimmen ihnen nicht zu.)

Ein großes +1.Obwohl ich mit Ihrer Charakterisierung und Verwendung von Nullhypothesen nicht einverstanden bin, haben Sie Ihre Position klar formuliert und auf dem Weg nützliche, gut unterstützte Informationen geliefert.
#2
+8
Karolis Koncevičius
2019-12-24 20:40:00 UTC
view on stackexchange narkive permalink

Meiner Meinung nach wäre eine ehrlichere, aber nicht technische Formulierung so etwas wie:

Das erhaltene Ergebnis ist überraschend / unerwartet (p = 0,03) unter der Annahme, dass kein mittlerer Unterschied zwischen den Gruppen besteht.

Wenn das Format zulässig ist, kann es auch erweitert werden:

Der erhaltene Unterschied von $ \ Delta m $ span> wäre im Szenario zweier normalverteilter Gruppen mit gleichen Mitteln und einer Standardabweichung ziemlich überraschend (p = 0,03)von $ \ sigma $ span>.Da unsere Daten nicht zu stark von den im Test verwendeten Verteilungen abweichen, deutet das erhaltene Ergebnis entweder darauf hin, dass die tatsächlichen Mittelwerte zweier Gruppen unterschiedlich sind oder dass ein seltenes Stichprobenergebnis aufgetreten ist.

+1 für die Vorstellung, dass ein p-Wert die Überraschung umgekehrt misst.Ich möchte hinzufügen, dass dies auch von der Angemessenheit des statistischen Modells und der Stichprobe abhängt.
Ich stimme der +1 zu, um zu erwähnen, dass ein * p * -Wert mit Überraschung zusammenhängt.Im informationstheoretischen Sinne misst die Menge $ -log_2 (p) $ die Informationsmenge (vom Test geliefert) gegen die getestete Hypothese.Dieser Wert hat auch eine nette / intuitive Interpretation.Siehe Punkt 4 in meinem A.
Ein p-Wert ist nicht gültiger, wenn er als Maß für die Überraschung gerahmt wird, als wenn er als Maß für die statistische Signifikanz gerahmt wird.
#3
+6
Ben
2019-12-25 13:45:17 UTC
view on stackexchange narkive permalink

Ich stimme der Antwort von Peter Flom zu, möchte aber einen zusätzlichen Punkt zur Verwendung des Begriffs "Signifikanz" beim Testen statistischer Hypothesen hinzufügen. Die meisten in der Statistik interessanten Hypothesentests haben eine Nullhypothese, die für einen "Effekt" einen Nullwert und für diesen "Effekt" einen alternativen Wert ungleich Null (oder einen positiven oder negativen Wert) setzt. Bei richtiger Auslegung ist der p-Wert ein Maß für die Evidenz zugunsten der alternativen Hypothese im Verhältnis zur Nullhypothese (und unter dem festgelegten Modell). Es ist kein Maß für die Stärke des Effekts, der unter der alternativen Hypothese als ungleich Null festgelegt ist. $ ^ \ dagger $ span>

In Anbetracht dessen bin ich der Ansicht, dass die beste Vorgehensweise für die Berichterstattung über Ergebnisse darin besteht, sich auf so etwas wie "signifikante Hinweise auf einen Nicht-Null-Effekt" zu beziehen. Wichtig hierbei ist, dass der Quantifizierer "signifikant" an den "Beweis" angehängt wird, nicht an den "Effekt". Meiner Ansicht nach ist es eine gefährliche Abkürzung, etwas wie "es gibt einen signifikanten Effekt" zu sagen, die den Quantifiziererverschiebungsfehler begeht Hinweise auf einen signifikanten Effekt. Eine solche Sprache lädt den Leser ein, die Bedeutung des p-Werts falsch zu verstehen und statistische Signifikanz mit praktischer Signifikanz zu verbinden.

Dies ist der häufigste Missbrauch des Begriffs "Bedeutung", den ich in veröffentlichten Artikeln und anderswo sehe. Es ist allgegenwärtig, Verweise auf einen "signifikanten Effekt" oder "statistisch signifikanten Effekt" zu sehen, anstatt auf den genaueren "Signifikanznachweis eines Nicht-Null-Effekts".


$ ^ \ dagger $ span> Obwohl diese Dinge offensichtlich mathematisch zusammenhängen.Im Großen und Ganzen ist die Verteilung des p-Wertes nahe Null umso konzentrierter, je größer der wahre Effekt ist.Ungeachtet dieser Tatsache sollte der p-Wert im Allgemeinen nicht als Maß für die Stärke des Effekts verwendet werden

#4
+3
statmerkur
2019-12-27 02:18:44 UTC
view on stackexchange narkive permalink

Im Allgemeinen stimme ich den folgenden Aussagen im Leitartikel Moving to a World Beyond "p < 0.05" zu, der Teil der Sonderausgabe Statistical Inference in the 21st Century ist: Eine Welt jenseits von p < 0.05 des amerikanischen Statistikers:

Was Sie in dieser Ausgabe NICHT finden, ist eine Lösung, die die übergroße Rolle dieser statistischen Signifikanz majestätisch ersetzt ist zum Spielen gekommen. Die statistische Community ist noch nicht konvergiert ein einfaches Paradigma für die Verwendung statistischer Inferenz in der Wissenschaft Forschung - und in der Tat kann es nie tun.

Wir fassen unsere Empfehlungen in zwei Sätzen mit insgesamt sieben Sätzen zusammen Wörter: Accept Unsicherheit. Sei thoughtful, open und modest. Denken Sie an "ATOM".

Die Autoren der 43 Artikel der Sonderausgabe geben jeweils (unterschiedliche) Antworten auf Ihre Frage. Persönlich mag ich die folgenden Vorschläge, die Sander Greenland macht (kopiert aus dem oben erwähnten Editorial):

  1. Ersetzen Sie alle Aussagen zur statistischen Signifikanz eines Ergebnisses durch den p -Wert aus dem Test und den p -Wert als Gleichheit darstellen, keine Ungleichung. Wenn beispielsweise p = 0,03 ist, war „… statistisch signifikant “würde ersetzt durch„… hatte p = 0,03 “und„ p < 0,05 “ würde durch " p = 0,03" ersetzt. (Eine Ausnahme: Wenn p so klein ist dass die Genauigkeit sehr schlecht wird, dann eine Ungleichung, die dies widerspiegelt Grenze ist angemessen; B. abhängig von der Probengröße p -Werte Von normalen oder $ \ chi ^ 2 $ span> -Näherungen bis hin zu diskreten Daten fehlen häufig sogar 1-stellige Genauigkeit, wenn p < 0,0001.) Parallel, wenn p = 0,25 dann würde "... war statistisch nicht signifikant" durch "... hatte" ersetzt p = 0,25 “und„ p > 0,05 “würden durch„ p = 0,25 “ersetzt.

  2. Präsentieren Sie p -Werte für mehr als eine Möglichkeit, wenn Sie einen Zielparameter testen. Zum Beispiel, wenn Sie den p -Wert von a diskutieren Test einer Nullhypothese, diskutieren Sie neben diesem Null p -Wert auch ein weiterer p -Wert für eine plausible alternative Parametermöglichkeit (Idealerweise diejenige, die zur Berechnung der Leistung im Studienvorschlag verwendet wurde). Wie Ein weiteres Beispiel: Wenn Sie einen Äquivalenztest durchführen, geben Sie die p -Werte an sowohl für die Unter- als auch für die Obergrenze des Äquivalenzintervalls (welche werden für Äquivalenztests verwendet, die auf zwei einseitigen Tests basieren.

  3. Konfidenzintervalle für gezielte Studienparameter anzeigen, aber auch mit p -Werten zum Testen relevanter Hypothesen ergänzen (z. die p -Werte sowohl für die verwendete Nullhypothese als auch für die verwendete Alternativhypothese für das Studiendesign oder den Vorschlag wie in # 2). Nur Konfidenzintervalle zeigen deutlich, was innerhalb oder außerhalb des Intervalls liegt (d. h. ein 95% -Intervall zeigt nur deutlich, was p > 0,05 oder p ≤ 0,05 hat), aber detaillierter ist häufig für umstrittene Schlüsselhypothesen wünschenswert. [...]

  4. Ergänzen Sie einen fokalen p -Wert p mit seiner Shannon-Informationstransformation (s-Wert oder überraschend) $ s = -log_2 (p) $ span>. Dies misst die Menge der vom Test gelieferten Informationen gegen die getesteten Hypothese (oder Modell): Abgerundet zeigt der s-Wert s die Anzahl von Köpfe in einer Reihe müsste man sehen, wenn man eine Münze wirft, um die zu bekommen gleiche Menge an Informationen gegen die Würfe "fair" (unabhängig mit einer „Kopf“ -Wahrscheinlichkeit von 1/2) anstatt geladen zu werden für Köpfe.Wenn beispielsweise p = 0,03 ist, bedeutet dies $ - log_2 (0,03) = 5 $ span> Informationsbits gegen die Hypothese (wie das Erhalten von 5)geht hinein ein Versuch der „Fairness“ mit 5 Münzwürfen);und wenn p = 0,25 ist, ist dies repräsentiert nur $ - log_2 (0.25) = 2 $ span> Informationsbits gegen die Hypothese (wie 2 Köpfe in einem Versuch der "Fairness" mit nur 2 zu bekommen Münzwürfe).

  5. ol>
#5
+2
Jay Schyler Raadt
2019-12-25 13:47:19 UTC
view on stackexchange narkive permalink

Wenn wir wissen, dass die Nullhypothese nicht genau wahr ist, das Ergebnis jedoch statistisch nicht signifikant ist, ist dies ein Problem der Stichprobengröße oder der statistischen Aussagekraft.Die statistische Signifikanz ist nicht wirklich ein Ziel, sondern eine Notwendigkeit, die man mit angemessener statistischer Aussagekraft erreicht.Bei gleicher Effektgröße können die Ergebnisse zweier Experimente je nach Probengröße statistisch signifikant sein oder nicht.Ich vertraue jedoch der statistisch signifikanten Effektgröße mehr als der anderen, da sie eine größere Stichprobengröße hatte.

#6
+1
jerlich
2019-12-25 13:27:13 UTC
view on stackexchange narkive permalink

Sie können nur das Ergebnis angeben: "Gurples waren im Durchschnitt 10 cm größer als Cheebles (Höhenunterschied = 10 [5, 14]; Mittelwert 95% CI, p = 0,03)."

Obwohl Ihre Formulierung nichts * Falsches * enthält, widerspricht dies meiner Meinung nach dem Geist der ASA-Erklärung.Es geht nicht so sehr darum, das verbotene Wort wegzulassen, sondern andere Wege zu benutzen, um die Stärke der Beweise auszudrücken.
Ich habe den Mittelwert und 95% CI eingeschlossen.Dies ist die empfohlene Methode, um das Ergebnis auszudrücken.Der p-Wert ist nur für die Leser der alten Schule enthalten.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...