Frage:
Ist statistische Bedeutungslosigkeit tödlich?
tom russell
2014-06-02 00:46:45 UTC
view on stackexchange narkive permalink

Ich entschuldige mich, wenn diese Frage zu Tode gestellt wurde, aber als Nicht-Statistiker weiß ich wirklich nicht, was das Endergebnis ist. Ich betrachte eine Stichprobe von 30.000 Personen, die Gegenstand einer wirtschaftlichen Intervention waren. Diese Intervention führt zu einer durchschnittlichen Erhöhung des Jahreseinkommens der Probanden um 2000 USD. Das Ergebnis ist jedoch bei üblichen Werten statistisch nicht signifikant. Ist die Intervention aus statistischer Sicht gescheitert, und wenn nicht, was kann noch getan werden?

Wie haben Sie den Anstieg auf Signifikanz getestet? Wurde eine Kontrollgruppe verwendet?
Die Liebe die strikte Einhaltung der Ideale der in der Frage implizierten wissenschaftlichen Methode. Lügen, verdammte Lügen und Statistiken, oder? : D.
@NathanCooper: Eher wie die strikte Einhaltung der Konventionen der statistisch naiven wissenschaftlichen Praxis. Wenn die Statistik schuld ist, liegt es daran, dass einfache Methoden auch unter unangemessenen Umständen zu attraktiv sind oder ihre Grenzen nicht ausreichend hervorgehoben werden. (Die Wahrscheinlichkeit, dass die Statistik schuld ist, ist IMO ziemlich gering.)
Fünf antworten:
heropup
2014-06-02 01:00:33 UTC
view on stackexchange narkive permalink

Statistische Unbedeutung bedeutet nicht, dass der zu testende Effekt nicht vorhanden ist, sondern dass die beobachteten Daten keinen eindeutigen Beweis für das Vorhandensein dieses Effekts liefern.

Zum Beispiel, wenn Sie haben einen entladenen sechsseitigen Würfel, aber die Zahlen auf seinen Gesichtern sind {1,2,3,4,5,5} anstelle von {1,2,3,4,5,6}, und Sie würfeln ihn nur Dreimal ist es bei einer so kleinen Stichprobengröße möglicherweise nicht ersichtlich, dass der Würfel mehr Fünfer als einen ergibt. Das bedeutet nicht, dass der Würfel nicht anders ist als ein normaler Würfel (schließlich haben wir den Vorteil, ihn zu inspizieren und wir können deutlich sehen, dass er anders ist) - es kann einfach sein, dass wir mehr Daten über den Würfel sammeln müssen Das beobachtete Verhalten der Matrize, um einen statistisch signifikanten Rückschluss auf die intrinsischen Eigenschaften der Matrize zu ziehen.

Analog kann es sein, dass selbst eine Stichprobengröße von 30000 nicht ausreicht, um einen Unterschied im Verhalten von zu erkennen Ihre Bevölkerung unter zwei Behandlungen, weil Ihr statistischer Test eine geringe Leistung hat. Oder vielleicht ist die Wahrheit, dass der mittlere Anstieg, den Sie beobachten, tatsächlich zufällig ist und kein Effekt wirklich existiert. Da Sie Ihre Toleranz für Fehler vom Typ I nicht angegeben haben, kann ich nicht wirklich darüber sprechen.

Das Wichtigste dabei ist, dass die Nichterkennung der Signifikanz nicht bedeutet, dass kein Effekt vorliegt - es bedeutet einfach, dass Zufällig oder aufgrund mangelnder Macht liefern die Daten nicht genügend Beweise, um zu behaupten, dass der hypothetische Effekt mit einem hohen Maß an Sicherheit vorliegt.

Matt Krause
2014-06-02 03:06:08 UTC
view on stackexchange narkive permalink

Nun, das sind sicherlich keine guten Nachrichten. Entschuldigung.

Ihre Ergebnisse liefern keinen Beweis für das Vorhandensein eines Effekts. Der Effekt könnte natürlich immer noch bestehen: Er könnte kleiner oder variabler sein als erwartet, oder Ihr Experiment war irgendwie fehlerhaft und konnte ihn nicht erkennen.

Also, was können Sie jetzt tun?

0) Überprüfen Sie Ihre Daten . Stellen Sie sicher, dass nichts Dummes passiert ist. Fehlende Werte werden manchmal als 0s / -1s / 99s codiert, und diese Zahlen sollten offensichtlich nicht als tatsächliche Werte in Ihre Analyse eingegeben werden. Wenn Sie Personen nach dem Zufallsprinzip zu Behandlungen / Kontrollen randomisieren, stellen Sie sicher, dass diese Gruppen tatsächlich ähnlich sind. Die Leute werden die ganze Zeit von solchen Fehlern gebissen.

1) Führen Sie eine Leistungsanalyse durch. Idealerweise hätten Sie eine durchgeführt, bevor Sie mit dem Projekt begonnen haben, aber jetzt können Sie eine durchführen Helfen Sie dennoch zu bestimmen, ob Ihr durchgeführtes Experiment eine vernünftige Chance hat, Ihren erwarteten Effekt zu erkennen. Wenn nicht (möglicherweise war Ihre Abbrecher- / Nichteinhaltungsrate sehr hoch), möchten Sie möglicherweise ein größeres Experiment durchführen.

Sie sollten keine Probanden hinzufügen, die Analyse ausführen und wiederholen, bis Ihr Ergebnis signifikant wird. Es gibt jedoch viele Strategien, um die Probleme zu verringern, die mit mehreren "Blicken" auf Ihre Daten verbunden sind.

2) Betrachten Sie Untergruppen und Kovariaten. Vielleicht funktioniert Ihre vorgeschlagene Intervention in einer bestimmten geografischen Region oder für jüngere Familien oder was auch immer am besten. Im Allgemeinen ist es am besten, alle diese Vergleiche im Voraus zu spezifizieren, da die Nutzung von "Freiheitsgraden von Experimentatoren" die Falsch-Positiv-Rate dramatisch erhöhen kann.

Das heißt, es ist nichts Falsches daran, per se zu sehen. Sie müssen sich nur darüber im Klaren sein, dass es sich um post-hoc / explorative Analysen handelt und schwächere Beweise liefern als eine explizit bestätigende Studie. Offensichtlich hilft es sehr, wenn Sie plausible Gründe dafür identifizieren können, warum sich die Untergruppen unterscheiden. Wenn Sie im Norden einen äußerst bedeutenden Effekt feststellen, im von Dürre heimgesuchten, vom Krieg zerstörten Süden jedoch nichts, dann sind Sie in ziemlich guter Verfassung. Andererseits wäre ich viel skeptischer gegenüber einer Behauptung, dass sie bei Untergruppen von Menschen funktioniert, die bei Vollmond geboren wurden, aber nur bei Flut :-)

Wenn Sie etwas finden, können Sie es versucht sein, sofort zu veröffentlichen. Viele Leute tun es, aber Ihr Argument wäre viel stärker, wenn Sie es in einer zweiten Stichprobe bestätigen könnten. Ziehen Sie als Kompromiss in Betracht, einige Ihrer Daten als Validierungssatz herauszuhalten. Verwenden Sie einige der Daten, um nach Kovariaten zu suchen, und den Validierungssatz, um Ihr endgültiges Modell zu bestätigen.

3) Könnte ein Nullergebnis informativ sein? Wenn frühere Arbeiten ähnliche Effekte festgestellt haben, Es kann hilfreich sein zu prüfen, ob Sie Faktoren identifizieren, die erklären, warum sie in Ihrer Bevölkerung nicht wiederholt wurden. Das Veröffentlichen von Nullergebnissen / Replikationsfehlern ist oft schwierig, da die Prüfer davon überzeugt werden müssen, dass Ihr Experiment ausreichend gut konzipiert und leistungsfähig ist, um den gewünschten Effekt zu erkennen. Mit $ n = 30.000 $ sind Sie an dieser Front wahrscheinlich in ziemlich guter Verfassung.

Viel Glück!

2) Ich habe das Gefühl, jemand könnte hier das falsche Ende des Stocks greifen. Wenn Sie auf eine Angelexpedition gehen, verlieren Sie so ziemlich die gesamte Beweiskraft. Es ist möglich, im Vorab-Design nach Untergruppen zu suchen, aber es gibt normalerweise genug vernünftig unterschiedliche Gruppen, um bei dieser Art von explorativer Analyse falsche Typ-I-Werte bereitzustellen.
@NathanCooper, Sie sind absolut richtig. Das Papier, auf das ich verlinkt habe, beschreibt, wie schlecht Angelexpeditionen werden können (und es ist ziemlich düster). Nachdem ich jedoch viel Zeit und Geld damit verbracht habe, Daten zu sammeln, wäre es schön, * etwas * daraus zu machen, selbst wenn dies etwas ist vorläufige Hypothese, die rigoros bestätigt werden muss. Wenn das Einbeziehen sehr plausibler Kovariaten zu einer großen Effektgröße führt, kann dies relativ überzeugend sein (muss aber noch explizit bestätigt werden). Wenn man einen verrückten Quilt von Ein- und Ausschlüssen braucht, um etwas * nur * in die Bedeutung zu bringen, dann ... nein.
Zu Nr. 1: Sie scheinen eine Post-hoc-Leistungsanalyse zu empfehlen.Ich denke nicht, dass das eine nützliche Sache ist.Ich mag dieses Papier von @rvl zu diesem Thema: http://www.stat.uiowa.edu/files/stat/techrep/tr378.pdf
Ich habe etwas anderes angestrebt.Ein Problem bei der Post-hoc-Leistungsanalyse besteht darin, dass sie die * beobachtete * Effektgröße verwenden (von der wir bereits wissen, dass sie klein ist, sonst wären wir nicht hier).Es ist jedoch nicht ganz verrückt, Ihre * erwartete * Effektgröße in eine Leistungsanalyse einzubinden und zu prüfen, ob Ihr Experiment - wie ausgeführt - dies hätte erkennen können.Vielleicht haben Sie am Ende erheblich weniger Daten als in Ihrem ursprünglichen Plan (Probanden brechen häufig die Experimente ab, der Themenpool kann anders sein als erwartet usw.).Ich würde zustimmen, dass es am besten wäre, vorher eine Leistungsanalyse durchzuführen.
Nick Stauner
2014-06-02 09:10:50 UTC
view on stackexchange narkive permalink

Zur Titelfrage: Kategorisch nein. In deinem Fall nicht genug Infos, daher mein Kommentar und Downvote. Außerdem, IMO, wurden Fragen, die statistische und praktische Bedeutung miteinander verbinden, hier zu Tode gestellt, und Sie haben nicht genug gesagt, um Ihre Frage einzigartig zu machen. Bitte bearbeiten; Ich werde meine Abwertung rückgängig machen, wenn ich eine Verbesserung sehe (sie ist jetzt gesperrt), und wahrscheinlich eine Aufwertung, wenn sie erheblich ist. Ihre Frage befasst sich mit einem häufigen, wichtigen Missverständnis, das es verdient, auf dem restlichen Weg zum Tod erledigt zu werden. Wie es ist, ist es jedoch schwierig, etwas Neues über Ihre Situation zu sagen, das es zu einem nützlichen Beispiel machen würde.

Ist die Intervention aus statistischer Sicht fehlgeschlagen, und wenn nicht, was kann noch getan werden?

Was haben Sie bisher noch getan? Es ist auch durchaus möglich, dass Ihre Analyse fehlgeschlagen ist, um Ihren Begriff auszuleihen (IMO, "fehlgeschlagen" ist in beiden Fällen eindeutig zu hart). Deshalb habe ich nach Ihrem Test gefragt. Es gibt eine ganze Reihe von Kontroversen um Optionen vor und nach der Analyse, und Stichproben oder deren Fehlen sind für die Auswahl der Analyseoptionen relevant (siehe " Best Practice bei der Analyse von Kontrolldesigns vor und nach der Behandlung"). . Aus diesem Grund habe ich nach einer Kontrollgruppe gefragt.

Wenn Ihre Testauswahl verbessert werden kann, tun Sie dies (offensichtlich). Überprüfen Sie nicht nur Ihre Daten (wie @MattKrause mit Bedacht vorgeschlagen), sondern auch die Annahmen Ihres Tests. Es gibt einige, die an den üblichen Pre-Post-Designs beteiligt sind, und sie werden häufig verletzt.

  • Normalverteilungen sind wahrscheinlich schlechte Modelle, insbesondere für Änderungswerte und Finanzdaten. Berücksichtigen Sie nichtparametrische Analysen.
  • Heteroskedastizität ist häufig, insbesondere ohne zufällige Auswahl oder mit einer teilweise stochastischen Intervention. Einige Tests reagieren empfindlicher darauf als andere - insbesondere die herkömmlichen.
  • Konventionelle ANCOVA geht von keiner Interaktion zwischen Interventionen und Kovariaten aus. Wenn das Grundeinkommen die Durchführbarkeit der Intervention beeinflusst, sollten Sie wahrscheinlich stattdessen eine moderierte Regression verwenden $ (\ text {Endergebnis = Grundeinkommen + Intervention? + Interaktion + Fehler} $, vorausgesetzt, Sie haben eine Kontrollgruppe. Wenn nicht, haben Sie mehr als 2 Mal?

Welche weiteren Informationen über Ihre Personen haben Sie? Das Erforschen von Kovariaten und Moderatoren ist ein guter Weg, um das statistische "Rauschen" (Fehler) zu reduzieren, das das "Signal" (Effekt) Ihrer Intervention überwältigen muss, damit Ihr Test es "erkennt" (Unterstützung der Ablehnung der Null). Wenn Sie eine Menge Varianz mit anderen Mitteln als Ihrer Intervention erklären können oder erklären können, warum Ihre Intervention nicht alle gleichermaßen betrifft, können Sie besser erkennen, wie groß die Wirkung Ihrer Intervention tatsächlich ist, wenn alle anderen gleich sind - was selten der Fall ist der Standardzustand der Natur. Ich glaube, das war der Geist von Matts Vorschlag Nr. 2.

Haben Sie keine Angst, Kovariaten und Moderatoren zu untersuchen, die Sie nicht im Voraus festgelegt haben. Nehmen Sie einfach eine explorative Denkweise an und erkennen Sie diesen erkenntnistheoretischen Übergang ausdrücklich in jedem Bericht an, den Sie veröffentlichen. Der entscheidende Punkt, der in Bezug auf statistische und praktische Bedeutung wiederholt werden muss, ist, dass ihre Überlappung im Allgemeinen begrenzt ist. Ein Großteil der praktischen Bedeutung der statistischen Bedeutung liegt in dem, was Sie daraus machen möchten. Wenn Sie Beweise suchen, um weitere Forschung zu unterstützen (z. B. für ein Forschungsstipendium), kann die Ablehnung explorativer Hypothesen ausreichend sein. AFAIK, dies ist die einzige Art von praktischer Bedeutung, die statistische Signifikanz standardmäßig implizieren soll, und erklärt die Wahl der Terminologie historisch: signifikant genug, um mehr Forschung zu rechtfertigen .

Wenn Sie nach einem statistischen Standpunkt suchen, ob sich Ihre Intervention lohnt, fragen Sie wahrscheinlich falsch. Die statistische Signifikanz soll dies nicht von sich aus beantworten. es stellt nur direkt eine Antwort auf eine sehr spezifische Frage zu einer Nullhypothese dar. Ich nehme an, dies ist ein weiterer Vorschlag: Überprüfen Sie Ihre Nullhypothese. In der Regel wird standardmäßig angegeben, dass der in Ihrer Probe beobachtete Effekt vollständig auf einen Stichprobenfehler zurückzuführen ist (d. H. Wirkung der Intervention = 0). Interessieren Sie sich wirklich für Veränderungen? Wie konsequent muss es sein, um die Intervention zu rechtfertigen? Diese Fragen entscheiden teilweise über die geeignete Null; Sie müssen sie beantworten.

Bei Bestätigungstests müssen Sie im Voraus antworten. Da Sie bereits einen Test durchgeführt haben, sind alle neuen Tests derselben Art mit unterschiedlichen Nullhypothesen, aber derselben Stichprobe explorativ. Wenn Sie keine weitere Probe entnehmen können, ist es wahrscheinlich am besten, andere Arten von Tests auch als explorativ zu betrachten. Der strenge Sinn für das Testen bestätigender Hypothesen ist besonders streng in Bezug auf die "No Peeking" -Regel; IMO, dies ist eine Schwäche des gesamten Hypothesentest-Paradigmas. AFAIK, Bayesianische Analyse kann diesbezüglich etwas weniger streng sein und kann Ihnen insbesondere dann zugute kommen, wenn Sie mehr Daten erfassen können, da Ihr aktuelles Ergebnis dazu beitragen kann, Ihre vorherige Wahrscheinlichkeitsverteilung zu informieren.

Eine andere Möglichkeit, sich dem Problem zu nähern, besteht darin, sich auf die Effektgröße und Ihr Konfidenzintervall zu konzentrieren. $ 2K ist eine Änderung in der Richtung, die Sie wollten, richtig? Wenn die Ergebnisse Ihres Tests das bedeuteten, was Sie meiner Meinung nach bedeuteten, besteht eine Wahrscheinlichkeit von mehr als 5%, dass Sie eine negative Änderung feststellen, wenn Sie die Studie wiederholen, vorausgesetzt, die Intervention hatte keine Wirkung. Wenn sich Ihre Investition überhaupt positiv ausgewirkt hat, ist die Wahrscheinlichkeit niedriger als Ihr p -Wert. Wenn Sie stark genug in die Aussicht auf eine Behandlung investiert sind, sollten Sie die Studie möglicherweise wiederholen. Wieder wissen Sie besser als ich, was diese Entscheidung sonst noch beeinflusst.


P.S. Trotz meines Intro habe ich es geschafft, viel zu diesem "halbtoten" Thema zu sagen. Hoffentlich habe ich eine nützliche Zusammenfassung anderer Ideen als die in bereits vorhandenen Antworten bereitgestellt, aber ich wäre nicht überrascht, wenn vieles davon für Sie persönlich nicht sehr nützlich wäre. Ein großer Grund, warum ich mehr Informationen haben wollte, ist, dass die Beantwortung einer vagen Frage praktisch die Abdeckung vieler unnötiger Grundlagen erfordert, was eine Art Zeitverschwendung ist. Wenn Sie uns jedoch mit einer Bearbeitung versehen, werde ich wahrscheinlich alles abbrechen, was nicht mehr gilt, und ich werde möglicherweise erweitern, was noch funktioniert. Aus den eingehenden Ansichten geht hervor, dass die Frage hier beim Publikum Anklang findet, sodass dies mit etwas mehr Arbeit zu einer sehr nützlichen Frage werden könnte. Sub>

+1 für die Erörterung der Wichtigkeit von praktischer und statistischer Signifikanz (und danke für die Ausrufe / Ausarbeitungen!)
Ich denke, der Grund, warum diese Frage zu Tode gestellt wird, ist, dass es für den Laien einfach keinen Satz zum Mitnehmen gibt. Dies ist sehr beunruhigend, denn wenn es sich bei der Intervention beispielsweise um ein neues Medikament handelt, ist es buchstäblich eine Frage von Leben und Tod, zu wissen, ob es wirksam ist.
@tomrussell: Ein-Satz-Imbissbuden ... Zur Titelfrage: Nein, statistische Unbedeutung könnte leicht ein Versagen bei der Kontrolle anderer überwältigender Fehlerquellen darstellen, anstatt eine Schlussfolgerung des Null-Effekts zu ziehen. Zur Frage des Scheiterns: Nein, statistisch gesehen ist die Studie nicht schlüssig. Statistiken können Schlussfolgerungen aus einem Satz in Anwendungen informativer machen, als sie es sonst wären, aber eine ordnungsgemäße statistische Praxis erfordert sicherlich mehr Geduld, um sie zu verstehen. Personen ohne Aufmerksamkeitsspanne für mehrere Sätze sollten die Ethik der Fehlinformation berücksichtigen.
CoolBuffScienceDude
2015-08-20 19:26:22 UTC
view on stackexchange narkive permalink

Als Bayesianer interpretiere ich Experimente oft als positiven Beweis für die Nullhypothese. Ich würde die folgenden Dinge fragen:

  1. Es ist eine mittlere Differenz von \ $ 2.000, aber was ist das in Bezug auf eine standardisierte mittlere Differenz?
  2. Wie groß ist eine (standardisierte) ) Mittlerer Unterschied, den Sie erwartet hätten, wenn diese Intervention funktioniert hätte?
  3. Wie genau ist Ihre Schätzung? Wenn die Schätzung + \ $ 2000 +/- \ $ 20.000 beträgt, haben Sie nicht viel gelernt - vielleicht gibt es zu viel Variabilität, um zu wissen, ob Ihre Intervention funktioniert hat.
  4. Nun, da Sie diesen scheinbar Null-Effekt in beobachtet haben Bei einer ziemlich gesunden Stichprobe von 30.000 könnte es an der Zeit sein zu argumentieren, dass Sie wissen, dass die Wahrscheinlichkeit, dass die Intervention wirksam ist, geringer ist?
  5. ol>

    Natürlich gelten viele Überlegungen. Wenn Sie p = .02 betrachten, wenn Ihr traditioneller Cutoff 0,01 ist, wäre es dumm zu schließen, dass die Nullhypothese wahr ist, da die Daten unter den beiden Hypothesen wahrscheinlich ziemlich wahrscheinlich sind.

    Daher würde ich vorschlagen, sich die Webseite von Zoltan Dienes und seinen Bayes-Faktor-Rechner anzusehen. Wenn Sie Ihre Parameterschätzung, ihre Genauigkeit und einen plausiblen Bereich von Parameterwerten angeben, wenn Ihre Intervention funktioniert hat, können Sie einen Bayes-Faktor erhalten, der Ihnen sagt, ob dies ein Beweis dafür ist, dass Ihre Intervention funktioniert oder nicht, oder ob es keinen Beweis dafür gibt So oder so.

    Natürlich sind auch die Antworten der anderen Kommentatoren wichtig: Überprüfen Sie Ihr Modell, überprüfen Sie Ihre Daten usw., um sicherzustellen, dass die von Ihnen angegebene Parameterschätzung angemessen ist.

Aksakal
2015-08-20 20:04:49 UTC
view on stackexchange narkive permalink

Ja, es ist fatal für wirtschaftliche Interventionen. Wer auch immer Sie Ihre Ergebnisse demonstrieren, wird die Bedeutung prüfen und erklären, dass die Intervention nicht funktioniert hat.

Dies wird vorausgesetzt, dass Sie die Signifikanz ordnungsgemäß getestet haben. Zum Beispiel sind die Proben mit oder ohne Intervention in angemessener Weise ähnlich oder die Unterschiede wurden kontrolliert usw. Es gibt alle Arten von Verzerrungen, die versehentlich eingeführt werden müssen diese Experimente, also müssen Sie sie irgendwie erklären.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...