Frage:
Interviewfrage: Wenn Korrelation keine Kausalität impliziert, wie erkennen Sie die Kausalität?
Akaike's Children
2019-11-09 03:15:04 UTC
view on stackexchange narkive permalink

Ich habe folgende Frage:

Wenn Korrelation keine Kausalität impliziert, wie erkennen Sie die Kausalität?

in einem Interview.

Meine Antwort war: Sie führen irgendeine Form von A / B-Tests durch.Der Interviewer drängte mich immer wieder zu einem anderen Ansatz, aber mir fiel keiner ein, und er sagte mir nicht, ob meine erste Antwort richtig war oder nicht.

Gibt es andere Ansätze?Und war meine Antwort richtig?

Das Standard-Mantra lautet: "* keine Verursachung ohne Manipulation *". Ich denke, der Interviewer suchte nach Begriffen für Beobachtungsstudien (z. B. IPTW, doppelte robuste Schätzer usw.). Das heißt, A / B-Tests sind eine korrekte Antwort wie inTheorie kümmert es sich um Mitbegründer.
Pearl, J. (2000).* Kausalität: Modelle, Argumentation und Folgerung *.Cambridge University Press.
Pearl, J. (2009).[Kausaler Rückschluss in der Statistik: Ein Überblick] (https://projecteuclid.org/euclid.ssu/1255440554http://projecteuclid.org/euclid.ssu/1255440554).* Statistikumfragen *, 3, 96–146.
G. Maldonado & S. Greenland (2002).[Abschätzung der kausalen Auswirkungen] (https://academic.oup.com/ije/article-pdf/31/2/422/18525260/310422.pdf).* International Journal of Epidemiology *, 31 (2), 422–438.
M. A. Hernán & J. M. Robins (2020).[* Kausale Folgerung: Was wäre wenn *] (https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/).Chapman & Hall.
Pearl, J., Mackenzie, D. (2018) * Das Buch des Warum: die neue Wissenschaft von Ursache und Wirkung *.Grundlegende Bücher.
Die einfachste Antwort ist wahrscheinlich, dass Sie ein Experiment durchführen, bei dem mindestens eine der Variablen vom Experimentator bestimmt wird.
@MichaelHardy Außer wenn Experimente nicht möglich sind (z. B. Untersuchung der Plattentektonik - ordnen Sie die ersten 4 * 10 ^ 9 Jahre der Erdhälfte mit 10% weniger Si in der Kruste zufällig zu), führen Sie die CMB der Expansionszeit erneut ausIn 10 Kontrolluniversen mit verdoppeltem Anisotropieparameter wird die Gesundheit der Gesellschaften - zufällig werden diese Länder zufällig angegriffen und besetzt usw.).In Beobachtungsdesigns werden immer noch kausale Schlussfolgerungen gezogen - wenn auch mit zusätzlichen Einschränkungen.
@Alexis: Wie gesagt, die einfachste Antwort ......
Bei weitem nicht genug Informationen.Es gibt einen großen Unterschied zwischen Schlussfolgerungen für harte Wissenschaften wie Biotechnologie und E-Commerce / Webklicks / E-Mail-Antworten (wo reine Kausalität wohl nicht existiert und selbst wenn dies der Fall wäre, niemals wirtschaftlich gemessen werden könnte).Es gibt auch einen Unterschied zwischen der Anzahl der Experimente, die Sie gleichzeitig ausführen können, der Anzahl der Variablen oder Ergebnisse, der Kosten und der Größe einer Studie, der Geschwindigkeit, mit der Sie eine (Teil-) Antwort wünschen, der Frage, ob ein Experiment in Echtzeit erfolgt und ob Sie Änderungen vornehmen könnenes oder Exploit während es läuft (Einarmiger Bandit / Mehrarmiger Bandit) etc ...
Sieben antworten:
Student
2019-11-09 06:22:34 UTC
view on stackexchange narkive permalink

Es gibt einige Möglichkeiten, dies zu umgehen. Sie haben Recht, dass A / B-Tests eines dieser sind. Der diesjährige Wirtschaftsnobelpreis wurde für die Pionierarbeit bei Feldversuchen in der Untersuchung von Maßnahmen gegen die Armut verliehen, die genau dies tun.

Dennoch könntest du eine der folgenden Alternativen wählen: : ernfalls>>>>>>>>>>>
  1. Selection on observables. Wahrscheinlich der beliebteste Ansatz. Sie gehen davon aus, dass die Behandlungszuordnung von einigen Kontrollvariablen abhängig ist. Im sogenannten Rahmen für potenzielle Ergebnisse können Sie diese Annahme unter einer binären Behandlung als $ Y_i (1), Y_i (0) \ perp T_i \ mid X_i $ span> angeben Dabei sind $ T_i \ in \ {0,1 \} $ span>, $ Y_i (t) $ span> Einheiten Das Ergebnis von $ i $ span> unter Behandlungsstatus $ t $ span> und $ X_i $ span> ist ein Vektor der Eigenschaften von $ i $ span>. Der ideale Weg, dies zu erreichen, besteht darin, $ T_i $ zufällig zu sortieren. Andere Ansätze, die auf dieser Annahme beruhen, sind Matching (einschließlich ML-Methoden wie Kausalbäume), inverse Wahrscheinlichkeitsgewichtung und die allgegenwärtigere Methode zum Hinzufügen von $ X_i $ span> als zusätzliche Kovariaten in einer linearen Regression. Die Informatik hat uns die Theorie der „gerichteten azyklischen Graphen“ für kausale Folgerungen geschenkt, die uns helfen, darüber nachzudenken, welche guten und welche schlechten Variablen in $ X_i $ span> enthalten sein sollen .
  2. Regression Diskontinuitätsdesigns. Diese Methode ist sehr beliebt, da sie eine glaubwürdige Interpretation der Ergebnisse als kausal bietet. Nehmen wir zur Veranschaulichung der Idee das Beispiel einer räumlichen Diskontinuität. Angenommen, es gab ein Erdbeben und Kinder in einer bestimmten Zone wurden angewiesen, drei Monate lang nicht zur Schule zu gehen. Kinder außerhalb der Grenze hatten keine Unterbrechung beim Schulbesuch. Sie können also Kinder innerhalb der Zone mit denen außerhalb vergleichen, und plausibel ist das einzige, was sich zwischen ihnen unterscheidet, der Schulbesuch. Sie können dann die folgenden Schuljahre, den College-Besuch usw., auf welcher Seite der Grenze lebten, zurückbilden und die kausalen Auswirkungen des Schulbesuchs ermitteln. Beachten Sie, dass die Auswahl des richtigen Fensters um die Diskontinuität und die Implementierung des RD-Schätzers eine subtile Frage ist und dahinter eine Literatur steckt (siehe @ olooneys Kommentar zu dieser Antwort).
  3. Instrumental variables. Dies ähnelt der Regressionsdiskontinuität, ist jedoch normalerweise viel schwieriger zu verteidigen. Ein Instrument ist eine Variable, von der Sie glauben, dass sie nur durch den Behandlungsstatus (dh durch die Variable, deren Wirkung Sie messen wollen) mit dem Ergebnis korreliert. Wenn dies der Fall ist, können Sie so genannte zweistufige kleinste Quadrate verwenden, um den kausalen Effekt abzuschätzen. In diesem Genre gibt es eine kleine Bibliothek, in der untersucht wird, wie etwas schief gehen kann, wenn die Annahmen fehlschlagen und selbst wenn sie nicht fehlschlagen. Beachten Sie jedoch, dass ein RD ein gültiges Instrument sein kann. Im Erdbebenbeispiel kann die Seite der Grenze, auf der jemand lebte, ein Instrument für den Schulbesuch sein, da sie plausibel nicht mit irgendetwas anderem korreliert, das die Ergebnisse erklärt. Andere clevere Strategien in dieser Kategorie sind Shift-Share- und Bartik-Instrumente. Diese haben auch Forschung, die die Annahmen untersucht, auf die sie sich stützen.
  4. Differenz-in-Differences. Diese Methode lockert die Annahme der Selektion auf Observablen. Es wechselt zu einer Vorher-Nachher-Einstellung und vergleicht die durchschnittliche Ergebnisänderung derjenigen in der Behandlungsgruppe mit der durchschnittlichen Ergebnisänderung derjenigen in der Kontrollgruppe. Dabei wird von parallelen Trends ausgegangen: , dass die durchschnittliche Änderung der Behandlungsgruppe dieselbe gewesen wäre wie die der Kontrollgruppe , wenn sie nicht die erhalten hätten Behandlung. Diese Methode ist unglaublich beliebt, da sie robuster ist als die Auswahl von Observablen und Einstellungen, bei denen sie glaubwürdig angewendet werden kann, allgegenwärtiger sind als bei Regressionsdiskontinuitäten oder instrumentellen Variablen. Ein berühmtes Beispiel ist die Mindestlohnstudie von Card und Krueger, die Mitarbeiter von Fastfood-Gaststätten im Philadelphia-Bereich vor und nach einer Änderung des Mindestlohns miteinander verglichen haben. Eine relativ neue Variante dieser Methode ist die von synthetischen Kontrollen, die eine künstliche Kontrollgruppe bilden und Diff-in-Diff durchführen, was Sie aufgrund ihrer Glaubwürdigkeit vielleicht mögen oder nicht.
Regressionsdiskontinuität ist theoretisch ansprechend, aber es gibt auch Horrorgeschichten wie https://statmodeling.stat.columbia.edu/2018/08/02/38160/. Seien Sie also vorsichtig, bevor Sie sie anwenden.Einige Ratschläge finden Sie unter https://www.princeton.edu/~davidlee/wp/RDDEconomics.pdf.
Vielen Dank, @olooney,. Ich habe in der Antwort einen Verweis auf Ihren Kommentar hinzugefügt
Ihr Beispiel für Regressionsdiskontinuitätsdesigns scheint tatsächlich ein gutes Beispiel dafür zu sein, wo andere Variablen eine Rolle spielen könnten, damit die Korrelation keine Kausalität impliziert, z. B. die Nähe zum Epizentrum des Erdbebens (wenn auch nur geringfügig) oder die mögliche psychologische Auswirkung des Seinssagte, nach einem möglicherweise traumatischen Ereignis nicht zur Schule zu gehen.
@NotThatGuy Als erstes erwähnen Sie, dass das Epizentrum ziemlich weit von der Grenze entfernt ist und ein Block näher am Epizentrum die behandelten Kinder keinen anderen Bedingungen aussetzen sollte als die einen Block entfernt auf der anderen Seitedie Grenze.Das zweite klingt für mich nach einem der möglichen Mechanismen (Mediatoren für den Behandlungseffekt).
Sammy
2019-11-09 04:37:36 UTC
view on stackexchange narkive permalink

Ich möchte Ihnen eine philosophische und wissenschaftliche Antwort geben:

Theoretisch und prinzipiell kann Kausalität nicht beobachtet werden. Es hat nie und wird nie. Nehmen wir ein einfaches Beispiel: Wenn Sie die Tasten Ihrer Tastatur drücken und die Buchstaben auf Ihrem Bildschirm erscheinen, während Sie einen Beitrag auf dieser Website eingeben, nehmen Sie einen kausalen Effekt an. Erstens, weil Sie eine Korrelation zwischen dem Drücken der Tasten und den Buchstaben auf Ihrem Bildschirm beobachten. Und zweitens, weil Sie ein Modell der Kausalität dessen haben, was in Ihrem Kopf geschieht, das Sie für plausibel halten (was im Grunde bedeutet, dass die Tastatur ein Eingabegerät ist, das zum Tippen verwendet wird).

Keiner der beiden ist jedoch Kausalität, und Sie können keine Kausalität beobachten. Es kann sein, dass ein unsichtbarer Dämon jedes Mal, wenn Sie die Tasten drücken, die Buchstaben auf Ihrem Bildschirm erstellt. Das ist der philosophische Standpunkt und die Antwort.

Die wissenschaftliche Antwort lautet: Kausalität beobachten: Sie müssen Ihre Eingabedaten manipulieren, alles andere kontrollieren und den Effekt beobachten. Da Sie kein Psychologe sind, der eine Studie entwirft, sondern Daten analysiert, bedeutet dies, dass Sie Daten im Laufe der Zeit benötigen.

Wenn Sie beispielsweise davon ausgehen, dass das Leben in einer bevölkerungsreichen Stadt das Risiko einer klinischen Depression erhöht, benötigen Sie eine Stichprobe von Menschen in einer Großstadt, die später eine klinische Depression entwickelten. Und nicht nur eine positive Korrelation zwischen der Variablen "lebt in einer großen Stadt" und "leidet an einer klinischen Depression". Außerdem müssen Sie andere unabhängige Variablen steuern.

Eine andere Möglichkeit, dies zu erreichen, besteht in einer Laborumgebung, in der Sie Variablen explizit bearbeiten können (und die Steuerung für andere unabhängige Variablen ist viel einfacher). Dieser Ansatz hängt jedoch weniger mit der Datenwissenschaft zusammen.

MindtheData
2019-11-10 05:57:02 UTC
view on stackexchange narkive permalink

Option 1:

Randomisierte kontrollierte Studie.Der 'Goldstandard'.

Option 2:

  1. Zeichnen Sie ein Kausaldiagramm Ihres Systems.Ein gerichteter azyklischer Graph von wie Sie und andere denken, dass das System funktioniert.
  2. Entscheiden Sie , ob aus der Beobachtungsstudie eine Ursache abgeleitet werden kann Hintertürkriterium, Vordertürkriterium oder andere bedingte Unabhängigkeitsmethoden.Sammeln Sie Daten zu relevanten Variablen.Sehen Judea Pearl.
  3. Erstellen Sie ein statistisches Modell mit 1 & 2.
  4. Gehen Sie vorsichtig mit Ihrer DAG, Ihrem statistischen Modell oder Ihren Daten um perfekt.
  5. ol>

    Eine sanfte Einführung finden Sie in Pearl's The Book of Why

Larry Kreuger
2019-11-10 22:23:32 UTC
view on stackexchange narkive permalink

Ich bin mir nicht sicher, ob dies etwas hinzufügt, aber wenn Sie einen anderen Gedanken aus der Philosophie benötigen, wurden wir damals (1960er Jahre) in einem Philosophiekurs unterrichtet, den Humes 3 Kriterien der Kausalität erforderten: (1) zeitlicher Vorrang (vermutete Ursache vorzeitig); (2) eine beobachtbare empirische Korrelation;und (3) dass alle rivalisierenden Hypothesen ausgeschlossen wurden.

Unter der Annahme, dass Kriterium Nr. 3 praktisch unmöglich ist, wäre es für immer unmöglich, eine Kausalität nachzuweisen.

Upvoted für zeitlichen Vorrang - wenn zwei korrelierte Dinge kausal zusammenhängen, kann das spätere das frühere nicht verursacht haben.Dies ist die "Kausalität", die in Einsteins Relativitätstheorie nicht verletzt werden kann.
TDT
2019-11-09 03:35:38 UTC
view on stackexchange narkive permalink

Kurz gesagt, um die Ursache direkt zu erkennen, müssen wir alles andere kontrollieren.Zum Beispiel pflanzen Sie zwei Bäume mit demselben Boden, derselben Wassermenge, derselben Zeit unter Licht usw. mit zwei verschiedenen Düngemitteln.Wenn alles gleich ist und Baum A schneller wächst, können wir sagen, dass der Dünger für Baum A eine schnellere Entwicklung bewirkt.

Wir können diese Art von Schlussfolgerung nur ziehen, wenn wir davon ausgehen, dass alles andere gleich ist.Dies kann schwierig zu überprüfen sein, so dass es in der Praxis eine Annahme ist.Beispielsweise können zwei Bäume unterschiedliche Gene haben und ein Gen bewirkt eine schnellere Entwicklung.

Marina
2019-11-11 04:27:52 UTC
view on stackexchange narkive permalink

Bei der Analyse derselben Daten, die eine Korrelation zeigen, können Sie keine Ursache finden.

Sammy oben gab ein Beispiel für eine Hypothese: Das Leben in großen Städten verursacht psychische Störungen. Die von ihm vorgeschlagene Studie weist nur zwei Merkmale auf: Standort und Status der psychischen Störung, und sie kann nur Korrelation und keine Kausalität zeigen. Es besteht immer die Möglichkeit, dass Menschen mit psychischen Störungen lieber in Großstädten leben und nicht in Städten Störungen verursachen.

Einige zusätzliche Attribute müssen beteiligt sein. Dies können Attribute sein, die die Abhängigkeit erklären. Beispielsweise kann man einen Geräuschpegel als unabhängige Variable betrachten.

Als weitere Option kann man Zeit in die Studie einbeziehen, um den Prozess zu beobachten, wie einer einen anderen verursacht. Insbesondere kann man dieselben Menschen betrachten, die zu unterschiedlichen Zeiten in Städten und Ländern gelebt haben, um festzustellen, wo die Störung bei diesen Menschen häufiger auftrat.

Auf jeden Fall müssen zusätzliche Informationen vorhanden sein, die die Ursache erklären oder den Einflussprozess registrieren.

Weiwen Ng
2019-11-13 06:20:28 UTC
view on stackexchange narkive permalink

Ich werde mich auf ein enges Thema konzentrieren: Was ist, wenn Sie kein randomisiertes oder beobachtendes Zwei-Gruppen-Experiment durchführen können? Was ist, wenn Sie nur eine Gruppe haben? Oder was ist, wenn Sie über eine Änderung der nationalen Politik sprechen, bei der es keine offensichtliche Kontrollgruppe gibt, weil die Änderung im ganzen Land stattgefunden hat? Ich denke, Sie können hier unter bestimmten Umständen Kausalität zuschreiben.

Im klinischen Umfeld ziehen es Forscher des Gesundheitswesens offensichtlich vor, wenn möglich randomisierte klinische Studien durchzuführen, und der Standard besteht darin, in jedem Arm eine Messung vor und nach der Behandlung durchzuführen. In einer sehr begrenzten Anzahl von klinischen Situationen können wir möglicherweise in einarmigen Studien einen kausalen Rückschluss ziehen, wie von Scott Evans:

diskutiert

... einarmige Studien werden am besten verwendet, wenn der natürliche Krankheitsverlauf gut verstanden wird, wenn Placeboeffekte minimal oder nicht vorhanden sind und wenn eine Placebo-Kontrolle ethisch nicht wünschenswert ist. Solche Designs können in Betracht gezogen werden, wenn keine spontane Verbesserung der Teilnehmer erwartet wird, die Placebo-Effekte nicht groß sind und die Randomisierung auf ein Placebo möglicherweise nicht ethisch ist. Andererseits wären solche Designs aufgrund des großen Placebo-Effekts in diesen Studien keine gute Wahl für Studien, in denen Behandlungen für chronische Schmerzen untersucht werden.

Sagen Sie in meiner Interpretation, Sie haben eine sehr schwere Krankheit. Die Sterblichkeitsrate ist bekannt und ziemlich hoch. Angenommen, wir wissen, dass 80% der Patienten innerhalb eines Jahres nach der Ansteckung mit Krankheit X sterben. Angenommen, wir haben eine Fallserie (dh eine Reihe von Fällen allein ohne Kontrollen), in der Patienten das Medikament Y erhielten, und wir beobachteten eine Sterblichkeitsrate von 30%. . In diesem Szenario wären viele Forscher bereit, die Ursache vorsichtig zuzuordnen. Es ist möglicherweise nicht möglich, eine randomisierte Studie durchzuführen. Wenn keine zweiarmigen Beobachtungsstudien verfügbar wären, wären wir wahrscheinlich bereit, Empfehlungen nur auf der Grundlage einer Fallserie abzugeben.

Wie erstreckt sich dieses Denken auf andere Szenarien, wie die von mir erwähnte nationale Intervention? Ich denke, dass Ökonomen diesem Szenario mehr begegnet sind. Ich denke, dass es eine Reihe von Studien zu den mit Medicaid verbundenen Ergebnissen gibt (in den USA bietet dieses Programm eine Krankenversicherung für die Armen, was eine übermäßige Vereinfachung darstellt, dies aber tun wird). Die Sache ist, Medicaid wird von den Staaten kontrolliert (im Gegensatz zur Bundesregierung oder nationalen Regierung). Einige Staaten haben Medicaid früher erweitert als andere. Ich glaube, Ökonomen haben diese Ungleichheit genutzt, um zu versuchen, die Kausalität zuzuordnen, aber ich bin mit diesen Methoden weniger vertraut.

In der Forschung zu Gesundheitsdiensten sind Checklisten für Krankenhäuser aufgrund des Risikos eines Überlaufs eine gute Parallele. Idealerweise finden Sie beispielsweise 60 Krankenhäuser und randomisieren 30 von ihnen, um Checklisten zu verwenden. Das ist sehr schwer zu schaffen. Sie könnten ein Forscher in einem Krankenhaus sein. Das einzige, was Sie möglicherweise tun können, ist ein Vorher-Nachher-Vergleich. Hier möchten Sie wahrscheinlich die Zeiträume vor und nach der Intervention so lange wie möglich gestalten. Ich bin mit den Ursachenproblemen in solchen Szenarien nicht vertraut.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...