Frage:
Wann werden Prädiktoren in eine Regression umgewandelt, wenn die Antwort quadratisch sein kann?
David LeBauer
2011-05-14 01:21:45 UTC
view on stackexchange narkive permalink

Ich analysiere Daten aus einem Experiment, bei dem die Behandlungsniveaus quadratisch ansteigen, z. Die Behandlungsstufen betragen $ 0, 1, 4, 9 $.

Wäre es bei der Analyse der Reaktion mithilfe der Regression sinnvoll, die Quadratwurzel der Behandlungsstufe als Prädiktor zu verwenden?

Wenn ja, wie würde sich dies auf die Interpretation auswirken?

Zwei antworten:
#1
+8
Frank Harrell
2011-05-14 02:43:50 UTC
view on stackexchange narkive permalink

Wenn Sie die Funktionsform nicht im Voraus kennen (was häufig vorkommt) und keinen Grund haben anzunehmen, dass sie linear ist, ist es am besten, flexibel zu sein. Wenn es mehr Behandlungsstufen gäbe, könnten Sie beispielsweise eine quadratische oder eingeschränkte kubische Spline-Form anpassen. Für nur 4 Ebenen kann es am besten sein, der Behandlung 3 Freiheitsgrade mit 3 Dummy-Variablen zuzuweisen.

Danke für deine Antwort. Können Sie erklären, was Sie unter "Zuweisen von 3 Freiheitsgraden zur Behandlung mit 3 Dummy-Variablen" verstehen?
Ist das dasselbe wie eine ANOVA durchzuführen?
Ja, dies ist ANOVA, wenn es keine Kovariaten gibt, auf die man sich einstellen kann, und wenn man bereit ist, Normalität und gleiche Gruppenvarianzen anzunehmen. Hätte es mehr Ebenen gegeben, wäre es besser gewesen, das Profil über Ebenen unter Verwendung einer glatten Anpassung (z. B. quadratisch) zu modellieren.
Das ist ein guter Punkt. Anstatt 6 Wiederholungen auf jeder der vier Ebenen zu verwenden, werden 3 Wiederholungen auf jeder der acht Ebenen ... dies für die Zukunft berücksichtigen. Ist es notwendigerweise unangemessen, ein quadratisches oder ein anderes nichtlineares Zwei-Parameter-Modell durch vier Punkte anzupassen?
Nein, es ist nicht unangemessen, es nimmt nur eine quadratische Form an. Es erfordert 3 Parameter, während das flexibelste Mittelwertmodell mit 4 Behandlungen dieselbe Anzahl erfordert.
#2
+8
rolando2
2011-05-14 04:12:11 UTC
view on stackexchange narkive permalink

Sehen Sie sich vor dem Ausführen einer Regression ein bivariates X-Y-Streudiagramm an. Das zeigt Ihnen die Form der Linie oder Kurve, insbesondere wenn Sie über eine Software verfügen, die eine Lowess / Loess-Anpassung (lokal gewichtete geglättete Anpassung) ermöglicht.

Bei der Interpretation ist dies zweifellos der Fall einfacher für Sie als für Ihr Publikum, aber wenn Sie eine quadratische Anpassung haben, dann für jedes Inkrement von eins auf dem Quadrat. von X ändert sich Y um b, Ihren Koeffizienten.

Wenn Sie wirklich nur 4 Ebenen von X haben, stimme ich @ Franks Punkt zu und würde hinzufügen, dass Sie Ihre Arbeit möglicherweise einfacher machen, indem Sie stattdessen eine ANOVA ausführen der Regression. Mit einigen Programmen ist es einfach, kontinuierliche und kategoriale Prädiktoren zu kombinieren und Regression und Anova zu einem allgemeinen linearen Modell zu verschmelzen, ohne dass Dummy-Variablen erforderlich sind (wenn Sie SPSS verwenden, suchen Sie nach 'Unianova').

Wenn Sie einen ersten Blick auf die Beziehung außerhalb der formalen Analyse werfen, erhalten Sie die d.f. falsch, was zu einer ungenauen Abdeckung des Konfidenzintervalls führt. Ein guter Regressionstext beschreibt, wie Dummy-Variablen aufgebaut sind. Gute Softwarepakete tun dies automatisch, wenn Sie ihnen den Sinn geben, dass die Behandlung eine kategoriale Variable ist.
@Frank Harrell, d.f. ist Dichtefunktion? Ich mochte die Antwort von @rolando2 und würde Ihnen eine Frage hinzufügen: @David: Haben Sie die Behandlungswerte gewählt (zum Beispiel aus theoretischen Gründen) oder wird die Behandlung durch einen Prozess erzeugt, der außerhalb Ihrer Kontrolle liegt?
@Frank - Würden nach dem Modellbau und damit nach der Bestimmung, ob eine bestimmte X-Y-Beziehung linear ist, keine Bedenken hinsichtlich genauer Koeffizienten-Konfidenzintervalle bestehen?
Überhaupt nicht. Es muss ein expliziter Bestandteil der Modellbildung sein. Andernfalls würde eine einfache Bootstrap- oder Monte-Carlo-Simulation zeigen, dass die tatsächliche Abdeckung viel geringer ist, wenn Sie eine Konfidenzintervallabdeckung von 0,95 beanspruchen (oder P-Werte berechnen). Ein klassisches Papier zu diesem Thema ist @ARTICLE {gra91, author = {Grambsch, PM und {O'Brien}, PC}, year = 1991, title = {Die Auswirkungen von Transformationen und vorläufigen Tests auf Nichtlinearität in der Regression}, Zeitschrift = Stat in Med, Volumen = 10, Seiten = {697-709}} df = Freiheitsgrade.
@rolando Wenn ich ANOVA richtig verstehe, müssen die vier Behandlungen unabhängige Faktoren sein, während in diesem Fall die Behandlungen Punkte entlang einer kontinuierlichen Variablen sind.
@David - 0, 1, 4 und 9 sind jeweils eine Ebene der einzelnen Behandlungsvariablen. In ANOVA würden Sie testen, ob der Mittelwert für jede dieser 4 Ebenen gleich ist. Ihr Kommentar scheint auf eine Situation zuzutreffen, die hier nicht zutrifft, in der Sie 4 verschiedene Prädiktorvariablen hatten (z. B. Geschlecht, ethnische Zugehörigkeit, Einkommen und Region).
@rolando, Ich denke, meine Frage war, ob es angemessen ist, die Werte mit ANOVA anstelle von Regression zu vergleichen
Ja, in Ihrem Fall glaube ich, dass es dasselbe ist. Regression mit Dummy-Variablen kann ANOVA entsprechen. Sie sind beide unter dem sogenannten allgemeinen linearen Modell zusammengefasst.
@David dann wiederholen Sie bitte die Frage, es wird unklarer, je mehr ich dies durchlese.Ich habe versucht, den Titel zu korrigieren, aber es ist ein sich bewegendes Ziel.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...