Wenn bei linearer Regression die Parameter nicht korreliert sind, verbessert dies das Modell? Wenn ja, warum?

Frage:

Kcd

2020-03-27 02:12:49 UTC

view on stackexchange narkive permalink

Ich bin ein Anfänger in Statistiken, jede Hilfe wäre dankbar.

Durch die Korrelation zwischen Parametern bestimmen Sie normalerweise nicht, wie gut ein Modell ist.Ohne ein Maß für gut oder schlecht wird diese Frage sehr weit gefasst / subjektiv.(Die Korrelation zwischen Parametern hat sicherlich etwas zu bedeuten, aber die Frage, die sie stellt, ist indirekt und sehr offen gestellt.)

Ohne Klarstellung sollten wir OP-Mittelwertparameter als tatsächliche Parameter des Modells betrachten.Bei der linearen Regression ist es unmöglich, unkorrelierte Parameter IIRC zu erhalten. Eine Erhöhung der Schätzung des Abschnitts bedeutet notwendigerweise eine Änderung der Schätzung der Steigung und umgekehrt.In komplexeren Modellen wird es sehr schwierig, über Korrelationen zwischen Parametern zu argumentieren.

Was meinst du mit "besser"?

Sechs antworten:

JDL

2020-03-27 17:12:47 UTC

view on stackexchange narkive permalink

Dies hängt davon ab, was Sie unter "Modell verbessern" verstehen.Möchten Sie dieses Modell verwenden, um etwas über die Funktionsweise der Welt zu sagen oder um Vorhersagen zu treffen?

Wenn die Kovariaten nicht korreliert sind, sind die mit ihnen verbundenen Beta-Werte im Allgemeinen nahezu unabhängig.(Dies ist verwandt, aber nicht identisch mit der Idee der -Parameterorthogonalität .) Dies ist nützlich, wenn Sie die Betas so interpretieren möchten, dass sie etwas über die reale Welt aussagen, und nicht möchten, dass sie mit ihnen verwechselt werdeneinander.
Wenn Sie sich Sorgen über die Genauigkeit der Vorhersagen des Modells machen, macht dies keinen wirklichen Unterschied.Die Beta-Werte werden korreliert, die Vorhersagen bleiben jedoch unberührt.Sie könnten Ihre Kovariaten orthogonalisieren, und dies würde die Definition und Interpretation von Beta vollständig ändern, aber die angepassten Werte, Residuen und Vorhersagen wären dieselben wie zuvor.

Ihre Antwort bringt das Problem auf den Punkt, aber ich denke, es könnte prägnanter formuliert werden.Die Interpretation des a-Koeffizienten in der Regressionsanalyse (a beta) lautet, dass er die mittlere Änderung der abhängigen Variablen für eine Einheitsänderung der unabhängigen Variablen ** darstellt, wenn alle anderen unabhängigen Variablen konstant gehalten werden **.Wenn unabhängige Variablen korreliert sind, wird die Interpretierbarkeit Ihres Modells / Ihrer Koeffizienten beeinträchtigt.

Der obige Kommentar war nicht genau meine Worte, ich habe das meiste aus diesem wunderbaren Artikel aufgegriffen: Aufgenommen von hier: https://statisticsbyjim.com/regression/multicollinearity-in-regression-analysis/

@shinvu, das ist nicht unbedingt wahr - es hängt davon ab, ob die Kovariaten manuell manipuliert werden können (und ob sie es tatsächlich waren).Dies ist im Wesentlichen der Unterschied zwischen der Modellierung von p (Y | X) und P (Y | do (x)), um die Pearl-Notation zu verwenden.Aber das ist im Zusammenhang mit dieser Frage ein ziemlicher Exkurs, denke ich.

Was ist, wenn die Kovariaten im wahren Datengenerierungsprozess stark miteinander korrelieren?

@trynnaDoStat, hängt immer noch davon ab, wofür Sie das Modell verwenden möchten.Wenn Sie nur damit Vorhersagen treffen, spielt das keine Rolle.Wenn Sie die Betas interpretieren, werden die Betas selbst (anti) korreliert sein (und breiter als erwartet sein), aber das kann akzeptabel sein (nun, es muss sein - es gibt nichts, was Sie tun können, während Sie es behaltenDie Interpretation von Beta ist dieselbe, denn wenn Sie orthogonalisieren, bedeutet Beta jetzt etwas anderes.

gunes

2020-03-27 02:23:58 UTC

view on stackexchange narkive permalink

Ich nehme an, mit Parametern meinen Sie die Funktionen, was ziemlich ungewöhnlich ist, wie @whuber kommentierte.Der nächste Absatz folgt dieser Annahme.

Nicht unbedingt.Stark korrelierte Merkmale können Multikollinearität verursachen. Dies bedeutet jedoch nicht, dass ein Modell mit korrelierten Merkmalen schlechter ist als nicht korrelierte Merkmale.Ein Modell kann eine Reihe von korrelierten Merkmalen aufweisen, die die Zielvariable sehr gut beschreiben, oder eine Reihe von nicht korrelierten Merkmalen, die in keiner Weise mit der Zielvariablen zusammenhängen.

Für eine unkorrelierte Parameterschätzung unter Verwendung einer ähnlichen Idee wird angenommen, dass Sie unkorrelierte Zufallsmerkmale haben, die auch nicht mit der Zielvariablen zusammenhängen.Da die Merkmale völlig zufällig sind, sind die Parameterschätzungen ebenfalls und zeigen keine Korrelation.Es ist also immer noch schwer zu sagen, dass das Modell besser ist, wenn Sie keine Korrelation haben.

Es wäre hilfreich anzugeben, wie Sie diese Frage interpretieren, da "Parameter sind nicht korreliert" mindestens drei sehr unterschiedliche Dinge bedeuten kann, die von (1) einem Bayes'schen Prior mit Korrelation bis (2) Korrelation von Parameter * Schätzungen * bis (3) Korrelation der * Variablen. * Ihre Interpretation von "Parameter" als "Merkmal" ist ungewöhnlich, aber möglicherweise ist es das, was das OP bedeutete.

Auf jeden Fall @whuber!Ich würde auch nicht 'parameter' verwenden, um die Funktionen zu kennzeichnen, dachte aber, dass ich irgendwie verstanden habe, was OP bedeutet, aber ohne es zu erklären.

Ich wäre schockiert, wenn das OP etwas anderes als korrelierte Merkmale bedeuten würde, obwohl "Parameter" eine unorthodoxe Art ist, dies zu sagen.

Entschuldigung, ich meinte "Unkorrelation zwischen Parameterschätzungen", wobei "Parameter" für "Koeffizienten von Variablen" steht, die im Modell verwendet werden.Diese Begriffe werden manchmal verwirrend.

Dies ist praktisch dasselbe, d. H. Wenn Ihre Merkmale korreliert sind, werden die Koeffizienten dieser Merkmale im linearen Modell umgekehrt korreliert.

@MichaelSidoroff Wenn das Modell nicht linear ist, ist die Korrelation der Koeffizienten allgemeiner.(Außerdem könnte es keine praktischen Fälle geben, in denen es nicht viel dasselbe ist? Die Korrelation der Parameter bezieht sich auf die Umkehrung der Matrix $ (X ^ tX) ^ {- 1} $. Ich habe keine intuitive Ansicht vondas aber, es gibt einen Unterschied, und ich kann mir vorstellen, dass die Situation unter bestimmten Umständen etwas anders ist)

@Sextus Empiricus - In dem nichtlinearen Fall stimme ich Ihnen voll und ganz zu.Hier handelt es sich jedoch um ein lineares Modell, und deshalb habe ich behauptet, dass die Korrelation in Merkmalen und die Korrelation eine Korrelation in Koeffizienten ergibt.

Michael Sidoroff

2020-03-27 03:46:33 UTC

view on stackexchange narkive permalink

Ich stimme @gunes zu, dass Sie möglicherweise auf Fälle stoßen, in denen das Training mit stark korrelierten Features zu besseren Ergebnissen führt als mit einem nicht korrelierten Featureset, vorausgesetzt, Ihre Features sind gut (d. h. erklären Sie das Ziel gut).

Nach meiner Erfahrung ist es jedoch besser, stark korrelierte Funktionen zu entfernen, da dies Ihr Modell vereinfacht und die Vorhersagbarkeit nicht zu stark beeinträchtigt (denn wenn cor (x, y) hoch ist, reicht es aus, dies zu wisseneines dieser Merkmale, um die Vorhersage zu erhalten).

Wenn Sie beispielsweise Quadratmeter des Hauses und die Anzahl der Räume darin haben, sind diese Merkmale höchstwahrscheinlich stark korreliert. Daher sollten Sie in Betracht ziehen, nur die informativsten davon zu verwenden und dadurch das Modell zu vereinfachen und dennoch beizubehaltendie Genauigkeit.

Wenn andererseits alle Ihre Funktionen nicht korreliert sind, gibt jede Ihrer Funktionen Ihrem Modell eine andere Perspektive auf das Problem, wodurch es besser verallgemeinert werden kann.

Hoffe das hilft.Prost.

Thomas Bilach

2020-03-27 20:57:49 UTC

view on stackexchange narkive permalink

Nach meiner Einschätzung stimmt Ihre Frage eher mit der dritten Interpretation von @ whuber überein, die in den Kommentaren angegeben ist.

Hier ist ein einfaches lineares Regressionsmodell:

$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ epsilon. $$ span>

Ich gehe davon aus, dass Sie bereits ein Modell erstellt haben und die Auswirkungen einer Variablen $ X_ {1} $ span> untersuchen, auf die Sie einen kausalen Effekt haben Ihre abhängige Variable $ Y $ span>. An dieser Stelle möchten Sie möglicherweise die Auswirkung von anderen Variablen auf Ihr Ergebnis untersuchen. Sie haben jedoch festgestellt, dass andere Funktionen in Ihrem Dataset mit $ Y $ span> zusammenhängen oder $ Y $ span vorhersagen können >, aber keine Assoziation mit $ X_ {1} $ span>. In diesem Fall würde ich argumentieren, dass diese Variablen sicher in Ihrer Analyse weggelassen werden können. Für diese Erklärung gehe ich davon aus, dass Sie die Auswahl der Prädiktorvariablen nicht automatisieren und ein grundlegendes Erklärungsmodell bereits in Betracht gezogen wurde.

Eines der Hauptziele der Regressionsanalyse besteht darin, die Zuordnung von $ X_ {1} $ span> zu anderen Variablen auf der rechten Seite von "zu trennen" die Gleichung, damit wir den einzigartigen Einfluss von $ X_ {1} $ span> auf $ Y $ span> untersuchen können. Hier ist ein zweites Modell mit einer Steuervariablen, $ X_ {2} $ span>, enthalten:

$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ beta_ {1} X_ {2} + \ epsilon. $$ span>

Im Allgemeinen müssen zwei Bedingungen erfüllt sein. Zunächst sollte die Variable $ X_ {2} $ span> auch $ Y $ span> zugeordnet werden. Zweitens sollte die Variable mit $ X_ {1} $ span> korreliert sein, aber nicht perfekt korreliert . Wenn $ X_ {2} $ span> mit $ X_ {1} $ span korreliert > Wenn wir es dann in die vorstehende Gleichung aufnehmen, können wir die Auswirkung von $ X_ {1} $ span> auf $ untersuchen Y $ span>, während $ X_ {2} $ span> fest gehalten wird. Wenn jedoch die letztere Bedingung nicht erfüllt ist und $ X_ {2} $ span> un mit $ X_ {1} $ span>, dann kann diese Variable aus der Analyse entfernt werden. Ich würde argumentieren, dass es wahrscheinlicher ist, dass in Fällen gelöscht wird, in denen $ X_ {2} $ span> explizit gemessen und explizit eingeschlossen wird - und es hat nichts mit der / den wichtigsten erklärenden Variablen bereits im Modell zu tun. Wiederum ist ein wichtiges Merkmal der multiplen Regression das Löschen der Korrelation von $ X_ {1} $ span> mit $ X_ {2} $ span>. Das Einwerfen einer Reihe von orthogonalen Regressoren verringert, wenn sie groß sind, die Genauigkeit der geschätzten Koeffizienten. Aus meiner Sicht würde ich nicht sagen, dass ein Modell mit irrelevanteren Steuerelementen auf der rechten Seite Ihrer Gleichung „besser“ ist.

Ich stimme der Antwort von @ MichaelSidoroff zu, dass sobald ein Satz unkorrelierter Merkmale in das Modell eingeht und Sie keine a priori theoretische Grundlage für deren Einbeziehung hatten, jeder Faktor eine andere Perspektive auf das untersuchte Phänomen bietet.Beachten Sie, warum in den meisten randomisierten Studien häufig keine multiple Regression erforderlich ist.Durch die Randomisierung wird jede Korrelation zwischen der untersuchten Hauptbehandlungsvariablen (unabhängige Variable) und anderen beobachteten (und nicht beobachteten) Merkmalen von Personen ausgeschlossen.Daher besteht keine Notwendigkeit, die anderen beobachteten Faktoren zwischen Individuen unter Verwendung eines multiplen Regressionsrahmens explizit zu kontrollieren, da die Korrelation entfernt wurde (oder zumindest hoffen wir, dass dies der Fall ist).

Federico Poloni

2020-03-28 02:41:01 UTC

view on stackexchange narkive permalink

Ich bin kein Statistiker, daher würde ich mich freuen, von den anderen Benutzern korrigiert zu werden, wenn diese Antwort falsch / naiv ist.Wie auch immer: Aus der Sicht eines numerischen Analytikers würde ich sagen, yes, es ist besser, denn dann können Sie schließen, dass die Matrix für (Pseudo-) Invertierung gut konditioniert ist und Ihre Lösung daher nicht sehr empfindlich gegenüber Störungen istder Eingabedaten (dh der Beobachtungen, die Sie anpassen möchten).

ravindu93

2020-03-28 14:08:16 UTC

view on stackexchange narkive permalink

Das ist eine sehr gute Frage. Das mit Ihrer Frage verbundene Konzept ist Multikollinearität.Wenn die Prädiktorvariablen (a.k.a. Parameter) korreliert sind, nennen wir dieses Szenario Multikollinearität.Das Vorhandensein oder Fehlen von Multikollinearität gibt keinen Hinweis auf die Genauigkeit unseres Modells.Sie können sich ein Bild von der Multikollinearität in Ihrem Modell machen, indem Sie eine Regressionsanalyse in einer statistischen Software wie 'Minitab' oder 'SPSS' ausführen.In der Ausgabe sehen Sie eine Metrik namens 'VIF'.Dies ist die Kurzform für den Varianzinflationsfaktor. VIF weist auf die korrelierten Variablen hin.Wenn also das VIF> 10 ist, können Sie daraus schließen, dass Multikollinearität Ihr Modell in schlechter Weise beeinflusst, und es ist besser, diese Variablen zu löschen.
Auf diese Weise können Sie entscheiden, ob unkorrelierte Parameter im Modell das Modell verbessern. Wenn Sie weitere Informationen zu diesem Thema benötigen, besuchen Sie bitte

ⓘ

Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.

über - juristisches