Ich bin ein Anfänger in Statistiken, jede Hilfe wäre dankbar.
Ich bin ein Anfänger in Statistiken, jede Hilfe wäre dankbar.
Dies hängt davon ab, was Sie unter "Modell verbessern" verstehen.Möchten Sie dieses Modell verwenden, um etwas über die Funktionsweise der Welt zu sagen oder um Vorhersagen zu treffen?
Ich nehme an, mit Parametern meinen Sie die Funktionen, was ziemlich ungewöhnlich ist, wie @whuber kommentierte.Der nächste Absatz folgt dieser Annahme.
Nicht unbedingt.Stark korrelierte Merkmale können Multikollinearität verursachen. Dies bedeutet jedoch nicht, dass ein Modell mit korrelierten Merkmalen schlechter ist als nicht korrelierte Merkmale.Ein Modell kann eine Reihe von korrelierten Merkmalen aufweisen, die die Zielvariable sehr gut beschreiben, oder eine Reihe von nicht korrelierten Merkmalen, die in keiner Weise mit der Zielvariablen zusammenhängen.
Für eine unkorrelierte Parameterschätzung unter Verwendung einer ähnlichen Idee wird angenommen, dass Sie unkorrelierte Zufallsmerkmale haben, die auch nicht mit der Zielvariablen zusammenhängen.Da die Merkmale völlig zufällig sind, sind die Parameterschätzungen ebenfalls und zeigen keine Korrelation.Es ist also immer noch schwer zu sagen, dass das Modell besser ist, wenn Sie keine Korrelation haben.
Ich stimme @gunes zu, dass Sie möglicherweise auf Fälle stoßen, in denen das Training mit stark korrelierten Features zu besseren Ergebnissen führt als mit einem nicht korrelierten Featureset, vorausgesetzt, Ihre Features sind gut (d. h. erklären Sie das Ziel gut).
Nach meiner Erfahrung ist es jedoch besser, stark korrelierte Funktionen zu entfernen, da dies Ihr Modell vereinfacht und die Vorhersagbarkeit nicht zu stark beeinträchtigt (denn wenn cor (x, y) hoch ist, reicht es aus, dies zu wisseneines dieser Merkmale, um die Vorhersage zu erhalten).
Wenn Sie beispielsweise Quadratmeter des Hauses und die Anzahl der Räume darin haben, sind diese Merkmale höchstwahrscheinlich stark korreliert. Daher sollten Sie in Betracht ziehen, nur die informativsten davon zu verwenden und dadurch das Modell zu vereinfachen und dennoch beizubehaltendie Genauigkeit.
Wenn andererseits alle Ihre Funktionen nicht korreliert sind, gibt jede Ihrer Funktionen Ihrem Modell eine andere Perspektive auf das Problem, wodurch es besser verallgemeinert werden kann.
Hoffe das hilft.Prost.
Nach meiner Einschätzung stimmt Ihre Frage eher mit der dritten Interpretation von @ whuber überein, die in den Kommentaren angegeben ist.
Hier ist ein einfaches lineares Regressionsmodell:
$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ epsilon. $$ span>
Ich gehe davon aus, dass Sie bereits ein Modell erstellt haben und die Auswirkungen einer Variablen $ X_ {1} $ span> untersuchen, auf die Sie einen kausalen Effekt haben Ihre abhängige Variable $ Y $ span>. An dieser Stelle möchten Sie möglicherweise die Auswirkung von anderen Variablen auf Ihr Ergebnis untersuchen. Sie haben jedoch festgestellt, dass andere Funktionen in Ihrem Dataset mit $ Y $ span> zusammenhängen oder $ Y $ span vorhersagen können >, aber keine Assoziation mit $ X_ {1} $ span>. In diesem Fall würde ich argumentieren, dass diese Variablen sicher in Ihrer Analyse weggelassen werden können. Für diese Erklärung gehe ich davon aus, dass Sie die Auswahl der Prädiktorvariablen nicht automatisieren und ein grundlegendes Erklärungsmodell bereits in Betracht gezogen wurde.
Eines der Hauptziele der Regressionsanalyse besteht darin, die Zuordnung von $ X_ {1} $ span> zu anderen Variablen auf der rechten Seite von "zu trennen" die Gleichung, damit wir den einzigartigen Einfluss von $ X_ {1} $ span> auf $ Y $ span> untersuchen können. Hier ist ein zweites Modell mit einer Steuervariablen, $ X_ {2} $ span>, enthalten:
$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ beta_ {1} X_ {2} + \ epsilon. $$ span>
Im Allgemeinen müssen zwei Bedingungen erfüllt sein. Zunächst sollte die Variable $ X_ {2} $ span> auch $ Y $ span> zugeordnet werden. Zweitens sollte die Variable mit $ X_ {1} $ span> korreliert sein, aber nicht perfekt korreliert . Wenn $ X_ {2} $ span> mit $ X_ {1} $ span korreliert > Wenn wir es dann in die vorstehende Gleichung aufnehmen, können wir die Auswirkung von $ X_ {1} $ span> auf $ untersuchen Y $ span>, während $ X_ {2} $ span> fest gehalten wird. Wenn jedoch die letztere Bedingung nicht erfüllt ist und $ X_ {2} $ span> un mit $ X_ {1} $ span>, dann kann diese Variable aus der Analyse entfernt werden. Ich würde argumentieren, dass es wahrscheinlicher ist, dass in Fällen gelöscht wird, in denen $ X_ {2} $ span> explizit gemessen und explizit eingeschlossen wird - und es hat nichts mit der / den wichtigsten erklärenden Variablen bereits im Modell zu tun. Wiederum ist ein wichtiges Merkmal der multiplen Regression das Löschen der Korrelation von $ X_ {1} $ span> mit $ X_ {2} $ span>. Das Einwerfen einer Reihe von orthogonalen Regressoren verringert, wenn sie groß sind, die Genauigkeit der geschätzten Koeffizienten. Aus meiner Sicht würde ich nicht sagen, dass ein Modell mit irrelevanteren Steuerelementen auf der rechten Seite Ihrer Gleichung „besser“ ist.
Ich stimme der Antwort von @ MichaelSidoroff zu, dass sobald ein Satz unkorrelierter Merkmale in das Modell eingeht und Sie keine a priori theoretische Grundlage für deren Einbeziehung hatten, jeder Faktor eine andere Perspektive auf das untersuchte Phänomen bietet.Beachten Sie, warum in den meisten randomisierten Studien häufig keine multiple Regression erforderlich ist.Durch die Randomisierung wird jede Korrelation zwischen der untersuchten Hauptbehandlungsvariablen (unabhängige Variable) und anderen beobachteten (und nicht beobachteten) Merkmalen von Personen ausgeschlossen.Daher besteht keine Notwendigkeit, die anderen beobachteten Faktoren zwischen Individuen unter Verwendung eines multiplen Regressionsrahmens explizit zu kontrollieren, da die Korrelation entfernt wurde (oder zumindest hoffen wir, dass dies der Fall ist).
Ich bin kein Statistiker, daher würde ich mich freuen, von den anderen Benutzern korrigiert zu werden, wenn diese Antwort falsch / naiv ist.Wie auch immer: Aus der Sicht eines numerischen Analytikers würde ich sagen, yes, es ist besser, denn dann können Sie schließen, dass die Matrix für (Pseudo-) Invertierung gut konditioniert ist und Ihre Lösung daher nicht sehr empfindlich gegenüber Störungen istder Eingabedaten (dh der Beobachtungen, die Sie anpassen möchten).
Das ist eine sehr gute Frage.
Das mit Ihrer Frage verbundene Konzept ist Multikollinearität.Wenn die Prädiktorvariablen (a.k.a. Parameter) korreliert sind, nennen wir dieses Szenario Multikollinearität.Das Vorhandensein oder Fehlen von Multikollinearität gibt keinen Hinweis auf die Genauigkeit unseres Modells.Sie können sich ein Bild von der Multikollinearität in Ihrem Modell machen, indem Sie eine Regressionsanalyse in einer statistischen Software wie 'Minitab' oder 'SPSS' ausführen.In der Ausgabe sehen Sie eine Metrik namens 'VIF'.Dies ist die Kurzform für den Varianzinflationsfaktor. VIF weist auf die korrelierten Variablen hin.Wenn also das VIF> 10 ist, können Sie daraus schließen, dass Multikollinearität Ihr Modell in schlechter Weise beeinflusst, und es ist besser, diese Variablen zu löschen.
Auf diese Weise können Sie entscheiden, ob unkorrelierte Parameter im Modell das Modell verbessern.
Wenn Sie weitere Informationen zu diesem Thema benötigen, besuchen Sie bitte