Frage:
Was sind die schlechtesten (allgemein angenommenen) Ideen / Prinzipien in der Statistik?
Ben
2020-07-10 06:57:40 UTC
view on stackexchange narkive permalink

In meinem statistischen Unterricht stoße ich auf einige hartnäckige Ideen / Prinzipien in Bezug auf Statistiken, die populär geworden sind, die mir jedoch irreführend oder in einigen Fällen völlig unbegründet erscheinen.Ich möchte die Ansichten anderer in diesem Forum einholen, um zu sehen, was die schlechtesten (allgemein angenommenen) Ideen / Prinzipien in der statistischen Analyse / Inferenz sind.Ich interessiere mich hauptsächlich für Ideen, die nicht nur Anfängerfehler sind.d.h. Ideen, die von einigen tatsächlichen Statistikern / Datenanalysten akzeptiert und praktiziert werden.Geben Sie nur ein schlechtes Prinzip pro Antwort an, um eine effiziente Abstimmung zu ermöglichen. Sie können jedoch auch mehrere Antworten geben.

Ich weiß nicht, ob ich diese Ideen "albern" nennen würde.Wenn sie allgemein akzeptiert werden, ist ihre Unrichtigkeit offensichtlich nicht offensichtlich.Wie wäre es, sie einfach "schlechteste Ideen" oder "schlechteste Praktiken" zu nennen?
Siehe auch: https://stats.stackexchange.com/questions/219471/what-are-some-examples-of-anachronistic-practices-in-statistics
Siehe auch: https://stats.stackexchange.com/questions/4551/what-are-common-statistical-sins/44071
ARIMA: Ein Wunderwerk an theoretischer Genauigkeit und mathematischer Eleganz, das für realistische Geschäftszeitreihen fast unbrauchbar ist (auto.arima und ähnliche automatisierte Tools immer p, d, q Aufträge, die von einem intuitiveren ES-Ansatz genauso gut verarbeitet wurden).
Ich bin der Meinung, dass sehr einfache Statistiken nicht so intuitiv sind wie grundlegende Schulphysik.Oder vielleicht gibt es eine viel intuitivere Basis, aber ich habe es nicht erfahren.
@SkanderH.: Möchten Sie Ihren Kommentar als Antwort veröffentlichen?Fügen Sie vielleicht einen Hinweis darauf hinzu, wie ungläubig die Statistik-Community war, als sich herausstellte, dass ARIMA im ersten M-Wettbewerb nicht gut prognostizieren konnte, wie von [Hyndman (2020, * IJF *)] (https: //) sehr schön und unterhaltsam zusammengefasst.doi.org/10.1016/j.ijforecast.2019.03.015).
32 antworten:
Demetri Pananos
2020-07-10 09:00:59 UTC
view on stackexchange narkive permalink

Ich werde einen Anfängerfehler (in dieser Antwort) und möglicherweise einen Fehler präsentieren, der von erfahreneren Leuten begangen wurde.

Sehr oft sehe ich sogar auf dieser Website Leute, die beklagen, dass ihre Daten nicht normal verteilt sind und daher T-Tests oder lineare Regression nicht in Frage kommen.Noch seltsamer ist, dass die Leute versuchen werden, ihre Wahl für die lineare Regression zu rationalisieren, weil ihre Kovariaten normal verteilt sind .

Ich muss Ihnen nicht sagen, dass es bei Regressionsannahmen um die bedingte Verteilung geht, nicht um die marginale.Mein absoluter Lieblingsweg, um diesen Denkfehler zu demonstrieren, ist , im Wesentlichen einen T-Test mit linearer Regression zu berechnen, wie ich es hier tue.

Ich habe diesen heute in Data Science gesehen: https://datascience.stackexchange.com/q/77456/73930.Es scheint auch so, als würden wir das hier ungefähr jede Woche machen.
Anfänger hier.Wollen Sie in Bezug auf diesen Punkt im Wesentlichen sagen, dass Sie die Ergebnisvariable nach den Ebenen des Prädiktors gruppieren sollen (wenn dies so kategorisch ist) und dann prüfen, ob diese resultierende Verteilung normal ist?Tatsächlich dachte ich, dass auch dies nicht der Punkt ist und dass es einfach die Residuen des Modells sind, nachdem Sie es angepasst haben, die normal sein müssen?
@fffrost Ich würde nicht empfehlen, die Normalitätsannahme durch Gruppierung nach kategorialen Prädiktoren zu bewerten, aber das ist die Idee, ja.Die Annahme der Normalität * bezieht sich im Wesentlichen auf die Residuen *, was erklärt, warum diese Annahme häufig über QQ-Diagramme der Residuen bewertet wird.
Jake Westfall
2020-07-10 09:40:29 UTC
view on stackexchange narkive permalink

Post-hoc-Leistungsanalyse

Das heißt, mithilfe der Leistungsanalyse nach Abschluss einer Studie und nicht zuvor und insbesondere Einfügen der geschätzten Effektgrößenschätzung, Stichprobengröße usw.

Einige Leute haben die Intuition, dass eine Post-hoc-Leistungsanalyse informativ sein könnte, weil sie erklären könnte, warum sie ein nicht signifikantes Ergebnis erzielt haben. Insbesondere denken sie, dass ihr Versagen, ein signifikantes Ergebnis zu erzielen, nicht bedeutet, dass ihre Theorie falsch ist. Stattdessen ist es vielleicht nur so, dass die Studie nicht groß genug oder nicht effizient genug war, um den Effekt zu erkennen. Eine Post-hoc-Leistungsanalyse sollte also auf eine geringe Leistung hinweisen, und wir können nur die geringe Leistung dafür verantwortlich machen, oder?

Das Problem ist, dass die Post-Hoc-Leistungsanalyse keine neuen Informationen hinzufügt. Es ist eine einfache Transformation des bereits berechneten p-Werts. Wenn Sie ein nicht signifikantes Ergebnis erhalten, ist es eine mathematische Notwendigkeit, dass die Post-Hoc-Leistung gering ist. Umgekehrt ist die Post-hoc-Leistung genau dann hoch, wenn der beobachtete p-Wert klein ist. Post-hoc-Macht kann daher die oben erwähnte hoffnungsvolle Argumentation möglicherweise nicht unterstützen.

Hier ist eine andere Möglichkeit, über das konzeptionelle Problem mit diesen Arten von Post-Hoc-Power-Übungen (PHP) nachzudenken - die folgende Passage stammt aus diesem Artikel von Russ Lenth:

enter image description here

Beachten Sie, dass das Problem hier nicht das chronologische Problem ist, eine Leistungsanalyse nach Abschluss der Studie durchzuführen. per se - es ist möglich, eine nachträgliche Leistungsanalyse auf diese Weise durchzuführen ist informativ und sinnvoll, indem einige der beobachteten Statistiken variiert werden, um beispielsweise abzuschätzen, was passiert wäre, wenn Sie die Studie auf eine andere Weise durchgeführt hätten. Das Hauptproblem bei der "Post-hoc-Leistungsanalyse", wie in diesem Beitrag definiert, besteht darin, bei der Leistungsanalyse einfach all der beobachteten Statistiken einzustecken. Die überwiegende Mehrheit der Zeit, in der jemand dies tut, wird das Problem, das er zu lösen versucht, besser gelöst, indem nur eine Art Konfidenzintervall um seine beobachtete Effektgrößenschätzung berechnet wird. Das heißt, wenn jemand argumentieren möchte, dass der Grund, warum er die Null nicht abgelehnt hat, nicht darin besteht, dass seine Theorie falsch ist, sondern nur darin, dass das Design höchst suboptimal war, besteht eine statistisch fundiertere Methode, um dieses Argument vorzubringen, darin, das Vertrauen zu berechnen Intervall um ihre beobachtete Schätzung und weisen darauf hin, dass es zwar 0 enthält, aber auch große Effektgrößenwerte enthält - im Grunde ist das Intervall zu breit, um sehr viel über die wahre Effektgröße zu schließen, und daher keine sehr starke Bestätigung.

Oh, das ist gut.+1
Kleiner Trottel: Ich denke, die Post-Hoc-Analyse ** ist ** eine vernünftige Idee (über den minimalen klinischen Signifikanzwert nachdenken, aus den Störparametern lernen usw.), wird aber oft auf eine extrem faule, bedeutungslose Weise durchgeführt.Der Punkt, den ich ansprechen möchte, ist, dass die Leute das PHP nicht ernst nehmen, sondern die Kernidee selbst.Dies ist wichtig, denn wenn man dieses Argument verwendet, um PHP durch etwas anderes zu ersetzen, müssen wir etwas auswählen, das von den Massen und nicht nur von uns gut genutzt wird.Alternativ sollten wir vielleicht nicht alles ersetzen, sondern nur aus den Anforderungen entfernen.
@CliffAB Ich stimme dem zu, was Sie meiner Meinung nach sagen.Ich habe ein paar Vorbehalte und Klarstellungen hinzugefügt, die meiner Meinung nach im Sinne Ihres Standpunkts sind
Cliff AB
2020-07-10 09:33:02 UTC
view on stackexchange narkive permalink

Die Idee, dass etwas, weil es statistisch nicht signifikant ist, nicht interessant ist und ignoriert werden sollte.

Allgemein zitiert als "Das Fehlen von Beweisen ist nicht der Beweis der Abwesenheit", glaube ich.
Dieses Zitat ist auch falsch - das Fehlen von Beweisen ist * Beweis * für Abwesenheit, nur nicht * Beweis * für Abwesenheit
@probabilityislogic unter der Bedingung, dass ich die richtigen Daten sammle und richtig analysiere, stimme ich zu.
@probabilityislogic Das Fehlen von Anzeichen für einen Effekt reicht nicht aus, um als Beweis für das Fehlen eines Effekts (von mindestens einiger Größe) zu dienen.Sie können tatsächlich den Nachweis für Letzteres erbringen, und [es ist nicht dasselbe wie Ersteres] (https://stats.stackexchange.com/tags/tost/info).
Aka, ist es ein Mangel an Bedeutung oder ein Mangel an Messung?
Ryan Volpi
2020-07-10 12:29:43 UTC
view on stackexchange narkive permalink

Removing Outliers

Es scheint, dass viele Personen die Idee haben, dass sie Datenpunkte, die einige Standardabweichungen vom Mittelwert entfernt sind, nicht nur können, sondern sollten ignorieren.Selbst wenn kein Grund zu der Annahme besteht, dass die Beobachtung ungültig ist oder eine bewusste Rechtfertigung für die Identifizierung / Entfernung von Ausreißern vorliegt, wird diese Strategie häufig als Grundvoraussetzung für die Datenvorverarbeitung angesehen.

+1.Ich würde das Entfernen von Datenpunkten im Allgemeinen hinzufügen, wenn sie willkürlich als nicht repräsentativ angesehen werden (z. B. unterhalb der nachweisbaren Instrumentengrenze).
doubled
2020-07-10 10:07:18 UTC
view on stackexchange narkive permalink

Keine Probleme beim Testen mehrerer Hypothesen.

Nur weil Sie keinen t.test für 1.000.000 Gene durchführen, heißt das nicht, dass Sie davor sicher sind.Ein Beispiel für ein Feld, das besonders auftaucht, sind Studien, in denen ein Effekt getestet wird, der davon abhängig ist, dass ein vorheriger Effekt signifikant ist.Oft identifizieren die Autoren in Experimenten einen signifikanten Effekt von etwas und setzen dann voraus, dass es signifikant ist, und führen dann weitere Tests durch, um es besser zu verstehen, ohne sich auf diesen prozeduralen Analyseansatz einzustellen.Ich habe kürzlich einen Artikel speziell über die Verbreitung dieses Problems in Experimenten gelesen, Testen mehrerer Hypothesen in der experimentellen Ökonomie, und es war eine ziemlich gute Lektüre.

Robert Long
2020-07-10 11:10:21 UTC
view on stackexchange narkive permalink

Regression zum Mittelwert ist ein weitaus häufigeres Problem als oft angenommen.

Es ist auch eines dieser Dinge, das eigentlich recht einfach ist, aber bei näherer Betrachtung ziemlich nebulös zu sein scheint, und dies ist teilweise auf die enge Art und Weise zurückzuführen, wie es normalerweise gelehrt wird. Manchmal wird es ausschließlich auf Messfehler zurückgeführt, und das kann ziemlich irreführend sein. Es wird häufig in Bezug auf Extremereignisse "definiert". Wenn beispielsweise eine Variable abgetastet und ein Extremwert beobachtet wird, ist die nächste Messung tendenziell weniger extrem. Dies ist jedoch auch irreführend, da dies impliziert, dass es sich um dieselbe Variable handelt, die gemessen wird. RTM kann nicht nur entstehen, wenn sich die nachfolgenden Maßnahmen auf verschiedene Variablen beziehen, sondern auch für Maßnahmen, bei denen es sich nicht einmal um wiederholte Maßnahmen zum gleichen Thema handelt. Zum Beispiel erkennen einige Leute RTM an der ursprünglichen "Entdeckung" von Galton, der erkannte, dass die Kinder großer Eltern ebenfalls groß, aber weniger groß als ihre Eltern sind, während Kinder kleiner Eltern ebenfalls klein, aber weniger klein als ihre Eltern sind .

Grundsätzlich ist RTM eine Folge der unvollständigen Korrelation zwischen zwei Variablen. Daher sollte es nicht darum gehen, wann RTM auftritt, sondern darum, wann RTM nicht auftritt. Oft sind die Auswirkungen gering, aber manchmal kann dies zu völlig falschen Schlussfolgerungen führen. Sehr einfach ist die Beobachtung eines "Placebo-Effekts" in klinischen Studien. Eine andere subtilere, aber möglicherweise viel schädlichere ist die Schlussfolgerung von "Wachstumspfaden" in Lebensverlaufsstudien, in denen implizit eine Konditionierung des Ergebnisses stattgefunden hat.

Demetri Pananos
2020-07-10 09:11:21 UTC
view on stackexchange narkive permalink

Dies scheint eine niedrig hängende Frucht zu sein, aber die schrittweise Regression ist ein Fehler, den ich selbst bei einigen Statistikleuten ziemlich häufig sehe.Auch wenn Sie einige der sehr gut geschriebenen Antworten auf dieser Website nicht gelesen haben, die sich mit dem Ansatz und seinen Fehlern befassen, denke ich, wenn Sie sich nur einen Moment Zeit genommen haben, um zu verstehen, was passiert (dass Sie im Wesentlichen mit dem testenDaten, die die Hypothese generiert haben) Es wäre klar, dass schrittweise eine schlechte Idee ist.

Bearbeiten: Diese Antwort bezieht sich auf Inferenzprobleme.Vorhersage ist etwas anderes.In meinen eigenen (begrenzten) Experimenten scheint schrittweise in Bezug auf RMSE mit anderen Methoden vergleichbar zu sein.

Gelman: https://statmodeling.stat.columbia.edu/2014/06/02/hate-stepwise-regression/ (Der Link stimmt mit Ihnen überein.)
@Dave Gott, ich liebe diesen Blog.Es ist wie die XKCD von Statistiken.Es gibt immer einen Beitrag von Gelman, den ich für jede Situation verwenden kann.
Ihre Antwort scheint darauf hinzudeuten, dass eine schrittweise Regression ungeachtet ihrer Anwendungen problematisch ist, was ich für falsch halte.Es weist auch auf ein bestimmtes Problem bei der schrittweisen Regression hin, nämlich das Testen von Hypothesen und das Aufnehmen der Ergebnisse zum Nennwert.Darin sehe ich ein Problem.Könnten Sie vielleicht Ihre Antwort präzisieren?
@RichardHardy In welchen Anwendungen wäre schrittweise ratsam?Stepwise verfolgt bei der Variablenauswahl einen "Alles oder Nichts" -Ansatz, bei dem spärliche Modelle wie LASSO zumindest zulassen, dass die Variable teilweise zum linearen Prädiktor beiträgt, wenn auch mit reduzierter Kapazität.Ich denke, das ist ein viel besserer Ansatz, als einer Variablen zu erlauben, entweder einen vollständigen Beitrag zu leisten oder nicht.Offen für gegenteilige Argumente.
@DemetriPananos,, soweit ich mich aus "Elements of Statistical Learning" (und möglicherweise verwandten Büchern) und einigen Artikeln von Tibshirani und Mitautoren erinnere, sind LASSO und schrittweise Regression ziemlich ähnlich und beide können die anderen übertreffen.Ich bin mir ziemlich sicher, dass ich Beispiele ausgearbeitet habe, die genau das zeigen.(LASSO befindet sich zwischen Teilmengenauswahl und Grat und kann je nach dem tatsächlichen Datenerzeugungsprozess entweder übertroffen werden. Die schrittweise Regression ist nur eine Form der Teilmengenauswahl.) Meiner Meinung nach ist die schrittweise Regression (fast oder vollständig) so gültig wieLASSO zur Vorhersage.
@DemetriPananos, "Einführung in das statistische Lernen" kann auch relevante Beispiele und sogar Demonstrationen mit R sowie eine intuitive Erklärung enthalten, wann ein Modell / eine Methode das andere schlägt.
@RichardHardy In beiden Büchern sehe ich keine endgültigen Beweise dafür, dass einer dem anderen überlegen ist.Meine anfängliche Vorliebe für Lasso oder Ridge basiert auf der Intuition, und da ich keine überzeugenden experimentellen Beweise habe, bleibe ich bei meinem Bauch, gebe aber zu, dass ich wenig guten Grund dazu hatte.Wenn Sie Änderungen haben, können Sie diese gerne vorschlagen.
@DemetriPananos, Das ist genau mein Punkt.Wenn LASSO als gute Methode angesehen wird und der schrittweisen Regression im Allgemeinen nicht überlegen ist, ist dies ein guter Grund, um zu dem Schluss zu kommen, dass die schrittweise Regression eine gute Methode ist (zumindest für einige Probleme).Aus diesem Grund schlage ich vor, dass Sie Ihre Antwort präzisieren, um die Missbräuche der schrittweisen Regression hervorzuheben, im Gegensatz zur Kritik der schrittweisen Regression an sich.
@RichardHardy Sicher, ich habe eine Bearbeitung hinzugefügt, die besagt, dass diese Antwort hauptsächlich im Zusammenhang mit Schlussfolgerungen steht.
Christoph Hanck
2020-07-10 13:49:06 UTC
view on stackexchange narkive permalink

Gleichsetzen eines hohen $ R ^ 2 $ span> mit einem "guten Modell" (oder gleichwertig beklagen - oder im Fall von Schiedsrichtern von Papieren kritisieren - dies $ R ^ 2 $ span> ist "zu" niedrig). Weitere Diskussionen werden bereitgestellt, z. hier und hier.

Wie allgemein anerkannt werden sollte, nimmt die Anzahl von $ R ^ 2 $ span> zu (genauer gesagt, nie ab, siehe hier) Regressoren im Modell und können daher immer gleich 1 gemacht werden, indem ausreichend viele Potenzen und Interaktionsterme in das Modell aufgenommen werden (siehe die zugehörige Abbildung unten). Das ist natürlich eine sehr schlechte Idee, da das resultierende Modell stark überpasst und daher sehr schlecht aus der Stichprobe vorhergesagt wird.

Wenn Sie etwas auf sich selbst zurückführen, ist $ R ^ 2 $ span> konstruktionsbedingt 1 (da Residuen Null sind), aber Sie haben natürlich nichts gelernt . Lob für hohe $ R ^ 2 $ span> in ähnlichen Aufbauten (z. B. das diesjährige BIP als Funktion des Vorjahres, das angesichts von Wachstumsraten von rund 2% liegt mehr oder weniger gleich) ist keine Seltenheit.

Umgekehrt kann eine Regression mit einem kleinen $ R ^ 2 $ span> sehr interessant sein, wenn der Effekt, der für diesen $ R ^ 2 $ span> ist eine, auf die Sie tatsächlich reagieren können (dh die kausal ist).

enter image description here

  # R ^ 2 erhöht sich auch dann, wenn Sie auf reines Rauschen zurückgreifen
n <-15
Regressoren <-n-1 # genug, da wir auch eine Konstante anpassen werden
y <rnorm (n)
X <-Matrix (rnorm (Regressoren * n), ncol = Regressoren)

collectionR2s <-rep (NA, Regressoren)
für (i in 1: Regressoren) {
  collectionR2s [i] <- Zusammenfassung (lm (y ~ X [, 1: i])) $ r.squared
}}
Plot (1: Regressoren, Sammlung R2s, col = "lila", pch = 19, Typ = "b", lwd = 2)
abline (h = 1, lty = 2)
 
Dave
2020-07-10 07:28:44 UTC
view on stackexchange narkive permalink

Sie haben eine nette Antwort auf eine, die ich vor einigen Wochen gepostet habe.

Falsche CLT-Anweisung entlarven

Falsche Behauptung: Der zentrale Grenzwertsatz besagt, dass die empirische Verteilung gegen eine Normalverteilung konvergiert.

Wie die Antworten auf meine Frage zeigen, ist diese Behauptung absolut absurd (es sei denn, die Bevölkerung ist normal), aber die Antworten sagen mir auch, dass dies ein weit verbreitetes Missverständnis ist.

Es gibt dieses Übertreibungsproblem.Ich habe es von Professoren gehört: "Wir haben 100 Schüler, die an der Klasse teilnehmen. Der Clt sagt also, dass die Noten normal verteilt sind."
Und da ist das Understatement-Problem."Ich kann keinen t-Test durchführen, meine Daten sind nicht normal."Hier würde das clt oft mehr helfen, als die Leute sehen
Stephan Kolassa
2020-07-10 15:32:37 UTC
view on stackexchange narkive permalink

"Ein komplexes Modell ist besser als ein einfaches".Oder eine Variation davon: "Wir brauchen ein Modell, das Nichtlinearitäten modellieren kann."

Besonders oft in Prognosen zu hören.Es gibt ein starkes Vorurteil, dass ein komplexeres Modell besser prognostiziert als ein einfaches.

Das ist sehr oft nicht der Fall.

Jemand könnte als Missverständnis posten, dass einfache lineare Modelle immer eine gute Idee sind ...
+1 Meistens haben die Leute keine Ahnung, wie sie die Unsicherheiten in den Anpassungsparametern ihres komplizierten Modells bei Vorhersagen berücksichtigen sollen.Wenn Sie so tun, als wären Ihre Punktschätzungen 100% genau, erhalten Sie sehr gut aussehende Prognosen, die nichts bedeuten.Schlimmer noch: Meistens gibt es keine vereinbarte Methode, um die Fehler in den Modellparametern in die Prognose zu übertragen.Nur Bayes'sche Methoden scheinen dafür sichere Methoden zu haben.
EdM
2020-07-10 17:47:32 UTC
view on stackexchange narkive permalink

Das Vergessen dieses Bootstrappings erfordert besondere Sorgfalt bei der Untersuchung von Verteilungen nicht zentraler Größen (z. B. zum Schätzen ihrer Konfidenzintervalle), obwohl dies von Anfang an bekannt war.

Michael M
2020-07-12 19:38:53 UTC
view on stackexchange narkive permalink

Statistische Inferenz mit einer - mit Sicherheit - voreingenommenen Convenience-Stichprobe.(Und sich dann hauptsächlich um Normalität kümmern, anstatt sich mit Voreingenommenheit zu befassen ...)

Skander H.
2020-07-23 14:21:08 UTC
view on stackexchange narkive permalink

ARIMA !!! - ein Wunderwerk theoretischer Genauigkeit und mathematischer Eleganz, das für realistische Geschäftszeitreihen fast unbrauchbar ist.

Ok, das ist übertrieben: ARIMA und ähnliche Modelle wie GARCH sind gelegentlich nützlich. Aber ARIMA ist bei weitem kein so allgemeines Modell, wie die meisten Leute zu glauben scheinen.

Die meisten kompetenten Data Scientists und ML Engineers, die Generalisten sind (in dem Sinne, dass sie sich nicht auf Zeitreihenprognosen oder Ökonometrie spezialisiert haben) sowie MBA-Typen und Personen mit soliden allgemeinen statistischen Hintergründen, verwenden standardmäßig ARIMA als Basismodell für ein Zeitreihenprognoseproblem. Meistens bleiben sie dabei. Wenn sie es gegen andere Modelle bewerten, ist es normalerweise gegen exotischere Entitäten wie Deep Learning Models, XGBoost usw.

Andererseits halten sich die meisten Zeitreihenspezialisten, Supply-Chain-Analysten, erfahrenen Analysten für Nachfrageprognosen usw. von ARIMA fern. Das akzeptierte Basismodell und das, das immer noch sehr schwer zu schlagen ist, ist Holt-Winters oder Triple Exponential Smoothing. Siehe zum Beispiel "Warum der gedämpfte Trend funktioniert" von E S Gardner Jr. & E McKenzie. Über die akademische Prognose hinaus verwenden viele Prognoselösungen für Unternehmen in der Nachfrageprognose und im Bereich der Lieferkette immer noch einige Variationen von Holt-Winters. Dies ist keine Unternehmensträgheit oder schlechtes Design, es ist einfach so, dass Holt-Winters oder Damped Holt-Winters immer noch der beste Gesamtansatz in Bezug auf Robustheit und durchschnittliche Gesamtgenauigkeit ist.

Eine kurze Geschichtsstunde:

Hier könnte etwas Geschichte nützlich sein: Exponential Smoothing-Modelle, Simple ES, Holts Modell und Holt-Winters wurden in den 50er Jahren entwickelt. Sie erwiesen sich als sehr nützlich und pragmatisch, waren jedoch vollständig "ad-hoc". Sie hatten keine zugrunde liegende statistische Theorie oder erste Prinzipien - sie waren eher ein Fall von: Wie können wir Zeitreihen in die Zukunft extrapolieren? Gleitende Durchschnitte sind ein guter erster Schritt, aber wir müssen dafür sorgen, dass der gleitende Durchschnitt besser auf aktuelle Beobachtungen reagiert. Warum fügen wir nicht einfach einen $ \ alpha $ span> -Parameter hinzu, der der jüngsten Beobachtung mehr Bedeutung beimisst? - So wurde die einfache exponentielle Glättung erfunden. Holt und Holt-Winters waren einfach die gleiche Idee, aber der Trend und die Saisonalität wurden aufgeteilt und dann mit ihren eigenen gewichteten gleitenden Durchschnittsmodellen geschätzt (daher der zusätzliche $ \ beta $ span > und $ \ gamma $ span> -Parameter). Tatsächlich sind in den ursprünglichen Formulierungen von ES die Parameter $ \ alpha $ span>, $ \ beta $ span>, und $ \ gamma $ span> wurden manuell ausgewählt, basierend auf ihrem Bauchgefühl und ihrem Domänenwissen.

Noch heute muss ich gelegentlich auf Anfragen vom Typ reagieren. "Die Verkäufe für diese bestimmte Produktsparte sind sehr reaktiv. Können Sie bitte den automatisierten Modellauswahlprozess überschreiben und den $ \ alpha $ span> bis 0,95 für uns" (Ahhh - ich denke mir - warum setzen Sie es dann nicht auf eine naive Prognose? Aber ich bin ein Ingenieur, also Ich kann einem Geschäftsmann so etwas nicht sagen.

Wie auch immer, ARIMA, das in den 1970er Jahren vorgeschlagen wurde, war in gewisser Weise eine direkte Reaktion auf Exponential Smoothing-Modelle. Während Ingenieure ES-Modelle liebten, waren Statistiker von ihnen entsetzt. Sie sehnten sich nach einem Modell, das zumindest theoretisch gerechtfertigt war. Und genau das haben Box und Jenkins getan, als sie ARIMA-Modelle entwickelten. Anstelle des Ad-hoc-Pragmatismus von ES-Modellen wurde der ARIMA-Ansatz von Grund auf unter Verwendung solider erster Prinzipien und äußerst strenger theoretischer Überlegungen entwickelt.

Und ARIMA-Modelle sind in der Tat sehr elegant und theoretisch überzeugend. Selbst wenn Sie in Ihrem ganzen Leben noch nie ein einziges ARIMA-Modell für die Produktion einsetzen, empfehle ich jedem, der sich für Zeitreihenprognosen interessiert, etwas Zeit zu widmen, um die Theorie hinter der Funktionsweise von ARIMA vollständig zu verstehen, da dies eine sehr gute Wirkung hat Verständnis, wie sich Zeitreihen im Allgemeinen verhalten.

Aber ARIMA hat sich empirisch nie gut geschlagen, siehe hier. Hyndman schreibt (und zitiert andere):

Viele der Diskussionsteilnehmer scheinen von ARIMA-Modellen begeistert zu sein. „Es ist jedoch erstaunlich für mich, dass nach all dieser Übung beim Identifizieren von Modellen, Transformieren usw. die autoregressiven gleitenden Durchschnitte so schlecht herauskommen. Ich frage mich, ob es teilweise daran liegen könnte, dass die Autoren den Rückwärtsprognoseansatz nicht verwenden, um die anfänglichen Fehler zu erhalten. “ - W. G. Gilchrist

„Es fällt mir schwer zu glauben, dass Box-Jenkins bei richtiger Anwendung tatsächlich schlechter sein kann als so viele einfache Methoden“. - Chris Chatfield

Manchmal degenerierte die Diskussion, um die Kompetenz der Autoren in Frage zu stellen: „Warum geben empirische Studien manchmal unterschiedliche Antworten?Es mag von der ausgewählten Stichprobe von Zeitreihen abhängen, aber ich vermute, dass es eher von den Fähigkeiten des Analytikers abhängt… diese Autoren sind mit einfachen Verfahren besser vertraut als mit Box-Jenkins. “- Chris Chatfield

Wenn ARIMA eine gute Leistung erbringt, geschieht dies nur, weil die ausgewählten Modelle Exponential Smoothing-Modellen entsprechen (es gibt einige Überschneidungen zwischen der ARIMA-Familie und der ES-Familie für $ ARIMA (S., d, q) $ span> mit niedrigen Werten von $ p $ span>, $ d $ span>,und $ q $ span> - siehe hier und hier für Details).

Ich erinnere mich, dass ich einmal mit einem sehr intelligenten Business-Prognostiker zusammengearbeitet habe, der einen starken statistischen Hintergrund hatte und unglücklich darüber war, dass unser Produktionssystem exponentielle Glättung verwendete, und wollte, dass wir stattdessen zu ARIMA wechseln. Also haben er und ich zusammengearbeitet, um einige ARIMA-Modelle zu testen. Er teilte mir mit, dass es in seinen früheren Jobs informelle Erkenntnisse darüber gab, dass ARIMA-Modelle niemals die Werte $ p $ span>, $ d $ span> oder $ q $ span> höher als 2. Ironischerweise bedeutete dies, dass die von uns getesteten ARIMA-Modelle alle mit oder identisch waren sehr nah an ES-Modellen. Es ist jedoch nicht die Schuld meines Kollegen, dass er diese Ironie verpasst hat. Die meisten Materialien für Einsteiger und MBA-Absolventen zur Modellierung von Zeitreihen konzentrieren sich signifikant oder vollständig auf ARIMA und implizieren (auch wenn sie dies nicht ausdrücklich sagen), dass es das Ende aller statistischen Prognosen ist. Dies ist wahrscheinlich ein Überbleibsel der Denkweise, auf die sich Hyndman in den 70er Jahren bezog, als Experten für akademische Prognosen in ARIMA "verliebt" waren. Darüber hinaus ist das allgemeine Framework, das ARIMA- und ES-Modelle vereint, eine relativ junge Entwicklung und wird nicht immer in Einführungstexten behandelt. Es ist auch mathematisch wesentlich komplexer als die Grundformulierungen von ARIMA- und ES-Modellen (Ich muss gestehen, dass ich meinen Kopf noch nicht vollständig darum gewickelt habe).

Ok, warum schneidet ARIMA so schlecht ab?
Mehrere Gründe, die in keiner bestimmten Reihenfolge aufgeführt sind:

  • ARIMA erfordert Polynomtrends: -Differenzierung wird verwendet, um den Trend aus einer Zeitreihe zu entfernen, damit er stationär ist, sodass autoregressive Modelle anwendbar sind. Siehe diesen vorherigen Beitrag für Details. Betrachten Sie eine Zeitreihe $$ Y (t) = L (t) + T (t) $$ span> mit $ L $ span> das Level und $ T $ span> der Trend (das meiste, was ich sage, gilt auch für saisonale Zeitreihen, aber der Einfachheit halber werde ich mich daran halten nur der Falltrend). Das Entfernen des Trends führt dazu, dass eine Transformation angewendet wird, die $ T (t) $ span> einer Konstanten $ T = c $ . Intuitiv ist die Differenzierungskomponente von ARIMA das diskrete Zeitäquivalent der Differenzierung. Das heißt, für eine diskrete Zeitreihe $ Y $ span> mit einer äquivalenten kontinuierlichen Zeitreihe $ Y_c $ span> Die Einstellung $ d = 1 $ span> ( $ Y_n '= Y_n - Y_ {n-1} $ span>) ist Entspricht der Berechnung von $$ \ frac {dY_c} {dt} $$ span> und der Einstellung von $ d = 2 $ span> entspricht $$ \ frac {d ^ 2Y_c} {dt ^ 2} $$ span> usw. Überlegen Sie nun, durch welche Art von kontinuierlichen Kurven Konstanten umgewandelt werden können sukzessive Differenzierung? Nur Polynome der Form $ T (t) = a_nt ^ n + a_ {n-1} t ^ {n-1} ... + a_1t + a_0 $ span> (nur? Es ist eine Weile her, seit ich Analysis studiert habe ...) - Beachten Sie, dass ein linearer Trend der Sonderfall ist, in dem $ T (t) = a_1t + a_0 $ span> . Bei allen anderen Kurven führt keine Anzahl aufeinanderfolgender Differenzierungen zu einem konstanten Wert (Berücksichtigung und Exponentialkurve oder Sinuswelle usw.). Gleiches gilt für die diskrete Zeitdifferenzierung: Sie wandelt die Reihe nur dann in eine mittlere stationäre um, wenn der Trend polynomisch ist. Aber wie viele reale Zeitreihen haben einen Polynomtrend höherer Ordnung ( $ n>2 $ span>)? Sehr wenige, wenn überhaupt. Daher ist die Auswahl einer Reihenfolge $ d>2 $ span> ein Rezept für eine Überanpassung (und manuell ausgewählte ARIMA-Modelle passen tatsächlich häufig über). Und für Trends niedrigerer Ordnung, $ d = 0,1,2 $ span>, befinden Sie sich im exponentiellen Glättungsgebiet (siehe auch hier die Äquivalenztabelle hier).

  • ARIMA-Modelle gehen von einem sehr spezifischen Datengenerierungsprozess aus: Der Datengenerierungsprozess bezieht sich im Allgemeinen auf das "wahre" Modell, das unsere Daten beschreibt, wenn wir sie direkt ohne Fehler oder Rauschen beobachten konnten. Beispielsweise kann ein $ ARIMA (2,0,0) $ span> -Modell als $$ Y_t = a_1Y_ {t- geschrieben werden 1} + a_2Y_ {t-2} + c + \ epsilon_t $$ span> mit $ \ epsilon_t $ span> modelliert die Fehler und das Rauschen und das wahre Modell ist $$ \ hat {Y} _t = a_1 \ hat {Y} _ {t-1} + a_2 \ hat {Y} _ {t-2} + c $$ span> Aber nur sehr wenige Geschäftszeitreihen haben ein solches "echtes Modell", z. B. warum sollte ein Verkaufsnachfragesignal oder eine Zeitreihe mit Gleichstromkapazität jemals einen DGP haben, der $$ \ hat {Y entspricht } _t = a_1 \ hat {Y} _ {t-1} + a_2 \ hat {Y} _ {t-2} + c ?? $$ span> Wenn wir etwas tiefer in die Struktur von ARIMA schauen Modelle erkennen wir, dass es sich tatsächlich um sehr komplexe Modelle handelt. Ein ARIMA-Modell entfernt zuerst den Trend und die Saisonalität, betrachtet dann die Residuen und versucht, sie als lineare Regression gegen übergebene Werte zu modellieren (daher "Auto" -Regression) - dies funktioniert nur, wenn die Residuen tatsächlich einen Komplex haben zugrunde liegender deterministischer Prozess. Viele (die meisten) Geschäftszeitreihen haben jedoch kaum genug Signal, um den Trend und die Saisonalität richtig zu erfassen, geschweige denn zu entfernen und dann eine zusätzliche autoregressive Struktur in den Residuen zu finden. Die meisten univariaten Geschäftszeitreihendaten sind dafür entweder zu verrauscht oder zu spärlich. Aus diesem Grund sind Holt-Winters und in jüngerer Zeit Facebook Prophet so beliebt: Sie müssen keine komplexen Muster in den Residuen mehr suchen und sie nur als gleitenden Durchschnitt modellieren oder sie überhaupt nicht modellieren (im Fall des Propheten). und konzentrieren sich hauptsächlich auf die Erfassung der Dynamik der Saisonalität und des Trends. Kurz gesagt, ARIMA-Modelle sind tatsächlich ziemlich komplex, und Komplexität führt häufig zu einer Überanpassung.

  • S Manchmal sind autoregressive Prozesse gerechtfertigt. Aufgrund der Stationaritätsanforderungen sind ARIMA AR-Prozesse jedoch sehr seltsam und kontraintuitiv. : Lassen Sie uns untersuchen, welche Arten von Prozessen tatsächlich einem automatisch regressiven Prozess entsprechen - dh welche Zeitreihen tatsächlich einen zugrunde liegenden DGP haben würden, der einem $ AR (p) $ span> -Modell. Dies ist beispielsweise mit einem Zellpopulationswachstumsmodell möglich, bei dem sich jede Zelle durch Teilen in 2 reproduziert und daher die Population $ P (t_n) $ span> vernünftigerweise angenähert werden könnte von $ P_n = 2P_ {n-1} + \ epsilon_t $ span>. Da hier $ a = 2 $ span> ( $ >1 $ span>) ist der Prozess nicht stationär und kann nicht mit ARIMA modelliert werden. Die meisten "natürlichen" $ AR (p) $ span> -Modelle haben auch kein echtes Modell der Form $$ \ hat { Y} _t = a_1 \ hat {Y} _ {t-1} + a_2 \ hat {Y} _ {t-2} ... + a_p \ hat {Y} _ {tp} + c $$ span > Dies liegt an der Stationaritätsanforderung: Damit der Mittelwert $ c $ span> konstant bleibt, gelten sehr strenge Anforderungen an die Werte von $ a_1, a_2, ..., a_p $ span> (siehe diesen vorherigen Beitrag), um sicherzustellen, dass $ \ hat {Y. } _t $ span> weicht nie zu weit vom Mittelwert ab. Grundsätzlich müssen sich $ a_1, a_2, ..., a_p $ span> gegenseitig aufheben $$ \ sum_ { j = 1} ^ pa_j<1 $$ span> Andernfalls ist das Modell nicht stationär (darum geht es bei all dem Zeug über Einheitswurzeln und Z-Transformationen). Diese Implikation führt zu sehr seltsamen DGPs, wenn wir sie als "wahre Modelle" einer Geschäftszeitreihe betrachten: z. Wir haben eine Verkaufszeitreihe oder eine Stromlastzeitreihe usw. Welche Art von Kausalzusammenhängen müsste auftreten, um sicherzustellen, dass $$ \ sum_ {j = 1} ^ pa_j<1? $$ span> z Welche Art von wirtschaftlichem oder sozialem Prozess könnte jemals zu einer Situation führen, in der die verminderten Umsätze vor 3 Wochen immer gleich der Summe der Umsätze von vor 2 Wochen und der Umsätze von letzter Woche sind? Ein solcher Prozess wäre gelinde gesagt ausgefallen. Um es noch einmal zusammenzufassen: Während es reale Prozesse gibt, die einem autoregressiven Modell entsprechen können, sind sie fast nie stationär (wenn sich jemand ein Gegenbeispiel vorstellen kann - das ist ein natürlich vorkommender stationärer AR (p) -Prozess, teilen Sie bitte, Ich habe eine Weile nach einem gesucht) . Ein stationärer AR (p) -Prozess verhält sich auf seltsame und kontraintuitive Weise (mehr oder weniger oszillierend um den Mittelwert), die es sehr schwierig macht, sie auf natürlich erklärbare Weise an Geschäftszeitreihendaten anzupassen.

  • Hyndman erwähnt dies (mit stärkeren Worten als meine) in dem oben genannten Artikel:

    Dies zeigt eine weit verbreitete Ansicht (auch heute noch), dass es ein einzelnes Modell gibt, das den Datenerzeugungsprozess beschreibt, und dass es die Aufgabe eines Prognostikers ist, ihn zu finden. Dies erscheint mir offensichtlich absurd - echte Daten stammen aus Prozessen, die viel komplizierter, nicht linearer und nicht stationärer sind als jedes Modell, das wir uns erträumen könnten - und George Box selbst lehnte es bekanntermaßen ab und sagte: „Alle Modelle sind falsch, aber einige sind falsch nützlich ”.

    But was ist mit den 'guten' ARIMA-Tools?

    An dieser Stelle wird auf einige moderne Tools und Pakete hingewiesen, die ARIMA verwenden und in den meisten vernünftigen Zeitreihen (nicht zu laut oder zu spärlich) sehr gut funktionieren, z. B. auto.arima () aus dem R Forecast-Paket oder BigQuery ARIMA. Diese Tools basieren in der Tat auf ausgeklügelten Modellauswahlverfahren, mit denen sichergestellt werden kann, dass die ausgewählten $ p-, d-, q $ span> -Aufträge optimal sind (BigQuery ARIMA verwendet ebenfalls) weitaus ausgefeiltere Saisonalitäts- und Trendmodellierung als die Standardmodelle ARIMA und SARIMA). Mit anderen Worten, sie sind weder die ARIMA Ihrer Großeltern (noch die, die in den meisten einführenden Texten für Hochschulabsolventen gelehrt wird ...) und generieren normalerweise Modelle mit einem niedrigen $ p, d, q $ span> Werte sowieso (nach richtiger Vorverarbeitung natürlich). Jetzt, wo ich darüber nachdenke, kann ich mich nicht erinnern, jemals auto.arima () für eine arbeitsbezogene Zeitreihe verwendet und $ p, d, q > 1 $ erhalten zu haben span>, obwohl ich einmal mit auto.arima () in der Zeitreihe Air Passengers den Wert $ q = 3 $ span> erhalten habe.

    Conclusion

    Lernen Sie traditionelle ARIMA-Modelle ein und aus, aber verwenden Sie sie nicht.Halten Sie sich an Zustandsraummodelle (unglaublich anspruchsvolle Nachkommen von ES) oder verwenden Sie moderne automatisierte ARIMA-Modellpakete (die ohnehin Zustandsraummodellen unter der Haube sehr ähnlich sind).

    Ich glaube nicht, dass ARIMA zu den * schlechtesten statistischen Praktiken * gehört.Das zitierte Papier enthält mehrere weitere Erwähnungen von ARIMA, und im Gegensatz zu denen, die Sie zitiert haben, sind sie positiv.Was Sie identifizieren, scheinen einige historische Missbräuche von ARIMA und ein unbegründeter Optimismus aus den frühen 1980er Jahren zu sein.Die Missbräuche sind nicht die Schuld des Modells, und sie sind unter Profis bereits veraltet, aber natürlich wird es Leute geben, die ein paar (oder mehr) Jahrzehnte zurückbleiben und die alten Fehler wiederholen.
    Dass sich der wahre Prozess vom Modell unterscheidet, ist den meisten statistischen Modellen gemeinsam, nicht nur ARIMA.Sie können die meisten Modelle auf diese Weise schlagen.Der relevante Punkt ist, dass das Modell nützlich sein sollte, während es nicht korrekt sein muss.Die abschließende Empfehlung, moderne automatisierte ARIMA-Modellpakete zu verwenden, widerspricht der Kritik am Modell selbst.Vielleicht sollte die Antwort neu formuliert werden und die Kritik eher gegen bestimmte Missbräuche des Modells als gegen das Modell selbst richten?(Ich bin mit der ganzen Antwort nicht einverstanden und finde sie auch nicht nutzlos, aber ich denke, sie kann verbessert werden.)
    @RichardHardy Danke für das Feedback.Können Sie auf den von Ihnen erwähnten Widerspruch näher hinweisen, damit ich ihn beheben kann?Ohne Rücksicht darauf war das von mir zitierte Papier nur eine Referenz für Trends, die ich jetzt zumindest in meiner lokalen DS-Community sehe.
    Ein weiterer Punkt: Sie verwenden weiterhin (wie in Ihren anderen Antworten) $ \ dots + c + \ sigma $, um zu bezeichnen, was in der Zeitreihenliteratur $ \ dots + c + \ varepsilon_t $ ist.Die frühere Notation ist verwirrend;$ \ varepsilon_t $ ist eine Zufallsvariable und variiert mit der Zeit, während $ \ sigma $ eine Konstante ist, die normalerweise für einen Skalierungsparameter (normalerweise Standardabweichung) einer Verteilung reserviert ist.Ich frage mich auch, ob die Gleichungen mit Hüten Sinn machen.Was bedeuten die Hüte?
    @RichardHardy ordnungsgemäß zur Kenntnis genommen.
    Irgendwelche Kommentare zu ARFIMA?
    @user76284 Ich habe nicht viel Erfahrung damit.
    Mit * Widerspruch * meine ich die Koexistenz von zwei Behauptungen in einer einzigen Antwort: (1) ARIMA ist schlecht (verdient einen Platz in der Liste der schlechtesten statistischen Praktiken) und (2) Verwenden Sie erweiterte Versionen von ARIMA (wie z. B. `auto.arima`).Was bedeuten Hüte in Ihren Formeln?
    @RichardHardy: Ich glaube nicht, dass ARIMA zu den schlechtesten Praktiken gehört.Die weiterhin unüberlegte Präferenz für ARIMA als Benchmark ist jedoch sicherlich.Ich habe unzählige RfIs (Requests for Information) gesehen, bei denen wir gefragt werden, ob unser Prognosesystem ARIMA enthält, was in unseren Anwendungsfällen (Einzelhandelsprognose) offensichtlich völlig nutzlos ist.Trotzdem ist ARIMA eines der ersten Dinge, die Menschen lernen, wenn sie über Prognosen lesen, und sie fragen immer wieder danach.Ihre Verbreitung steht in keinem Verhältnis zu ihrer praktischen Nützlichkeit.
    @StephanKolassa, Ihr Kommentar klingt vernünftig.Ich wünschte, die Antwort hätte einen ähnlichen Ton angenommen.Die aktuelle Formulierung (insbesondere die einleitenden Aussagen) erscheint jedoch zu hart und nicht nuanciert genug.
    @RichardHardy: Ich verstehe Ihren Standpunkt.Aber um ehrlich zu sein, finde ich die Eröffnungsrede genau richtig.YMMV.
    Einige Gegenbeweise aus der heutigen Zeit: Ein Papier von 2020 ["Distributed ARIMA Models for Ultra-Long Time Series"] (https://arxiv.org/pdf/2007.09577.pdf) von Rob J. Hyndman und Mitautoren sagt, dass * ARIMAModelle dienen auch häufig als Benchmark-Methoden für das Modell Kombination aufgrund ihrer hervorragenden Leistung bei der Vorhersage von Zeitreihen (Wang et al., 2019; Montero-Manso et al., 2020). *
    +1.Gutschrift wo fällig ist, ist dies ein guter Beitrag, der zum Nachdenken anregt.(Ich "mag" ARIMA und verwende "auto.arima" ohne einen zweiten Gedanken, wenn es mein Kreuzvalidierungsschema übertrifft.)
    Dave
    2020-07-10 09:25:27 UTC
    view on stackexchange narkive permalink

    Was bedeutet ein p-Wert?

    ALERT AN NEUKOMMER: DIESES ANGEBOT IST EXTREM FALSCH

    “Die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, duh!Komm schon, Dave, du bist ein professioneller Statistiker, und das ist Statistik 101. "

    Ich verstehe den Reiz dieses einen, und es wäre wirklich schön, ein einfaches Maß für die Wahrscheinlichkeit der Nullhypothese zu haben, aber nein.

    Es scheint eine Strecke zu sein, dies als "allgemein in der Statistik angenommene Idee" zu betrachten.Dies gehört stattdessen zu einem Pantheon von Fehlern, die von Nicht-Statistikern begangen wurden.
    Es gibt eine gewisse Diskrepanz zwischen dem Titel der Frage ("allgemein angenommen") und dem Hauptteil der Frage ("Ideen, die von * einigen tatsächlichen Statistikern / Datenanalysten * akzeptiert und praktiziert werden", Hervorhebung von mir).Durch die letztere, niedrigere Schwelle denke ich, dass dies sicherlich ein gültiges Beispiel ist.Es gibt natürlich auch keine klare Definition eines Statistikers / Datenanalysten, aber die Forschung legt nahe, dass zumindest angewandte Forscher mit einer beträchtlichen Ausbildung in Statistik diesen Fehler machen.Zum Beispiel http://www.psicothema.com/PDF/4266.pdf.
    Davide ND
    2020-07-16 18:28:03 UTC
    view on stackexchange narkive permalink

    Es ist keine reine Statistik, sondern eher eine statistische Modellierung im großen Sinne, aber ein sehr häufiges Missverständnis, das ich auch in einigen Universitätskursen gehört habe, ist, dass zufällige Wälder nicht überpassen können b>.

    Hier ist eine Frage, bei der sie genau das gestellt haben, und ich habe versucht zu erklären, warum dies nicht wahr ist und woher dieses Missverständnis kommt.

    Robert Long
    2020-07-10 11:08:51 UTC
    view on stackexchange narkive permalink

    Wenn Sie Änderungen analysieren, ist es in Ordnung, Änderungswerte zu erstellen ( Follow-up - Basislinie oder eine prozentuale Änderung gegenüber der Basislinie) und diese dann auf Basislinie zu regressieren.Es ist nicht (mathematische Kopplung).ANCOVA wird häufig als der beste Ansatz vorgeschlagen, und dies kann im Fall einer Randomisierung in Gruppen der Fall sein, beispielsweise in klinischen Studien. Wenn die Gruppen jedoch unausgewogen sind, wie dies in Beobachtungsstudien häufig der Fall ist, kann ANCOVA auch voreingenommen sein. P.>

    Komisch, dies ist die Voraussetzung für eine der Formulierungen des erweiterten Kalman-Filters.:) :)
    Demetri Pananos
    2020-07-10 09:54:00 UTC
    view on stackexchange narkive permalink

    Insbesondere in der medizinischen Gemeinschaft und etwas seltener in der Psychologie wird die "Änderung gegenüber dem Ausgangswert" normalerweise analysiert, indem die Änderung als Funktion von Kovariaten modelliert wird. Doug Altman und Martin Bland haben ein wirklich großartiges Papier darüber, warum dies wahrscheinlich keine gute Idee ist, und argumentieren, dass eine ANVOCA (nach der Messung ~ Kovariaten + Basislinie) besser ist.

    Frank Harrell leistet auch hervorragende Arbeit, um einige versteckte Annahmen hinter diesem Ansatz zusammenzustellen.

    Sogar ANCOVA ist voreingenommen, es sei denn, die Gruppen sind in Bezug auf das Ergebnis ausgewogen, was in Beobachtungsstudien ein recht häufiges Problem darstellt.
    doubled
    2020-07-10 10:00:22 UTC
    view on stackexchange narkive permalink

    Sie erkennen nicht, inwieweit funktionale Formannahmen und Parametrisierungen Informationen in Ihrer Analyse kaufen.In der Wirtschaft erhalten Sie diese Modelle, die wirklich interessant erscheinen und Ihnen eine neue Möglichkeit bieten, potenziell einen interessierenden Effekt zu identifizieren. Manchmal lesen Sie sie jedoch und stellen fest, dass das Modell ohne diese letzte Normalitätsannahme, die Ihnen die Punktidentifizierung ermöglichte, unendliche Grenzen identifiziert.und so gibt Ihnen das Modell wirklich nichts Hilfreiches.

    Neil G
    2020-07-23 20:38:00 UTC
    view on stackexchange narkive permalink

    Menschen gehen oft davon aus, dass der einheitliche Prior nicht informativ ist.Dies ist normalerweise falsch.

    Ja!Ich frage mich, wie viele Leute erkennen, dass das Aussprechen von $ X \ sim U (0,1) $ dem Aussprechen von $ - \ log (X) \ sim Exp (1) $ entspricht
    Neil G
    2020-07-24 20:23:00 UTC
    view on stackexchange narkive permalink

    Angenommen, Kontrolle für Kovariaten entspricht der Beseitigung ihrer kausalen Auswirkungen - dies ist falsch.

    Das ursprüngliche Beispiel von Pearl ist das der Qualifikationen, des Geschlechts und der Einstellung. Wir hoffen, dass sich Qualifikationen auf die Einstellung auswirken, und möchten wissen, ob das Geschlecht dies auch tut. Das Geschlecht kann sich auf die Qualifikation auswirken (z. B. ungleiche Bildungschancen).

    Wenn ein durchschnittlicher Mann mit einer bestimmten Ausbildung eher eingestellt wird als eine durchschnittliche Frau, die zufällig das gleiche Bildungsniveau hat, ist das ein Beweis für Sexismus, oder? Falsch.

    Die Schlussfolgerung des Sexismus wäre nur gerechtfertigt, wenn es keine Störfaktoren zwischen Qualifikation und Einstellung gäbe. Im Gegenteil, es kann sein, dass die Frauen, die zufällig das gleiche Bildungsniveau hatten, aus wohlhabenden Familien stammten und der Interviewer aus diesem Grund gegen sie voreingenommen war.

    Mit anderen Worten, Steuern für Kovariaten können Hintertürpfade öffnen. In vielen Fällen ist Kontrolle für das Beste, was wir tun können, aber wenn andere Hintertürpfade wahrscheinlich existieren, sollten die Beweise für kausale Schlussfolgerungen als schwach angesehen werden.

    Obwohl dieser Punkt einen gewissen Wert hat (+1), sind sich Statistiker, die eine Kovariate kontrollieren, fast immer bewusst, dass dies nur die Auswirkung über Pfade kontrolliert, die nicht durch die anderen erklärenden Variablen gehen, und das tut es auchkausale Auswirkungen nicht durch andere erklärende Variablen im Modell beseitigen.Kurz gesagt, ich stimme Ihrem inhaltlichen Punkt zu, dass der beschriebene Glaube ein Fehler ist, aber ich sehe selten, dass die statistische Gemeinschaft diesen Fehler macht.(Obwohl es vielleicht nur darum geht, mit wem Sie sprechen!)
    @ben Es ist nicht nur ein Problem mit "Pfaden, die durch andere erklärende Variablen gehen": Es geht darum, Hintertüren zu öffnen, die * sonst nicht geöffnet wären *.Mit anderen Worten, die Kontrolle auf Kovariaten kann die Situation paradoxerweise verschlimmern.
    probabilityislogic
    2020-07-10 08:40:40 UTC
    view on stackexchange narkive permalink

    Die Idee, dass, weil wir ein "durchschnittliches" Ergebnis im Auge haben, eine Folge von Daten, die entweder unter oder über dem Durchschnitt liegt, bedeutet, dass ein bestimmtes Ergebnis "fällig" ist.

    Die Beispiele sind Dinge wie das Würfeln, bei denen eine große Anzahl von "keine sechs" -Ergebnissen beobachtet wird - sicherlich ist bald eine sechs fällig!

    Das klingt eher nach einem Anfängerfehler als nach einem allgemein akzeptierten Missverständnis, oder?
    Wenn Ihre Trefferchance 0,25 beträgt und Ihre ersten drei Versuche Fehlschläge sind, ist es falsch zu sagen, dass Sie am vierten "einen Treffer fällig" haben.
    Aber im Allgemeinen ist es subtiler und geht sogar in philosophisches Gebiet über Aromen probabilistischer Unsicherheit.Angenommen, ich werfe 9 Mal eine Münze und bekomme 9 Köpfe und * ich zeige dir das Ergebnis nicht *.Jetzt frage ich Sie: "Wie groß ist die Wahrscheinlichkeit, dass ich nach dem 10. Flip eine Sequenz von 10 Köpfen hintereinander umgedreht habe?"Obwohl bereits 9 Flips ausgeführt wurden, haben * SIE * keine andere Wahl, als bei 2 ^ {- 10} zu bleiben.Hätte ich Ihnen das Ergebnis gezeigt, hätten Sie 1/2 gesagt.
    BruceET
    2020-07-10 09:30:50 UTC
    view on stackexchange narkive permalink

    Die Faustregel, dass die Standardabweichung $ S $ span> einer normalen Stichprobe sinnvoll als Stichprobenbereich angenähert werden kann $ D $ span> geteilt durch $ 4 $ span> (oder $ 5 $ span> oder $ 6). $ span>

    $ n. $
      n = 100
    set.seed (2020)
    s = replizieren (10 ^ 5, sd (rnorm (n)))
    set.seed (2020) # wieder dieselben Proben
    d = replizieren (10 ^ 5, diff (Bereich (rnorm (n))))
    Mittel (d / s)
    [1] 5.029495
    Zusammenfassung (d / s)
       Mindest. 1. Qu. Median Mean 3rd Qu. Max.
      3.581 4.678 4.984 5.029 5.330 7.756
     / code> 
    {\ displaystyle $ n = 25 funktioniert $ span>, wenn der Bereich durch $ 4 $ geteilt wird, ziemlich gut, und ohne große Variation. Für $ n = 100 $ und $ 500 bzw. $ span> Nenner sind im Durchschnitt $ 5 $ und $ 6, $ span>, jedoch mit stark abnehmender Genauigkeit für einzelne Stichproben mit zunehmender Stichprobengröße. Eine Simulation in R für $ n = 100 $ span> ist oben dargestellt.

    Hinweis: Die Idee , $ S $ span> als $ D / c_n $ span> ist nicht völlig nutzlos: Für $ n < 15 dividiert $ span> den Bereich durch eine Konstante $ c_n $ span> (unterschiedlich für jeden $ n) $ span> funktioniert gut genug, dass Hersteller von Regelkarten häufig den Bereich geteilt durch verwenden die entsprechende Konstante, um $ S $ span> für Diagrammgrenzen zu erhalten. p

    (+1) Noch schlimmer ist die Annahme, dass die Stichprobe aus einer Normalverteilung stammt!Schon eine geringfügige Veränderung der Kurtosis kann die Extremwerte ausblasen, so dass der Probenbereich tatsächlich sehr groß ist!Es sei denn, es gibt einen sehr guten theoretischen Grund zu der Annahme, dass eine Stichprobe aus einer Normalverteilung stammt, wobei die Extrempunkte für einen Schätzer verwendet werden, unter der Annahme, dass eine Normalverteilung mit dem Feuer spielt!
    eric_kernfeld
    2020-07-13 21:57:40 UTC
    view on stackexchange narkive permalink

    Mein Lieblingsstatistikfehler: Permutieren von Features anstelle von Samples in einem Permutationstest.In der Genomik ist es üblich, eine große Liste von differentiell exprimierten oder differentiell methylierten oder differentiell zugänglichen Genen (oder ähnlichen) zu erhalten.Oft ist dies voll von unbekannten Gegenständen, da niemand die Literatur zu allen 30.000 menschlichen Genen kennt, geschweige denn zu Transkriptvarianten oder nicht-kodierenden Regionen.Daher ist es üblich, diese Listen mithilfe von Tools wie Enrichr zu interpretieren, um die Überlappung mit Datenbanken biologischer Systeme oder früheren Experimenten zu testen.

    Die meisten dieser Analysen ergeben p-Werte unter der Annahme, dass Merkmale (Gene oder Transkripte) unter einer Nullhypothese austauschbar sind.Diese Nullhypothese ist viel restriktiver als es zunächst scheint, und ich habe noch nie einen Fall gesehen, in dem sie a) biologisch realistisch ist oder b) durch irgendeine Art von Diagnose verteidigt wird.

    (Glücklicherweise gibt es Tools, die diesen Fehler nicht machen. Suchen Sie nach MAST oder CAMERA.)

    Orielno
    2020-07-17 13:43:12 UTC
    view on stackexchange narkive permalink

    Verwenden von Interaktions- (Produkt-) Begriffen in Regressionen ohne Verwendung krummliniger (quadratischer) Begriffe.

    Vor ein paar Jahren habe ich darüber nachgedacht (nachdem ich einige Artikel (in den Bereichen Wirtschaft / Management) gesehen hatte, die dies taten), und mir wurde klar, dass die Ergebnisvariable im Quadrat des Quadrats von abhängt Einige oder alle Variablen im Modell, diese sind jedoch nicht enthalten, und stattdessen ist eine Interaktion im untersuchten Modell enthalten. Der Forscher kann feststellen, dass die Interaktion einen Effekt hat, während dies tatsächlich nicht der Fall ist.

    Ich habe dann gesucht, ob es eine wissenschaftliche Arbeit gibt, die sich damit befasst, und ich habe eine gefunden (könnte mehr sein, aber das habe ich gefunden): https://psycnet.apa.org/fulltext/1998-04950-001.html

    Man könnte sagen, dass es sich um einen Anfängerfehler handelt und dass ein echter Statistiker wissen sollte, dass er zuerst versuchen sollte, alle Begriffe und Interaktionen eines bestimmten Grades in die Regression einzubeziehen. Dennoch scheint dieser spezifische Fehler in vielen Bereichen, in denen Statistiken angewendet werden, recht häufig zu sein, und der oben verlinkte Artikel zeigt die irreführenden Ergebnisse, zu denen er führen kann.

    Dave
    2020-07-24 17:27:37 UTC
    view on stackexchange narkive permalink

    „Korrelation bedeutet keine Kausalität.“

    Dies ist eine wahre Aussage.Selbst wenn es eine Ursache gibt, könnte dies in die entgegengesetzte Richtung gehen, wie behauptet wird.

    Was ich gesehen habe, ist, dass, wenn die Korrelation unbequem ist, die Leute dies so verstehen, dass Korrelation Kausalität ausschließt.

    Ich sehe keine professionellen Statistiker, die diesen Fehler machen, aber ich habe gesehen, dass Menschen diesen Ausdruck verwenden, um in ihrer Analyse quantitativ und streng zu klingen, nur um die Bedeutung zu verpfuschen.

    Korrelation schließt Kausalität aus und ist eine noch schlimmere Fehlinterpretation.Aber selbst zu sagen, dass eine echte Korrelation (kein Fehler vom Typ I) ohne irgendeine direkte, indirekte, gemeinsame Ursache oder umgekehrte Ursache auftreten kann, ist falsch.Sie wissen nicht viel über diese Ursache, aber Sie wissen, dass sie irgendwo da ist
    BigBendRegion
    2020-07-24 19:49:54 UTC
    view on stackexchange narkive permalink

    Ich stimme für "Spezifikationstests", z. B. den White-Test auf Heteroskedastizität, den Hausman-Test usw. Diese sind in der Ökonometrie und anderswo so häufig, dass viele Leute glauben, sie würden eher die tatsächliche Definition der getesteten Annahmen als einebedeutet, sie zu bewerten.Sie würden denken, die jüngsten ASA-Aussagen zu p-Werten hätten die Begeisterung für diese Methoden gedämpft.Eine Google-Gelehrten-Suche nach „Hausman-Test“ liefert jedoch 17.200 Ergebnisse seit 2019 und 8.300 seit 2020;das heißt, sie verblassen nicht.

    Könnten Sie Ihren zweiten Satz näher erläutern?Ich bin kein Muttersprachler, vielleicht macht es mir das schwer, es zu verstehen.
    Ich habe Ph.D.Studenten in wirtschaftsbezogenen Bereichen sprechen so, als ob die Annahme lautet, dass sie "wahr" ist, wenn sie den Test besteht, und ansonsten "falsch".Das habe ich mit "viele Leute denken, sie bilden die eigentliche Definition" gemeint.
    Meinen Sie damit, dass das Bestehen eines Tests lediglich anzeigt, dass es nicht genügend Beweise gegen die Null in Richtung einer bestimmten Alternative gibt, im Gegensatz zu allen Richtungen aller möglichen Alternativen?
    Sicher, p> .05 bedeutet offensichtlich nicht, dass das Nullmodell wahr ist.Aber vielleicht noch wichtiger ist, dass p <0,05 nicht bedeutet, dass ein alternatives Modell verwendet werden sollte (auch wenn dies wahr ist).Es hängt alles von der Größe der Diskrepanz ab.Simulation ist ein wertvolles Werkzeug, um mehr zu lernen.
    Richard Hardy
    2020-07-27 16:12:01 UTC
    view on stackexchange narkive permalink

    Using statistische Signifikanz (normalerweise bei $ 1 \% $ span>, $ 5 \% $ span> oder $ 10 \% $ span>) von erklärenden Variablen / Regressoren als Kriterium bei der Modellbildung für erklärende oder prädiktive Zwecke.

    In explanatory modelling sind sowohl der Gegenstand als auch die statistische Validität erforderlich. siehe z.B. der probabilistische Reduktionsansatz zur Modellbildung von Aris Spanos, beschrieben in "Auswirkungen der Modellauswahl und Fehlspezifikationstests auf die Inferenz: Probabilistischer Reduktionsansatz (Aris Spanos)" und die darin enthaltenen Referenzen. Die statistische Validität von Parameterschätzern setzt voraus, dass bestimmte statistische Annahmen von den Daten erfüllt werden. Z.B. Für OLS-Schätzer in linearen Regressionsmodellen ist dies unter anderem Homoskedastizität und Null-Autokorrelation von Fehlern. Es gibt entsprechende Tests, die auf Modellreste angewendet werden müssen, um einen Einblick zu erhalten, ob die Annahmen auf bestimmte Weise verletzt werden. T Es gibt jedoch keine Annahme, dass die erklärenden Variablen statistisch signifikant sind. Viele Praktiker wenden jedoch die statistische Signifikanz einzelner Regressoren oder Gruppen davon als Kriterium für die Modellvalidität bei der Modellbildung an, genau wie sie die oben genannten diagnostischen Tests anwenden. Nach meiner Erfahrung ist dies eine ziemlich übliche Praxis, aber sie ist ungerechtfertigt und daher eine schlechte Idee.

    In predictive Modelling kann eine Variablenauswahl auf der Grundlage der statistischen Signifikanz sinnvoll sein.Wenn die Wahrscheinlichkeit einer Out-of-Sample-Wahrscheinlichkeit maximiert werden soll, impliziert die AIC-basierte Merkmalsauswahl einen Grenzwert, der einem $ p $ span> -Wert von etwa $ 16 \% $ span>.Die häufig verwendeten Schwellenwerte für $ 1 \% $ span>, $ 5 \% $ span> und $ 10 \% $ span> sind für die meisten Zwecke nicht optimal.Verwenden Sie daher die statistische Signifikanz erklärender Variablen auf gemeinsamen Ebenen von $ 1 \% $ span>, $ 5 \% $ span> und $ 10 \% $ span> als Auswahlkriterium ist auch bei der prädiktiven Modellbildung eine schlechte Idee.

    Richard Hardy
    2020-07-27 19:41:28 UTC
    view on stackexchange narkive permalink

    Post-Auswahlinferenz, d. h. Modellbildung und Inferenz für denselben Datensatz, bei dem die Inferenz nicht die Modellbildungsphase berücksichtigt.

    Either: Bei einem Datensatz und keinem vorgegebenen Modell wird ein Modell basierend auf den im Datensatz gefundenen Mustern erstellt.
    Or: Bei einem Datensatz und einem Modell wird das Modell häufig als unzureichend befunden.Das Modell wird basierend auf den Mustern im Datensatz angepasst.
    Then: Das Modell wird für Inferenzen wie das Testen der Signifikanz von Nullhypothesen verwendet.
    TDas Problem: Die Inferenz kann nicht zum Nennwert genommen werden, da sie aufgrund der Modellierungsphase vom Datensatz abhängig ist.Leider wird diese Tatsache in der Praxis oft vernachlässigt.

    Frank Harrell
    2020-07-23 23:52:15 UTC
    view on stackexchange narkive permalink

    Aufruf der Assertionswahrscheinlichkeit vom Typ I als "Fehlerrate vom Typ I", wenn es sich weder um eine Rate noch um die Wahrscheinlichkeit eines Fehlers handelt.Es ist die Wahrscheinlichkeit, einen Effekt geltend zu machen, wenn kein Effekt vorliegt.

    Aufruf der Assertionswahrscheinlichkeit vom Typ I als "falsch positive Rate", wenn es sich nicht um die Wahrscheinlichkeit eines falsch positiven Ergebnisses handelt.Es ist die Wahrscheinlichkeit, einen Effekt zu behaupten, wenn eine Behauptung eines Effekts per Definition falsch ist.Die Wahrscheinlichkeit eines falschen + Ergebnisses ist die Wahrscheinlichkeit, dass ein Effekt nicht vorhanden ist, vorausgesetzt, der Beweis + war für einen solchen Befund.Dies ist eine Bayes'sche hintere Wahrscheinlichkeit, nicht $ \ alpha $ span>.

    Der Gedanke, dass die Steuerung von $ \ alpha $ span> mit der Begrenzung von Entscheidungsfehlern zu tun hat.

    "Eine Aussage über einen Effekt machen, wenn es keinen Effekt gibt" klingt nach einem Fehler.Kannst du das bitte klären?
    Ein Fehler bedeutet, dass ein Fehler gemacht wird.Die Wahrscheinlichkeit, einen Fehler zu machen, ist die Wahrscheinlichkeit, dass ein Effekt nicht vorhanden ist, wenn Sie behaupten, dass er vorhanden ist.Dies ist nur eins minus der Bayes'schen posterioren Wahrscheinlichkeit, dass der Effekt angesichts der Daten vorliegt.Denken Sie an einen Rauchmelder.Wir wollen, dass P (Feuer | Alarm) hoch und P (kein Feuer | kein Alarm) hoch ist.Die Wahrscheinlichkeit vom Typ I wäre P (Alarm | kein Feuer), was uns nicht sehr hilft.
    Aber ein Alarm, wenn es kein Feuer gibt, ist buchstäblich ein falscher Alarm, nicht wahr?
    Ja, aber es ist nicht der Fehler oder die Wahrscheinlichkeit, die Sie interessieren.Sie möchten wissen, P (Alarm falsch) = P (Fehler | Alarm) = P (kein Feuer | Alarm), nicht P (Alarm | kein Feuer).
    Sicher, Sie interessieren sich für P (kein Feueralarm ging aus), wenn Sie durch einen dröhnenden Alarm geweckt werden, aber wenn Sie Honeywell den Rauchmelder auf eine bestimmte Empfindlichkeit auslegen, wäre Ihre Sorge nicht die Häufigkeit, mit derDer Alarm wird ausgelöst, obwohl kein Feuer vorhanden ist (und die Häufigkeit, mit der der Alarm bei einem Brand nicht ausgelöst wird).
    Nein, das ist, was Sie wollen: Lassen Sie den Alarmton ertönen, wenn P (Feuer | Luft-Eigenschaften)> 0,02 ist, während Sie zu Hause sind, oder P (Feuer | Luft-Eigenschaften)> 0,01, wenn Sie weg sind.Ersetzen Sie 0,01 und 0,02 durch Werte, die Ihre Dienstprogrammfunktion widerspiegeln.
    Dies scheint ein Argument dafür zu sein, warum die Fehlerrate des Typs I nicht so stark berücksichtigt werden sollte, wie es derzeit der Fall ist, und dass andere Dinge mehr berücksichtigt werden sollten.Welches ist in Ordnung.Es ist jedoch nicht dasselbe wie zu argumentieren, dass die Fehlerrate vom Typ I kein Fehler und / oder keine Rate ist.
    Was bringt Sie dazu, das Wort Fehler zu verwenden?Sei genau.Und es ist keine Rate (erste Ableitung; Änderungsrate).Analogie zur Wahrscheinlichkeit der Behauptung von Typ I: Wenn ich jemandem gesagt habe, dass alles, was er sagt, falsch ist, wird er danach beurteilt, ob er weniger als 1/20 der Zeit spricht.
    Orielno
    2020-07-17 13:30:21 UTC
    view on stackexchange narkive permalink

    Untersuchen des t-Tests für jede Variable in einer Regression, nicht jedoch der F-Tests für mehrere Variablen.

    In vielen Bereichen, in denen Statistiken angewendet werden, ist es üblich, eine Regression mit vielen Kovariaten zu verwenden, um die Auswirkung der Kovariaten auf die interessierenden Ergebnisse zu bestimmen.

    In diesen Untersuchungen wird häufig der t-Test für jede der Kovariaten verwendet, um festzustellen, ob diese Variable einen Einfluss auf das Ergebnis hat oder nicht.

    (Ich lege die Frage beiseite, wie ein Kausalzusammenhang ("Effekt") identifiziert werden kann - nehmen wir zunächst an, dass es vernünftige Identifizierungsannahmen gibt. Oder alternativ ist der Forscher nur daran interessiert, eine Korrelation zu finden, die ich gerade finde es ist einfacher, von einem "Effekt" zu sprechen)

    Es könnte sein, dass es zwei oder mehr Variablen gibt, die etwas stark korreliert sind. Infolgedessen führt die Einbeziehung beider Variablen in die Regression zu einem hohen p-Wert in jedem ihrer t-Tests, wobei jedoch ihr kombinierter Beitrag zu untersucht wird Das Modell unter Verwendung eines F-Tests kann zu dem Schluss kommen, dass diese Variablen oder zumindest eine davon einen großen Beitrag zum Modell leisten.

    Einige Untersuchungen prüfen dies nicht und ignorieren daher möglicherweise einige sehr wichtige Faktoren, die sich auf die Ergebnisvariable auswirken, da sie nur T-Tests verwenden.

    Always Confused
    2020-07-15 23:46:51 UTC
    view on stackexchange narkive permalink
    1. Ich bin der Meinung, dass sehr einfache Statistiken nicht so intuitiv sind wie grundlegende Schulphysik. Oder vielleicht gibt es eine viel intuitivere Basis, aber ich habe haven nicht kennengelernt.

    2. Die Statistik sagt uns, ob es eine Korrelation gibt, nicht die mechanisms der Kausalität. And Korrelation impliziert keine Kausalität. Um zu sagen, warum zwei Phänomene miteinander verbunden sind, hat man keine andere Möglichkeit, als die Ursache zu finden. Manchmal wird jedoch in Vorlesungen oder Seminaren im Klassenzimmer usw. die Bedeutung der Statistik so beschrieben, dass der falsche Eindruck entsteht, dass die Statistik zur Bestimmung des Kausalzusammenhangs verwendet wird.

    3. Misuse of statistics geschieht (absichtlich oder unbeabsichtigt), weil die Statistik den Ort dafür bietet. Wenn die Dinge langwierig und kompliziert sind; und die intuitive Grundlage hinter diesen strengen Behandlungen wird nicht verstanden; Es kann Bereiche für konzeptionelle Irrtümer oder konzeptionelle Fehler geben.

    4. A wenig Lernen ist gefährlich, insbesondere wenn es um statistische Begriffe geht; weil statistische Begriffe und Grafiken absichtlich missbraucht werden könnten, um eine " damn lie" in die offensichtliche Wahrheit zu bringen.

    5. ol>
    # 4 ist Unsinn, der oft von Personen wiederholt wird, die die menschliche Fähigkeit, zu täuschen, mit einer besonderen Eigenschaft der Sprache der Statistik in Verbindung bringen.Sie können mit Statistiken lügen, genauso wie Sie mit * jeder * Sprache lügen können.
    Der erste Teil von # 4 (dass ein wenig Lernen gefährlich ist) ist wahr.
    Aus dem OP: * Um eine effiziente Abstimmung zu ermöglichen, geben Sie bitte nur ein schlechtes Prinzip pro Antwort an, aber Sie können auch mehrere Antworten geben. * Außerdem ist kaum einer der Punkte tatsächlich eine schlechte statistische Idee / Praxis.
    Igor F.
    2020-07-10 11:34:02 UTC
    view on stackexchange narkive permalink

    Durchführen einer logistischen Regression mit proportionalen Gewinnchancen.

    Eine gewöhnliche logistische Regression erzeugt nur dann korrekte Klassenwahrscheinlichkeiten, wenn die beiden Klassen normal verteilt sind und dieselbe Varianz aufweisen.Es ist bereits ungewöhnlich genug, dies zu überprüfen.

    Bei proportionalen Gewinnchancen kann diese Bedingung jedoch niemals erfüllt werden.Wenn die Klassen $ A $ span> und $ BC $ span> zufällig gleiche Varianzen aufweisen, sind die Klassen $ AB $ span> und $ C $ span> können sie nicht haben (außer in einem pathologischen Fall, in dem sie sich vollständig überlappen).

    Sie verwechseln das PO-Modell mit etwas anderem.Das PO-Modell hat damit nichts zu tun und geht definitiv nicht von Normalität aus.


    Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
    Lesen Sie weiter auf narkive:
    Suchergebnisse für 'Was sind die schlechtesten (allgemein angenommenen) Ideen / Prinzipien in der Statistik?' (Fragen und Antworten)
    239
    Antworten
    Warum zählen für uns die einen Menschenleben mehr als die anderen?
    gestartet 2006-09-25 01:59:06 UTC
    soziologie
    Loading...