Frage:
Wie kann ein Modell über einen Zeitraum von 20 Tagen an die selbst gemeldete Anzahl von Interaktionen mit Freunden angepasst werden?
Legend
2010-11-28 12:29:15 UTC
view on stackexchange narkive permalink

Ich bin ein Anfänger in der Statistik. Bitte korrigieren Sie mich, wenn ich etwas grundlegend Falsches mache. Nachdem ich lange mit R gerungen hatte, um meine Daten an eine gute Verteilung anzupassen, stellte ich fest, dass sie mit den folgenden Parametern zur Cauchy-Verteilung passen:

  Positionsskala 37.029894 18.678936 (3.405665) (2.779136)  

Die Daten stammen aus einer Umfrage, bei der 100 Personen gefragt wurden, mit wie vielen Freunden sie über einen Zeitraum von 20 Tagen gesprochen haben, und ich versuche zu prüfen, ob sie zu einer bekannten Distribution passen. Ich habe das QQ-Diagramm mit der Referenzlinie erstellt und es sieht aus wie das unten angegebene Bild. Nach dem, was ich im Internet gelesen habe, ist es ein guter Beweis dafür, dass die Daten aus dieser Verteilung stammen, wenn die Punkte nahe an der Referenzlinie liegen.

Ist dies ein guter Beweis dafür, dass die Verteilung Cauchy ist, oder muss ich weitere Tests durchführen? Wenn ja, kann mir jemand die physikalische Interpretation dieses Ergebnisses sagen? Ich meine, ich habe gelesen, dass wenn die Daten in eine Cauchy-Verteilung fallen, sie keinen Mittelwert und keine Standardabweichung haben, aber kann mir jemand helfen, dies im Klartext zu verstehen? Wenn es keinen Mittelwert hat, kann ich nach meinem Verständnis keine Stichprobe aus dieser Verteilung ziehen. Was soll man aus diesem Ergebnis über die Bevölkerung schließen? Oder sollte ich mir andere Modelle ansehen?

UPDATE: Was versuche ich zu erreichen? Ich versuche zu bewerten, wie lange es dauert, bis sich eine beliebige Information verbreitet Für eine Population der Größe X. Da dies von den Kommunikationsmustern der Menschen abhängt, habe ich versucht, ein Modell zu erstellen, das die Informationen der 100 von mir befragten Personen verwendet, um mir Muster für die X-Zahl zu geben, wo X könnte 500 oder 1000 sein.

QQ-Plot

alt text

Dichteverteilung meiner Daten

alt text

Cauchy-Verteilung

alt text

QQ-Plot beim Versuch, eine Normalverteilung an meine Daten anzupassen alt text

UPDATE :

Nach all den Vorschlägen verstehe ich jetzt, warum dies keine Cauchy-Distribution sein kann. Danke an alle. @HairyBeast schlug vor, dass ich mir eine negative Binomialverteilung anschaue, also habe ich auch Folgendes aufgezeichnet:

QQ-Plot, wenn eine negative Binomialverteilung verwendet wurde

alt text

Negative Binomialverteilung

alt text

[Diese Frage] (http://stackoverflow.com/questions/4290081/fitting-data-to-distributions/4290196#4290196) scheint direkt relevant zu sein. In meinem Beitrag finden Sie Daten und Tipps zum Vergleich Ihrer Daten mit anderen bekannten Distributionen in Basis R.
@Chase: +1 Eigentlich ja :) Ich glaube, ich habe das verpasst. Ich werde das sofort tun. Danke vielmals.
@Chase: Also habe ich Ihren Ansatz dort ausprobiert und eine Reihe von Plots erhalten und kann bestätigen, dass die Daten nicht in eine dieser drei Distributionen fallen, aber ich werde auch die anderen ausprobieren und zurückkommen. Ich habe mich nur gefragt, ob dies der defacto-Ansatz ist. Gehe ich jede mögliche Verteilung durch und schaue mir die QQ-Diagramme an, um herauszufinden, ob meine Daten in diese Verteilung passen?
@Legend Sie können auch ein [rootogram] (http://rss.acs.unt.edu/Rdoc/library/vcd/html/rootogram.html) ausprobieren (Sie wissen nicht, ob es sich mit der @Chase's-Antwort auf SO überschneidet). Jetzt verstehe ich nicht, warum Sie versuchen möchten, jede einzelne Verteilung an Ihre Daten anzupassen. Entweder haben Sie * a priori * Kenntnisse oder Hypothesen über das Gesetz Ihrer Ergebnisse, oder Sie tun dies nicht. Im ersteren Fall möchten Sie möglicherweise erklären, warum die beobachteten Daten nicht zum Modell passen. Im letzteren Fall bleibt Ihnen eine explorative Datenanalyse (und möglicherweise nicht parametrische Dichteschätzungen, Mischungsmodelle usw.).
@chl: Vielen Dank für die Hinweise. Ich werde es jetzt untersuchen. Ich denke, mein Problem passt eher in eine explorative Domäne, weil ich sehen möchte, ob ich ein Modell bekommen kann, das zu diesen Daten passt, damit ich es in einer diskreten Simulation verwenden kann. So möchte ich beispielsweise einige Szenarien für den Fall bewerten, dass die Bevölkerung nicht wirklich 100, sondern 500 beträgt. In diesem Fall versuche ich, ein Modell zu finden, mit dem ich die Zahlen generieren kann, die ich aus der Umfrage erhalten könnte Daten. Bitte korrigieren Sie mich, wenn ich den falschen Weg gehe.
@Legend 'Szenario' bedeutet, dass Sie bereits eine Hypothese haben, nicht wahr? Es ist schwierig, Ihre Frage zu beantworten, da Sie versuchen, das "beste" Modell (im Sinne der Anpassungsgüte) an Ihre Daten anzupassen, aber das "richtige" Modell ist nicht erforderlich. Schließlich können Ihre Daten Messfehlern oder anderen Fehlerquellen ausgesetzt sein. Schließlich können Sie weiterhin mit Ihrem beobachteten Beispiel arbeiten und mithilfe von Bootstrap neue Beispiele simulieren.
@chl: Oh, ich glaube, ich verwende hier nur die falsche Terminologie. Ich werde versuchen, mich zu korrigieren, da ich noch Material lese. Meiner Meinung nach besteht ein Szenario für mich darin, die Kommunikationsmuster in einer kleinen Stadt mit einer festgelegten Anzahl von Personen zu simulieren. Ich versuche zu bewerten, wie viel Zeit es dauert, bis sich eine beliebige Information für eine Population der Größe "X" verbreitet. Da dies von den Kommunikationsmustern der Personen abhängt, habe ich versucht, ein Modell zu erstellen, das die Informationen der 100 von mir befragten Personen verwendet, um mir Muster für die X-Nummer zu geben.
@chl: Würde es Ihnen als zusätzliche Anmerkung etwas ausmachen, etwas mehr über Bootstrapping zu erklären, um neue Samples zu simulieren? Schlagen Sie vor, dass ich das "nicht so perfekte" Modell als Ausgangspunkt nehme, oder schlagen Sie etwas anderes vor? Vielen Dank noch mal.
@Legend Bootstrap ist nützlich, um anhand einer beobachteten Stichprobe die Variabilität eines Schätzers zu schätzen, wenn Sie dessen Gesetz nicht kennen (oder nicht annehmen möchten). In Ihrem Fall würde ich angesichts des von Ihnen hinzugefügten Kontexts vorschlagen, Ihre Frage zu aktualisieren, damit die Leute eine bessere Vorstellung davon haben, was Sie wirklich vorhaben (was anscheinend über eine einfache Verteilungsanpassung hinausgeht).
@chl: Vielen Dank für die Vorschläge. Ich habe meine Frage aktualisiert, um die neueste Diskussion widerzuspiegeln.
Zwei antworten:
#1
+12
HairyBeast
2010-11-28 13:13:23 UTC
view on stackexchange narkive permalink

Zunächst einmal ist Ihre Antwortvariable diskret. Die Cauchy-Verteilung ist kontinuierlich. Zweitens ist Ihre Antwortvariable nicht negativ. Die Cauchy-Verteilung mit den von Ihnen angegebenen Parametern setzt etwa 1/5 ihrer Masse auf negative Werte. Was auch immer Sie über das QQ-Normdiagramm gelesen haben, ist falsch. Punkte, die nahe an der Linie liegen, sind ein Beweis für Normalität, kein Beweis für eine Cauchy-Verteilung (BEARBEITEN: Ignorieren Sie diese letzten beiden Sätze; es wurde ein QQ-Cauchy-Plot - kein QQ-Norm-Plot - verwendet, was in Ordnung ist.) Die Poisson-Verteilung , das zur Modellierung von Zähldaten verwendet wird, ist ungeeignet, da die Varianz viel größer als der Mittelwert ist. Die Binomialverteilung ist ebenfalls ungeeignet, da Ihre Antwortvariable theoretisch keine Obergrenze hat. Ich würde in die negative Binomialverteilung schauen.

Abschließend müssen Ihre Daten nicht unbedingt aus einer bekannten "benannten" Distribution stammen. Es kann aus einer Mischung von Verteilungen stammen oder eine "wahre" Verteilung haben, deren Massenfunktion keine schöne Transformation von x zu P ist (X = x). Versuchen Sie nicht zu sehr, eine Verteilung auf die Daten zu "erzwingen".

(+1) Schöne Punkte, besonders die neuesten.
+1 für die Vorschläge. Ich habe meinen Beitrag auch mit einer negativen Binomialverteilung aktualisiert. Es sieht so aus, als würde es seinen Zweck erfüllen, außer dass der dritte Balken nicht wie erwartet ist. Was Ihren letzten Punkt betrifft, habe ich gehört, dass ich so etwas wie eine Schätzung der Kerneldichte verwenden kann, wenn die Daten nicht aus bekannten Verteilungen stammen. Würden Sie dies vorschlagen? Wenn ja, können Sie mir bitte ein sehr kurzes Beispiel geben, wie dies für diskrete Daten mit R gemacht wird? Würde ich mir immer noch QQ-Diagramme ansehen, um mein Modell zu verifizieren?
#2
+6
onestop
2010-11-28 14:50:52 UTC
view on stackexchange narkive permalink

Stimmen Sie mit HairyBeast (+1) überein, dass Cauchy hier nicht geeignet ist (es ist zum einen symmetrisch) und dass ein negatives Binomial möglicherweise besser ist.

Stimmen Sie dem QQ-Plot jedoch nicht zu. Sie können ein QQ-Diagramm für jede Verteilung erstellen, nicht nur für normale. Was Sie über die Interpretation eines QQ-Diagramms sagen, ist richtig, aber beachten Sie, dass 2 Ihrer Punkte tatsächlich sehr weit von der geraden Linie entfernt sind.

Zum Mangel an Momenten des Cauchy: Dies hat keinen Einfluss auf die Abtastung. Sobald Sie die Parameter der Verteilungsabtastung kennen, ist dies einfach (da die Quantilfunktion eine geschlossene Form hat) und das Fehlen von Momenten ist irrelevant. Die Tatsache, dass die Cauchy-Verteilung nicht einmal einen Mittelwert hat, zeigt jedoch an, dass dies hier unangemessen ist, da es eindeutig sinnvoll ist, zu fragen, wie viele Freunde erwartet werden, mit denen eine Person ein Gespräch führt Zeitraum von 20 Tagen.

Sie haben Recht damit, dass das QQ-Diagramm auf jede Distribution anwendbar ist. Ich habe die Frage zu schnell gelesen und (aus welchem ​​Grund auch immer) angenommen, dass es sich um eine QQ-Norm handelt. Ein kleiner Hinweis: Seien Sie vorsichtig, wenn Sie eine Verteilung aus QQ-Plots abschließen. Zum Beispiel erhalten Daten mit einer t-Verteilung mit 20 df immer noch schöne QQ-Normdiagramme.
+1 für die Erklärung, warum Cauchy in diesem Fall keinen Sinn ergibt. Das wäre meine nächste Frage gewesen, wenn es richtig wäre :) Wenn Sie etwas Zeit haben, können Sie sich bitte meinen obigen Kommentar ansehen? Kurz gesagt, da meine Daten nicht aus einer bestimmten Verteilung stammen müssen, haben meine gestrigen Messungen gezeigt, dass eine Kernel-Dichteschätzungstechnik verwendet werden kann, aber ich bin mir nicht sicher, ob dies der richtige Ansatz ist und wie dies geschieht.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...