Frage:
Können Sie Statistiken mit 4 Datenpunkten erstellen?
iliasfl
2014-01-24 05:55:37 UTC
view on stackexchange narkive permalink

Ich war gerade an einem Q / A beteiligt, bei dem ein armer Kerl aufgefordert wurde, einen statistischen Test durchzuführen, um zu beweisen , dass Algorithmus A besser ist als zwei andere Algorithmen. Er hat jedoch nur 4 Datenpunkte. Ist es wirklich sinnvoll, einen statistischen Test mit 4 Punkten durchzuführen? Wo ist die Grenze? Zu drei?

Zur Verdeutlichung verstehe ich, dass 12 Zahlen gemeldet werden, aber für mich sieht es eher nach 4 dreidimensionalen Datenpunkten oder 3 vierdimensionalen Datenpunkten aus.

In ihren Antworten führen die Autoren einige Annahmen über die Unterstreichungsverteilungen ein, um die Anzahl der Datenpunkte künstlich zu erhöhen und dabei Mittelwerte von vier Zahlen zu berechnen. oder führen Sie T-Tests an Algorithmuspaaren durch (Vergleich von insgesamt 8 Zahlen für jedes Paar) und treffen Sie erneut unbegründete Annahmen über die Unterstreichungsverteilung.

Wie zuverlässig ist dieser Prozess, wenn Sie die Unterstreichungsverteilung nicht kennen und weil Sie nicht über genügend Daten verfügen, können Sie nicht hoffen, sie ableiten / validieren zu können? Ist es nicht fairer zu sagen, dass Sie mit so wenigen Daten nicht viel anfangen können?

Zu Ihrer Information, obwohl Ihre Frage für sich allein stehen könnte, habe ich mir den von Ihnen angegebenen Link angesehen und es sieht nicht so aus, als hätte die Person nur 3 Datenpunkte ...
Danke, in der Tat sind es 4 Datensätze, nicht 3. Ich denke, es ändert sich nicht viel an der Frage ...
4 Datensätze gemittelt über, für jeden Algorithmus = mindestens 12 Datenpunkte ... er hat mindestens 4 Datenpunkte pro Gruppe mit 3 Gruppen.
Es ist eine Frage der Sichtweise. Entweder 4 dreidimensionale Datenpunkte oder 3 vierdimensionale Datenpunkte.
Er hat keine 4 Datenpunkte, er hat 12. Und die Frage hat Antworten auf den Link. Was ist neu an Ihrer Frage? Wenn nichts, dann denke ich, dass dies geschlossen werden sollte.
Ich habe gerade die Antwort von Greg gesehen. Grundsätzlich werden einige Annahmen über die Unterstreichungsverteilungen eingeführt, um die Anzahl der Datenpunkte künstlich zu erhöhen und dabei Mittelwerte aus 4 reellen Zahlen usw. zu berechnen. In Marcs Antwort verwendet jeder t-Test 8 Zahlen, nicht 12, und wiederum Annahmen über die Unterstreichung Verteilung. Für mich steht meine Frage, vielleicht ist die Antwort, dass 8 oder 12 Datenpunkte mehr als genug sind.
Sie können sicherlich einen T-Test mit 2 4er-Gruppen durchführen.
In der Tat zeigt eine meiner Antworten hier ein Beispiel, in dem ein T-Test durchgeführt wird, bei dem 3 Beobachtungen im Vergleich zu einer einzelnen Beobachtung vorliegen, und das uns klar nahe legt, dass es durchaus möglich ist, einen T-Test mit zwei Stichproben mit 3 Beobachtungen durchzuführen * total * (Reduzierung der Stichprobengröße in der größeren Gruppe um 1). In der Tat habe ich einen Test mit einer Stichprobe mit einer einzigen Beobachtung gesehen. Die Titelfrage hat also eine triviale Antwort ("Ja, offensichtlich"). In winzigen Stichproben (i) verlassen Sie sich tendenziell stärker auf die Annahmen, und (ii) die Leistung ist sehr gering, sodass Sie entweder große Effekte oder sehr kleine Abweichungen benötigen.
Hier ist [der Beitrag, den ich erwähnt habe] (http://stats.stackexchange.com/questions/44475/is-there-a-statistical-test-to-compare-two-samples-of-size-1-and-3/) )
Danke für deine Kommentare. Ich werde durch den Ausdruck "stärker auf die Annahmen angewiesen" abgedeckt, der uns in der realen Welt dazu bringt, wie Sie diese Annahmen validieren können, was uns zu meiner ursprünglichen Frage zurückbringt. Ich habe das Ganze nicht überprüft, aber dieser Typ hat einen p-Wert von 0,97 bekommen ... Wie auch immer, ich bin mir nicht sicher über die Abstimmungen meiner Frage. Ich wollte niemanden beleidigen, danke.
Sie können einen Test auf Ehrlichkeit mit * einem * Wert (und bescheidenen, realistischen Annahmen) durchführen: http://stats.stackexchange.com/a/1836. Übrigens sollen Downvotes nicht Beleidigung oder Ärger widerspiegeln, sondern vielmehr (wie der Hovertext anzeigt) anzeigen, dass eine Frage schlecht gestellt oder schlecht recherchiert ist. Ich denke, hier gibt es eine anständige Frage, aber so wie es aussieht, müssen die Leser die Kommentare durchgehen, um zu verstehen, was Sie fragen: Könnten Sie sie bitte bearbeiten? Beachten Sie auch, dass der letzte Absatz als falsch platzierte Beschimpfung (die es ist) wahrgenommen werden kann und gelöscht werden sollte.
Danke für den Hinweis. Ich habe einige umfangreiche Änderungen basierend auf den Kommentaren hier vorgenommen und die Stimmung entfernt.
Drei antworten:
Greg Snow
2014-01-24 09:08:37 UTC
view on stackexchange narkive permalink

Ich habe einen Freund, der früher für das US-Verteidigungsministerium gearbeitet hat (vor langer Zeit, in der Zeit des Kalten Krieges) und einmal gebeten wurde, eine Frage mit einem einzigen Datenpunkt zu beantworten. Als er darauf bestand, dass er mehr Daten benötigte, wurde ihm mitgeteilt, dass die Person, die den einzelnen Datenpunkt bereitgestellt hatte, kurz nach der Bereitstellung des einzelnen Datenpunkts gefasst und wegen Spionage hingerichtet worden war, sodass keine weiteren Daten kommen würden. Zu diesem Zeitpunkt begann mein Freund, etwas über Bayes'sche Statistiken zu lernen.

Ich erinnere mich auch daran, dass ich vor einigen Jahren einen Artikel gesehen habe, möglicherweise im amerikanischen Statistiker, möglicherweise im Zufall, der einen Weg zur Berechnung eines Konfidenzintervalls für a abgeleitet hat Mittelwert basierend auf einem einzelnen Datenpunkt (das 95% -Intervall von einem Wert von x war ungefähr -x bis 3 * x), wenn Sie bereit waren, bestimmte Annahmen zu treffen (und die übliche Diagnose mit nur 1 Punkt nicht hilfreich war)

Ja, Sie können gültige Statistiken mit sehr kleinen Stichprobengrößen erstellen, aber Sie haben tendenziell eine geringe Leistung / Präzision, und große Stichprobeneigenschaften helfen Ihnen nicht, sodass Verstöße gegen Annahmen a möglicherweise viel größere Auswirkungen.

Ich glaube, Sie sprechen möglicherweise über [dieses Papier] (http://www.jstor.org/discover/10.2307/2684348) - D. Edelman (1990) "Ein Konfidenzintervall für das Zentrum einer unbekannten unimodalen Verteilung basierend auf a Probe der Größe 1 ", * The American Statistician *, Vol. 44, Nr. 4, S. 285-287
Das ist in der Tat interessant. Vielen Dank für das Teilen der Geschichte und des Papiers.
@Glen_b In meiner Antwort unter http://stats.stackexchange.com/a/1836/919 habe ich einen neueren (2001) Verweis auf TAS angegeben. Es verweist auf das Edelman-Papier (siehe unten rechts auf der ersten Seite).
Danke @whuber - das passt besser zu 'vor einigen Jahren'. Auch ein sehr lesbares Papier.
Ich denke, die, auf die @whuber verweist, ist die, an die ich mich erinnerte.
Tolles Zeug! Sehr nützliche Informationen hier von Greg, Glen und Whuber.
TheBigAmbiguous
2014-01-25 04:17:19 UTC
view on stackexchange narkive permalink

Kurze Antwort: Ja, aber Ihre Ergebnisse sind normalerweise nutzlos.

Lange Antwort: In der Statistik wird häufig eine Art Rückschluss auf zugrunde liegende Parameter auf der Grundlage von Daten gezogen, wobei die Wahrscheinlichkeit eines Falsch- begrenzt ist. Positiv und / oder falsch-negativ. In einem typischen Test, dh dem Testen, ob eine Stichprobe aus einer bestimmten Verteilung stammt, setzen wir eine Obergrenze (Alpha genannt) für die Wahrscheinlichkeit eines Fehlers vom Typ I (falsch positiv), hauptsächlich aus zwei Gründen:

  • In der Praxis ist dies die einzige Art von Fehler, an die Sie eine Grenze setzen können, b / c der Art Ihrer Nullhypothese.
  • False Positives werden normalerweise als schrecklicher angesehen als False Negatives (eine Folgerung) of Occam's Razor)

Wenn Alpha konstant gehalten wird, ist Beta (Obergrenze der Wahrscheinlichkeit von False-Negative) für kleinere Datensätze im Allgemeinen größer. Und wenn das Beta groß ist, ist Ihre Gesamtwahrscheinlichkeit, ein Positiv zu produzieren, sehr gering, und so wird Ihr Test fast immer ein Negativ zurückgeben, was sich nicht wesentlich davon unterscheidet, Ihre Nullhypothese von Anfang an zu akzeptieren. In dieser Situation sagen wir, dass der statistische Test nicht sehr leistungsfähig ist.

gregory_britten
2014-05-31 01:38:21 UTC
view on stackexchange narkive permalink

Ich half bei einem geologischen Projekt, bei dem die Forscher einen einzigen Datenpunkt hatten, begleitet von einer sehr zuverlässigen Unsicherheit. Sie waren daran interessiert, ein geologisches Modell (eine Reihe von Differentialgleichungen, die die Entwicklung tektonischer Platten beschreiben) zu testen, das eine sehr spezifische Vorhersage für den Wert dieses einzelnen Datums machte. Aufgrund seiner Unsicherheitsverteilung könnten wir einen p.-Wert einfach berechnen, wenn das Modell wahr ist, und die Nullhypothese überzeugend ablehnen. In diesem Fall würde ich argumentieren, dass wir erfolgreich Statistiken mit einem einzelnen Datenpunkt (und seiner Unsicherheit) erstellt haben.

Wurde dieses Ergebnis irgendwo veröffentlicht?Es wäre nützlich, Zweiflern ein Beispiel geben zu können, dass solche Fälle in der Forschung legitim auftreten können.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...