Frage:
Was ist eine Mindeststichprobengröße für einen gepaarten t-Test und was ist ein nicht parametrisches Äquivalent, wenn die Daten nicht normal sind?
love-stats
2011-08-17 04:44:50 UTC
view on stackexchange narkive permalink

Ich habe 4 Beispielpaare, sagen wir (x1, y1), ..., (x4, y4).

  • Was ist die Mindeststichprobengröße für einen gepaarten T-Test?
  • Welche Annahme sollte ich für einen gepaarten T-Test prüfen?
  • Wenn meine Daten nicht normal sind, was ist ein alternativer nicht parametrischer Test?
Sie haben mit nur 4 Paaren eine sehr kleine Kraft, es sei denn, die Effektgröße ist groß (z. B. wenn $ x_i $ das Gewicht eines Schmetterlings und $ y_i $ das Gewicht des Baums ist, auf dem Sie ihn gefunden haben).
tolles Beispiel! Ich werde es jetzt in meiner Beratung verwenden :-)
@shabby Da die Effektgröße von einer * Standardabweichung * einer Antwort abhängt, sehe ich nicht, wie Schmetterlinge und Bäume ein gutes Beispiel liefern.
@whuber: guter Fang; Ich nehme an, ein Vergleich der _Logs_ von Gewichten könnte dies korrigieren (vorausgesetzt, Variation und Messrauschen sind geometrisch).
Ich bin nur neugierig, ich habe kürzlich bemerkt, dass Jovanelly und Lane (2012) versucht haben, einen gepaarten T-Test mit einer Stichprobengröße von 1 für beide Mittel durchzuführen. Ich hatte den Eindruck, dass dies eine schlechte Idee war. Kann mir das jemand erklären?
Ein Link zum Papier und vielleicht eine kurze Erklärung des Kontextes wären gut.
@naught101 Ich frage mich, ob Curious dies bedeutet: http://benthamscience.com/open/togeoj/articles/V006/65TOGEOJ.htm
Diese Frage: [Ist eine Mindeststichprobengröße erforderlich, damit der T-Test gültig ist?] (Http://stats.stackexchange.com/questions/37993/) kann auch für Leser dieses Threads von Interesse sein.
Drei antworten:
Macro
2011-08-17 07:49:01 UTC
view on stackexchange narkive permalink

Bei einer so kleinen Stichprobengröße ist die Normalitätsannahme ziemlich wichtig. Sie können den von Wilcoxon signierten Rangtest in Betracht ziehen, wenn Sie der Meinung sind, dass diese Annahme fehlerhaft ist.

Wenn die Population normal verteilt ist, gibt es keine Mindeststichprobengröße. Wenn der mittlere Unterschied im Verhältnis zur Populationsvarianz gering ist, haben Sie ebenfalls sehr wenig Leistung. Es ist jedoch möglich, auch bei einer sehr kleinen Stichprobengröße eine gute Leistung zu erzielen.

Nehmen wir als Beispiel an, Ihre paarweisen Differenzen wurden normalerweise mit (unbekannter) Varianz $ \ sigma ^ {2} = 1 $ verteilt. Nachfolgend finden Sie Monte-Carlo-Schätzungen (unter Verwendung von 10000 Sims) der Leistung für inkrementell größere Werte $ 0, .5, 1, ..., 5 $ der mittleren paarweisen Differenzen

  Mittlere Differenzleistung [1 ,] 0,0 0,0512 [2,] 0,5 0,1097 [3,] 1,0 0,2934 [4,] 1,5 0,5250 [5,] 2,0 0,7467 [6,] 2,5 0,8975 [7,] 3,0 0,9648 [8,] 3,5 0,9925 [9,] 4,0 0,9976 [10,] 4,5 0,9998 [11,] 5,0 0,9999  

Wir können also sehen, dass es möglich ist, dass der gepaarte $ t $ -Test bei mittlerer Differenz immer noch eine gute Leistung aufweist ist im Vergleich zur Varianz der Unterschiede ziemlich groß (in diesem Fall mindestens 2x so groß), selbst wenn $ n = 4 $ ist. Bitte beachten Sie, dass dies alles direkt aus dem Fenster geht, wenn die Unterschiede nicht normal verteilt sind.

Sie können diese Potenzen auf andere Werte der mittleren Differenz und Varianz untersuchen, wenn Sie den folgenden R-Code verwenden möchten (Hinweis: Der kritische Wert für den $ t $ -Test, wenn $ n = 4 $ verwendet wird Der übliche Grenzwert für 0,05 beträgt 3,182446. Der zu testende Nullwert wird mit 0 angenommen.

  U = seq (0,5, by = 0,5) V = U-Usig = 1 für (k in 1:11) {Z = rep (0,10000) für (i in 1: 10000) {diffs = rnorm (4, Mittelwert = U [k], sd = sig) z = (Mittelwert (diffs) -0) / (sd (diffs) / sqrt (4)) Z [i] = z } V [k] = Mittelwert (abs (Z) >3.182446)} X = cbind (U, V) Spaltennamen (X) = c ("Mittlerer Unterschied", "Potenz") X  
In R können Sie dieselben Ergebnisse mit dem benutzerfreundlicheren "power.t.test" erzielen, der Ihnen Flexibilität bei der Festlegung gibt. Z.B. Das obige Beispiel wird zu `for (k in 0:11) {cat (sprintf ("% f% f \ n ", k / 2, power.t.test (n = 4, delta = k / 2, sd = 1) , type = "gepaart") $ power))} `
Ich habe irgendwo gelesen, dass der Wilcoxon-Test eine größere Stichprobe "n> 20" erfordert.Können Sie das kommentieren?
Peter Flom
2011-08-17 05:18:56 UTC
view on stackexchange narkive permalink

Es gibt keine Mindeststichprobengröße für einen T-Test. Aber wie @shabbychef bemerkt hat, werden Sie sehr wenig Strom haben.

kann sehr wenig Leistung haben. Wenn die Normalitätsannahme zutrifft, ist der t-Test zum einen immer noch leistungsfähiger als der vorzeichenbehaftete Rangtest. Ich würde mir vorstellen, dass dies auch für verschiedene andere nicht parametrische Tests gilt. Daher ist es möglicherweise immer noch am besten, den T-Test zu verwenden.
Wäre die minimale Stichprobengröße technisch gesehen nicht zwei Paare, da die Standardabweichung / der Standardfehler mit nur einer Stichprobe undefiniert wäre? Rs `t.test` weigert sich, den Test mit nur einer Probe durchzuführen.
@macro Während der t-Test im Normalfall einen Leistungsvorteil hat, ist die Wahrscheinlichkeit, dass die Daten tatsächlich normal sind, Null - und es dauert keine besonders großen Verschiebungen von der Normalität, bis der t-Test den (überraschend kleinen) Test verliert. Leistungsvorteil hat es bei kleinen Stichprobengrößen, wenn seine Annahmen zutreffen. Es wäre, als würde man sagen: "Warum eine Versicherung kaufen - wenn ich perfekt fahre, wäre das Geldverschwendung."
@DavidJ.Harris Ja, natürlich.
@Glen_b, Ich verstehe nicht, was *** "die Wahrscheinlichkeit, dass die Daten tatsächlich normal sind, Null sein wird *** *** bedeuten soll. Wenn es sich um eine Aussage darüber handelt, wie wahrscheinlich alle Annahmen falsch sind, können Sie buchstäblich in jedes Verfahren ein Loch stechen (einschließlich des Tests mit vorzeichenbehaftetem Rang - für das noch eine zufällige Stichprobe erforderlich ist;)). In Bezug auf Ihren zweiten Punkt würde ich sagen, dass dies sehr stark von der Art der Abweichung von der Normalität abhängt. Einige Abweichungen von der Normalität können die Leistung des Tests tatsächlich erhöhen. Vielleicht können Sie das, was Sie gemeint haben, speziell erweitern.
@macro zum Beispiel muss man nur mit Verteilungen arbeiten, die ziemlich normal aussehen, aber etwas schwerer sind, bevor der vorzeichenbehaftete Rangtest eine bessere Leistung als der t hat. Warum sollte eine etwas bessere Leistung * bei * der Normalen besonders nützlich sein? Die Effizienz des t relativ zum vorzeichenbehafteten Rangtest kann recht gering sein, aber der Wirkungsgradverlust des vorzeichenbehafteten Rangtests gegenüber selbst im schlimmsten Fall relativ zum t ist nicht schlecht.
Glen_b
2012-10-18 07:07:51 UTC
view on stackexchange narkive permalink

Was ist die Mindeststichprobengröße für einen gepaarten t-Test?

Im Allgemeinen sind für den normalen gepaarten t-Test zwei Paare die kleinste ergibt 1 df

Welche Annahme sollte ich für einen gepaarten T-Test prüfen?

Normalerweise würde ich versuchen, alle zu bewerten, aber wenn Sie nur 4 haben Paare, es ist fast hoffnungslos zu versuchen. Sie haben vier Paarunterschiede, von denen zwei d.f. würde zur Schätzung des Mittelwerts und der Varianz der Unterschiede gehen (der Ort und die Skala spielen für die Annahmen keine Rolle), wobei im Wesentlichen zwei d.f. Um die sich ändernde Varianz, Abhängigkeit (in welcher Form auch immer Sie suchen, falls vorhanden) und Normalität zu bewerten.

Wenn meine Daten nicht normal sind, was ist ein alternativer nicht parametrischer Test?

Gepaarte Daten: Wilcoxon signierter Rangtest; oder Zeichentest; oder eine beliebige Anzahl von Varianten des Permutationstests oder Bootstrap-Tests (abhängig davon, wie Sie Ihre Statistik erstellen / was genau Sie testen möchten). Natürlich haben alle noch Annahmen.

Aber der t-Test ist zumindest einigermaßen robust gegenüber einer zumindest leichten Nichtnormalität der Unterschiede (und seiner Unterschiede, die normal sein sollen). Wenn die Beobachtungen leicht rechtwinklig und nicht sehr schwer sind, können die Unterschiede selbst bei großen Stichproben nicht von normal zu unterscheiden sein. Das heißt, es gibt wenig Grund, den signierten Rang-Test zu vermeiden, wenn Nicht-Normalität das Hauptanliegen ist, aber bei 4 Paaren stecken Sie mit einem Signifikanzniveau von 12,5% ziemlich fest



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...