Verwirrt durch die Lage der Zäune in Box-Whisker-Parzellen

Frage:

Verwirrt durch die Lage der Zäune in Box-Whisker-Parzellen

kjo

2015-05-01 08:33:27 UTC

view on stackexchange narkive permalink

In einer Art von Box-Whisker-Plot sollen die Zäune an den Enden der Whisker Grenzwerte anzeigen, ab denen jeder Punkt als Ausreißer betrachtet wird.

Die Standarddefinitionen, die ich gefunden habe für diese Grenzwerte sind

$$ q_1 - k \ times \ mathrm {IQR} $$ für den unteren Zaun und $$ q_3 + k \ times \ mathrm {IQR} $$ für den oberen Zaun wobei $ q_1 $ und $ q_3 $ das erste bzw. dritte Quartil sind, ist $ \ mathrm {IQR}: = q_3 - q_1 $ der Interquartilbereich und $ k $ ist eine Konstante $ > 0 $. (Der Wert von $ k $, den ich am häufigsten gesehen habe, ist 1,5, wobei 3 eine entfernte Sekunde ist.)

So weit so gut.

Das Problem ist, dass bei diesen Definitionen, der Abstand zwischen dem unteren Zaun und $ q_1 $ wäre immer der gleiche wie der Abstand zwischen dem oberen Zaun und $ q_3 $, nämlich $ k \ times \ mathrm {IQR} $. IOW, die Länge des oberen Whiskers würde immer gleich der Länge des unteren ^{1 sup> sein.}

Dies stimmt nicht mit der überwiegenden Mehrheit des BW überein Grundstücke, die ich da draußen sehe. Für einige dieser Diagramme sollen die Enden der Whisker natürlich die Min- und Max-Werte darstellen, daher gelten die obigen Kommentare nicht für sie. Es gibt jedoch viele andere Fälle, in denen die Zäune das Kriterium für die Klassifizierung von Punkten als Ausreißer bezeichnen sollen und angeblich auf Formeln wie den oben gezeigten basieren, die resultierenden Whisker jedoch unterschiedliche Längen haben. ( Zum Beispiel.)

Was fehlt mir?

_{^{1 sup> Nach "Länge der oberer / unterer Whisker "Ich meine natürlich den Abstand zwischen dem Punkt, an dem der Whisker auf die Box trifft, und dem" freien "Endpunkt des Whiskers. sub>}}

Dies wird zu Beginn der Antwort auf [diesen Beitrag] (http://stats.stackexchange.com/questions/125521/why-does-tableaus-box-whisker-plot-show-outliers-automatically-and-how) erläutert-can-i-ge)

Vier antworten:

Garth

2015-05-01 12:23:17 UTC

view on stackexchange narkive permalink

Hier ist eine grafische Darstellung, die die oberen und unteren Zäune zeigt. In der Praxis werden die Zäune nicht gezogen. Wie in den anderen Antworten erwähnt, würden sich die Whisker nur bis zu den Zaunwerten erstrecken, wenn Beobachtungen gleich den Zaunwerten wären, andernfalls erstrecken sich die Whisker bis zu den extremsten Beobachtungen, die innerhalb der Zäune liegen.

boxplot

Willkommen bei CV Garth!

Ich mag deine Grafik!

mandata

2015-05-01 08:40:43 UTC

view on stackexchange narkive permalink

Der Whisker geht nur bis zum maximalen (minimalen) Punkt, der kleiner (größer) als der obere (untere) Zaunwert ist. Wenn zum Beispiel $ q_3 + k \ times IQR = 10 $ und der Datensatz Werte $ \ lbrace \ dots, 5,6,7,8,12 \ rbrace $ hätte, würde der Whisker nur bis zu 8 gehen, und 12 wäre der "Ausreißer".

Kurz gesagt, die Definitionen für die Whisker $ q_3 + k \ mal IQR $ und $ q_1-k \ mal IQR $ repräsentieren nur das maximale Ausmaß zu dem die Whisker gehen könnten, wenn es Datenpunkte bei diesen Werten gäbe. Daher müssen sie nicht gleich lang sein (und sind es selten).

servais daligou

2015-05-01 09:07:23 UTC

view on stackexchange narkive permalink

Ich gehe gleich zur Sache: Nehmen wir an, Ihre Daten sind positiv verzerrt (Beispiel: eine Chi-Quadrat-Verteilung). Auf der linken Seite befindet sich kein Ausreißer, auf der anderen Seite möglicherweise nur wenige.

Wenn die Daten nicht bis zu 1,5 * IQR verteilt sind, ist Ihr Boxplot an einem Ende kürzer als 1,5 * IQR.

In diesem Fall würde ein Box-Plot mit 1,5 * IQR auf beiden Seiten die Daten falsch darstellen, da der Bereich größer wäre (zumindest auf der kürzeren Seite) als er ist !! an example of right skewed distribution

user3697176

2015-05-01 10:38:32 UTC

view on stackexchange narkive permalink

Sie scheinen Schnurrhaare und Zäune zu verwirren. Whisker repräsentieren Datenpunkte, Zäune nicht. Da die Datenpunkte so ziemlich überall liegen können (abhängig von der Verteilung, der sie folgen ...), ist es nicht überraschend, dass die Ergebnisse asymmetrisch wären. Auf der von Ihnen verlinkten Webseite gibt es nur ein Diagramm, in dem echte Ausreißer angezeigt werden (das mit "Ausreißer" bezeichnete Diagramm ungefähr in der Mitte der Seite). Sie können die Position der Zäune aus diesem Bild ableiten, da der Whisker innerhalb des Zauns endet und die Punkte außerhalb sind.

ⓘ

Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.

über - juristisches

Loading...