Frage:
Visualisierung der Varianz
Christian Wattengård
2013-10-08 12:04:10 UTC
view on stackexchange narkive permalink

Ich arbeite in einem Unternehmen, das Umfragen zum Arbeitsumfeld sammelt. Wenn eine Umfrage durchgeführt wurde, erstellen wir Berichte, die an die Manager im Unternehmen verteilt werden, um zu zeigen, wo sie ihre Anstrengungen und dergleichen konzentrieren müssen.

In diesen Berichten zeigen wir einen Vergleich der Varianz der berechneten Werte Gruppe im Vergleich zur Varianz einer Referenzpopulation. Wir "normalisieren" diese Punktzahl auf einer Skala von 0 bis 100. (Die In-Code-Berechnung ergibt eine andere Skala von -inf bis + inf, aber der Einfachheit halber sagen wir, dass 0 50 ist, und hacken einfach alles über 100 und unter 0 ab.) Unser größtes Problem ist, dass unsere Kunden sich der sehr bewusst werden tatsächliche Anzahl. Obwohl wir versuchen, ihnen zu sagen, dass eine hohe / niedrige Zahl nicht unbedingt schlecht ist, zeigt sie nur, wie die Varianz Ihrer Gruppe mit der Varianz der Referenzpopulationen verglichen wird.

Wir denken darüber nach, die Zahl nicht mehr anzuzeigen im Endbenutzerbericht und stattdessen eine visuelle Darstellung der Varianz "hoch", "normal", "niedrig". Aber ich kann keine gute visuelle Darstellung davon finden. Es muss irgendwie neutral aussehen, aber trotzdem etwas zeigen ... (.. ich weiß ..)

Hat jemand Vorschläge, wie dies erreicht werden könnte?

(Haftungsausschluss: Ich bin kein Statistiker, ich bin ein Entwickler;). Ich hatte eine Klasse von Statistiken in meiner Hochschulausbildung, und das ist über 5 Jahre her. Daher könnten sowohl die von mir verwendeten Begriffe als auch meine Erklärungen völlig bedeutungslos sein.)

Ich verstehe Ihre Frage nicht (vielleicht zu viel Englisch für mich). Möchten Sie die Varianz auf einem Bild anzeigen?
Ich denke, da Sie "gute visuelle Darstellung davon" schreiben. Aber möchten Sie diese Darstellung einer Grafik hinzufügen, die Ihre Daten zeigt? Und wenn ja, welche Art von Grafik?
Siehe den Kommentar zur Antwort unten;)
Wäre klarer, wenn wir diese Grafik sehen könnten.
Fünf antworten:
Penguin_Knight
2013-10-08 18:10:32 UTC
view on stackexchange narkive permalink

Wenn das Hauptanliegen darin besteht, "dass unsere Kunden sich der tatsächlichen Anzahl sehr bewusst werden. Auch wenn wir versuchen, ihnen zu sagen, dass eine hohe / niedrige Zahl nicht unbedingt schlecht ist" , dann denke ich Sie sollten sie formell ansprechen, indem Sie die Konfidenzintervalle aufzeichnen. Varianz ist eine schlechte Wahl, da ihre Einheit das Quadrat von allem ist, mit dem Sie messen, und sie viel größer sind und möglicherweise sehr irreführend sein können. Die Standardabweichung ist ein besserer Ansatz, der jedoch nicht die Bedenken Ihrer Kunden beantwortet, da nur anhand der SD selbst nicht festgestellt werden kann, ob die Punktschätzungen wirklich vom Referenzmittelwert abweichen.

Eine Art von Diagramm, das auf der Grundlage von a geändert wurde Waldstück wäre ein besserer Kandidat. Es ist kompakt und einfach in Textfelder zu integrieren (in denen Sie die zusammenfassenden Statistiken anzeigen können). Außerdem beantwortet es Ihre Kundenfrage direkt. Wenn sie sich Sorgen machen, dass 3,5 so viel niedriger als 4,6 ist, zeigen Sie ihnen statistisch, dass sie sich nicht unterscheiden. (Oder vielleicht haben Ihre Kunden Recht.)

Und etwas im Gegensatz zu Ihren Vorschlägen (Eliminierung der numerischen Ausgabe insgesamt) würde ich vielleicht versuchen, das Diagramm so anzureichern, dass es mehr Daten anzeigt. Mit Geräten wie dem Panel-Histogramm oder dem Violin-Plot (siehe unten) können Sie die Verteilung der tatsächlichen Daten anzeigen. Dies gibt möglicherweise einen starken visuellen Hinweis darauf, dass sich die Daten verbreiten und es sich nicht nur um einen Punkt handelt.

enter image description here

Außerdem würde ich empfehlen, Ihre Punkteverteilung auf Schiefe oder andere Abweichungen von der Normalverteilung zu prüfen und zu prüfen, ob eine Erweiterung mit einem nicht parametrischen Diagramm wie dem Box-Diagramm möglich ist sei eine gute Idee.


Nebenbemerkung: Ich bin der Meinung, dass Ihr Trimmkriterium sehr streng ist, aber ich würde Ihre Vertrautheit mit der Skala nicht in Frage stellen. Wie auch immer, wenn ein solches Trimmschema verwendet wird, sind Sie meines Erachtens auch verpflichtet zu melden, wie viele Personen getrimmt werden. Dies liegt daran, dass die Variation, mit der Sie sie davon überzeugen, dass die Dinge nicht so unterschiedlich sind, möglicherweise durch die Definition der Trimmschwelle geändert werden kann. Es wäre unangenehm, wenn sie es später herausfinden würden.

Gute Idee. Eine ähnliche Option besteht darin, die grünen * Tröpfchen * durch Histogramme oder interpolierte Dichten zu ersetzen
Andy W
2013-10-08 20:53:46 UTC
view on stackexchange narkive permalink

Die Frage kann auf "Wie zeige ich einen interessierenden Wert gegenüber einer Referenzverteilung?" reduziert werden. Ersteres, das einen interessierenden Wert zeigt, ist der einfache Teil; Jede dramatische Markierung an diesem Punkt in der Grafik reicht aus. Daher ist es hilfreich, verschiedene Möglichkeiten zur Anzeige der Referenzverteilung aufzuzeigen. Wir müssen nicht genau wissen, was diese Referenzverteilung ist, um sachdienliche Ratschläge zu geben.

Eine der häufigsten Möglichkeiten, eine Verteilung anzuzeigen, besteht darin, ihre Wahrscheinlichkeitsdichtefunktion oder ihre kumulative Dichtefunktion (am häufigsten als PDF bzw. CDF bezeichnet). Das folgende Diagramm zeigt eine Referenzverteilung, die normalerweise mit einem Mittelwert von 40 und einer Standardabweichung von 15 verteilt ist. Ein interessierender Wert bei 80 wird als unverkennbarer großer roter Punkt überlagert. Die graue Linie im linken Diagramm zeigt die Schätzung der CDF aus der Referenzverteilung und das PDF im rechten Diagramm.

enter image description here

Diese Art von Diagramm ist für geeignet nicht so gut definierte Referenzverteilungen. Sie können beispielsweise die Schätzung der geglätteten Kerneldichte des PDF (oder CDF) basierend auf den vorherigen Referenzwerten darstellen und den aktuellen interessierenden Wert trotzdem überlagern. Aus diesen Darstellungen kann man entweder die Wahrscheinlichkeit abschätzen, einen Wert über oder unter dem aktuellen interessierenden Wert zu erhalten. Die CDF wird direkt aus dem Diagramm gelesen, PDF muss man diese Schätzung basierend auf dem Bereich links oder rechts vom interessierenden Wert vornehmen. Eine andere Alternative (die Penguin zeigt) besteht darin, das PDF zu reflektieren und seinen Bereich als Geigenplot anzuzeigen. Dies bietet etwas mehr visuelle Sicherheit für den Bereich im Ende der Verteilung. Hier ist der interessierende Wert durch eine schwarze horizontale Linie markiert, und der Bereich über dem Wert ist rot gefärbt.

Violin Plot

Eine weitere beliebte Alternative zum Anzeigen von Verteilungen sind Box-Plots (oder Fehlerbalkendiagramme). Die Fehlerbalken im linken Diagramm decken die mittleren 80% der Referenzverteilung ab, und das Box-Diagramm auf der rechten Seite zeigt den Interquartilbereich innerhalb des grauen Balkens und außerhalb der Whisker. Dies wird normalerweise als robuste Schätzung der Ausreißer angesehen.

enter image description here

Diese sind möglicherweise verdächtig für die Besorgnis, die Sie bemerkt haben - alles ist in Ordnung, wenn Sie sich innerhalb der Balken befinden, und der Himmel fällt, wenn es draußen ist. Abhängig davon, wie gut die Referenzverteilung geschätzt wird, können Sie Buchstabenwerte außerhalb des Interquartilbereichs oder einen Streifen mit kontinuierlicher Dichte zeichnen, um die Referenzverteilung anzuzeigen. Unten sehen Sie ein Beispiel für einen kontinuierlichen Farbverlauf, bei dem das dunklere Grau ein höheres PDF für die Referenzverteilung symbolisiert. (Siehe 40 Jahre Boxplots von Wickham & Stryjewski.)

enter image description here

Stéphane Laurent
2013-10-08 22:48:28 UTC
view on stackexchange narkive permalink

Wie ich aus seinen Kommentaren verstehe, möchte Christian einer bestehenden Handlung eine ikonische Darstellung der Varianz hinzufügen. Wir wissen noch nicht, was für eine Verschwörung. Für ein Punktdiagramm ist möglicherweise die Trägheitsmomentdarstellung der Varianz eine Lösung. Die Standardabweichung der Probe als horizontalen Radius ist eine gute Option, und man kann drei Farben für eine "niedrig-mittel-hoch" -Skala auswählen.

enter image description here

Has QUIT--Anony-Mousse
2013-10-08 12:10:02 UTC
view on stackexchange narkive permalink

Die Quadratwurzel der Varianz liegt auf derselben Skala wie Ihre Daten. Bei einer Normalverteilung wird dies als Standardabweichung bezeichnet.

Es ist üblich, Werte auf Vielfache der Standardabweichung zu normalisieren, sodass $ + 3 \ sigma $ als ungewöhnlich hoher Wert angesehen wird. wohingegen $ -3 \ sigma $ als ungewöhnlich niedrig angesehen wird.

Dies wird als "Standardisierung" oder als $ z $ -Punkt bezeichnet.

Die Idee von $ \ pm 3 \ sigma $ hilft wahrscheinlich nicht weiter, da das Ziel darin besteht, Abweichungen (keine Mittelwerte oder Einzelwerte) zu bewerten.
Vielen Dank. Aber ein Teil des Punktes ist es, diese Daten "evryman" zu präsentieren. Manager bei unseren Kunden können alles sein, von Universitätsprofessoren bis hin zu Mechanikern, und alles dazwischen. Es muss also leicht verständlich sein.
Nun, Sie können $ + 3 \ sigma $ auf 100 und $ -3 \ sigma $ auf 0 abbilden. Und schneiden Sie, wie Sie es bereits getan haben. Der Punkt ist, die Varianz bei der Skalierung der Werte zu berücksichtigen.
Ja, aber die Probleme sind nicht die Werte. Das Problem besteht darin, die Varianz anzuzeigen, ohne dass der Leser zu sehr an der tatsächlichen Zahl hängt. Aus diesem Grund suchten wir nach einer visuellen symbolischen Darstellung der hohen / niedrigen / normalen Varianz.
Wenn Ihre Nummer bereits eine Varianz enthält, müssen Sie diese nicht wirklich anzeigen. weil es standardisiert wurde. Andernfalls würde ich vorschlagen, eine "Varianz" -Spalte hinzuzufügen, die je nach Wunsch "hoch", "med" oder "niedrig" enthält ... Insbesondere, wenn Sie möchten, dass es sich um eine neutrale Anzeige handelt.
@ChristianWattengård Ich sehe, dass ich nicht der einzige bin, der nicht versteht :) Aber wir wissen immer noch nicht, * wo * Sie diese Darstellung anzeigen möchten.
Wir haben bereits eine Grafik, die die durchschnittliche Punktzahl für die aktuelle Frage zeigt, und eine Zahl, die die Antwortrate zeigt. Die Varianz ist nur ein weiterer hinzugefügter Datenpunkt. Heute ist es nur die 0-100 Zahl, die neben der Frage angezeigt wird.
Itamar
2013-10-08 16:59:21 UTC
view on stackexchange narkive permalink

Ich würde vorschlagen, Balkendiagramme mit Balkenpaaren für die Zielgruppe neben der Referenzgruppe und über jedem Balkendiagramm-Konfidenzintervall ( I ) zu verwenden, das oben auf dem Feld zentriert ist Balken mit einer Länge von $ 2 \ sigma $, wobei $ \ sigma $ die Standardabweichung ist. Siehe Beispiel aus dem Fehlerbalkenartikel von Wikipedia:

enter image description here

Siehe Diskussion zum Vermeiden von [Dynamitplots] (http://stats.stackexchange.com/q/1173/1036). Die Idee könnte jedoch für die aktuelle Frage zugänglich sein - zeichnen Sie einfach die Fehlerlinie, um den Bereich der Referenzverteilung anzuzeigen, an dem Sie interessiert sind, und zeichnen Sie dann einen Punkt, um den aktuellen Benutzerwert in Bezug auf die Referenzverteilung anzuzeigen.
Einige Links hier zu sehen: http://the-praise-of-insects.blogspot.be/2012/04/dynamite-plots-in-r.html Besonders dieser http://biostat.mc.vanderbilt.edu/ wiki / pub / Main / TatsukiRcode / Poster3.pdf


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...