Dies ist eher eine allgemeine Statistikfrage. Wenn es jedoch darauf ankommt, schreibe ich PHP-Code.
Nehmen wir an, ich versuche, den Durchschnittswert eines Spielzeugs zu berechnen, das üblicherweise gekauft und verkauft wird auf dem Sekundärmarkt, und ich habe eine Reihe von Preiswerten, die sowohl aus Auktionen als auch aus vom Benutzer eingegebenen "Preis bezahlt" -Daten ermittelt wurden. Die Datenpunkte, die Auktionen darstellen, sind ziemlich zuverlässig, aber ich bekomme auch gelegentlich Datenpunkte vom Typ "Flohmarkt", bei denen jemand einen Dollar bezahlt hat, um bei einem Flohmarkt etwas von Tante Polly zu kaufen. Das Problem ist, dass die Datenpunkte vom Typ $ 1
für mich nicht wirklich wertvoll sind, da sie keinen wirklichen Wert anzeigen - Tante Polly wusste es nicht besser und kümmerte sich nicht darum. In ähnlicher Weise kann es vorkommen, dass ich gelegentlich einen Datenpunkt von einem Witzbold bekomme, der $ 9000
für ein Spielzeug eingibt, das wirklich nur $9
wert ist.
Also, beim Rechnen Wert, was ist der beste Weg, um diese Arten von Anomalien aus ansonsten nützlichen Daten herauszuarbeiten?
Ich habe über Ausreißer gelesen und etwas darüber, im Allgemeinen alles zu ignorieren, was mehr als 2,5 Standardabweichungen außerhalb des Restes der Daten beträgt Daten, aber ich suche hier nach dem vollständigen Rezept.
Vielen Dank!