Frage:
Median ohne Zugriff auf Rohdaten berechnen
robintw
2010-12-09 16:11:07 UTC
view on stackexchange narkive permalink

Ich arbeite an einer Software, die für die Klassifizierung von Satellitenbildern basierend auf verschiedenen Merkmalen von Objekten im Bild entwickelt wurde. Die Software bietet verschiedene integrierte Funktionen wie den Mittelwert der Werte im Objekt, das Maximum und das Minimum der Werte usw. Ich möchte jedoch den Median der Werte verwenden.

Ich nicht Ich habe Zugriff auf die Rohwerte im Objekt. Ich habe nur die folgenden Informationen:

  • Mittelwert
  • Max
  • Max
  • Min
  • Standardabweichung

Und ich kann diese Werte mit Standardoperatoren (+, -, /, *, ^ usw.) rechnen.

Gibt es einen Weg? den Median (oder etwas, das ihm sehr nahe kommt) nur aus diesen Informationen zu berechnen?

Zwei antworten:
#1
+9
Isaac
2010-12-09 16:36:27 UTC
view on stackexchange narkive permalink

Wenn Sie die zugrunde liegende Verteilung der Daten kennen, können Sie dies tun.

Beispielsweise sind für normalverteilte Daten Mittelwert und Median gleich (Median = Modus = Mittelwert).

Oder für Exponentialverteilung mit Mittelwert $ \ lambda ^ {- 1} $ Der Median ist $ \ lambda ^ {- 1} ln (2) $.

Es ist unmöglich, einen Median zu erhalten, ohne Rohdaten zu haben oder die tatsächliche Datenverteilung zu kennen.

Ich möchte hinzufügen, dass der Mittelwert, sd, max und min einige Hinweise auf die Frage liefern, ob die Annahme, dass die zugrunde liegende Verteilung symmetrisch ist, eine vernünftige Annahme ist. Wenn die Verteilung symmetrisch ist, sind der Populationsmittelwert und der Median gleich.
Vielen Dank. Leider entsprechen meine Daten keiner bestimmten Verteilung, sodass ich diese Methoden nicht verwenden kann. Es sind immer noch nützliche Informationen, also danke trotzdem.
@robintw: Wenn Sie vermuten, dass die Daten nicht zu einer bestimmten Verteilung passen, ist die Normalverteilung möglicherweise die beste Wahl, insbesondere wenn die Werte eine Mischung aus mehreren anderen Werten sind (siehe http://en.wikipedia.org/wiki/Central_limit_theorem).
@Isaac Die CLT ist irrelevant und nicht anwendbar: Wir suchen den Median der * Elternverteilung *, nicht den Median der * Stichprobenverteilung des Mittelwerts *. Es stellt sich jedoch (zufällig) heraus, dass die maximale Entropielösung (unter Berücksichtigung des Mittelwerts, des SD sowie der oberen und unteren Schranken für alle Werte) eine doppelt verkürzte Gaußsche Verteilung ist. Man würde numerisch nach seinen Parametern suchen, um mit dem beobachteten Mittelwert und sd übereinzustimmen, und dann seinen Median berechnen (der normalerweise * nicht * mit seinem Mittelwert übereinstimmt, da die Kürzung asymmetrisch sein kann).
@Jeromy Die einzige Statistik, die aus diesen vier Werten gebildet werden kann und Informationen über die Symmetrie liefert, ist das Verhältnis (max - Mittelwert) :( Mittelwert - min). Das ist jedoch eine (sehr) nicht robuste Statistik: Ich würde ihre Verwendung in einem praktischen Problem völlig ausschließen. Wenn Daten jedoch auf zwei Grenzwerte * beschränkt * sind, fügen diese Grenzwerte (relativ zum Mittelwert) nützliche Informationen hinzu.
@whuber Hätte der SD eine gewisse Relevanz für Variablen wie Einkommen und Reaktionszeit, die nur am unteren Ende eingeschränkt sind?
@Jeromy Ja. Beachten Sie jedoch, dass es sich um die * Einschränkungen * handelt, nicht um die beobachteten min und max. Tatsächlich ist die maximale Lösung für eine niedrigere Einschränkung angesichts des Mittelwerts und der SD eine verschobene Exponentialverteilung: genau das Beispiel, das @Isaac verwendet!
#2
+6
whuber
2010-12-09 23:34:04 UTC
view on stackexchange narkive permalink

Die Frage kann so ausgelegt werden, dass ein nichtparametrischer Schätzer des Medians einer Stichprobe in der Form f (min, mean, max, sd) angefordert wird. Unter diesen Umständen können wir durch Betrachtung extremer (Zweipunkt-) Verteilungen trivial feststellen, dass

$$ 2 \ \ text {mean} - \ text {max} \ le \ text {median} \ le 2 \ \ text {mean} - \ text {min}. $$

Unter Berücksichtigung der durch die bekannte SD auferlegten Einschränkung ist möglicherweise eine Verbesserung verfügbar. Um weitere Fortschritte zu erzielen, sind zusätzliche Annahmen erforderlich. In der Regel ist ein gewisses Maß an Schiefe unerlässlich. (Tatsächlich kann die Schiefe aus der Abweichung zwischen dem Mittelwert und dem Median relativ zum SD geschätzt werden, sodass man den Prozess umkehren kann.)

Zur Not könnte man diese vier verwenden Statistiken, um eine Maximum-Entropie -Lösung zu erhalten und ihren Median für den Schätzer zu verwenden. Tatsächlich werden Min und Max wahrscheinlich nicht gut sein, aber in einem Satellitenbild gibt es feste obere und untere Grenzen (z. B. 0 und 255 für ein Acht-Bit-Bild); Dies würde die Maximum-Entropie-Lösung stark einschränken.

Es ist erwähnenswert, dass Allzweck-Bildverarbeitungssoftware in der Lage ist, weitaus mehr Informationen als diese zu produzieren, sodass es sich lohnen könnte, andere Softwarelösungen zu betrachten. Alternativ kann man die Software oft dazu verleiten, zusätzliche Informationen bereitzustellen. Wenn Sie beispielsweise jedes scheinbare "Objekt" in zwei Teile teilen könnten, hätten Sie Statistiken für die beiden Hälften. Dies würde nützliche Informationen zum Schätzen eines Medians liefern.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 2.0-Lizenz, unter der er vertrieben wird.
Loading...