Frage:
Was ist das PDF für den minimalen Unterschied zwischen einer Zufallszahl und einer Reihe von Zufallszahlen?
Steven Sagona
2019-12-15 10:35:53 UTC
view on stackexchange narkive permalink

Ich habe eine Liste (nennen wir es $ \ {L_N \} $ span>) mit N Zufallszahlen $ R \ in (0,1) $ span> (ausgewählt aus einer gleichmäßigen Verteilung). Als nächstes würfle ich eine andere Zufallszahl aus derselben Verteilung (nennen wir diese Zahl "b"). Jetzt finde ich das Element in der Liste $ \ {L_N \} $ span>, das der Zahl "b" am nächsten kommt, und finde diesen Abstand.

Wenn ich diesen Vorgang wiederhole, kann ich die Verteilung der Entfernungen darstellen, die durch diesen Vorgang erhalten werden.

Wenn $ N \ bis \ infty $ span>, wie geht diese Verteilung vor?

Wenn ich dies in Mathematica simuliere, sieht es so aus, als ob es sich einer Exponentialfunktion nähert. Und wenn die Liste 1 Element lang wäre, würde dies meiner Meinung nach genau einer Exponentialverteilung folgen.

Wenn ich mir die Wikipedia für Exponentialverteilungen ansehe, kann ich sehen, dass es eine Diskussion zu diesem Thema gibt:

enter image description here

Aber ich habe Probleme zu interpretieren, was sie hier sagen. Was ist "k" hier? Ist mein Fall das, was sie hier beschreiben, in der Grenze, in der $ n \ bis \ infty $ span>?

?

EDIT: Nach einer sehr hilfreichen, hilfreichen, intuitiven Antwort von Bayequentist verstehe ich jetzt, dass sich das Verhalten als $ N \ bis \ infty $ span> einer Dirac-Delta-Funktion nähern sollte. Aber ich würde immer noch gerne verstehen, warum meine Daten (was dem Minimum einer Reihe von Exponentialverteilungen entspricht) auch exponentiell zu sein scheinen. Und gibt es eine Möglichkeit, herauszufinden, was genau diese Verteilung ist (für großes, aber endliches N)?

Hier ist ein Bild davon, wie eine solche Verteilung für große, aber endliche N aussieht: enter image description here

EDIT2: Hier ist ein Python-Code, um diese Verteilungen zu simulieren:

 % matplotlib inline
Mathe importieren
importiere numpy als np
importiere matplotlib als mpl
importiere matplotlib.pyplot als plt
Anzahl Punkte = 10000
NBINS = 1000
randarray1 = np.random.random_sample ((numpoints,))
randarray2 = np.random.random_sample ((numpoints,))

dtbin = []

für i im Bereich (len (t1)):
    dt = 10000000
    für j im Bereich (len (t2)):
        Delta = t1 [i] -t2 [j]
        wenn abs (Delta) < abs (dt):
            dt = Delta
    dtbin.append (dt)

plt.figure ()
plt.hist (dtbin, bins = NBINS)
plt.show ()
 
Das Exponential mag eine vernünftige Annäherung sein, aber Ihr minimaler Abstand wird sicherlich nicht wirklich exponentiell verteilt sein: Das Exponential hat unbegrenzte Unterstützung, aber Ihr Abstand ist zwischen 0 und 1 begrenzt.
Ich bin momentan ziemlich verwirrt: / Können Sie auch den Code teilen, mit dem Sie dieses Bild generiert haben?
Okay, ich habe Python-Code hinzugefügt, der diese Bilder erzeugen kann.
Das sieht für mich so aus, als würde es zum Dirac-Delta konvergieren.Haben Sie größere Stichproben (100k, 1m, 10m ...) ausprobiert?(Stellen Sie sicher, dass der Bereich der x-Achse konsistent ist.) Der einzige Unterschied zwischen meinem und Ihrem Code besteht darin, dass Sie zulassen, dass die Abstände negativ sind.Wenn Sie den absoluten Wert der Entfernungen nehmen, sieht Ihr Grundstück wie meins aus.
Außerdem muss die Anzahl der b (nennen wir es nSim) nicht so groß wie N sein!Wenn Sie auch nSim = N = 1m festlegen, dauert die Ausführung Ihres Codes ewig.Sie können versuchen, nSim = 10k zu fixieren und beobachten, wie sich die Form der Verteilung ändert, wenn N von 10k auf 100k wechselt.
Sehen Sie sich (1) den Bereich auf Ihrer x-Achse und (2) die Tatsache an, dass @Bayequentist die absolute Differenz verwendet, während Sie die tatsächliche Differenz verwenden.Wenn Sie den absoluten Unterschied verwenden, erhalten Sie die gleiche Form wie bei Bayequentist. Wenn Sie den Bereich Ihrer x-Achse betrachten, sehen Sie ** sehr ** kleine Zahlen, so wie sie sind.
Es gibt einen Aspekt der Frage, der nicht wirklich klar ist.Sie schreiben: "Wenn ich diesen Vorgang wiederhole" ... Aber wenn Sie den Vorgang wiederholen, behalten Sie den Wert von $ b $ bei, der generiert wurde, oder generieren Sie jedes Mal einen neuen $ b $?Es hört sich so an, als ob Sie Letzteres beabsichtigen - können Sie dies bitte bestätigen?
@wolfies, Ich generiere jedes Mal einen neuen Wert von b.Sie können das im Simulationscode sehen: Ich generiere zwei zufällige Listen.Dann finde ich für jedes Element in der zweiten Liste den Mindestabstand zwischen allen Elementen in der ersten Liste und einem Element in der zweiten Liste.Dann sammle ich jede der erhaltenen Entfernungen in diesem Prozess.(Und genau das zeichne ich als simuliertes PDF)
(Zu Bayequentist & duckmayr): Ich stimme Ihnen beiden zu.Der absolute Wert macht keinen großen Unterschied im Problem, und die Funktion sollte sich einer Delta-Funktion für unendlich großes N nähern. Aber ich versuchte zu verstehen, wie ich das PDF für ein solches System verstehen konnte, und ich machte dasFehler beim Denken, dass ich mit einer Antwort zufrieden sein würde, die die PDF-Grenze für unendlich großes N zeigt, während ich wirklich für endliches, aber großes N brauchte. Tut mir leid, wenn ein solcher Drehpunkt ein sich bewegendes Ziel war, aber hoffentlich ist die erweiterte Diskussion hilfreich fürandere zukünftige Leser.
Fünf antworten:
Henry
2019-12-15 20:14:10 UTC
view on stackexchange narkive permalink

Wenn Sie nach dem Abstand zum nächsten Wert oben gesucht haben und einen zusätzlichen Wert bei $ 1 $ span> eingefügt haben, sodass dies immer eine Antwort hatte, verwenden SieRotationssymmetrie Die Verteilung dieser Abstände $ D $ span> entspricht der Verteilung des Minimums von $ n + 1 $ span> unabhängige einheitliche Zufallsvariablen für $ [0,1] $ span>.

Das hätte $ P (D \ le d) = 1- (1-d) ^ {n + 1} $ span> und damit Dichte $ f (d) = (n + 1) (1-d) ^ n $ span> wenn $ 0 \ le d \ le 1 $ .Für große $ n $ span> und kleine $ d $ span> kann diese Dichte durch $ f (d) \ approx ne ^ {- nd} $ span>, der die Exponentialform erklärt, die Sie entdeckt haben.

Ihre Frage ist jedoch etwas komplizierter, da Sie an der vorzeichenbehafteten Entfernung zum nächsten Wert über oder unten interessiert sind. Wie Ihr Wikipedia-Link zeigt, müssen mindestens zwei i.i.d. Exponential-Zufallsvariablen mit der Rate $ \ lambda $ span> ist eine exponentielle Zufallsvariable mit der Rate $ 2 \ lambda $ span>. Sie müssen also die Annäherung an die Dichte ändern, um sowohl die doppelte Rate als auch die Möglichkeit negativer Werte von $ d $ span> widerzuspiegeln. Die Approximation wird tatsächlich zu einer Laplace-Verteilung mit $$ f (d) \ approx ne ^ {- 2n | d |} $$ span>, wobei zu beachten ist, dass dies für große $ n $ span> und kleiner $ d $ span> (insbesondere ist die wahre Dichte $ 0 $ span> es sei denn $ - \ frac12 \ lt d \ lt \ frac12 $ span>). Wenn $ n $ span> zunimmt, konzentriert dies fast die gesamte Dichte bei $ 0 $ span> wie in Bayequentists Antwort auf das Limit einer Dirac-Delta-Verteilung

Mit $ n = 10 ^ 6 $ span> würde die Annäherung an die Dichte so aussehen und der Form Ihrer simulierten Daten entsprechen.

enter image description here

Wenn Sie also die Differenz mit n multiplizieren (z. B. mit dem entsprechenden Betrag neu skalieren, damit die Erwartung von 0 und unendlich begrenzt bleibt), konvergiert sie zu einer zweiseitigen Exponentialverteilung.
Bayequentist
2019-12-15 12:01:56 UTC
view on stackexchange narkive permalink

Wenn $ N \ bis \ infty $ span>, enthält $ L_N $ span> alle reellen Zahlen in $ (0,1) $ span>.Somit ist der Abstand von einer beliebigen Zahl in $ (0,1) $ span> zur nächsten Zahl in $ L_N $ span> nähert sich 0 als $ N \ bis \ infty $ span>.Die Verteilung der Entfernungen nähert sich der Dirac-Delta-Verteilung als $ N \ bis \ infty $ span>.

Hier einige Simulationen: enter image description here

Hier ist ein Code-Snippet:

  n <-100000
Ln <-runif (n)

nSim <-10000
Entfernungen <-rep (0, nSim)
für (i in 1: nSim) {
  b <-runif (1)
  Entfernungen [i] <min (abs (Ln-b))
}}
hist (Entfernungen, main = "N = 100000")
 
Danke für die intuitive Antwort!Ich denke, dies beantwortet meine Frage, was passiert, wenn $ N \ bis \ infty $, aber ich hoffe immer noch zu verstehen, warum meine Daten exponentiell aussehen.Ich werde eine Bearbeitung mit einem Bild hochladen, damit Sie es sehen können.
Wenn meine Bearbeitung für Sie ein bisschen zu viel von einem "sich bewegenden Ziel" ist, kann ich diesen bestimmten Teil als separate Frage umschreiben.Ich nehme Ihre Antwort gerne an, wenn dies der Fall ist.
Wenn $ N \ bis \ infty $, enthält $ L_N $ alle reellen Zahlen in $ (0,1) $.Das erscheint mir zweifelhaft, da die Menge $ \ {L_1, L_2, L_3, \ dots \} $ zählbar ist, so dass wir $ N $ als "zählbare Unendlichkeit" erhalten, während die Menge "aller reellen Zahlen in $ (0"), 1) $ "ist unzählig.Vielleicht ist es besser zu sagen, "enthält eine Zahl, die beliebig nahe an einer reellen Zahl in $ (0, 1) $ liegt" (d. H. Eine dichte Teilmenge von $ (0, 1) $)?
Das ist richtig - eine Teilmenge einer zählbaren Menge kann nicht unzählbar sein.Diese Antwort sollte sowieso nie eine strenge Antwort sein.Ich habe nur versucht, eine nützliche und leicht verständliche Intuition zu vermitteln.Henrys Antwort ist viel vollständiger und strenger als meine.
Dies war mein Gedanke, als ich die Frage zum ersten Mal las, dass die Antwort offensichtlich 0 war. Der durchschnittliche Abstand wird offensichtlich für jedes hinzugefügte Element kleiner, und es gibt keinen offensichtlichen Weg, wie er sich vernünftigerweise etwas anderem als 0 nähern kann
wolfies
2019-12-15 21:35:56 UTC
view on stackexchange narkive permalink

Gibt es eine Möglichkeit, herauszufinden, was genau diese Verteilung ist (für großes, aber endliches N)?

Die Differenz zweier einheitlicher Standard-Zufallsvariablen ist dreieckig (-1,0,1), wobei pdf $ 1- | x | $ span> auf $ (- 1,1) $ span>.

Abstand ist der absolute Wert der Differenz, bei der im PDF $ f (x) $ span>:

angegeben ist

enter image description here

Das Wiederholen der Übung $ n $ span> und das Einnehmen des Mindestabstands entspricht dem Ermitteln des Mindestbetrags $ (1 ^ { \ text {st}}) $ span> Bestellstatistik für das übergeordnete PDF $ f (x) $ span>, angegeben durch:

enter image description here

wo ich die OrderStat-Funktion aus dem mathStatica -Paket für Mathematica verwende, um die Kleinigkeiten zu automatisieren, und wo die Unterstützungsdomäne (0,1) ist. Die Lösung hat eine Power Function-Verteilung mit einem PDF der Form $ g (x) = a x ^ {a-1} $ span>.

Das folgende Diagramm vergleicht eine grafische Darstellung des exakten PDFs der gerade abgeleiteten Mindestentfernung $ g (x) $ span> (rot gestrichelte Kurve) ... mit einem Monte Carlo-Simulation (schnörkellose blaue Kurve), wenn die Stichprobengröße $ n = 10 $ span>:

ist

enter image description here

Simulation : Da Sie Mathematica für die Simulation verwenden, ist hier der Code, den ich für die Datensimulation in Mathematica verwende:

  data = Table [Min [Abs [RandomReal [{}, 10] - RandomReal []]], 20000];
 
Acccumulation
2019-12-16 03:21:11 UTC
view on stackexchange narkive permalink

Damit Sie eine Zahl erhalten, die größer als $ d $ span> ist, müssen alle Zahlen in Ihrer Stichprobe sein $ d $ span> entfernt von $ b $ span>. Die Wahrscheinlichkeit, dass dies für eine einzelne $ x_0 $ span> geschieht, ist nur die Wahrscheinlichkeitsmasse außerhalb des Bereichs $ b \ pm d $ . Nennen Sie das $ p_ {außerhalb} $ span>. Die Wahrscheinlichkeit, dass dies für alle $ x_i $ span> in Ihrer Stichprobe geschieht, beträgt $ (p_ {außerhalb}) ^ N $ span>. Wenn $ x_i $ span> einheitlich aus dem Einheitsintervall ausgewählt wird, dann $ p_ {außerhalb} $ span> für $ b $ span> mehr als $ d $ span> von der Grenze entfernt ist $ 1 -2d $ span>, und das ergibt $ p_ {außerhalb} ^ N = (1-2d) ^ N $ span>. Für große $ N $ span> und kleine $ d $ span> kann dies durch $ e ^ {- 2Nd} $ span>.

Yair Daon
2019-12-15 22:46:36 UTC
view on stackexchange narkive permalink

Stellen Sie sich vor, Sie zeichnen zuerst den letzten und bezeichnen ihn als X. Dies ändert nichts an der Problemformulierung. Für jeden $ X_i \ in L_N, i = 1, ..., N $ span> wissen wir, dass $ Y_i: = | X-X_i | $ span> hat eine gewisse Verteilung (Sie können dies berechnen oder nicht) und dass $ Y_i $ span> angegeben wird $ X $ span>. Aus Wikipedia wissen wir, dass die CDF ihres Minimums ist $$ F_ {min} (y) = 1 - [1-F_Y (y)] ^ N. $$ span>

Für jeden festen $ y $ span> kennen wir $ F_Y (y) > 0 $ span> für jeden $ y > 0 $ span> und $ F (y) = 0 $ span> ansonsten. Nehmen Sie $ N \ bis \ infty $ span> und Sie erhalten eine CDF, die für $ y > 0 $ span identisch ist > und sonst identisch Null. Dies ist eine Delta-Funktion, die bei Null zentriert ist, wie alle obigen Simulationen zeigen. Dies gilt für jedes $ x \ in (0,1) $ span>, sodass die Konvergenz immer gilt (wenn auch möglicherweise mit unterschiedlichen Konvergenzraten).



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.
Loading...