Was ist das PDF für den minimalen Unterschied zwischen einer Zufallszahl und einer Reihe von Zufallszahlen?

Steven Sagona

2019-12-15 10:35:53 UTC

view on stackexchange narkive permalink

Ich habe eine Liste (nennen wir es $ \ {L_N \} $ span>) mit N Zufallszahlen $ R \ in (0,1) $ span> (ausgewählt aus einer gleichmäßigen Verteilung). Als nächstes würfle ich eine andere Zufallszahl aus derselben Verteilung (nennen wir diese Zahl "b"). Jetzt finde ich das Element in der Liste $ \ {L_N \} $ span>, das der Zahl "b" am nächsten kommt, und finde diesen Abstand.

Wenn ich diesen Vorgang wiederhole, kann ich die Verteilung der Entfernungen darstellen, die durch diesen Vorgang erhalten werden.

Wenn $ N \ bis \ infty $ span>, wie geht diese Verteilung vor?

Wenn ich dies in Mathematica simuliere, sieht es so aus, als ob es sich einer Exponentialfunktion nähert. Und wenn die Liste 1 Element lang wäre, würde dies meiner Meinung nach genau einer Exponentialverteilung folgen.

Wenn ich mir die Wikipedia für Exponentialverteilungen ansehe, kann ich sehen, dass es eine Diskussion zu diesem Thema gibt:

Aber ich habe Probleme zu interpretieren, was sie hier sagen. Was ist "k" hier? Ist mein Fall das, was sie hier beschreiben, in der Grenze, in der $ n \ bis \ infty $ span>?

EDIT: Nach einer sehr hilfreichen, hilfreichen, intuitiven Antwort von Bayequentist verstehe ich jetzt, dass sich das Verhalten als $ N \ bis \ infty $ span> einer Dirac-Delta-Funktion nähern sollte. Aber ich würde immer noch gerne verstehen, warum meine Daten (was dem Minimum einer Reihe von Exponentialverteilungen entspricht) auch exponentiell zu sein scheinen. Und gibt es eine Möglichkeit, herauszufinden, was genau diese Verteilung ist (für großes, aber endliches N)?

Hier ist ein Bild davon, wie eine solche Verteilung für große, aber endliche N aussieht:

EDIT2: Hier ist ein Python-Code, um diese Verteilungen zu simulieren:

 % matplotlib inline
Mathe importieren
importiere numpy als np
importiere matplotlib als mpl
importiere matplotlib.pyplot als plt
Anzahl Punkte = 10000
NBINS = 1000
randarray1 = np.random.random_sample ((numpoints,))
randarray2 = np.random.random_sample ((numpoints,))

dtbin = []

für i im Bereich (len (t1)):
    dt = 10000000
    für j im Bereich (len (t2)):
        Delta = t1 [i] -t2 [j]
        wenn abs (Delta) < abs (dt):
            dt = Delta
    dtbin.append (dt)

plt.figure ()
plt.hist (dtbin, bins = NBINS)
plt.show ()

Das Exponential mag eine vernünftige Annäherung sein, aber Ihr minimaler Abstand wird sicherlich nicht wirklich exponentiell verteilt sein: Das Exponential hat unbegrenzte Unterstützung, aber Ihr Abstand ist zwischen 0 und 1 begrenzt.

Ich bin momentan ziemlich verwirrt: / Können Sie auch den Code teilen, mit dem Sie dieses Bild generiert haben?

Okay, ich habe Python-Code hinzugefügt, der diese Bilder erzeugen kann.

Das sieht für mich so aus, als würde es zum Dirac-Delta konvergieren.Haben Sie größere Stichproben (100k, 1m, 10m ...) ausprobiert?(Stellen Sie sicher, dass der Bereich der x-Achse konsistent ist.) Der einzige Unterschied zwischen meinem und Ihrem Code besteht darin, dass Sie zulassen, dass die Abstände negativ sind.Wenn Sie den absoluten Wert der Entfernungen nehmen, sieht Ihr Grundstück wie meins aus.

Außerdem muss die Anzahl der b (nennen wir es nSim) nicht so groß wie N sein!Wenn Sie auch nSim = N = 1m festlegen, dauert die Ausführung Ihres Codes ewig.Sie können versuchen, nSim = 10k zu fixieren und beobachten, wie sich die Form der Verteilung ändert, wenn N von 10k auf 100k wechselt.

Sehen Sie sich (1) den Bereich auf Ihrer x-Achse und (2) die Tatsache an, dass @Bayequentist die absolute Differenz verwendet, während Sie die tatsächliche Differenz verwenden.Wenn Sie den absoluten Unterschied verwenden, erhalten Sie die gleiche Form wie bei Bayequentist. Wenn Sie den Bereich Ihrer x-Achse betrachten, sehen Sie ** sehr ** kleine Zahlen, so wie sie sind.

Es gibt einen Aspekt der Frage, der nicht wirklich klar ist.Sie schreiben: "Wenn ich diesen Vorgang wiederhole" ... Aber wenn Sie den Vorgang wiederholen, behalten Sie den Wert von $ b $ bei, der generiert wurde, oder generieren Sie jedes Mal einen neuen $ b $?Es hört sich so an, als ob Sie Letzteres beabsichtigen - können Sie dies bitte bestätigen?

@wolfies, Ich generiere jedes Mal einen neuen Wert von b.Sie können das im Simulationscode sehen: Ich generiere zwei zufällige Listen.Dann finde ich für jedes Element in der zweiten Liste den Mindestabstand zwischen allen Elementen in der ersten Liste und einem Element in der zweiten Liste.Dann sammle ich jede der erhaltenen Entfernungen in diesem Prozess.(Und genau das zeichne ich als simuliertes PDF)

(Zu Bayequentist & duckmayr): Ich stimme Ihnen beiden zu.Der absolute Wert macht keinen großen Unterschied im Problem, und die Funktion sollte sich einer Delta-Funktion für unendlich großes N nähern. Aber ich versuchte zu verstehen, wie ich das PDF für ein solches System verstehen konnte, und ich machte dasFehler beim Denken, dass ich mit einer Antwort zufrieden sein würde, die die PDF-Grenze für unendlich großes N zeigt, während ich wirklich für endliches, aber großes N brauchte. Tut mir leid, wenn ein solcher Drehpunkt ein sich bewegendes Ziel war, aber hoffentlich ist die erweiterte Diskussion hilfreich fürandere zukünftige Leser.