Ich möchte 2 Vektoren der Länge 43 vergleichen. Sie haben Werte von 0 (nicht vorhanden) und 1 (vorhanden). Ich werde $ M_ {1,1} $ als Situationen bezeichnen, in denen beide 1 vorhanden sind, und $ M_ {1,0} $ und $ M_ {0,1} $ als Situationen, in denen nur eine 1 vorhanden ist, während die Der andere Wert ist 0.
data3 $ IDS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0data3 $ CESD 1 1 1 0 1 1 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1
Ich möchte verstehen, wie verwandt diese beiden Vektoren sind. Der Jaccard -Index scheint der richtige Weg zu sein, um sich über das Thema zu informieren. In diesem speziellen Fall wäre der Jaccard-Index (beachten Sie, dass ich die Formel verwende, die neben der zweiten Zahl in Wikipedia angegeben ist): $$ \ frac {M_ {1,1}} {(M_ {1,0} + M_ {0,1} - M_ {1,1})} $$ In meinem Fall: $ 8 / (23 + 12 - 8) = 0,2962963 $
Verwenden von:
library ('clusteval') cluster_similarity (Daten3 $ IDS, Daten3 $ CESD, Ähnlichkeit = "Jaccard", Methode = "Unabhängigkeit")
Rückgabe:
0.553429
Ich kann nicht genau herausfinden, warum und wo der Fehler ist, den ich mache.
Eine andere Sache, die ich nicht verstehe, ist in Fällen hoher Überlappung. Stellen Sie sich $ M_ {1,1} = 30 $ mit jeweils nur $ 2 $ Werten in den Zellen $ M_ {1,0} $ und $ M_ {0,1} $ vor. Dies würde zu einem Jaccard-Index von 30 USD / (2 + 2-30) = -1,153846 USD führen.
Der J-Index wird jedoch nur zwischen 0 und 1 definiert. Wo liegt mein Missverständnis?