Frage:
Punkte bewerten, die nicht einfach zu vergleichen sind
M. Cypher
2013-02-22 21:50:39 UTC
view on stackexchange narkive permalink

Zunächst einmal entschuldige ich mich, da diese Frage wahrscheinlich schon oft gestellt wurde und leicht zu beantworten ist. Als Statistik-Amateur konnte ich jedoch einfach nicht herausfinden, welche Keywords für meine Frage relevant sind.

Angenommen, Sie haben 100 Händler und 100 Produkte. Jeder Händler verkauft eine bestimmte Produktpalette, die von nur einem Produkt bis zu allen 100 Produkten reicht. Außerdem werden Produkte in sehr unterschiedlichen Anteilen verkauft, die sich zwischen den Händlern unterscheiden und den individuellen (irrationalen) Vorlieben des Händlers unterliegen.

Immer wenn ein Händler einen "Pitch" auf dem Markt macht, beobachten wir, ob oder nicht, dass er es schafft, das Produkt zu verkaufen, das er aufwirft. Wir gehen davon aus, dass die Erfolgswahrscheinlichkeit (a) von den Fähigkeiten des Händlers und (b) der Attraktivität des Produkts abhängt. Die Preise der Produkte sind fest, das ist also kein Faktor.

Die Daten, die wir haben, bestehen aus Millionen von Stellplätzen. Für jeden Pitch wissen wir, ob er erfolgreich war, der Händler und das Produkt.

Wenn wir Händler anhand ihrer durchschnittlichen Erfolgsrate vergleichen, sind diese Informationen natürlich nutzlos, da jeder Händler unterschiedliche Produkte verkauft. Wenn wir Produkte vergleichen, erhalten wir ebenfalls keine Informationen, da jedes Produkt von verschiedenen Händlern verkauft wird.

Wir möchten einen Skill-Score für jeden Händler, der unabhängig von den Produkten ist, die der Händler ist Verkauf und eine Attraktivitätsbewertung für jedes Produkt, die unabhängig von den Händlern ist, die es verkaufen.

Ich brauche keine umfassende Erklärung, nur einige Schlüsselwörter, um mich in die richtige Richtung zu lenken Richtung. Ich habe buchstäblich keine Ahnung, wo ich anfangen soll.

Bearbeiten: Beachten Sie, dass wir davon ausgehen, dass die Produktattraktivität vom Händler unabhängig und die Händlerfähigkeit produktunabhängig ist, dh es gibt keine Händler, die besser verkaufen können bestimmte Produkte, aber schlechter beim Verkauf anderer.

Fällt dies unter unbeaufsichtigtes Lernen? Wir haben den Effekt (0/1) der Händlerfähigkeiten und der Produktbewertung (beide Ordnungszahlen sagen 1-100) kombiniert, und wir beobachten (und haben keine Ahnung) die Reihenfolge der beiden Prädiktoren.
Vielleicht möchten Sie "** Conjoint Analysis **" auschecken.
Willkommen bei CV, @user21509. Möchten Sie Ihre Antwort erweitern? Warum sollte die Conjoint-Analyse hier nützlich sein? Beachten Sie, dass CV nicht nur eine Q & A-Site ist, sondern ein permanentes Repository für statistische Informationen erstellen soll.
Sieben antworten:
Tim
2013-03-01 03:53:35 UTC
view on stackexchange narkive permalink

Diese Art von Problem wird in der Ökonometrie und Marktforschung typischerweise als "Auswahlmodellierungsproblem" bezeichnet. Texte, die sich mit solchen Problemen befassen, umfassen: Louviere, J., D.A. Hensher, et al. (2000). Angegebene Auswahlmethoden: Analyse und Anwendung. Cambridge, Cambridge University Press. Train, K. E. (2009). Diskrete Auswahlmethoden mit Simulation. Cambridge, Cambridge University Press. Rossi, P.E., G.M. Allenby, et al. (2005). Bayesian Statistics and Marketing, Wiley.

Das einfachste praktische Modell, das Sie schätzen könnten, wäre ein binäres Logit-Modell, bei dem die abhängige Variable angibt, wann ein Objekt gekauft wird und wann es nicht gekauft wird, mit zwei unabhängigen Variablen: a kategoriale Variable für Händler und eine kategoriale Variable für Produkt. (Wenn Sie nichts darüber wissen, wann ein Produkt nicht gekauft wurde, können Sie die Poisson-Regression oder ein anderes Zählmodell verwenden.)

Die Parameterschätzung für jeden Händler ist die Fähigkeitsbewertung und der Parameter Für jedes Produkt wäre der "Attraktivitätswert". Die Bewertung "Attraktivität" wird bei der Auswahlmodellierung häufiger als "Dienstprogramm" bezeichnet.

Ein praktisches Rechenproblem besteht darin, dass Sie nur wenige hundert Händler und einige hundert kategoriale Variablen haben Schwierigkeiten haben, das Modell abzuschätzen, und benötigen möglicherweise ein Modell mit "zufälligen Effekten" (in diesem Zusammenhang manchmal als "hierarchisches Modell" bezeichnet).

Zusätzlich zu der von Ihnen erwähnten Annahme bezieht sich eine Reihe wichtiger Annahmen, die die Gültigkeit Ihrer Analyse bestimmen, darauf, welche Alternativen zu einem bestimmten Zeitpunkt verfügbar sind. Beispielsweise kann ein Produkt, das an sich unattraktiv ist, regelmäßig gekauft werden, da die attraktiveren Produkte zum Zeitpunkt des Kaufs nicht verfügbar sind. Dieser Effekt kann einen sehr großen Einfluss auf Ihre resultierenden Schätzungen haben, da Sie, wenn er ignoriert wird, versehentlich die Attraktivität eines Produkts mit seiner Verfügbarkeit verwechseln. In den zuvor zitierten Texten werden verschiedene Modifikationen von Auswahlmodellen erörtert, um viele der Arten von Annahmen zu behandeln, die wahrscheinlich für Ihr Problem relevant sind.

Wenn Sie in diesem Fall versuchen, eine binäre Antwortprotokollierung durchzuführen, erhalten Sie dann nicht eine große Anzahl von Duplikaten? Wäre das ein Problem?
Die Frage lautet: "Für jeden Pitch wissen wir, ob er erfolgreich war, der Händler und das Produkt." Wenn der Empfänger des Pitch ablehnt und den Markt verlässt, gibt es meines Erachtens kein Problem. Wenn wir glauben, dass mehrere Produkte verglichen wurden, benötigen wir ein multinomiales Logit-Modell. Wenn wir denken, dass die Person nicht kauft, weil sie erwartet, dass es etwas Besseres geben könnte, dann haben wir ein viel schwierigeres Problem.
curious_cat
2013-03-01 00:12:05 UTC
view on stackexchange narkive permalink

Warum nicht für jeden Händler eine Erfolgsquote für jedes Produkt berechnen, das er verkauft $ S_ {ij} $. ($ i $ indiziert Produkte und $ j $ indiziert Händler) Durchschnitt dies und berechnet eine durchschnittliche Basiserfolgsrate des Händlers ($ S_j $). Berechnen Sie nun die Differenzen ($ \ delta S_ {ij} = S_ {ij} - S_j $). Jedes dieser $ \ delta S_ {ij} $ gibt an, wie viel besser oder schlechter jedes Produkt in Bezug auf die Grunderfolgsrate dieses Händlers abschneidet.

Wenn Sie dieses $ \ delta S_ {ij} $ zusammenfassen Alle Händler j Sie würden eine Bewertung der Attraktivität jedes Produkts erhalten. $ S_i $?

Die Metrik für die Händlerfähigkeiten wäre ein Doppeltes davon. Ein Problem ist, dass dies das durch große Datenmengen motivierte Konfidenzniveau nicht beeinträchtigt. d.h. 2 Erfolge von 4 Teilungen sollten (vielleicht) weniger als 1000 Erfolge von 2000 Teilungen ausmachen? Sie müssten einen Weg finden, sich darauf einzustellen, falls es darauf ankommt.

Alternativ: Angenommen, jeder Händler hat einen Fertigkeitswert $ M_j $ und jedes Produkt hat eine Produktattraktivität $ A_i $. Sie können die Erfolgsrate des vom Händler $ j $ ($ S_ {ij} $) verkauften Produkts $ i $ als eine Funktion von $ M_j $ und $ A_i $ mit möglichen Kreuzbegriffen modellieren. Wenn Sie dies anpassen, können Sie möglicherweise anhand der Koeffizienten punkten.

Wenn Sie $ S_ {ij} = M_j \ times A_i + \ epsilon_ {ij} $ berücksichtigen, erhalten Sie ein einfaches Modell. Die Matrix der Erfolgselemente ist möglicherweise spärlich (da nicht alle Händler alle Produkte verkaufen). Wenn es tatsächlich vollständig gefüllt wäre, müssten Sie 200 Koeffizienten aus 100x100 Erfolgsratenzahlen so schätzen, dass Sie $ \ epsilon_ {ij} $ in einer Art Sinn für kleinste Quadrate minimieren.

Mögliche Fehler:

Ich sehe keine einfache Möglichkeit, relative Bewertungen zu interpretieren. z.B. Wenn zwei Produkte eine Attraktivität von $ A_ {i1} $ und $ A_ {i2} $ haben, wie viel besser ist eines als das andere? Ein einfaches Verhältnis? Eine Log-Wahrscheinlichkeit? usw. Vielleicht gibt es eine Interpretation, aber ich kann sie noch nicht sehen. Aus einer streng geordneten Perspektive sollte es keine Rolle spielen.

PS Wie dünn ist Ihre Matrix? Wissen Sie, dass Sie Millionen von Tonhöhen haben, vielleicht nicht zu dünn? Oder ist es? dh von maximal 10.000 Händler-Produkt-Kombinationen, wie viele sind gefüllt (dh haben mindestens eine Tonhöhe)?

PS1 Eindeutigkeit. Ich kann nicht Beweisen Sie, ob Ihre Werte für $ M_j $ und $ A_i $ eindeutig sind oder sogar nahe beieinander liegen. Wenn es mehrere Lösungen gibt, ist dies eine interessante Situation. Vielleicht gibt es dazu stärkere mathematische Ergebnisse?

+1 Ihr Abschnitt "Alternativ" ist genau derselbe wie der in Netflix verwendete "SVD", wobei die Anzahl der Dimensionen auf 1 reduziert ist.
@StumpyJoePete Das wusste ich nicht! Vielen Dank. Es klang etwas zu simpel, als ich es selbst vorschlug .....
Ja, siehe [meine Antwort zu svd] (http://stats.stackexchange.com/a/35460/13669). Stellen Sie sich das dann einfach so vor, wie es auf Ihre Matrix angewendet wird, mit $ k = 1 $. Das Endergebnis ist die Annäherung von $ S $ als äußeres Produkt eines "Produkt" -Vektors und eines "Händler" -Vektors, wobei versucht wird, den quadratischen Fehler in den bekannten Einträgen zu minimieren. Prost!
Innuo
2013-03-01 03:01:07 UTC
view on stackexchange narkive permalink

Ihr Problem kann durch ein Rasch-Modell modelliert werden. Hier ist ein Dokument, das das Modell anhand des folgenden Beispiels erklärt.

Das Rasch-Modell ist ein statistisches Modell eines Tests, der versucht, die Wahrscheinlichkeit zu beschreiben, mit der ein Schüler eine Frage beantwortet korrekt. Es weist jedem Schüler eine reelle Zahl zu, a, die als "Fähigkeit" bezeichnet wird, und jeder Frage eine reelle Zahl, d, die als "Schwierigkeit" bezeichnet wird.

Dies ähnelt Ihrer Situation wobei jeder Händler eine inhärente "Fähigkeit" besitzt und jedes Produkt eine inhärente "Attraktivität" aufweist.

Jacques Wainer
2013-03-01 03:42:52 UTC
view on stackexchange narkive permalink

Lassen Sie mich auf die von @curious_cat vorgeschlagene alternative Lösung eingehen.

$ P_ {ij} $ ist die Tonhöhenmatrix

$ L_ {ij} $ ist die Verkaufsmatrix

$ S_ {ij} = L_ {ij} / P_ {ij} $ ist die Matrix der Erfolgsraten (elementweise Teilung, wo sie existiert, und 0 an anderer Stelle)

Wie @curious_cat vorgeschlagen hat, möchten Sie $ S_ {ij} $ durch das Äußere approximieren Produkt von zwei positiven Vektoren

$$ S_ {ij} \ ungefähr M_i \ mal A_j ^ T $$

Die Minimierung des kleinsten Quadrats führt zu

$$ \ min | S_ {ij} - M_j \ times A_i ^ T | _2 $$ wobei $ | \ quad | _2 $ ist die Frobenius-Norm.

ABER Sie möchten die Einträge, in denen $ S_ {ij} $ nicht definiert ist, nicht minimieren. Was Sie also wirklich wollen, ist so etwas wie:

$$ \ min | W_ {ij} \ odot (S_ {ij} - M_j \ mal A_i ^ T) | _2 $$ wobei $ \ odot $ ist die elementweise Multiplikation.

1) In erster Näherung ist $ w_ {ij} $ 0, wobei $ p_ {ij} $ 0 und an anderer Stelle 1 ist.

Dies ist ein gewichtetes Nicht -negatives Matrixfaktorisierungsproblem (oder Approximationsproblem). Google sollte einige Verweise darauf geben.

2) Lassen Sie uns nun versuchen, aus der Hüfte heraus auf den Punkt zu antworten, den auch @curious_cat gemacht hat, dass Sie mehr einer Erfolgsrate von 1000 Verkäufen über 2000 Stellplätze vertrauen sollten als eine 2 verkauft über 4 Stellplätze.

Das Gewicht $ w_ {ij} $ muss für die Einträge, die in $ S_ {ij} $ definiert sind, nicht einheitlich 1 sein. Man kann Erfolgsraten mit höheren Tonhöhen mehr Gewicht geben.

Ich vermute, $ \ sqrt {p_ {ij}} $ als Gewicht zu verwenden. Die Intuition ist, dass das Konfidenzintervall für die Erfolgsrate umgekehrt proportional zu $ ​​\ sqrt {p_ {ij}} $ ist.

rolando2
2013-02-23 12:23:12 UTC
view on stackexchange narkive permalink

Ich denke, Sie möchten Eigenschaften zuordnen, die Ihren Daten nicht inhärent sind oder nicht daraus folgen. Sie haben eindeutige Daten zur Erfolgsrate, und es sollte eine Möglichkeit geben, die "angepasste Erfolgsrate" eines Händlers zu berechnen oder zu schätzen, wenn man bedenkt, zu welcher Rate seine Produkte bei allen Händlern verkauft werden. Ebenso sollte es eine Möglichkeit geben, die angepasste Erfolgsrate jedes Produkts angesichts der Erfolgsraten der Händler zu bestimmen, die dazu neigen, es zu verkaufen. Diese beiden Winkel der Analyse können mit einer verschachtelten / hierarchischen / mehrstufigen logistischen Regression erreicht werden, wenn die Daten dafür geeignet sind. Aber das würde nicht unbedingt die Attribute "Geschicklichkeit" oder "Attraktivität" offenbaren; es könnte für sie praktikable Proxies liefern, aber wie angemessen diese Proxys wären, ist eine inhaltliche Frage mehr als eine statistische.

Klar, ich bin nicht so sehr damit beschäftigt, wie der richtige Name für diese Attribute lauten würde. Mein Ziel ist es beispielsweise, eine Liste von Produktbewertungen zu finden, die den erwarteten Fehler minimieren, wenn ein neuer Händler sie für die Entscheidung verwendet, welche Produkte beworben werden sollen. Die Punktzahl sollte keine tatsächlich beobachtbare Qualität widerspiegeln, sondern nur etwas, das es ermöglicht, zwischen Gewinn- und Verlustprodukten zu unterscheiden.
steadyfish
2013-03-01 01:50:14 UTC
view on stackexchange narkive permalink

Ich würde dafür einfach eine 2-Wege-Tabelle erstellen. Für z.B. Zeilen, die verschiedenen Händlern entsprechen, und Spalten, die verschiedenen Produkten entsprechen. Jede Zelle in dieser 100 x 100-Tabelle / Matrix repräsentiert die Anzahl / den Anteil für Nr. oft war die Kombination erfolgreich.

Sobald dies erledigt ist, können Sie diese Matrix nach Zeilen und dann nach Spalten (oder umgekehrt) sortieren, um die Produkt- und Händlerfähigkeiten zu bestellen.

Christopher D. Long
2013-03-04 18:16:41 UTC
view on stackexchange narkive permalink

Ich würde eine logistische Regression mit Händlern und Produkten als zufällige Effekte empfehlen. In R würde dies folgendermaßen aussehen:

  Bibliothek ("lme4") passt zu <glmer (verkauft ~ (1 | Händler) + (1 | Produkt), Daten, Familie = Binomial, REML = TRUE, verbose = TRUE, weight) summary (fit) ranef (fit)  

Das Extrahieren der Schätzungen ist relativ einfach, und ich verarbeite Millionen von Datenpunkten mit ähnlichen Ansätzen auf Standardarbeitsstationen die ganze Zeit. Die Modellanpassung dauert normalerweise nur wenige Minuten.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...