Generalized Top-k Mallows Model for Ranked Choices
Haddadan, Ahmadian
The classic Mallows model is a foundational tool for modeling user preferences. However, it has limitations in capturing real-world scenarios, where users often focus only on a limited set of preferred items and are indifferent to the rest. To address this, extensions such as the top-k Mallows model have been proposed, aligning better with practical applications. In this paper, we address several challenges related to the generalized top-k Mallows model, with a focus on analyzing buyer choices. Our key contributions are: (1) a novel sampling scheme tailored to generalized top-k Mallows models, (2) an efficient algorithm for computing choice probabilities under this model, and (3) an active learning algorithm for estimating the model parameters from observed choice data. These contributions provide new tools for analysis and prediction in critical decision-making scenarios. We present a rigorous mathematical analysis for the performance of our algorithms. Furthermore, through extensive experiments on synthetic data and real-world data, we demonstrate the scalability and accuracy of our proposed methods, and we compare the predictive power of Mallows model for top-k lists compared to the simpler Multinomial Logit model.
academic
Modèle Mallows Top-k Généralisé pour les Choix Classés
Le modèle Mallows classique constitue un outil fondamental pour la modélisation des préférences des utilisateurs, mais présente des limitations dans la capture de scénarios réels — les utilisateurs se concentrent généralement sur un ensemble limité d'éléments de préférence et sont indifférents aux éléments restants. Cet article aborde plusieurs défis du modèle Mallows top-k généralisé, en se concentrant sur l'analyse des choix des acheteurs. Les contributions principales incluent: (1) un nouveau schéma d'échantillonnage adapté au modèle Mallows top-k généralisé; (2) un algorithme efficace pour calculer les probabilités de choix sous ce modèle; (3) un algorithme d'apprentissage actif pour estimer les paramètres du modèle à partir des données de choix observées. Ces contributions fournissent de nouveaux outils pour l'analyse et la prédiction dans les scénarios de décision critiques, et la scalabilité et la précision des méthodes sont validées par une analyse mathématique rigoureuse et des expériences approfondies sur des données synthétiques et réelles.
Le problème fondamental abordé par cet article est: Comment modéliser efficacement les préférences des utilisateurs et prédire leur comportement de choix dans des scénarios réalistes où les utilisateurs ne fournissent que des informations de classement partielles (listes top-k) plutôt que des classements complets?
Applications pratiques étendues: Systèmes de recommandation, plateformes publicitaires, moteurs de recherche, agrégateurs d'actualités et autres scénarios où les utilisateurs expriment généralement des préférences pour un nombre limité d'éléments
Valeur décisionnelle commerciale: La prédiction précise du comportement de choix des clients est cruciale pour les décisions de gestion des revenus, d'optimisation du portefeuille de produits, etc.
Signification théorique: Extension des modèles probabilistes de classement classiques à des scénarios de classement partiel plus réalistes
Modèle Mallows classique: Limité aux permutations complètes, incapable de traiter les classements partiels
Modèle Multinomial Logit (MNL): Bien que simple, sa capacité d'expression est limitée, satisfait l'hypothèse d'indépendance des alternatives non pertinentes (IIA), limitant la modélisation des comportements de choix complexes
Extensions top-k existantes: Le modèle top-k Mallows proposé par Chierichetti et al. (2018) manque d'algorithmes d'échantillonnage efficaces et de méthodes de calcul des probabilités de choix
Difficulté d'apprentissage des paramètres: L'apprentissage des paramètres du modèle à partir de données de choix (plutôt que de classements complets) manque de garanties théoriques
Les auteurs considèrent que l'extension du modèle Mallows aux listes top-k peut refléter plus fidèlement la structure des préférences des utilisateurs, mais nécessite de résoudre trois problèmes algorithmiques clés: l'échantillonnage efficace, le calcul des probabilités de choix et l'apprentissage des paramètres.
Les contributions principales de cet article incluent:
Algorithme d'échantillonnage PRIM: Proposition de la méthode Profile-based Repeated Insertion Method (PRIM) pour réaliser un échantillonnage efficace à partir de la distribution TopKGMM, réduisant la complexité temporelle de O(k²4^k + k²log n) à O(k2^k + k²log n)
Algorithme DYPCHIP pour les probabilités de choix: Conception de l'algorithme Dynamic Programming for Choice Probabilities (DYPCHIP) capable de calculer efficacement les probabilités de choix sous le modèle Mallows top-k
Algorithme d'apprentissage actif BUCCHOI: Développement de l'algorithme Build Center from Choices (BUCCHOI) d'apprentissage actif qui déduit le centre de la distribution et la taille du centre k en présentant des assortiments de produits de taille spécifiée et en observant les choix, avec une complexité d'échantillon de Θ(r²log n)
Généralisation du modèle: Extension du modèle Mallows top-k de Chierichetti et al. à une version généralisée (TopKGMM) associant un poids à chaque produit
Validation empirique: Démonstration sur l'ensemble de données de préférences Sushi que le modèle Mallows top-k possède une précision prédictive significativement supérieure au modèle MNL
Cette décomposition est l'innovation algorithmique centrale, décomposant la distribution complexe des listes top-k en deux étapes: sélection du profil et classement conditionnel.
Ensuite, construire τ en utilisant la méthode d'insertion répétée conditionnée à S
Flux de l'algorithme:
1. PréCalculer les probabilités de tous les profils (temps O(2^γk), γ=min{k,n-k})
2. Échantillonner le profil S
3. Initialisation: Échantillonner uniformément k-ℓ éléments de [n]\[k]
4. Insérer les éléments s de S par ordre de priorité, la probabilité d'insérer s à la position j est:
P(insérer s à la position j) ∝ exp(-βw_s·j)
Points d'innovation:
Résout le problème ouvert laissé par Chierichetti et al. (manque d'une méthode d'échantillonnage similaire à RIM)
Réduit significativement la complexité grâce à la décomposition du profil
Le coût amorti après prétraitement est seulement O(k log n) par échantillon
Idée centrale: Utiliser la programmation dynamique pour calculer les probabilités de choix conditionnées au profil S
Structure de l'algorithme:
Tableau DP tridimensionnel π_S(i, j, q):
i: le i-ème élément de l'assortiment A
j: position actuelle
q: la q-ième itération de l'algorithme PRIM
Signification: Après la q-ième itération, la probabilité que a_i soit l'élément classé le plus haut dans A∅ et situé à la position j
Relations de récurrence:
Quand le nouvel élément n'est pas dans A:
π_S(i,j,q) = π_S(i,j,q-1)·P(insérer>j) + π_S(i,j-1,q-1)·P(insérer≤j-1)
Quand le nouvel élément est dans A:
π_S(i,j,q) = π_S(i,j,q-1)·P(insérer>j)
π_S(cur,j,q) = P(insérer=j)·Σ_{i<cur}Σ_{j'≥j}π_S(i,j',q-1)
Erreur de test: Erreur absolue entre la probabilité de choix empirique et la probabilité prédite
Méthode de calcul: Échantillonner aléatoirement des assortiments sur l'ensemble de test, enregistrer les choix réels, comparer avec les prédictions DYPCHIP
Amélioration relative: Réduction d'erreur de 51.4%
Découvertes clés:
Les performances sont meilleures avec β petit (0.01-0.1), indiquant une distribution relativement uniforme
L'effet est optimal à p=0.5, équilibrant différents types d'incohérence
TopKGMM surpasse significativement MNL, validant la capacité d'expression du modèle
Cas avec clustering (Tableau 2, 2 clusters):
p=0.1, β=0.1: Erreur de test 0.0771
p=1.25, β=0.05: Erreur de test 0.0788
Observation: Les performances s'améliorent légèrement après clustering, mais le coefficient de silhouette est très faible (<0.012), suggérant que les données proviennent probablement d'une distribution unique
Cet article apporte des contributions importantes à l'intersection de la modélisation des choix Mallows top-k. Grâce à une décomposition du profil ingénieuse, les auteurs ont conçu une suite d'outils algorithmiques complète avec une analyse théorique rigoureuse. Les expériences valident l'efficacité de la méthode, en particulier l'avantage significatif par rapport à MNL sur les données réelles.
La valeur principale réside dans: (1) La résolution théorique d'un problème ouvert important; (2) La fourniture d'outils pratiques utilisables; (3) L'établissement de fondations pour les recherches futures.
La limitation principale est la dépendance exponentielle à k, limitant les applications dans les scénarios avec grand k. Les recherches futures sur l'apprentissage des modèles mélangés et le développement d'algorithmes d'approximation amélioreront davantage la praticité de cette méthode.
Pour les applications nécessitant la modélisation des préférences de classement partiel et la prédiction du comportement de choix, le cadre TopKGMM et les algorithmes fournis par cet article constituent des outils précieux, en particulier dans les scénarios où k est petit (≤12) et une haute précision prédictive est requise.