2025-11-15T02:07:10.757818

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Lee, Oh
In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
academic

Regret Presque Minimax Optimal pour le Bandit Logistique Multinomial

Informations Fondamentales

  • ID de l'article: 2405.09831
  • Titre: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
  • Auteurs: Joongkyu Lee (Université Nationale de Séoul), Min-hwan Oh (Université Nationale de Séoul)
  • Classification: stat.ML cs.LG
  • Date de publication/Conférence: NeurIPS 2024 (38e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
  • Lien de l'article: https://arxiv.org/abs/2405.09831

Résumé

Cet article étudie le problème du bandit logistique multinomial (MNL) contextuel, où un agent d'apprentissage sélectionne séquentiellement des ensembles de produits en fonction d'informations contextuelles, et les retours des utilisateurs suivent un modèle de choix MNL. Les travaux existants présentent un écart significatif entre les bornes inférieures et supérieures, particulièrement concernant la taille maximale de l'ensemble de produits K. Dans le cadre de récompenses uniformes, cet article établit une borne inférieure de regret Ω(d√T/K) et propose l'algorithme OFU-MNL+ en temps constant, réalisant une borne supérieure correspondante Õ(d√T/K). Dans le cadre de récompenses non uniformes, une borne inférieure Ω(d√T) et une borne supérieure Õ(d√T) sont prouvées. Il s'agit du premier travail prouvant l'optimalité minimax dans la littérature sur les bandits MNL contextuels.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Problème du bandit MNL: Dans les applications telles que les systèmes de recommandation et la vente au détail en ligne, l'agent doit présenter à l'utilisateur un ensemble de produits, dont le comportement de sélection suit un modèle logistique multinomial (MNL)
  2. Information contextuelle: À chaque tour, l'agent peut observer les caractéristiques des produits et les informations contextuelles potentielles de l'utilisateur
  3. Lacune théorique: Les travaux existants présentent un écart significatif entre les bornes supérieures et inférieures du regret, particulièrement concernant la dépendance à la taille de l'ensemble K

Motivation de la Recherche

  1. Complétude théorique: Combler les lacunes dans l'analyse théorique des bandits MNL et établir des bornes de regret serrées
  2. Efficacité algorithmique: Concevoir des algorithmes efficaces en termes de calcul, évitant la complexité temporelle exponentielle des méthodes existantes
  3. Applications pratiques: Fournir des garanties théoriques et des algorithmes efficaces pour les applications pratiques telles que les systèmes de recommandation

Limitations des Méthodes Existantes

  1. Écart théorique: Un écart de √K existe entre la borne inférieure Ω(d√T/K) et la borne supérieure Õ(d√T)
  2. Complexité computationnelle: Les algorithmes existants nécessitent d'énumérer tous les ensembles de produits possibles, entraînant une complexité temporelle exponentielle
  3. Dépendance aux paramètres: Mauvaise dépendance aux constantes liées au problème κ, où 1/κ = O(K²)

Contributions Principales

  1. Établissement de bornes de regret serrées:
    • Sous récompenses uniformes: borne inférieure Ω(√(v₀K/(v₀+K))d√T), borne supérieure Õ(√(v₀K/(v₀+K))d√T)
    • Sous récompenses non uniformes: borne inférieure Ω(d√T), borne supérieure Õ(d√T)
  2. Proposition de l'algorithme efficace OFU-MNL+:
    • Complexité temporelle constante O(1), indépendante du nombre de tours t
    • Premier algorithme prouvant que le regret diminue avec l'augmentation de K dans les bandits MNL
  3. Innovations théoriques:
    • Démonstration explicite de l'impact du paramètre d'attraction de l'option externe v₀ sur le regret
    • Bornes de regret minimax dépendantes de l'instance
  4. Améliorations techniques:
    • Lemme de potentiel elliptique amélioré, éliminant la dépendance à K
    • Analyse de la fonction de perte avec propriété d'auto-concordance constante

Détails de la Méthode

Définition de la Tâche

Entrées:

  • À chaque tour t, observation des vecteurs de caractéristiques x_ ∈ ℝᵈ de N produits
  • Taille maximale de l'ensemble de produits K
  • Paramètre d'attraction de l'option externe v₀

Sorties:

  • Sélection d'un ensemble de produits S_t ⊆ {1,...,N}, |S_t| ≤ K
  • Observation du choix de l'utilisateur c_t ∈ S_t ∪ {0}, suivant le modèle MNL

Objectif: Minimiser le regret cumulatif Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)

Architecture du Modèle

Modèle de Choix MNL

La probabilité que l'utilisateur sélectionne le produit i ∈ S_t est:

p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

La probabilité de l'option externe (ne sélectionner aucun produit) est:

p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Composants Principaux de l'Algorithme OFU-MNL+

  1. Estimation des paramètres en ligne:
    w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
    

    où H̃_t = H_t + ηG_t(w_t), G_t(w) est la matrice Hessienne de la perte MNL
  2. Construction de l'ensemble de confiance:
    C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
    

    où β_t(δ) = O(√(d log t log K))
  3. Calcul de l'utilité optimiste:
    α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
    
  4. Sélection de l'ensemble de produits:
    • Récompenses uniformes: sélectionner les K produits avec les plus hauts α_
    • Récompenses non uniformes: résoudre un problème d'optimisation combinatoire en temps polynomial

Points d'Innovation Technique

  1. Analyse d'auto-concordance améliorée: Preuve que la fonction de perte MNL possède une propriété d'auto-concordance 3√2, améliorant le résultat précédent de √(6K) par un facteur √K
  2. Lemme de potentiel elliptique indépendant de K:
    Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
    
  3. Borne de divergence KL serrée: Établissement d'une borne supérieure de divergence KL plus serrée, améliorant les résultats de Chen et al.

Configuration Expérimentale

Ensembles de Données

  • Ensemble de données synthétique, paramètre w* ∈ ℝᵈ échantillonné uniformément à partir de -1/√d, 1/√d
  • Caractéristiques contextuelles x_ échantillonnées à partir d'une distribution gaussienne multivariée N(0_d, I_d) et tronquées à -1/√d, 1/√d
  • Configuration: N=100, K∈{5,10,15}, d=5, T=3000

Métriques d'Évaluation

  • Regret cumulatif: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
  • Temps de calcul par tour

Méthodes de Comparaison

  • UCB-MNL: méthode basée sur les bornes de confiance supérieures
  • TS-MNL: méthode basée sur l'échantillonnage de Thompson

Détails d'Implémentation

  • Paramètre de régularisation λ = 84√(2d)η
  • Taille du pas η = (1/2)log(K+1) + 2
  • Rayon de confiance β_t(δ) = O(√(d log t log K))

Résultats Expérimentaux

Résultats Principaux

  1. Performance du regret:
    • Sous récompenses uniformes, le regret cumulatif de tous les algorithmes diminue avec l'augmentation de K
    • Sous récompenses non uniformes, l'augmentation de K ne garantit pas une amélioration du regret
    • OFU-MNL+ surpasse significativement les méthodes de base dans tous les paramètres
  2. Efficacité computationnelle:
    • OFU-MNL+ maintient un coût de calcul constant, indépendant du nombre de tours t
    • Le temps de calcul des méthodes de base augmente linéairement avec t
    • Le temps d'exécution dans le cadre de récompenses uniformes est environ 1/10 de celui du cadre non uniforme

Vérification Théorique

Les résultats expérimentaux valident l'analyse théorique:

  • Quand v₀ = Θ(1), le regret diminue avec K
  • Quand v₀ = Θ(K), le regret est indépendant de K
  • Sous récompenses non uniformes, le regret est indépendant de K

Travaux Connexes

Recherche sur les Bandits MNL

  1. Cadre non contextuel: Agrawal et al. ont établi une borne inférieure Ω(√(NT/K))
  2. Cadre contextuel: Chen et al. ont proposé une borne inférieure Ω(d√T/K), mais la complexité algorithmique est exponentielle
  3. Efficacité computationnelle: Oh et Iyengar ont proposé un algorithme en temps polynomial, mais la borne de regret dépend de 1/κ

Bandits Logistiques

  • Des algorithmes optimaux existent pour les bandits logistiques binaires
  • Les bandits MNL sont une extension multi-choix des bandits logistiques

Bandits Combinatoires

  • Liés aux bandits combinatoires top-k mais avec une structure de récompense différente
  • Dans le modèle MNL, la récompense d'un produit individuel dépend de l'ensemble complet

Conclusion et Discussion

Conclusions Principales

  1. Complétude théorique: Première réalisation de l'optimalité minimax dans les bandits MNL
  2. Efficacité algorithmique: Proposition du premier algorithme optimal avec complexité temporelle constante
  3. Impact des paramètres: Quantification explicite de l'impact de v₀ et K sur le regret

Limitations

  1. Hypothèse de bornitude: Exige que ||w*||₂ ≤ 1, l'assouplissement entraînerait des facteurs exponentiels supplémentaires dans la borne de regret
  2. Bornes dépendantes de l'instance: Impossibilité d'établir des bornes dépendantes de l'instance sous récompenses non uniformes
  3. Facteurs constants: Les facteurs logarithmiques dans les bornes théoriques peuvent être importants en pratique

Directions Futures

  1. Assouplissement des hypothèses: Étudier les algorithmes optimaux dans le cas de paramètres non bornés
  2. Adaptation à l'instance: Établir des bornes dépendantes de l'instance pour les récompenses non uniformes
  3. Applications pratiques: Valider les performances de l'algorithme sur des systèmes de recommandation réels

Évaluation Approfondie

Points Forts

  1. Contribution théorique majeure: Première résolution du problème d'optimalité dans les bandits MNL, comblant une lacune théorique importante
  2. Innovations techniques significatives: L'analyse d'auto-concordance améliorée et le lemme de potentiel elliptique ont une valeur indépendante
  3. Valeur pratique élevée: La complexité temporelle constante rend l'algorithme applicable en pratique
  4. Analyse complète: Considération simultanée des récompenses uniformes et non uniformes, fournissant un tableau théorique complet

Insuffisances

  1. Restrictions d'hypothèses: L'hypothèse de paramètres bornés peut être trop restrictive en pratique
  2. Optimisation des constantes: Les facteurs constants dans les bornes théoriques peuvent ne pas être suffisamment serrés
  3. Échelle expérimentale: Les expériences ne sont menées que sur des données synthétiques, manquant de validation sur données réelles

Impact

  1. Valeur académique: Établit une base solide pour la théorie des bandits MNL, avec un nombre de citations attendu élevé
  2. Valeur pratique: Fournit des orientations théoriques pour les applications telles que les systèmes de recommandation et la publicité en ligne
  3. Contribution méthodologique: Les techniques peuvent être généralisées à d'autres problèmes connexes

Scénarios d'Application

  1. Systèmes de recommandation: Recommandation de produits en ligne, recommandation de contenu
  2. Publicité en ligne: Sélection et optimisation du déploiement d'ensembles de publicités
  3. Commerce électronique: Optimisation de l'affichage des produits et des stratégies promotionnelles

Références

L'article cite 52 références connexes, incluant principalement:

  • Travaux fondamentaux sur les bandits MNL: Agrawal et al., Chen et al.
  • Théorie des bandits logistiques: Faury et al., Abeille et al.
  • Fondamentaux de l'apprentissage en ligne: Lattimore & Szepesvári
  • Théorie des fonctions auto-concordantes: Tran-Dinh et al.

Évaluation Générale: Cet article est un travail de haute qualité avec des contributions théoriques exceptionnelles, résolvant avec succès un problème ouvert fondamental dans le domaine des bandits MNL, avec des innovations techniques significatives, une vérification expérimentale suffisante, et un impact important sur les domaines connexes.