Cet article étudie le problème du bandit logistique multinomial (MNL) contextuel, où un agent d'apprentissage sélectionne séquentiellement des ensembles de produits en fonction d'informations contextuelles, et les retours des utilisateurs suivent un modèle de choix MNL. Les travaux existants présentent un écart significatif entre les bornes inférieures et supérieures, particulièrement concernant la taille maximale de l'ensemble de produits K. Dans le cadre de récompenses uniformes, cet article établit une borne inférieure de regret Ω(d√T/K) et propose l'algorithme OFU-MNL+ en temps constant, réalisant une borne supérieure correspondante Õ(d√T/K). Dans le cadre de récompenses non uniformes, une borne inférieure Ω(d√T) et une borne supérieure Õ(d√T) sont prouvées. Il s'agit du premier travail prouvant l'optimalité minimax dans la littérature sur les bandits MNL contextuels.
Problème du bandit MNL: Dans les applications telles que les systèmes de recommandation et la vente au détail en ligne, l'agent doit présenter à l'utilisateur un ensemble de produits, dont le comportement de sélection suit un modèle logistique multinomial (MNL)
Information contextuelle: À chaque tour, l'agent peut observer les caractéristiques des produits et les informations contextuelles potentielles de l'utilisateur
Lacune théorique: Les travaux existants présentent un écart significatif entre les bornes supérieures et inférieures du regret, particulièrement concernant la dépendance à la taille de l'ensemble K
Complétude théorique: Combler les lacunes dans l'analyse théorique des bandits MNL et établir des bornes de regret serrées
Efficacité algorithmique: Concevoir des algorithmes efficaces en termes de calcul, évitant la complexité temporelle exponentielle des méthodes existantes
Applications pratiques: Fournir des garanties théoriques et des algorithmes efficaces pour les applications pratiques telles que les systèmes de recommandation
Écart théorique: Un écart de √K existe entre la borne inférieure Ω(d√T/K) et la borne supérieure Õ(d√T)
Complexité computationnelle: Les algorithmes existants nécessitent d'énumérer tous les ensembles de produits possibles, entraînant une complexité temporelle exponentielle
Dépendance aux paramètres: Mauvaise dépendance aux constantes liées au problème κ, où 1/κ = O(K²)
Analyse d'auto-concordance améliorée: Preuve que la fonction de perte MNL possède une propriété d'auto-concordance 3√2, améliorant le résultat précédent de √(6K) par un facteur √K
Travaux fondamentaux sur les bandits MNL: Agrawal et al., Chen et al.
Théorie des bandits logistiques: Faury et al., Abeille et al.
Fondamentaux de l'apprentissage en ligne: Lattimore & Szepesvári
Théorie des fonctions auto-concordantes: Tran-Dinh et al.
Évaluation Générale: Cet article est un travail de haute qualité avec des contributions théoriques exceptionnelles, résolvant avec succès un problème ouvert fondamental dans le domaine des bandits MNL, avec des innovations techniques significatives, une vérification expérimentale suffisante, et un impact important sur les domaines connexes.