In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
Arrepentimiento Casi Minimax Óptimo para Bandido Logístico Multinomial ID del Artículo : 2405.09831Título : Nearly Minimax Optimal Regret for Multinomial Logistic BanditAutores : Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)Clasificación : stat.ML cs.LGFecha de Publicación/Conferencia : NeurIPS 2024 (38ª Conferencia sobre Sistemas de Procesamiento de Información Neural)Enlace del Artículo : https://arxiv.org/abs/2405.09831 Este artículo estudia el problema del bandido logístico multinomial (MNL) contextual, donde un agente de aprendizaje selecciona secuencialmente conjuntos de productos basándose en información contextual, y la retroalimentación del usuario sigue el modelo de elección MNL. Los trabajos existentes presentan una brecha significativa entre los límites inferiores y superiores, particularmente respecto al tamaño máximo del conjunto de productos K. Bajo la configuración de recompensas uniformes, el artículo establece un límite inferior de arrepentimiento Ω(d√T/K) y propone el algoritmo OFU-MNL+ de tiempo constante, logrando un límite superior coincidente Õ(d√T/K). Bajo la configuración de recompensas no uniformes, se demuestra un límite inferior Ω(d√T) y un límite superior Õ(d√T). Este es el primer trabajo que demuestra optimalidad minimax en la literatura de bandidos MNL contextuales.
Problema del Bandido MNL : En aplicaciones como sistemas de recomendación y comercio electrónico en línea, el agente debe proporcionar un conjunto de productos al usuario, cuyo comportamiento de elección sigue el modelo logístico multinomial (MNL)Información Contextual : En cada ronda, el agente puede observar características de productos e información contextual potencial del usuarioVacío Teórico : Los trabajos existentes presentan una brecha significativa entre los límites superiores e inferiores del arrepentimiento, particularmente respecto a la dependencia del tamaño del conjunto de productos KCompletitud Teórica : Cerrar el vacío en el análisis teórico de bandidos MNL, estableciendo límites de arrepentimiento ajustadosEficiencia Algorítmica : Diseñar algoritmos computacionalmente eficientes, evitando la complejidad temporal exponencial de métodos existentesAplicaciones Prácticas : Proporcionar garantías teóricas y algoritmos eficientes para aplicaciones prácticas como sistemas de recomendaciónBrecha Teórica : Existe una brecha de √K entre el límite inferior Ω(d√T/K) y el límite superior Õ(d√T)Complejidad Computacional : Los algoritmos existentes requieren enumerar todos los conjuntos de productos posibles, resultando en complejidad temporal exponencialDependencia de Parámetros : Dependencia desfavorable de constantes relacionadas con el problema κ, donde 1/κ = O(K²)Establecimiento de Límites de Arrepentimiento Ajustados :Bajo recompensas uniformes: límite inferior Ω(√(v₀K/(v₀+K))d√T), límite superior Õ(√(v₀K/(v₀+K))d√T) Bajo recompensas no uniformes: límite inferior Ω(d√T), límite superior Õ(d√T) Propuesta del Algoritmo Eficiente OFU-MNL+ :Complejidad temporal constante O(1), independiente del número de rondas t Primer algoritmo en bandidos MNL que demuestra que el arrepentimiento disminuye con el aumento de K Innovación Teórica :Primera demostración explícita del impacto del parámetro de atracción de opción externa v₀ en el arrepentimiento Límites de arrepentimiento minimax dependientes de la instancia Mejoras Técnicas :Lema de potencial elíptico mejorado, eliminando la dependencia de K Análisis de funciones de pérdida con propiedad de auto-concordancia constante Entrada :
En cada ronda t, se observan vectores de características x_ ∈ ℝᵈ de N productos Tamaño máximo del conjunto de productos K Parámetro de atracción de opción externa v₀ Salida :
Seleccionar conjunto de productos S_t ⊆ {1,...,N}, |S_t| ≤ K Observar elección del usuario c_t ∈ S_t ∪ {0}, siguiendo el modelo MNL Objetivo : Minimizar el arrepentimiento acumulado Reg_T(w*) = Σ_^T R_t(S_t, w ) - R_t(S_t, w*)
La probabilidad de que el usuario elija el producto i ∈ S_t es:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
La probabilidad de la opción externa (no seleccionar ningún producto) es:
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
Estimación de Parámetros en Línea :w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
donde H̃_t = H_t + ηG_t(w_t), siendo G_t(w) la matriz Hessiana de la pérdida MNLConstrucción del Conjunto de Confianza :C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
donde β_t(δ) = O(√(d log t log K))Cálculo de Utilidad Optimista :α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
Selección del Conjunto de Productos :Recompensas uniformes: seleccionar K productos con mayor α_ Recompensas no uniformes: resolver problema de optimización combinatoria en tiempo polinomial Análisis de Auto-Concordancia Mejorado : Se demuestra que la función de pérdida MNL posee propiedad de auto-concordancia 3√2, mejorando el factor √K respecto a trabajos anterioresLema de Potencial Elíptico Independiente de K :Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
Límite de Divergencia KL Ajustado : Se establece un límite superior de divergencia KL más ajustado, mejorando resultados de Chen et al.Conjunto de datos sintético, con parámetro w* ∈ ℝᵈ muestreado uniformemente de -1/√d, 1/√d ᵈ Características contextuales x_ muestreadas de distribución gaussiana multivariada N(0_d, I_d) y truncadas a -1/√d, 1/√d ᵈ Configuración: N=100, K∈{5,10,15}, d=5, T=3000 Arrepentimiento acumulado: Σ_^T R_t(S_t, w ) - R_t(S_t, w*) Tiempo de cálculo por ronda UCB-MNL: método basado en límite superior de confianza TS-MNL: método basado en muestreo de Thompson Parámetro de regularización λ = 84√(2d)η Tamaño de paso η = (1/2)log(K+1) + 2 Radio de confianza β_t(δ) = O(√(d log t log K)) Desempeño de Arrepentimiento :Bajo recompensas uniformes, el arrepentimiento acumulado de todos los algoritmos disminuye con el aumento de K Bajo recompensas no uniformes, el aumento de K no garantiza mejora en el arrepentimiento OFU-MNL+ supera significativamente los métodos de referencia en todas las configuraciones Eficiencia Computacional :OFU-MNL+ mantiene costo computacional constante, independiente del número de rondas t El tiempo de cálculo de métodos de referencia crece linealmente con t El tiempo de ejecución bajo recompensas uniformes es aproximadamente 1/10 del de la configuración no uniforme Los resultados experimentales verifican el análisis teórico:
Cuando v₀ = Θ(1), el arrepentimiento disminuye con K Cuando v₀ = Θ(K), el arrepentimiento es independiente de K Bajo recompensas no uniformes, el arrepentimiento es independiente de K Configuración No Contextual : Agrawal et al. establecen límite inferior Ω(√(NT/K))Configuración Contextual : Chen et al. proponen límite inferior Ω(d√T/K), pero con complejidad algorítmica exponencialEficiencia Computacional : Oh e Iyengar proponen algoritmo de tiempo polinomial, pero con dependencia de 1/κ en el límite de arrepentimientoLos bandidos logísticos binarios ya cuentan con algoritmos óptimos Los bandidos MNL son una extensión de múltiples elecciones de bandidos logísticos Relacionados con bandidos combinatorios top-k pero con estructura de recompensas diferente En el modelo MNL, la recompensa de un producto individual depende del conjunto completo Completitud Teórica : Primera realización de optimalidad minimax en bandidos MNLEficiencia Algorítmica : Propuesta del primer algoritmo óptimo con complejidad temporal constanteImpacto de Parámetros : Cuantificación explícita del impacto de v₀ y K en el arrepentimientoSuposición Acotada : Se requiere ||w*||₂ ≤ 1; relajar esto resultaría en factor exponencial adicional en el límite de arrepentimientoLímites Dependientes de la Instancia : No se pueden establecer límites dependientes de la instancia bajo recompensas no uniformesFactores Constantes : Los factores logarítmicos en los límites teóricos pueden ser grandes en la prácticaRelajación de Suposiciones : Investigar algoritmos óptimos bajo parámetros no acotadosAdaptación a Instancias : Establecer límites dependientes de la instancia para recompensas no uniformesAplicaciones Prácticas : Verificar el desempeño del algoritmo en sistemas de recomendación realesContribución Teórica Significativa : Primera solución del problema de optimalidad en bandidos MNL, cerrando un vacío teórico importanteInnovación Técnica Notable : El análisis de auto-concordancia mejorado y el lema de potencial elíptico tienen valor independienteAlto Valor Práctico : La complejidad temporal constante hace que el algoritmo tenga potencial de aplicación prácticaAnálisis Integral : Consideración simultánea de recompensas uniformes y no uniformes, proporcionando un panorama teórico completoRestricción de Suposiciones : La suposición de parámetros acotados puede ser demasiado restrictiva en la prácticaOptimización de Constantes : Los factores constantes en los límites teóricos pueden no ser suficientemente ajustadosEscala Experimental : Los experimentos se realizan solo en datos sintéticos, careciendo de validación en datos realesValor Académico : Sienta bases sólidas para la teoría de bandidos MNL, con expectativa de alto número de citasValor Práctico : Proporciona orientación teórica para aplicaciones como sistemas de recomendación y publicidad en líneaContribución Metodológica : Las técnicas pueden generalizarse a otros problemas relacionadosSistemas de Recomendación : Recomendación de productos en línea, recomendación de contenidoPublicidad en Línea : Selección de combinaciones de anuncios y optimización de distribuciónComercio Electrónico : Optimización de exhibición de productos y estrategias de promociónEl artículo cita 52 referencias relacionadas, incluyendo principalmente:
Trabajos fundamentales en bandidos MNL: Agrawal et al., Chen et al. Teoría de bandidos logísticos: Faury et al., Abeille et al. Fundamentos de aprendizaje en línea: Lattimore & Szepesvári Teoría de funciones auto-concordantes: Tran-Dinh et al. Evaluación General : Este es un artículo de alta calidad con contribuciones teóricas destacadas, que resuelve exitosamente el problema abierto central en el campo de bandidos MNL, con innovación técnica significativa, verificación experimental suficiente e impacto importante en campos relacionados.