2025-11-15T02:07:10.757818

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Lee, Oh

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Î©(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Î©(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.

academic

Arrepentimiento Casi Minimax Óptimo para Bandido Logístico Multinomial

Información Básica

ID del Artículo: 2405.09831
Título: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
Autores: Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)
Clasificación: stat.ML cs.LG
Fecha de Publicación/Conferencia: NeurIPS 2024 (38ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2405.09831

Resumen

Este artículo estudia el problema del bandido logístico multinomial (MNL) contextual, donde un agente de aprendizaje selecciona secuencialmente conjuntos de productos basándose en información contextual, y la retroalimentación del usuario sigue el modelo de elección MNL. Los trabajos existentes presentan una brecha significativa entre los límites inferiores y superiores, particularmente respecto al tamaño máximo del conjunto de productos K. Bajo la configuración de recompensas uniformes, el artículo establece un límite inferior de arrepentimiento Ω(d√T/K) y propone el algoritmo OFU-MNL+ de tiempo constante, logrando un límite superior coincidente Õ(d√T/K). Bajo la configuración de recompensas no uniformes, se demuestra un límite inferior Ω(d√T) y un límite superior Õ(d√T). Este es el primer trabajo que demuestra optimalidad minimax en la literatura de bandidos MNL contextuales.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Problema del Bandido MNL: En aplicaciones como sistemas de recomendación y comercio electrónico en línea, el agente debe proporcionar un conjunto de productos al usuario, cuyo comportamiento de elección sigue el modelo logístico multinomial (MNL)
Información Contextual: En cada ronda, el agente puede observar características de productos e información contextual potencial del usuario
Vacío Teórico: Los trabajos existentes presentan una brecha significativa entre los límites superiores e inferiores del arrepentimiento, particularmente respecto a la dependencia del tamaño del conjunto de productos K

Motivación de la Investigación

Completitud Teórica: Cerrar el vacío en el análisis teórico de bandidos MNL, estableciendo límites de arrepentimiento ajustados
Eficiencia Algorítmica: Diseñar algoritmos computacionalmente eficientes, evitando la complejidad temporal exponencial de métodos existentes
Aplicaciones Prácticas: Proporcionar garantías teóricas y algoritmos eficientes para aplicaciones prácticas como sistemas de recomendación

Limitaciones de Métodos Existentes

Brecha Teórica: Existe una brecha de √K entre el límite inferior Ω(d√T/K) y el límite superior Õ(d√T)
Complejidad Computacional: Los algoritmos existentes requieren enumerar todos los conjuntos de productos posibles, resultando en complejidad temporal exponencial
Dependencia de Parámetros: Dependencia desfavorable de constantes relacionadas con el problema κ, donde 1/κ = O(K²)

Contribuciones Principales

Establecimiento de Límites de Arrepentimiento Ajustados:
- Bajo recompensas uniformes: límite inferior Ω(√(v₀K/(v₀+K))d√T), límite superior Õ(√(v₀K/(v₀+K))d√T)
- Bajo recompensas no uniformes: límite inferior Ω(d√T), límite superior Õ(d√T)
Propuesta del Algoritmo Eficiente OFU-MNL+:
- Complejidad temporal constante O(1), independiente del número de rondas t
- Primer algoritmo en bandidos MNL que demuestra que el arrepentimiento disminuye con el aumento de K
Innovación Teórica:
- Primera demostración explícita del impacto del parámetro de atracción de opción externa v₀ en el arrepentimiento
- Límites de arrepentimiento minimax dependientes de la instancia
Mejoras Técnicas:
- Lema de potencial elíptico mejorado, eliminando la dependencia de K
- Análisis de funciones de pérdida con propiedad de auto-concordancia constante

Explicación Detallada de Métodos

Definición de la Tarea

Entrada:

En cada ronda t, se observan vectores de características x_ ∈ ℝᵈ de N productos
Tamaño máximo del conjunto de productos K
Parámetro de atracción de opción externa v₀

Salida:

Seleccionar conjunto de productos S_t ⊆ {1,...,N}, |S_t| ≤ K
Observar elección del usuario c_t ∈ S_t ∪ {0}, siguiendo el modelo MNL

Objetivo: Minimizar el arrepentimiento acumulado Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)

Arquitectura del Modelo

Modelo de Elección MNL

La probabilidad de que el usuario elija el producto i ∈ S_t es:

p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

La probabilidad de la opción externa (no seleccionar ningún producto) es:

p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Componentes Principales del Algoritmo OFU-MNL+

Estimación de Parámetros en Línea:
```
w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
```
donde H̃_t = H_t + ηG_t(w_t), siendo G_t(w) la matriz Hessiana de la pérdida MNL
Construcción del Conjunto de Confianza:
```
C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
```
donde β_t(δ) = O(√(d log t log K))

Cálculo de Utilidad Optimista:

α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}

Selección del Conjunto de Productos:
- Recompensas uniformes: seleccionar K productos con mayor α_
- Recompensas no uniformes: resolver problema de optimización combinatoria en tiempo polinomial

Puntos de Innovación Técnica

Análisis de Auto-Concordancia Mejorado: Se demuestra que la función de pérdida MNL posee propiedad de auto-concordancia 3√2, mejorando el factor √K respecto a trabajos anteriores

Lema de Potencial Elíptico Independiente de K:

Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))

Límite de Divergencia KL Ajustado: Se establece un límite superior de divergencia KL más ajustado, mejorando resultados de Chen et al.

Configuración Experimental

Conjuntos de Datos

Conjunto de datos sintético, con parámetro w* ∈ ℝᵈ muestreado uniformemente de -1/√d, 1/√dᵈ
Características contextuales x_ muestreadas de distribución gaussiana multivariada N(0_d, I_d) y truncadas a -1/√d, 1/√dᵈ
Configuración: N=100, K∈{5,10,15}, d=5, T=3000

Métricas de Evaluación

Arrepentimiento acumulado: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
Tiempo de cálculo por ronda

Métodos de Comparación

UCB-MNL: método basado en límite superior de confianza
TS-MNL: método basado en muestreo de Thompson

Detalles de Implementación

Parámetro de regularización λ = 84√(2d)η
Tamaño de paso η = (1/2)log(K+1) + 2
Radio de confianza β_t(δ) = O(√(d log t log K))

Resultados Experimentales

Resultados Principales

Desempeño de Arrepentimiento:
- Bajo recompensas uniformes, el arrepentimiento acumulado de todos los algoritmos disminuye con el aumento de K
- Bajo recompensas no uniformes, el aumento de K no garantiza mejora en el arrepentimiento
- OFU-MNL+ supera significativamente los métodos de referencia en todas las configuraciones
Eficiencia Computacional:
- OFU-MNL+ mantiene costo computacional constante, independiente del número de rondas t
- El tiempo de cálculo de métodos de referencia crece linealmente con t
- El tiempo de ejecución bajo recompensas uniformes es aproximadamente 1/10 del de la configuración no uniforme

Verificación Teórica

Los resultados experimentales verifican el análisis teórico:

Cuando v₀ = Θ(1), el arrepentimiento disminuye con K
Cuando v₀ = Θ(K), el arrepentimiento es independiente de K
Bajo recompensas no uniformes, el arrepentimiento es independiente de K

Trabajo Relacionado

Investigación en Bandidos MNL

Configuración No Contextual: Agrawal et al. establecen límite inferior Ω(√(NT/K))
Configuración Contextual: Chen et al. proponen límite inferior Ω(d√T/K), pero con complejidad algorítmica exponencial
Eficiencia Computacional: Oh e Iyengar proponen algoritmo de tiempo polinomial, pero con dependencia de 1/κ en el límite de arrepentimiento

Bandidos Logísticos

Los bandidos logísticos binarios ya cuentan con algoritmos óptimos
Los bandidos MNL son una extensión de múltiples elecciones de bandidos logísticos

Bandidos Combinatorios

Relacionados con bandidos combinatorios top-k pero con estructura de recompensas diferente
En el modelo MNL, la recompensa de un producto individual depende del conjunto completo

Conclusiones y Discusión

Conclusiones Principales

Completitud Teórica: Primera realización de optimalidad minimax en bandidos MNL
Eficiencia Algorítmica: Propuesta del primer algoritmo óptimo con complejidad temporal constante
Impacto de Parámetros: Cuantificación explícita del impacto de v₀ y K en el arrepentimiento

Limitaciones

Suposición Acotada: Se requiere ||w*||₂ ≤ 1; relajar esto resultaría en factor exponencial adicional en el límite de arrepentimiento
Límites Dependientes de la Instancia: No se pueden establecer límites dependientes de la instancia bajo recompensas no uniformes
Factores Constantes: Los factores logarítmicos en los límites teóricos pueden ser grandes en la práctica

Direcciones Futuras

Relajación de Suposiciones: Investigar algoritmos óptimos bajo parámetros no acotados
Adaptación a Instancias: Establecer límites dependientes de la instancia para recompensas no uniformes
Aplicaciones Prácticas: Verificar el desempeño del algoritmo en sistemas de recomendación reales

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Primera solución del problema de optimalidad en bandidos MNL, cerrando un vacío teórico importante
Innovación Técnica Notable: El análisis de auto-concordancia mejorado y el lema de potencial elíptico tienen valor independiente
Alto Valor Práctico: La complejidad temporal constante hace que el algoritmo tenga potencial de aplicación práctica
Análisis Integral: Consideración simultánea de recompensas uniformes y no uniformes, proporcionando un panorama teórico completo

Insuficiencias

Restricción de Suposiciones: La suposición de parámetros acotados puede ser demasiado restrictiva en la práctica
Optimización de Constantes: Los factores constantes en los límites teóricos pueden no ser suficientemente ajustados
Escala Experimental: Los experimentos se realizan solo en datos sintéticos, careciendo de validación en datos reales

Impacto

Valor Académico: Sienta bases sólidas para la teoría de bandidos MNL, con expectativa de alto número de citas
Valor Práctico: Proporciona orientación teórica para aplicaciones como sistemas de recomendación y publicidad en línea
Contribución Metodológica: Las técnicas pueden generalizarse a otros problemas relacionados

Escenarios de Aplicación

Sistemas de Recomendación: Recomendación de productos en línea, recomendación de contenido
Publicidad en Línea: Selección de combinaciones de anuncios y optimización de distribución
Comercio Electrónico: Optimización de exhibición de productos y estrategias de promoción

Referencias

El artículo cita 52 referencias relacionadas, incluyendo principalmente:

Trabajos fundamentales en bandidos MNL: Agrawal et al., Chen et al.
Teoría de bandidos logísticos: Faury et al., Abeille et al.
Fundamentos de aprendizaje en línea: Lattimore & Szepesvári
Teoría de funciones auto-concordantes: Tran-Dinh et al.

Evaluación General: Este es un artículo de alta calidad con contribuciones teóricas destacadas, que resuelve exitosamente el problema abierto central en el campo de bandidos MNL, con innovación técnica significativa, verificación experimental suficiente e impacto importante en campos relacionados.