2025-11-15T02:07:10.757818

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Lee, Oh
In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
academic

Arrepentimiento Casi Minimax Óptimo para Bandido Logístico Multinomial

Información Básica

  • ID del Artículo: 2405.09831
  • Título: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
  • Autores: Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)
  • Clasificación: stat.ML cs.LG
  • Fecha de Publicación/Conferencia: NeurIPS 2024 (38ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2405.09831

Resumen

Este artículo estudia el problema del bandido logístico multinomial (MNL) contextual, donde un agente de aprendizaje selecciona secuencialmente conjuntos de productos basándose en información contextual, y la retroalimentación del usuario sigue el modelo de elección MNL. Los trabajos existentes presentan una brecha significativa entre los límites inferiores y superiores, particularmente respecto al tamaño máximo del conjunto de productos K. Bajo la configuración de recompensas uniformes, el artículo establece un límite inferior de arrepentimiento Ω(d√T/K) y propone el algoritmo OFU-MNL+ de tiempo constante, logrando un límite superior coincidente Õ(d√T/K). Bajo la configuración de recompensas no uniformes, se demuestra un límite inferior Ω(d√T) y un límite superior Õ(d√T). Este es el primer trabajo que demuestra optimalidad minimax en la literatura de bandidos MNL contextuales.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Problema del Bandido MNL: En aplicaciones como sistemas de recomendación y comercio electrónico en línea, el agente debe proporcionar un conjunto de productos al usuario, cuyo comportamiento de elección sigue el modelo logístico multinomial (MNL)
  2. Información Contextual: En cada ronda, el agente puede observar características de productos e información contextual potencial del usuario
  3. Vacío Teórico: Los trabajos existentes presentan una brecha significativa entre los límites superiores e inferiores del arrepentimiento, particularmente respecto a la dependencia del tamaño del conjunto de productos K

Motivación de la Investigación

  1. Completitud Teórica: Cerrar el vacío en el análisis teórico de bandidos MNL, estableciendo límites de arrepentimiento ajustados
  2. Eficiencia Algorítmica: Diseñar algoritmos computacionalmente eficientes, evitando la complejidad temporal exponencial de métodos existentes
  3. Aplicaciones Prácticas: Proporcionar garantías teóricas y algoritmos eficientes para aplicaciones prácticas como sistemas de recomendación

Limitaciones de Métodos Existentes

  1. Brecha Teórica: Existe una brecha de √K entre el límite inferior Ω(d√T/K) y el límite superior Õ(d√T)
  2. Complejidad Computacional: Los algoritmos existentes requieren enumerar todos los conjuntos de productos posibles, resultando en complejidad temporal exponencial
  3. Dependencia de Parámetros: Dependencia desfavorable de constantes relacionadas con el problema κ, donde 1/κ = O(K²)

Contribuciones Principales

  1. Establecimiento de Límites de Arrepentimiento Ajustados:
    • Bajo recompensas uniformes: límite inferior Ω(√(v₀K/(v₀+K))d√T), límite superior Õ(√(v₀K/(v₀+K))d√T)
    • Bajo recompensas no uniformes: límite inferior Ω(d√T), límite superior Õ(d√T)
  2. Propuesta del Algoritmo Eficiente OFU-MNL+:
    • Complejidad temporal constante O(1), independiente del número de rondas t
    • Primer algoritmo en bandidos MNL que demuestra que el arrepentimiento disminuye con el aumento de K
  3. Innovación Teórica:
    • Primera demostración explícita del impacto del parámetro de atracción de opción externa v₀ en el arrepentimiento
    • Límites de arrepentimiento minimax dependientes de la instancia
  4. Mejoras Técnicas:
    • Lema de potencial elíptico mejorado, eliminando la dependencia de K
    • Análisis de funciones de pérdida con propiedad de auto-concordancia constante

Explicación Detallada de Métodos

Definición de la Tarea

Entrada:

  • En cada ronda t, se observan vectores de características x_ ∈ ℝᵈ de N productos
  • Tamaño máximo del conjunto de productos K
  • Parámetro de atracción de opción externa v₀

Salida:

  • Seleccionar conjunto de productos S_t ⊆ {1,...,N}, |S_t| ≤ K
  • Observar elección del usuario c_t ∈ S_t ∪ {0}, siguiendo el modelo MNL

Objetivo: Minimizar el arrepentimiento acumulado Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)

Arquitectura del Modelo

Modelo de Elección MNL

La probabilidad de que el usuario elija el producto i ∈ S_t es:

p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

La probabilidad de la opción externa (no seleccionar ningún producto) es:

p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Componentes Principales del Algoritmo OFU-MNL+

  1. Estimación de Parámetros en Línea:
    w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
    

    donde H̃_t = H_t + ηG_t(w_t), siendo G_t(w) la matriz Hessiana de la pérdida MNL
  2. Construcción del Conjunto de Confianza:
    C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
    

    donde β_t(δ) = O(√(d log t log K))
  3. Cálculo de Utilidad Optimista:
    α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
    
  4. Selección del Conjunto de Productos:
    • Recompensas uniformes: seleccionar K productos con mayor α_
    • Recompensas no uniformes: resolver problema de optimización combinatoria en tiempo polinomial

Puntos de Innovación Técnica

  1. Análisis de Auto-Concordancia Mejorado: Se demuestra que la función de pérdida MNL posee propiedad de auto-concordancia 3√2, mejorando el factor √K respecto a trabajos anteriores
  2. Lema de Potencial Elíptico Independiente de K:
    Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
    
  3. Límite de Divergencia KL Ajustado: Se establece un límite superior de divergencia KL más ajustado, mejorando resultados de Chen et al.

Configuración Experimental

Conjuntos de Datos

  • Conjunto de datos sintético, con parámetro w* ∈ ℝᵈ muestreado uniformemente de -1/√d, 1/√d
  • Características contextuales x_ muestreadas de distribución gaussiana multivariada N(0_d, I_d) y truncadas a -1/√d, 1/√d
  • Configuración: N=100, K∈{5,10,15}, d=5, T=3000

Métricas de Evaluación

  • Arrepentimiento acumulado: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
  • Tiempo de cálculo por ronda

Métodos de Comparación

  • UCB-MNL: método basado en límite superior de confianza
  • TS-MNL: método basado en muestreo de Thompson

Detalles de Implementación

  • Parámetro de regularización λ = 84√(2d)η
  • Tamaño de paso η = (1/2)log(K+1) + 2
  • Radio de confianza β_t(δ) = O(√(d log t log K))

Resultados Experimentales

Resultados Principales

  1. Desempeño de Arrepentimiento:
    • Bajo recompensas uniformes, el arrepentimiento acumulado de todos los algoritmos disminuye con el aumento de K
    • Bajo recompensas no uniformes, el aumento de K no garantiza mejora en el arrepentimiento
    • OFU-MNL+ supera significativamente los métodos de referencia en todas las configuraciones
  2. Eficiencia Computacional:
    • OFU-MNL+ mantiene costo computacional constante, independiente del número de rondas t
    • El tiempo de cálculo de métodos de referencia crece linealmente con t
    • El tiempo de ejecución bajo recompensas uniformes es aproximadamente 1/10 del de la configuración no uniforme

Verificación Teórica

Los resultados experimentales verifican el análisis teórico:

  • Cuando v₀ = Θ(1), el arrepentimiento disminuye con K
  • Cuando v₀ = Θ(K), el arrepentimiento es independiente de K
  • Bajo recompensas no uniformes, el arrepentimiento es independiente de K

Trabajo Relacionado

Investigación en Bandidos MNL

  1. Configuración No Contextual: Agrawal et al. establecen límite inferior Ω(√(NT/K))
  2. Configuración Contextual: Chen et al. proponen límite inferior Ω(d√T/K), pero con complejidad algorítmica exponencial
  3. Eficiencia Computacional: Oh e Iyengar proponen algoritmo de tiempo polinomial, pero con dependencia de 1/κ en el límite de arrepentimiento

Bandidos Logísticos

  • Los bandidos logísticos binarios ya cuentan con algoritmos óptimos
  • Los bandidos MNL son una extensión de múltiples elecciones de bandidos logísticos

Bandidos Combinatorios

  • Relacionados con bandidos combinatorios top-k pero con estructura de recompensas diferente
  • En el modelo MNL, la recompensa de un producto individual depende del conjunto completo

Conclusiones y Discusión

Conclusiones Principales

  1. Completitud Teórica: Primera realización de optimalidad minimax en bandidos MNL
  2. Eficiencia Algorítmica: Propuesta del primer algoritmo óptimo con complejidad temporal constante
  3. Impacto de Parámetros: Cuantificación explícita del impacto de v₀ y K en el arrepentimiento

Limitaciones

  1. Suposición Acotada: Se requiere ||w*||₂ ≤ 1; relajar esto resultaría en factor exponencial adicional en el límite de arrepentimiento
  2. Límites Dependientes de la Instancia: No se pueden establecer límites dependientes de la instancia bajo recompensas no uniformes
  3. Factores Constantes: Los factores logarítmicos en los límites teóricos pueden ser grandes en la práctica

Direcciones Futuras

  1. Relajación de Suposiciones: Investigar algoritmos óptimos bajo parámetros no acotados
  2. Adaptación a Instancias: Establecer límites dependientes de la instancia para recompensas no uniformes
  3. Aplicaciones Prácticas: Verificar el desempeño del algoritmo en sistemas de recomendación reales

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Primera solución del problema de optimalidad en bandidos MNL, cerrando un vacío teórico importante
  2. Innovación Técnica Notable: El análisis de auto-concordancia mejorado y el lema de potencial elíptico tienen valor independiente
  3. Alto Valor Práctico: La complejidad temporal constante hace que el algoritmo tenga potencial de aplicación práctica
  4. Análisis Integral: Consideración simultánea de recompensas uniformes y no uniformes, proporcionando un panorama teórico completo

Insuficiencias

  1. Restricción de Suposiciones: La suposición de parámetros acotados puede ser demasiado restrictiva en la práctica
  2. Optimización de Constantes: Los factores constantes en los límites teóricos pueden no ser suficientemente ajustados
  3. Escala Experimental: Los experimentos se realizan solo en datos sintéticos, careciendo de validación en datos reales

Impacto

  1. Valor Académico: Sienta bases sólidas para la teoría de bandidos MNL, con expectativa de alto número de citas
  2. Valor Práctico: Proporciona orientación teórica para aplicaciones como sistemas de recomendación y publicidad en línea
  3. Contribución Metodológica: Las técnicas pueden generalizarse a otros problemas relacionados

Escenarios de Aplicación

  1. Sistemas de Recomendación: Recomendación de productos en línea, recomendación de contenido
  2. Publicidad en Línea: Selección de combinaciones de anuncios y optimización de distribución
  3. Comercio Electrónico: Optimización de exhibición de productos y estrategias de promoción

Referencias

El artículo cita 52 referencias relacionadas, incluyendo principalmente:

  • Trabajos fundamentales en bandidos MNL: Agrawal et al., Chen et al.
  • Teoría de bandidos logísticos: Faury et al., Abeille et al.
  • Fundamentos de aprendizaje en línea: Lattimore & Szepesvári
  • Teoría de funciones auto-concordantes: Tran-Dinh et al.

Evaluación General: Este es un artículo de alta calidad con contribuciones teóricas destacadas, que resuelve exitosamente el problema abierto central en el campo de bandidos MNL, con innovación técnica significativa, verificación experimental suficiente e impacto importante en campos relacionados.