In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget.
We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^α)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$.
To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.
- ID del Artículo: 2510.22654
- Título: Algoritmo de Tipo UCB para Aprendizaje de Expertos con Restricción de Presupuesto
- Autores: Ilgam Latypov, Alexandra Suvorikova, Alexey Kroshnin, Alexander Gasnikov, Yuriy Dorn
- Clasificación: cs.LG (Aprendizaje Automático), cs.MA (Sistemas Multiagente)
- Fecha de Publicación: 28 de octubre de 2025 (Preimpresión)
- Enlace del Artículo: https://arxiv.org/abs/2510.22654
En muchas aplicaciones modernas, los sistemas deben seleccionar dinámicamente entre múltiples algoritmos de aprendizaje adaptativo entrenados en línea. Por ejemplo, la selección de modelos en entornos de flujo, el cambio de estrategias comerciales en finanzas, y la coordinación de múltiples máquinas tragamonedas contextuales o agentes de aprendizaje por refuerzo. En cada ronda, el aprendiz debe elegir un predictor de K expertos adaptativos para hacer predicciones, mientras que bajo un presupuesto de entrenamiento fijo puede actualizar como máximo M ≤ K expertos.
Este artículo resuelve este problema en el contexto estocástico, proponiendo el algoritmo M-LCB, un metaalgoritmo de tipo UCB computacionalmente eficiente que proporciona garantías de arrepentimiento en cualquier momento. Sus intervalos de confianza se construyen directamente a partir de las pérdidas realizadas, sin optimización adicional, y reflejan sin problemas las características de convergencia de los expertos subyacentes. Si cada experto logra un arrepentimiento interno de Õ(T^α), entonces M-LCB asegura un límite de arrepentimiento total de Õ(√(KT/M) + (K/M)^(1-α)T^α).
Muchas aplicaciones del mundo real requieren selección dinámica entre múltiples expertos que se auto-entrenan:
- Sistemas de Recomendación: Ejecución paralela de múltiples predictores, actualización basada en retroalimentación del usuario
- Plataformas Financieras: Cambio entre estrategias comerciales a medida que evolucionan los mecanismos de mercado
- Servicios en Línea a Gran Escala: Gestión de combinaciones de máquinas tragamonedas contextuales o algoritmos de aprendizaje por refuerzo
Limitaciones de los métodos tradicionales:
- Máquinas Tragamonedas Multibrazo Clásicas (MAB): Asumen distribuciones de recompensa estáticas u hostiles, sin considerar la capacidad de aprendizaje de los brazos
- Algoritmos de Expertos: Típicamente requieren retroalimentación completa, sin considerar las tasas de aprendizaje de los expertos
- Métodos Existentes: Ninguno aborda adecuadamente el desafío de gestionar múltiples expertos que aprenden simultáneamente bajo restricciones de presupuesto de entrenamiento por ronda
Este artículo tiene como objetivo cerrar esta brecha, proponiendo un procedimiento unificado de predicción y entrenamiento selectivo, considerando restricciones de presupuesto computacional fijo por ronda.
- Nuevo Metaalgoritmo de Tipo UCB (M-LCB): Propone un nuevo algoritmo para gestionar un conjunto de K expertos que se auto-entrenan, considerando un presupuesto de aprendizaje limitado por ronda M (M ≤ K)
- Eficiencia Computacional: Proporciona un método para construir límites de confianza directamente a partir de pérdidas realizadas, computacionalmente eficiente y evitando optimización auxiliar costosa
- Análisis Teórico: Estima el rendimiento del metaalgoritmo basado en tasas de convergencia individuales de expertos; cuando el arrepentimiento del experto es Õ(n^α), el arrepentimiento total es Õ(√(KT/M) + (K/M)^(1-α)T^α)
- Extensión a Máquinas Tragamonedas Multibrazo: Demuestra que M-LCB es extensible a configuraciones de máquinas tragamonedas multibrazo
- Espacio de Decisión U: Espacio de recomendaciones de expertos
- Espacio Ambiental E: Espacio de resultados aleatorios
- Función de Pérdida: ℓ : U×E → R₊
- Especificación de Expertos: Cada experto k se especifica mediante la tupla (Wₖ,Hₖ,Aₖ,gₖ,υₖ)
- Wₖ: Espacio de estado/parámetros
- Hₖ: Espacio de historial
- Aₖ: Algoritmo de aprendizaje en línea
- gₖ: Mapeo de estado a recomendación
- υₖ: Generador de recomendación segura
Flujo de ejecución en cada ronda t:
- El metaprograma selecciona un asesor iₜ ∈ K y un subconjunto de entrenamiento Sₜ ⊆ K, satisfaciendo |Sₜ| ≤ M e iₜ ∈ Sₜ
- El experto iₜ proporciona una recomendación segura uₜ = υᵢₜ(Hᵢₜᵗ) ∈ U
- El ambiente muestrea ξᵗ ~ D, el programa incurre en pérdida ℓ(uₜ,ξᵗ)
- Los expertos k ∈ Sₜ actualizan su historial y estado interno
Para el experto k, se define:
- Pérdida de Ejecución Normalizada: LAₖ(t) = (1/nₖᵗ)∑_{τ∈Iₖ(t)} ℓₖᵗ(wₖᵗ)
- Límite Inferior de Confianza: LCBₖ(t,δ) = LAₖ(t) - Uₖ(nₖᵗ,δₐᵣₘ)/nₖᵗ - G(nₖᵗ,δₙᵗ)
- Límite Superior de Confianza: UCBₖ(t,δ) = LAₖ(t) + H(nₖᵗ,δₙᵗ)
Donde:
- δₐᵣₘ = δ/(2K), δₙ = δ/(7Kn²)
- G(n,δ) = √(2log(1/δ)/n) + 2log(1/δ)/(3n)
- H(n,δ) = √(2log(1/δ)/n)
- Selección de Conjunto de Entrenamiento: Sₜ := argmin_{S⊆K,|S|≤M} ∑_{k∈S} LCBₖ(t,δ)
- Selección de Asesor: iₜ := argmin_{k∈Sₜ} UCBₖ(t,δ)
- Construcción Directa de Intervalos de Confianza: Construidos directamente a partir de pérdidas realizadas, sin optimización adicional
- Gestión Adaptativa de Expertos: Considera simultáneamente la selección de expertos y la asignación de presupuesto de entrenamiento
- Garantías en Cualquier Momento: Proporciona límites de arrepentimiento para todos los pasos de tiempo T
- Marco Flexible: Soporta diferentes tipos de algoritmos de aprendizaje como expertos
El artículo realiza principalmente experimentos sintéticos:
- Número de Expertos: K = 10 modelos lineales generalizados
- Dimensión de Características: Vectores de características muestreados uniformemente de la esfera unitaria Sᵈ⁻¹
- Configuración Desafiante: Las funciones f₇, f₈, f₉ son altamente similares en regiones densas de datos, aumentando la dificultad de exploración
- Pérdida Acumulada: ∑ᵗ₌₁ᵀ ℓ(uᵗ,ξᵗ)
- Distribución de Selección de Brazos: Frecuencia final de selección de cada experto
- Asignación de Presupuesto Computacional: Distribución de número de entrenamientos para cada experto
- ED2RB: Algoritmo con garantías de brazos aprendibles
- LimitedAdvice: Algoritmo de expertos que puede manejar actualizaciones multibrazo por ronda
- Límite de Actualizaciones: M ∈ {1,2,3}
- Número de Repeticiones: 30 ejecuciones independientes para promediar
- Intervalos de Confianza: Mostrar ±0.5 desviación estándar
- Ajuste de Hiperparámetros: Parámetro de exploración ED2RB c = 0.1, escala del término de concentración M-FLCB 0.3
- Rendimiento de Convergencia: M-LCB logra arrepentimiento sublineal, competitivo con métodos de referencia
- Identificación de Expertos: Identifica exitosamente el experto óptimo (k = 9)
- Eficiencia de Presupuesto: Asigna principalmente actualizaciones a expertos de mejor desempeño, mientras que LimitedAdvice asigna más uniformemente
Teorema 2: Sean α, δ ∈ (0,1), asuma que cada experto k satisface Uₖ(t,δ) = O(t^α c(δ)), entonces con probabilidad al menos 1-δ, el arrepentimiento del Algoritmo 1 está acotado para todo T ≥ 1:
Reg(T) = O(√(KT/M)log(KT/δ) + (K/M)^(1-α)T^α c(δ))
Teorema 1: Existen constantes c₁, c₂ > 0 tales que para cualquier algoritmo de aprendizaje y metaprograma:
sup EReg(T) ≥ c₁√(KT/M) + c₂T^α(K/M)^(1-α)
Esto demuestra que M-LCB es óptimo dentro de factores logarítmicos.
- 6: Introduce brazos que se auto-entrenan en configuración MAB, donde cada brazo es una función parametrizada que se actualiza cuando se selecciona
- CORRAL8: Gestiona un conjunto de algoritmos de máquinas tragamonedas mediante descenso de espejo en línea con barrera logarítmica y retroalimentación ponderada por importancia
- Equilibrio Dinámico9: Metaalgoritmo basado en expresiones de tasa de arrepentimiento conocidas, actualiza solo un aprendiz por ronda
- 10: Estima en línea coeficientes por aprendiz, obteniendo garantías de alta probabilidad dependientes de datos para máquinas tragamonedas estocásticas
- Consejo Limitado12: Consulta como máximo M brazos, obtiene límite de arrepentimiento Õ(√(KT logK/M))
- 13: Arrepentimiento minimax óptimo Õ(max{√(KT/M), √(T logK)})
- Establece por primera vez garantías de arrepentimiento para múltiples expertos adaptativos entrenados simultáneamente bajo restricciones de presupuesto por ronda
- El algoritmo M-LCB es minimax óptimo dentro de factores logarítmicos
- El marco unifica configuraciones de optimización en línea y máquinas tragamonedas estocásticas
- Escala de Confianza Conocida: El análisis asume que la función de escala de confianza c(δ) es conocida
- Supuesto de Pérdida Acotada: Se enfoca principalmente en casos de pérdida acotada
- Configuración Estocástica: El análisis es principalmente en entornos estocásticos; la configuración adversarial requiere investigación adicional
- Caso de c(δ) Desconocido: Como en el tratamiento de Pacchiano et al.11
- Extensión con Observaciones Adicionales: Extensión a máquinas tragamonedas de consejo limitado y multibrazo
- Régimen Contextual: Extensión a casos donde los expertos se especializan basándose en características de observación
- Contribución Teórica Significativa: Proporciona por primera vez garantías teóricas para aprendizaje multiexperto bajo restricciones de presupuesto
- Diseño de Algoritmo Elegante: Los intervalos de confianza se construyen directamente a partir de pérdidas, computacionalmente eficiente
- Marco Altamente General: Aplicable a múltiples tipos de expertos (modelos parametrizados, algoritmos de máquinas tragamonedas, etc.)
- Análisis Teórico Riguroso: Proporciona límites superior e inferior coincidentes, demostrando optimalidad del algoritmo
- Validación Experimental Limitada: Principalmente experimentos sintéticos, carece de validación en escenarios de aplicación real
- Supuestos Relativamente Fuertes: Requiere conocimiento de la forma del límite de arrepentimiento del experto
- Análisis de Factores Constantes: Los factores constantes en resultados teóricos pueden ser grandes, requiere verificación de rendimiento práctico
- Alto Valor Teórico: Proporciona fundamentos teóricos para aprendizaje de expertos bajo restricciones de presupuesto
- Gran Potencial Práctico: Aplicable a sistemas de recomendación, comercio financiero y otros campos que requieren cambio de estrategia
- Fuerte Escalabilidad: El marco es extensible a escenarios de aprendizaje más complejos
- Selección de Modelos en Línea: Selección dinámica de modelos en entornos de datos de flujo
- Sistemas Multiestrategia: Escenarios como comercio financiero e inversión publicitaria que requieren cambio de estrategia
- Aprendizaje con Recursos Limitados: Coordinación multimodelo cuando los recursos computacionales son limitados
Este artículo cita literatura importante en máquinas tragamonedas multibrazo, aprendizaje en línea, algoritmos de expertos y otros campos, particularmente:
- Algoritmo UCB clásico de Auer et al.1
- Teoría de algoritmos de expertos de Cesa-Bianchi y Lugosi4
- Optimización convexa en línea de Hazan5
- Algoritmos de metaaprendizaje modernos como CORRAL8
Evaluación General: Este es un artículo teórico de alta calidad que realiza contribuciones significativas a un problema importante pero previamente insuficientemente estudiado: aprendizaje de expertos bajo restricciones de presupuesto. El diseño del algoritmo es ingenioso, el análisis teórico es riguroso, y sienta una base sólida para el desarrollo futuro del campo.