2025-11-11T09:55:09.434704

UCB-type Algorithm for Budget-Constrained Expert Learning

Latypov, Suvorikova, Kroshnin et al.

In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget. We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^Î±)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-Î±}\,T^Î±\Bigr)$. To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.

academic

Algoritmo de Tipo UCB para Aprendizaje de Expertos con Restricción de Presupuesto

Información Básica

ID del Artículo: 2510.22654
Título: Algoritmo de Tipo UCB para Aprendizaje de Expertos con Restricción de Presupuesto
Autores: Ilgam Latypov, Alexandra Suvorikova, Alexey Kroshnin, Alexander Gasnikov, Yuriy Dorn
Clasificación: cs.LG (Aprendizaje Automático), cs.MA (Sistemas Multiagente)
Fecha de Publicación: 28 de octubre de 2025 (Preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.22654

Resumen

En muchas aplicaciones modernas, los sistemas deben seleccionar dinámicamente entre múltiples algoritmos de aprendizaje adaptativo entrenados en línea. Por ejemplo, la selección de modelos en entornos de flujo, el cambio de estrategias comerciales en finanzas, y la coordinación de múltiples máquinas tragamonedas contextuales o agentes de aprendizaje por refuerzo. En cada ronda, el aprendiz debe elegir un predictor de K expertos adaptativos para hacer predicciones, mientras que bajo un presupuesto de entrenamiento fijo puede actualizar como máximo M ≤ K expertos.

Este artículo resuelve este problema en el contexto estocástico, proponiendo el algoritmo M-LCB, un metaalgoritmo de tipo UCB computacionalmente eficiente que proporciona garantías de arrepentimiento en cualquier momento. Sus intervalos de confianza se construyen directamente a partir de las pérdidas realizadas, sin optimización adicional, y reflejan sin problemas las características de convergencia de los expertos subyacentes. Si cada experto logra un arrepentimiento interno de Õ(T^α), entonces M-LCB asegura un límite de arrepentimiento total de Õ(√(KT/M) + (K/M)^(1-α)T^α).

Antecedentes de Investigación y Motivación

Definición del Problema

Muchas aplicaciones del mundo real requieren selección dinámica entre múltiples expertos que se auto-entrenan:

Sistemas de Recomendación: Ejecución paralela de múltiples predictores, actualización basada en retroalimentación del usuario
Plataformas Financieras: Cambio entre estrategias comerciales a medida que evolucionan los mecanismos de mercado
Servicios en Línea a Gran Escala: Gestión de combinaciones de máquinas tragamonedas contextuales o algoritmos de aprendizaje por refuerzo

Desafíos Centrales

Limitaciones de los métodos tradicionales:

Máquinas Tragamonedas Multibrazo Clásicas (MAB): Asumen distribuciones de recompensa estáticas u hostiles, sin considerar la capacidad de aprendizaje de los brazos
Algoritmos de Expertos: Típicamente requieren retroalimentación completa, sin considerar las tasas de aprendizaje de los expertos
Métodos Existentes: Ninguno aborda adecuadamente el desafío de gestionar múltiples expertos que aprenden simultáneamente bajo restricciones de presupuesto de entrenamiento por ronda

Motivación de la Investigación

Este artículo tiene como objetivo cerrar esta brecha, proponiendo un procedimiento unificado de predicción y entrenamiento selectivo, considerando restricciones de presupuesto computacional fijo por ronda.

Contribuciones Principales

Nuevo Metaalgoritmo de Tipo UCB (M-LCB): Propone un nuevo algoritmo para gestionar un conjunto de K expertos que se auto-entrenan, considerando un presupuesto de aprendizaje limitado por ronda M (M ≤ K)
Eficiencia Computacional: Proporciona un método para construir límites de confianza directamente a partir de pérdidas realizadas, computacionalmente eficiente y evitando optimización auxiliar costosa
Análisis Teórico: Estima el rendimiento del metaalgoritmo basado en tasas de convergencia individuales de expertos; cuando el arrepentimiento del experto es Õ(n^α), el arrepentimiento total es Õ(√(KT/M) + (K/M)^(1-α)T^α)
Extensión a Máquinas Tragamonedas Multibrazo: Demuestra que M-LCB es extensible a configuraciones de máquinas tragamonedas multibrazo

Detalles del Método

Definición de la Tarea

Espacio de Decisión U: Espacio de recomendaciones de expertos
Espacio Ambiental E: Espacio de resultados aleatorios
Función de Pérdida: ℓ : U×E → R₊
Especificación de Expertos: Cada experto k se especifica mediante la tupla (Wₖ,Hₖ,Aₖ,gₖ,υₖ)
- Wₖ: Espacio de estado/parámetros
- Hₖ: Espacio de historial
- Aₖ: Algoritmo de aprendizaje en línea
- gₖ: Mapeo de estado a recomendación
- υₖ: Generador de recomendación segura

Protocolo de Ejecución

Flujo de ejecución en cada ronda t:

El metaprograma selecciona un asesor iₜ ∈ K y un subconjunto de entrenamiento Sₜ ⊆ K, satisfaciendo |Sₜ| ≤ M e iₜ ∈ Sₜ
El experto iₜ proporciona una recomendación segura uₜ = υᵢₜ(Hᵢₜᵗ) ∈ U
El ambiente muestrea ξᵗ ～ D, el programa incurre en pérdida ℓ(uₜ,ξᵗ)
Los expertos k ∈ Sₜ actualizan su historial y estado interno

Núcleo del Algoritmo M-LCB

Definición de Intervalos de Confianza

Para el experto k, se define:

Pérdida de Ejecución Normalizada: LAₖ(t) = (1/nₖᵗ)∑_{τ∈Iₖ(t)} ℓₖᵗ(wₖᵗ)
Límite Inferior de Confianza: LCBₖ(t,δ) = LAₖ(t) - Uₖ(nₖᵗ,δₐᵣₘ)/nₖᵗ - G(nₖᵗ,δₙᵗ)
Límite Superior de Confianza: UCBₖ(t,δ) = LAₖ(t) + H(nₖᵗ,δₙᵗ)

Donde:

δₐᵣₘ = δ/(2K), δₙ = δ/(7Kn²)
G(n,δ) = √(2log(1/δ)/n) + 2log(1/δ)/(3n)
H(n,δ) = √(2log(1/δ)/n)

Estrategia de Selección

Selección de Conjunto de Entrenamiento: Sₜ := argmin_{S⊆K,|S|≤M} ∑_{k∈S} LCBₖ(t,δ)
Selección de Asesor: iₜ := argmin_{k∈Sₜ} UCBₖ(t,δ)

Puntos de Innovación Técnica

Construcción Directa de Intervalos de Confianza: Construidos directamente a partir de pérdidas realizadas, sin optimización adicional
Gestión Adaptativa de Expertos: Considera simultáneamente la selección de expertos y la asignación de presupuesto de entrenamiento
Garantías en Cualquier Momento: Proporciona límites de arrepentimiento para todos los pasos de tiempo T
Marco Flexible: Soporta diferentes tipos de algoritmos de aprendizaje como expertos

Configuración Experimental

Conjuntos de Datos

El artículo realiza principalmente experimentos sintéticos:

Selección de Modelos Lineales Generalizados

Número de Expertos: K = 10 modelos lineales generalizados
Dimensión de Características: Vectores de características muestreados uniformemente de la esfera unitaria Sᵈ⁻¹
Configuración Desafiante: Las funciones f₇, f₈, f₉ son altamente similares en regiones densas de datos, aumentando la dificultad de exploración

Métricas de Evaluación

Pérdida Acumulada: ∑ᵗ₌₁ᵀ ℓ(uᵗ,ξᵗ)
Distribución de Selección de Brazos: Frecuencia final de selección de cada experto
Asignación de Presupuesto Computacional: Distribución de número de entrenamientos para cada experto

Métodos de Comparación

ED2RB: Algoritmo con garantías de brazos aprendibles
LimitedAdvice: Algoritmo de expertos que puede manejar actualizaciones multibrazo por ronda

Detalles de Implementación

Límite de Actualizaciones: M ∈ {1,2,3}
Número de Repeticiones: 30 ejecuciones independientes para promediar
Intervalos de Confianza: Mostrar ±0.5 desviación estándar
Ajuste de Hiperparámetros: Parámetro de exploración ED2RB c = 0.1, escala del término de concentración M-FLCB 0.3

Resultados Experimentales

Resultados Principales

Rendimiento de Convergencia: M-LCB logra arrepentimiento sublineal, competitivo con métodos de referencia
Identificación de Expertos: Identifica exitosamente el experto óptimo (k = 9)
Eficiencia de Presupuesto: Asigna principalmente actualizaciones a expertos de mejor desempeño, mientras que LimitedAdvice asigna más uniformemente

Resultados Teóricos

Teorema de Límite Superior

Teorema 2: Sean α, δ ∈ (0,1), asuma que cada experto k satisface Uₖ(t,δ) = O(t^α c(δ)), entonces con probabilidad al menos 1-δ, el arrepentimiento del Algoritmo 1 está acotado para todo T ≥ 1:

Reg(T) = O(√(KT/M)log(KT/δ) + (K/M)^(1-α)T^α c(δ))

Teorema de Límite Inferior

Teorema 1: Existen constantes c₁, c₂ > 0 tales que para cualquier algoritmo de aprendizaje y metaprograma:

sup EReg(T) ≥ c₁√(KT/M) + c₂T^α(K/M)^(1-α)

Esto demuestra que M-LCB es óptimo dentro de factores logarítmicos.

Trabajo Relacionado

Expertos que se Auto-Entrenan (Brazos)

6: Introduce brazos que se auto-entrenan en configuración MAB, donde cada brazo es una función parametrizada que se actualiza cuando se selecciona

Selección de Modelos a Nivel Meta

CORRAL8: Gestiona un conjunto de algoritmos de máquinas tragamonedas mediante descenso de espejo en línea con barrera logarítmica y retroalimentación ponderada por importancia
Equilibrio Dinámico9: Metaalgoritmo basado en expresiones de tasa de arrepentimiento conocidas, actualiza solo un aprendiz por ronda
10: Estima en línea coeficientes por aprendiz, obteniendo garantías de alta probabilidad dependientes de datos para máquinas tragamonedas estocásticas

MAB con Actualizaciones Multibrazo

Consejo Limitado12: Consulta como máximo M brazos, obtiene límite de arrepentimiento Õ(√(KT logK/M))
13: Arrepentimiento minimax óptimo Õ(max{√(KT/M), √(T logK)})

Conclusiones y Discusión

Conclusiones Principales

Establece por primera vez garantías de arrepentimiento para múltiples expertos adaptativos entrenados simultáneamente bajo restricciones de presupuesto por ronda
El algoritmo M-LCB es minimax óptimo dentro de factores logarítmicos
El marco unifica configuraciones de optimización en línea y máquinas tragamonedas estocásticas

Limitaciones

Escala de Confianza Conocida: El análisis asume que la función de escala de confianza c(δ) es conocida
Supuesto de Pérdida Acotada: Se enfoca principalmente en casos de pérdida acotada
Configuración Estocástica: El análisis es principalmente en entornos estocásticos; la configuración adversarial requiere investigación adicional

Direcciones Futuras

Caso de c(δ) Desconocido: Como en el tratamiento de Pacchiano et al.11
Extensión con Observaciones Adicionales: Extensión a máquinas tragamonedas de consejo limitado y multibrazo
Régimen Contextual: Extensión a casos donde los expertos se especializan basándose en características de observación

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Proporciona por primera vez garantías teóricas para aprendizaje multiexperto bajo restricciones de presupuesto
Diseño de Algoritmo Elegante: Los intervalos de confianza se construyen directamente a partir de pérdidas, computacionalmente eficiente
Marco Altamente General: Aplicable a múltiples tipos de expertos (modelos parametrizados, algoritmos de máquinas tragamonedas, etc.)
Análisis Teórico Riguroso: Proporciona límites superior e inferior coincidentes, demostrando optimalidad del algoritmo

Deficiencias

Validación Experimental Limitada: Principalmente experimentos sintéticos, carece de validación en escenarios de aplicación real
Supuestos Relativamente Fuertes: Requiere conocimiento de la forma del límite de arrepentimiento del experto
Análisis de Factores Constantes: Los factores constantes en resultados teóricos pueden ser grandes, requiere verificación de rendimiento práctico

Impacto

Alto Valor Teórico: Proporciona fundamentos teóricos para aprendizaje de expertos bajo restricciones de presupuesto
Gran Potencial Práctico: Aplicable a sistemas de recomendación, comercio financiero y otros campos que requieren cambio de estrategia
Fuerte Escalabilidad: El marco es extensible a escenarios de aprendizaje más complejos

Escenarios Aplicables

Selección de Modelos en Línea: Selección dinámica de modelos en entornos de datos de flujo
Sistemas Multiestrategia: Escenarios como comercio financiero e inversión publicitaria que requieren cambio de estrategia
Aprendizaje con Recursos Limitados: Coordinación multimodelo cuando los recursos computacionales son limitados

Referencias

Este artículo cita literatura importante en máquinas tragamonedas multibrazo, aprendizaje en línea, algoritmos de expertos y otros campos, particularmente:

Algoritmo UCB clásico de Auer et al.1
Teoría de algoritmos de expertos de Cesa-Bianchi y Lugosi4
Optimización convexa en línea de Hazan5
Algoritmos de metaaprendizaje modernos como CORRAL8

Evaluación General: Este es un artículo teórico de alta calidad que realiza contribuciones significativas a un problema importante pero previamente insuficientemente estudiado: aprendizaje de expertos bajo restricciones de presupuesto. El diseño del algoritmo es ingenioso, el análisis teórico es riguroso, y sienta una base sólida para el desarrollo futuro del campo.