In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget.
We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^α)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$.
To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.
- ID статьи: 2510.22654
- Название: UCB-type Algorithm for Budget-Constrained Expert Learning
- Авторы: Ilgam Latypov, Alexandra Suvorikova, Alexey Kroshnin, Alexander Gasnikov, Yuriy Dorn
- Классификация: cs.LG (Машинное обучение), cs.MA (Многоагентные системы)
- Дата публикации: 28 октября 2025 г. (Препринт)
- Ссылка на статью: https://arxiv.org/abs/2510.22654
Во многих современных приложениях системы должны динамически выбирать между несколькими адаптивными алгоритмами обучения, работающими в режиме онлайн. Примеры включают выбор модели в потоковых средах, переключение торговых стратегий в финансах и координацию нескольких контекстных многоруких бандитов или агентов обучения с подкреплением. На каждом раунде обучающийся должен выбрать предсказатель из K адаптивных экспертов для прогнозирования, при этом имея возможность обновить не более M≤K экспертов в рамках фиксированного бюджета обучения.
В данной работе решается эта проблема в стохастической постановке путём предложения алгоритма M-LCB — вычислительно эффективного метаалгоритма типа UCB с гарантиями сожаления в любой момент времени. Доверительные интервалы строятся непосредственно из реализованных потерь без дополнительной оптимизации и естественным образом отражают свойства сходимости базовых экспертов. Если каждый эксперт достигает внутреннего сожаления Õ(T^α), то M-LCB гарантирует общую границу сожаления Õ(√(KT/M) + (K/M)^(1-α)T^α).
Многие приложения в реальном мире требуют динамического выбора между несколькими самообучающимися экспертами:
- Системы рекомендаций: параллельное выполнение нескольких предсказателей с обновлением на основе обратной связи пользователя
- Финансовые платформы: переключение между торговыми стратегиями по мере эволюции рыночных механизмов
- Крупномасштабные онлайн-сервисы: управление портфелем контекстных бандитов или алгоритмов обучения с подкреплением
Ограничения традиционных подходов:
- Классические многорукие бандиты (MAB): предполагают статическое или противоборствующее распределение вознаграждений, не учитывая способность рук к обучению
- Алгоритмы экспертов: обычно требуют полной обратной связи, не учитывая скорость обучения экспертов
- Существующие методы: не решают адекватно задачу управления несколькими одновременно обучающимися экспертами при ограничениях бюджета обучения на каждом раунде
Данная работа направлена на заполнение этого пробела путём предложения унифицированной процедуры прогнозирования и выборочного обучения с учётом фиксированных ограничений вычислительного бюджета на каждом раунде.
- Новый метаалгоритм типа UCB (M-LCB): предложен новый алгоритм для управления пулом K самообучающихся экспертов с учётом ограниченного бюджета обучения M на каждом раунде (M≤K)
- Вычислительная эффективность: предоставлен метод построения доверительных границ непосредственно из реализованных потерь, вычислительно эффективный и избегающий дорогостоящей вспомогательной оптимизации
- Теоретический анализ: производительность метаалгоритма оценивается на основе индивидуальных скоростей сходимости экспертов; при сожалении эксперта Õ(n^α) общее сожаление составляет Õ(√(KT/M) + (K/M)^(1-α)T^α)
- Расширение на многоигровые бандиты: доказано, что M-LCB расширяется на постановку многоигровых бандитов
- Пространство решений U: пространство рекомендаций экспертов
- Пространство окружения E: пространство стохастических исходов
- Функция потерь: ℓ : U×E → R₊
- Спецификация эксперта: каждый эксперт k задаётся кортежем (Wₖ,Hₖ,Aₖ,gₖ,υₖ)
- Wₖ: пространство состояний/параметров
- Hₖ: пространство истории
- Aₖ: алгоритм онлайн-обучения
- gₖ: отображение состояния в рекомендацию
- υₖ: генератор безопасной рекомендации
Выполнение на раунде t:
- Метапрограмма выбирает советника iₜ∈K и подмножество обучения Sₜ⊆K, удовлетворяющие |Sₜ|≤M и iₜ∈Sₜ
- Эксперт iₜ предоставляет безопасную рекомендацию uₜ = υᵢₜ(Hᵢₜᵗ)∈U
- Окружение выбирает ξᵗ~D, программа несёт потери ℓ(uₜ,ξᵗ)
- Эксперты k∈Sₜ обновляют историю и внутреннее состояние
Для эксперта k определяются:
- Нормализованные накопленные потери: LAₖ(t) = (1/nₖᵗ)∑_{τ∈Iₖ(t)} ℓₖᵗ(wₖᵗ)
- Нижняя доверительная граница: LCBₖ(t,δ) = LAₖ(t) - Uₖ(nₖᵗ,δₐᵣₘ)/nₖᵗ - G(nₖᵗ,δₙᵗ)
- Верхняя доверительная граница: UCBₖ(t,δ) = LAₖ(t) + H(nₖᵗ,δₙᵗ)
Где:
- δₐᵣₘ = δ/(2K), δₙ = δ/(7Kn²)
- G(n,δ) = √(2log(1/δ)/n) + 2log(1/δ)/(3n)
- H(n,δ) = √(2log(1/δ)/n)
- Выбор набора обучения: Sₜ := argmin_{S⊆K,|S|≤M} ∑_{k∈S} LCBₖ(t,δ)
- Выбор советника: iₜ := argmin_{k∈Sₜ} UCBₖ(t,δ)
- Прямое построение доверительных границ: построение непосредственно из реализованных потерь без дополнительной оптимизации
- Адаптивное управление экспертами: одновременный учёт выбора экспертов и распределения бюджета обучения
- Гарантии в любой момент времени: обеспечение границ сожаления для всех временных шагов T
- Гибкая структура: поддержка различных типов алгоритмов обучения в качестве экспертов
Статья в основном проводит синтетические эксперименты:
- Количество экспертов: K=10 обобщённых линейных моделей
- Размерность признаков: векторы признаков равномерно выбираются из единичной сферы Sᵈ⁻¹
- Сложная постановка: функции f₇,f₈,f₉ высоко похожи в областях с высокой плотностью данных, увеличивая сложность исследования
- Накопленные потери: ∑ᵗ₌₁ᵀ ℓ(uᵗ,ξᵗ)
- Распределение выбора рук: окончательная частота выбора каждого эксперта
- Распределение вычислительного бюджета: распределение количества обновлений, полученных каждым экспертом
- ED2RB: алгоритм с гарантиями обучаемых рук
- LimitedAdvice: алгоритм экспертов, способный обрабатывать обновления нескольких рук на раунде
- Ограничения обновления: M∈{1,2,3}
- Количество повторений: 30 независимых запусков для усреднения
- Доверительные интервалы: показаны ±0.5 стандартного отклонения
- Настройка гиперпараметров: параметр исследования ED2RB c=0.1, масштабирование члена концентрации M-FLCB 0.3
- Производительность сходимости: M-LCB достигает сублинейного сожаления, конкурентоспособного с базовыми методами
- Идентификация экспертов: успешная идентификация оптимального эксперта (k=9)
- Эффективность бюджета: основное распределение обновлений среди высокопроизводительных экспертов, в то время как LimitedAdvice распределяет более равномерно
Теорема 2: Пусть α,δ∈(0,1), предположим, что каждый эксперт k удовлетворяет Uₖ(t,δ)=O(t^α c(δ)), тогда с вероятностью не менее 1-δ сожаление алгоритма 1 ограничено для всех T≥1:
Reg(T) = O(√(KT/M)log(KT/δ) + (K/M)^(1-α)T^α c(δ))
Теорема 1: Существуют константы c₁,c₂>0 такие, что для любого алгоритма обучения и метапрограммы:
sup EReg(T) ≥ c₁√(KT/M) + c₂T^α(K/M)^(1-α)
Это показывает, что M-LCB оптимален с точностью до логарифмических множителей.
- 6: введение самообучающихся рук в постановке MAB, где каждая рука является параметризованной функцией, параметры которой обновляются при выборе
- CORRAL8: управление пулом алгоритмов бандитов через зеркальный спуск с логарифмическим барьером с обратной связью по важности
- Динамическая балансировка9: метаалгоритм на основе известных выражений скорости сожаления, обновляющий только одного обучающегося на раунде
- 10: онлайн-оценка коэффициентов для каждого обучающегося, получение высокой вероятности зависимых от данных гарантий для стохастических бандитов
- LimitedAdvice12: запрос не более M рук, получение границы сожаления Õ(√(KT logK/M))
- 13: минимаксное оптимальное сожаление Õ(max{√(KT/M), √(T logK)})
- Впервые установлены гарантии сожаления для одновременного обучения нескольких адаптивных экспертов при ограничениях бюджета на каждом раунде
- Алгоритм M-LCB достигает минимаксной оптимальности с точностью до логарифмических множителей
- Структура объединяет онлайн-оптимизацию и постановку стохастических бандитов
- Известное масштабирование доверия: анализ предполагает, что функция масштабирования доверия c(δ) известна
- Предположение об ограниченных потерях: основное внимание уделяется случаю ограниченных потерь
- Стохастическая постановка: анализ в основном проводится в стохастической среде; противоборствующая постановка требует дальнейшего исследования
- Случай неизвестного c(δ): как в работе Pacchiano и др.11
- Расширение дополнительными наблюдениями: расширение на ограниченные советы и многоигровые бандиты
- Контекстный режим: расширение на случаи, когда эксперты специализируются на основе наблюдаемых признаков
- Значительный теоретический вклад: впервые предоставлены теоретические гарантии для обучения экспертов при ограничениях бюджета
- Элегантный дизайн алгоритма: доверительные границы строятся непосредственно из потерь, вычислительно эффективно
- Сильная универсальность структуры: применимо к различным типам экспертов (параметрические модели, алгоритмы бандитов и т.д.)
- Строгий теоретический анализ: предоставлены совпадающие верхние и нижние границы, доказывающие оптимальность алгоритма
- Ограниченная экспериментальная проверка: в основном синтетические эксперименты, отсутствие проверки на реальных сценариях приложений
- Сильные предположения: требуется знание формы границы сожаления эксперта
- Анализ постоянных множителей: постоянные множители в теоретических результатах могут быть большими, реальная производительность требует проверки
- Высокая теоретическая ценность: обеспечивает теоретическую основу для обучения экспертов при ограничениях бюджета
- Большой практический потенциал: применимо к системам рекомендаций, финансовой торговле и другим областям
- Сильная расширяемость: структура расширяется на более сложные сценарии обучения
- Онлайн-выбор модели: динамический выбор модели в потоковых средах данных
- Многостратегические системы: финансовая торговля, размещение объявлений и другие сценарии, требующие переключения стратегий
- Обучение с ограниченными ресурсами: координация нескольких моделей при ограниченных вычислительных ресурсах
Статья ссылается на важные работы в областях многоруких бандитов, онлайн-обучения, алгоритмов экспертов, в частности:
- Классический алгоритм UCB Ауэра и др.1
- Теория алгоритмов экспертов Чеза-Бьянки и Лугози4
- Онлайн-выпуклая оптимизация Хазана5
- Современные метаалгоритмы обучения, такие как CORRAL8
Общая оценка: Это высококачественная теоретическая работа, вносящая значительный вклад в важную, но ранее недостаточно изученную проблему обучения экспертов при ограничениях бюджета. Дизайн алгоритма остроумен, теоретический анализ строг, что создаёт прочную основу для дальнейшего развития в этой области.