2025-11-11T09:55:09.434704

UCB-type Algorithm for Budget-Constrained Expert Learning

Latypov, Suvorikova, Kroshnin et al.
In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget. We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^α)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$. To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.
academic

UCB-type Algorithm for Budget-Constrained Expert Learning

基本信息

  • 论文ID: 2510.22654
  • 标题: UCB-type Algorithm for Budget-Constrained Expert Learning
  • 作者: Ilgam Latypov, Alexandra Suvorikova, Alexey Kroshnin, Alexander Gasnikov, Yuriy Dorn
  • 分类: cs.LG (Machine Learning), cs.MA (Multiagent Systems)
  • 发表时间: October 28, 2025 (Preprint)
  • 论文链接: https://arxiv.org/abs/2510.22654

摘要

在许多现代应用中,系统必须在多个在线训练的自适应学习算法之间动态选择。例如流环境中的模型选择、金融中的交易策略切换、以及多个上下文赌博机或强化学习智能体的协调。在每轮中,学习者必须从K个自适应专家中选择一个预测器进行预测,同时在固定训练预算下最多只能更新其中M≤K个专家。

本文在随机设置下解决这一问题,提出了M-LCB算法——一个计算高效的UCB风格元算法,提供任意时间后悔保证。其置信区间直接从实现的损失构建,无需额外优化,并无缝反映底层专家的收敛特性。如果每个专家达到内部后悔Õ(T^α),则M-LCB确保总体后悔界限为Õ(√(KT/M) + (K/M)^(1-α)T^α)。

研究背景与动机

问题定义

现实中的许多应用需要在多个自学习专家之间进行动态选择:

  1. 推荐系统:并行运行多个预测器,根据用户反馈更新
  2. 金融平台:随着市场机制演变在交易策略间切换
  3. 大规模在线服务:管理上下文赌博机或强化学习算法组合

核心挑战

传统方法的局限性:

  • 经典多臂赌博机(MAB):假设静态或对抗性奖励分布,不考虑臂的学习能力
  • 专家算法:通常需要完全反馈,不考虑专家的学习率
  • 现有方法:都没有充分解决在每轮训练预算约束下管理多个同时学习专家的挑战

研究动机

本文旨在弥合这一空白,提出统一预测与选择性训练的程序,考虑固定的每轮计算预算约束。

核心贡献

  1. 新颖的UCB型元算法(M-LCB):提出管理K个自学习专家池的新算法,考虑有限的每轮学习预算M(M≤K)
  2. 计算效率:提供直接从实现损失构建置信界限的方法,计算高效且避免昂贵的辅助优化
  3. 理论分析:根据专家个体收敛率估计元算法性能,当专家后悔为Õ(n^α)时,总体后悔为Õ(√(KT/M) + (K/M)^(1-α)T^α)
  4. 多重博弈赌博机扩展:证明M-LCB可扩展到多重博弈赌博机设置

方法详解

任务定义

  • 决策空间U:专家建议的空间
  • 环境空间E:随机结果空间
  • 损失函数:ℓ : U×E → R₊
  • 专家规范:每个专家k由元组(Wₖ,Hₖ,Aₖ,gₖ,υₖ)指定
    • Wₖ:状态/参数空间
    • Hₖ:历史空间
    • Aₖ:在线学习算法
    • gₖ:状态到建议的映射
    • υₖ:安全建议生成器

协议流程

每轮t的执行流程:

  1. 元程序选择顾问iₜ∈K和训练子集Sₜ⊆K,满足|Sₜ|≤M且iₜ∈Sₜ
  2. 专家iₜ提供安全建议uₜ = υᵢₜ(Hᵢₜᵗ)∈U
  3. 环境采样ξᵗ~D,程序承受损失ℓ(uₜ,ξᵗ)
  4. 专家k∈Sₜ更新历史和内部状态

M-LCB算法核心

置信界限定义

对于专家k,定义:

  • 标准化运行损失:LAₖ(t) = (1/nₖᵗ)∑_{τ∈Iₖ(t)} ℓₖᵗ(wₖᵗ)
  • 下置信界限:LCBₖ(t,δ) = LAₖ(t) - Uₖ(nₖᵗ,δₐᵣₘ)/nₖᵗ - G(nₖᵗ,δₙᵗ)
  • 上置信界限:UCBₖ(t,δ) = LAₖ(t) + H(nₖᵗ,δₙᵗ)

其中:

  • δₐᵣₘ = δ/(2K), δₙ = δ/(7Kn²)
  • G(n,δ) = √(2log(1/δ)/n) + 2log(1/δ)/(3n)
  • H(n,δ) = √(2log(1/δ)/n)

选择策略

  • 训练集选择:Sₜ := argmin_{S⊆K,|S|≤M} ∑_{k∈S} LCBₖ(t,δ)
  • 顾问选择:iₜ := argmin_{k∈Sₜ} UCBₖ(t,δ)

技术创新点

  1. 直接置信界限构造:从实现损失直接构建,无需额外优化
  2. 自适应专家管理:同时考虑专家选择和训练预算分配
  3. 任意时间保证:提供对所有时间步长T的后悔界限
  4. 灵活框架:支持不同类型的学习算法作为专家

实验设置

数据集

论文主要进行了合成实验:

广义线性模型选择

  • 专家数量:K=10个广义线性模型
  • 特征维度:特征向量从单位球面Sᵈ⁻¹均匀采样
  • 挑战设置:函数f₇,f₈,f₉在数据密集区域高度相似,增加探索难度

评价指标

  1. 累积损失:∑ᵗ₌₁ᵀ ℓ(uᵗ,ξᵗ)
  2. 臂选择分布:最终各专家被选择的频率
  3. 计算预算分配:各专家获得的训练次数分布

对比方法

  1. ED2RB:具有可学习臂保证的算法
  2. LimitedAdvice:能处理每轮多臂更新的专家算法

实现细节

  • 更新限制:M∈{1,2,3}
  • 重复次数:30次独立运行求平均
  • 置信区间:显示±0.5标准差
  • 超参数调优:ED2RB探索参数c=0.1,M-FLCB浓度项缩放0.3

实验结果

主要结果

  1. 收敛性能:M-LCB实现次线性后悔,与基线方法竞争力相当
  2. 专家识别:成功识别最优专家(k=9)
  3. 预算效率:主要将更新分配给表现优秀的专家,而LimitedAdvice更均匀分配

理论结果

上界定理

定理2:设α,δ∈(0,1),假设每个专家k满足Uₖ(t,δ)=O(t^α c(δ)),则以至少1-δ的概率,算法1的后悔对所有T≥1有界:

Reg(T) = O(√(KT/M)log(KT/δ) + (K/M)^(1-α)T^α c(δ))

下界定理

定理1:存在常数c₁,c₂>0,使得对任何学习算法和元程序:

sup EReg(T) ≥ c₁√(KT/M) + c₂T^α(K/M)^(1-α)

这表明M-LCB在对数因子内达到最优。

相关工作

自学习专家(臂)

  • 6:在MAB设置中引入自学习臂,每个臂是参数化函数,参数在被选中后更新

元级模型选择

  • CORRAL8:通过重要性加权反馈的log-barrier在线镜像下降管理赌博机算法池
  • 动态平衡9:基于已知后悔率表达式的元算法,每轮只更新一个学习器
  • 10:在线估计每学习器系数,获得随机赌博机的高概率数据依赖保证

多臂更新的MAB

  • 有限建议12:查询最多M个臂,获得Õ(√(KT logK/M))后悔界限
  • 13:minimax最优后悔Õ(max{√(KT/M), √(T logK)})

结论与讨论

主要结论

  1. 首次建立多个自适应专家在每轮预算约束下同时训练的后悔保证
  2. M-LCB算法在对数因子内达到minimax最优
  3. 框架统一了在线优化和随机赌博机设置

局限性

  1. 已知置信缩放:分析假设置信缩放函数c(δ)已知
  2. 有界损失假设:主要关注有界损失情况
  3. 随机设置:主要在随机环境下分析,对抗设置需要进一步研究

未来方向

  1. 未知c(δ)情况:如Pacchiano等11的处理方式
  2. 额外观察扩展:扩展到有限建议和多重博弈赌博机
  3. 上下文regime:扩展到专家基于观察特征专门化的情况

深度评价

优点

  1. 理论贡献显著:首次在预算约束下的多专家学习提供理论保证
  2. 算法设计优雅:置信界限直接从损失构建,计算高效
  3. 框架通用性强:适用于多种专家类型(参数模型、赌博机算法等)
  4. 理论分析严谨:提供匹配的上下界,证明算法最优性

不足

  1. 实验验证有限:主要是合成实验,缺乏真实应用场景验证
  2. 假设条件较强:需要已知专家后悔界限形式
  3. 常数因子分析:理论结果中的常数可能较大,实际性能需验证

影响力

  1. 理论价值高:为预算约束下的专家学习提供了理论基础
  2. 实用潜力大:适用于推荐系统、金融交易等多个领域
  3. 可扩展性强:框架可扩展到更复杂的学习场景

适用场景

  1. 在线模型选择:流数据环境下的模型动态选择
  2. 多策略系统:金融交易、广告投放等需要策略切换的场景
  3. 资源受限学习:计算资源有限时的多模型协调

参考文献

本文引用了多臂赌博机、在线学习、专家算法等领域的重要文献,特别是:

  • Auer等的经典UCB算法1
  • Cesa-Bianchi和Lugosi的专家算法理论4
  • Hazan的在线凸优化5
  • CORRAL等现代元学习算法8

总体评价:这是一篇高质量的理论论文,在预算约束的专家学习这一重要但此前研究不足的问题上做出了显著贡献。算法设计巧妙,理论分析严谨,为该领域的进一步发展奠定了坚实基础。