2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

基本信息

  • 论文ID: 2510.09877
  • 标题: Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
  • 作者: Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
  • 分类: cs.LG cs.AI stat.ML
  • 发表时间: 2025年10月10日 (Preprint)
  • 论文链接: https://arxiv.org/abs/2510.09877v1

摘要

在过去几十年中,众多主动学习获取函数被提出,但实践者往往难以选择合适的方法。贝叶斯决策理论(BDT)提供了指导决策的通用原则。本文在近视框架下为(贝叶斯)主动学习推导了BDT,假设只需要标注一个额外的数据点。该推导产生了有效的算法,如期望错误减少(EER)、期望预测信息增益(EPIG)等。此外,作者证明了BAIT可以通过BDT和渐近近似推导得出。这类方法的关键挑战是难以扩展到大批次规模,导致计算挑战(BatchBALD)或性能急剧下降(top-B选择)。本文通过特定的决策过程表述,为EPIG算法推导了部分批次标签采样(ParBaLS)方法。实验表明,在固定预算和神经嵌入上的贝叶斯逻辑回归设置下,ParBaLS EPIG在多个数据集上表现优异。

研究背景与动机

问题定义

主动学习旨在从大量未标注数据中选择最具信息量的数据进行标注,以在有限标注预算下最大化模型性能。现有方法包括启发式方法和概率方法,但缺乏明确的选择指导原则。

问题重要性

  1. 实际需求:现代机器学习中,数据通常以批次形式标注而非逐个标注
  2. 方法选择困难:现有算法缺乏可解释性,实践者难以判断何时何种算法有效
  3. 扩展性挑战:现有方法在大批次规模下面临计算或性能问题

现有方法局限性

  1. Top-B选择:忽略批次标签间的依赖关系,可能选择冗余样本
  2. 启发式多样性:需要调整数据集特定的超参数,在主动学习中不可行
  3. 贪婪批次获取:BatchBALD等方法计算复杂度随批次大小指数增长

研究动机

通过贝叶斯决策理论提供统一的理论框架,解释现有算法的工作原理,并提出能有效处理批次选择的新方法。

核心贡献

  1. 理论统一:将多种算法(EER, EPIG, BAIT等)统一为近视贝叶斯决策理论(MBDT)的推导结果
  2. 新方法提出:引入部分批次标签采样(ParBaLS)解决批次主动学习的挑战
  3. 理论分析:证明ParBaLS的蒙特卡罗近似误差为O(1/√m),不依赖于批次大小
  4. 实验验证:在10个不同设置下验证了ParBaLS EPIG的优越性能

方法详解

任务定义

给定输入域X、输出域Y和未标注池数据集D⊂X,目标是迭代选择T个批次S⊂D,每个批次大小|S|=B进行标注,使得在标注集上训练后的测试损失最小。

近视贝叶斯决策理论(MBDT)

单点选择推导

在近视框架下,假设只选择一个额外数据点x̂,下一个标注点为:

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

对于负对数似然损失,最优预测为后验分布,期望损失简化为熵:

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

这与EPIG和EER算法等价。

批次选择挑战

现有批次策略分为三类:

  1. Top-B:选择得分最高的B个点,忽略依赖关系
  2. 启发式多样性:添加随机性或多样性,需要超参数调整
  3. 贪婪批次获取:优化整个批次,计算复杂度高

ParBaLS方法

核心思想

引入已承诺标注但未观察标签的部分批次S,下一个最优点为:

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

蒙特卡罗估计

使用蒙特卡罗估计处理指数级的求和:

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

算法流程

ParBaLS算法逐步构建批次:

  1. 初始化空批次S=∅
  2. 训练贝叶斯模型M_L
  3. 采样m个伪标签版本y^{(i)}~Y_D|L
  4. 对每个批次位置:
    • 计算每个候选点的EPIG得分
    • 选择得分最高的点加入批次
    • 用伪标签更新m个并行模型
  5. 返回完整批次

BAIT的推导

通过非正式渐近近似,BAIT也可从MBDT原则推导:

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

实验设置

数据集

实验涵盖6类数据集:

  1. 表格数据:Airline Passenger Satisfaction, Credit Card Fraud
  2. 标准图像数据:CIFAR-10, CIFAR-100
  3. 真实世界图像数据:iWildCam, fMoW (来自WILDS基准)
  4. 一对多图像数据:将多类转为二类的不平衡场景
  5. 子群体偏移图像数据:三类设置,仅在前两类上测试

模型设置

  • 图像数据:使用固定嵌入模型(CLIP-ViT-B/32用于WILDS,DINOv2-ViT-S/14用于CIFAR)
  • 表格数据:直接应用贝叶斯逻辑回归
  • 贝叶斯设置:k=400个后验参数样本,使用NUTS采样器

评价指标

使用测试准确率作为主要评价指标

对比方法

  • 贝叶斯方法:EPIG, BALD (配合top-B或Gumbel噪声)
  • 基线方法:Random, Confidence, BatchBALD
  • 提出方法:ParBaLS-MAP EPIG, ParBaLS EPIG

实验参数

  • T=10次迭代,每次B=10个样本预算
  • 初始随机采样500个样本
  • 对部分设置使用B=20, 初始100样本以增加区分度
  • 每个设置运行5次不同种子

实验结果

主要结果

根据表1的完整实验结果,ParBaLS EPIG在10个设置中的9个表现最佳:

算法最高均值进入前列
ParBaLS EPIG49
ParBaLS-MAP EPIG27
SoftRankEPIG04
EPIG04
Confidence35

具体性能表现

表格数据集(表现最为突出):

  • Airline Passenger Satisfaction: ParBaLS EPIG达到89.42±0.41%
  • Credit Card Fraud: ParBaLS EPIG达到93.55±0.23%

子群体偏移设置(最具挑战性):

  • fMoW: ParBaLS EPIG达到31.37±6.60%,显著优于其他方法
  • iWildCam: ParBaLS EPIG达到84.72±1.98%

学习曲线分析

图2显示在表格数据集上,ParBaLS方法在整个学习过程中始终保持优势,特别是在低预算设置下表现更加突出。

消融实验

  • ParBaLS vs ParBaLS-MAP:完整ParBaLS通常优于仅使用MAP标签的版本
  • 批次大小影响:ParBaLS的优势在较大批次(B=20)时更加明显
  • 单点vs批次:附录实验显示,虽然单点选择(B=1)性能更好,但批次选择在实际应用中更高效

相关工作

主动学习方法分类

  1. 启发式方法:基于不确定性(Confidence, Margin, Entropy)、多样性(CORESET)或两者结合(BADGE, GALAXY)
  2. 概率方法:BALD, BatchBALD, BAIT等基于信息论或贝叶斯原理

期望错误减少(EER)

EER直接关注性能指标如零一损失和对数似然损失,提供更好的可解释性。相关工作包括结合启发式方法的变体和低预算场景的自适应方法。

主动学习中的伪标签

与半监督学习不同,主动学习中的伪标签主要用于:

  1. 训练增强:结合真实标签和伪标签训练
  2. 批次构建:ParBaLS的创新在于仅用伪标签临时构建批次,不污染最终标注数据

结论与讨论

主要结论

  1. 理论统一:MBDT为多种主动学习算法提供了统一的理论基础
  2. 批次解决方案:ParBaLS有效解决了批次主动学习的扩展性问题
  3. 实验验证:ParBaLS EPIG在多种设置下表现优异,特别适用于不确定性较高的场景

局限性

  1. 计算复杂度:ParBaLS的时间复杂度为O(TBm),m个并行模型增加计算负担
  2. 方法适用性:主要在贝叶斯逻辑回归上验证,对深度网络的扩展需要进一步研究
  3. 理论分析:BAIT的推导依赖非正式渐近近似,理论严格性有待加强

未来方向

  1. 计算效率:发现计算高效的近似方法,扩展到更大数据集和模型
  2. 深度学习集成:研究如何将ParBaLS扩展到完整的深度神经网络训练
  3. 理论完善:提供更严格的理论分析和收敛保证

深度评价

优点

  1. 理论贡献:提供了主动学习算法的统一理论框架,增强了可解释性
  2. 实用价值:ParBaLS解决了实际应用中的批次选择问题
  3. 实验充分:涵盖多种数据类型和挑战性设置,结果convincing
  4. 方法创新:伪标签在批次构建中的应用具有新颖性

不足

  1. 计算开销:m个并行模型的维护增加了计算成本
  2. 理论严格性:部分推导(如BAIT)依赖非正式近似
  3. 实验局限:主要在相对简单的模型(逻辑回归)上验证
  4. 超参数敏感性:m的选择对性能和计算的权衡分析不够深入

影响力

  1. 理论影响:为主动学习提供了新的理论视角,可能启发后续研究
  2. 实用价值:ParBaLS方法具有直接的应用价值,特别是在批次标注场景
  3. 可复现性:提供开源代码,便于复现和扩展

适用场景

  1. 高不确定性任务:表格数据和子群体偏移等存在不可约不确定性的场景
  2. 批次标注需求:需要批量标注而非逐个标注的实际应用
  3. 贝叶斯设置:能够进行贝叶斯推理的模型和任务

参考文献

本文引用了主动学习领域的重要文献,包括:

  • 经典不确定性采样方法 (Lewis, 1995)
  • 贝叶斯主动学习方法 (Houlsby et al., 2011; Gal et al., 2017)
  • 批次主动学习方法 (Kirsch et al., 2019, 2023)
  • 期望错误减少方法 (Roy and McCallum, 2001; Mussmann et al., 2022)

总体评价:这是一篇在主动学习领域具有重要理论和实用价值的论文。通过MBDT统一现有算法并提出ParBaLS解决批次选择问题,为该领域提供了新的研究方向。虽然在计算效率和理论严格性方面还有改进空间,但其贡献是显著的。