Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
- 论文ID: 2501.01248
- 标题: Bayesian Active Learning By Distribution Disagreement
- 作者: Thorben Werner, Lars Schmidt-Thieme (University of Hildesheim)
- 分类: cs.LG (Machine Learning)
- 发表时间: 2025年1月2日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2501.01248
回归任务的主动学习由于难以量化回归模型的不确定性而研究不足。虽然标准化流提供完整的预测分布而非点预测,便于直接使用熵或最不置信采样等已知启发式方法,但本文证明这些启发式方法在基于池的主动学习中对标准化流效果不佳,需要更复杂的算法来区分偶然不确定性和认知不确定性。本文提出BALSA算法,这是BALD算法的改进版本,专门针对使用标准化流的回归任务。该工作将标准化流不确定性量化的研究扩展到真实世界数据和多种获取函数与查询大小的基于池的主动学习。在4个不同数据集和2种不同架构上,BALSA取得了SOTA结果。
- 核心问题:回归任务的主动学习研究严重不足,主要原因是回归模型的不确定性量化比分类任务更困难
- 重要性:主动学习能够减少训练强模型所需的标注数据量,但现有研究主要集中在分类问题上
- 现有方法局限性:
- 传统回归模型(除高斯过程外)难以直接提供不确定性量化
- 现有的不确定性启发式方法(如标准差、最不置信、香农熵)在标准化流上表现不佳
- 无法有效区分偶然不确定性(数据噪声)和认知不确定性(模型欠拟合)
- 研究动机:标准化流和高斯神经网络等新兴模型提供了完整的预测分布,为回归任务的主动学习提供了新机会
- 提出BALSA算法:针对具有预测分布的模型设计的BALD算法改进版本,包含两个变体(BALSAKL和BALSAEMD)
- 构建综合基准:为具有预测分布的模型主动学习创建了包含3个启发式基线和3个BALD适配版本的全面基准
- 技术创新:两个新的BALD扩展算法,直接利用预测分布而非依赖聚合方法
- 实验验证:在4个真实世界数据集和2种模型架构上进行了广泛比较,证明了方法的有效性
- 输入:训练数据集 Dtrain:={(xi,yi)}i=1N,其中 x∈X,y∈Y
- 目标:通过主动学习策略选择最有价值的样本进行标注,最小化标注成本
- 约束:池式主动学习设置,有固定的标注预算B
论文使用两种具有预测分布的回归模型:
- 高斯神经网络(GNN):使用MLP编码器产生μ和σ参数,构建高斯预测分布
- 标准化流(NF):使用可逆变换参数化自由形式的预测分布,能建模更复杂的目标分布
BALSA基于BALD算法的核心思想,但针对预测分布进行了改进:
原始BALD公式:
BALD(x)=∑i=1k(H[yˉ(x)]−H[y^θi(x)])
BALSA的改进策略:
BALD(x)=∑i=1kϕ(y^θi(x),yˉ(x))
其中φ是直接测量预测分布间距离的度量函数。
网格采样方法:
- 将目标值标准化到0,1
- 在200个网格点上分布采样
- 计算似然向量并平均:pˉ∣x=k1∑j=1kp^θj⊣∣x
配对比较方法:
- 避免计算平均分布
- 使用k-1对参数样本:∑i=1k−1ϕ(p^θi∣x,p^θi+1∣x)
BALSAKL(KL散度):
- 网格版本:BALSAKLGrid(x)=∑i=1kKL(p^θi⊣∣x,pˉ∣x)
- 配对版本:BALSAKLPair(x)=∑i=1k−1KL(p^θi∣x,p^θi+1∣x)
BALSAEMD(Earth Mover's Distance):
BALSAEMD(x)=∑i=1k−1EMD(yθi′,yθi+1′)
其中yθ′∼p^θ∣x
使用4个回归数据集,涵盖不同规模和复杂度:
| 数据集 | 特征数 | 训练样本数 | 初始标注集 | 预算 |
|---|
| Parkinsons | 61 | 3,760 | 200 | 800 |
| Superconductors | 81 | 13,608 | 200 | 800 |
| Sarcos | 21 | 28,470 | 200 | 1,200 |
| Diamonds | 26 | 34,522 | 200 | 1,200 |
- 主要指标:负对数似然(NLL)
- 辅助指标:平均绝对误差(MAE)、CRPS评分
- 统计方法:Wilcoxon符号秩检验,使用CD图进行结果聚合
- 聚类方法:Coreset, CoreGCN, TypiClust
- 启发式方法:标准差(Std)、最不置信(LC)、香农熵(Entropy)
- BALD变体:BALDσ, BALDLC, BALDH
- 提出方法:BALSAKL Grid/Pair, BALSAEMD
- 模型架构:MLP编码器 + 分布解码器
- 标准化流:带有有理二次样条变换的自回归神经样条流
- 优化器:NAdam
- Dropout率:0.008-0.05(针对每个数据集优化)
- 实验重复:每个实验重复30次
基于NLL指标的Critical Difference图显示:
- BALSAKL Pairs:平均排名最佳,表现最优
- BALSAKL Grid:紧随其后,排名第二
- BALDH:排名第三
- Coreset:在几何方法中表现最好
关键发现:
- 传统启发式方法(熵、标准差、最不置信)在标准化流上表现很差
- BALSA方法在标准化流架构上优势明显
- Coreset和CoreGCN在GNN架构上表现更好
测试训练和评估阶段使用不同dropout率的效果:
- 结果不一致:BALSAEMD dual表现下降,BALSAKL Grid dual略有提升
- 假设:dropout率切换可能影响模型预测质量
测试BALSAKL Grid的标准化版本:
- 标准化版本性能略低于非标准化版本
- 选择更简单的非标准化公式
在τ = {50, 200}上的表现:
- 不确定性采样方法在大查询大小下保持性能
- 聚类算法(Coreset, TypiClust)性能下降更快
- 与分类任务的常见认知相矛盾
以Diamonds数据集为例的主动学习轨迹显示:
- BALSA方法收敛更快
- 传统启发式方法接近随机采样性能
- 在NLL和MAE指标上表现一致
- 几何方法:Coreset、CoreGCN、TypiClust等基于数据几何属性
- 不确定性方法:大多绑定特定模型架构,通用性差
- BALD算法:少数几个模型无关的方法之一
Berry和Meger的工作1,2:
- 提出标准化流集成和MC dropout近似
- 仅在合成数据上验证
- 本文扩展到真实数据和多种获取函数
- 使用香农熵而非简单的-∑logŷθ(x)
- 扩展到真实世界数据集
- 与多种主动学习算法比较
- 方法有效性:BALSA在标准化流上表现优异,特别是BALSAKL Pairs版本
- 启发式失效:传统不确定性启发式在标准化流上效果不佳
- 架构依赖性:不同算法在不同模型架构上表现差异显著
- 查询大小影响:不确定性方法在大查询大小下更稳定
- 理论分析不足:缺乏BALSA算法的理论收敛性分析
- 计算开销:MC dropout和分布距离计算增加计算成本
- 超参数敏感:dropout率选择对性能影响较大
- 数据集限制:仅在4个数据集上验证,泛化性有待验证
- 扩展到其他参数采样方法(Langevin Dynamics, SVGD)
- 理论分析BALSA的收敛性质
- 研究更多的分布距离度量
- 在更大规模数据集上验证
- 问题重要性:解决了回归主动学习这一被忽视但重要的问题
- 方法创新性:首次将分布距离直接用于主动学习,避免了聚合方法的信息损失
- 实验全面性:多数据集、多架构、多指标的综合评估
- 实用价值:提供了可复现的代码和详细的实验设置
- 理论基础薄弱:缺乏理论分析来解释为什么BALSA更有效
- 计算效率:MC dropout和EMD计算可能影响实际应用
- 超参数调优:dropout率的选择缺乏原则性指导
- 评估局限:主要基于NLL,其他回归指标的一致性有待验证
- 学术贡献:为回归主动学习提供了新的研究方向
- 实用价值:特别适用于需要不确定性量化的回归应用
- 可复现性:提供完整代码和实验配置,便于后续研究
- 科学计算:需要不确定性量化的物理/化学建模
- 风险评估:金融、医疗等对不确定性敏感的领域
- 工程优化:需要平衡探索与利用的设计优化问题
- 时间序列:具有复杂分布的预测任务
本文主要参考了以下关键工作:
- Berry & Meger (2023): 标准化流集成的不确定性建模
- Gal et al. (2017): BALD算法的原始提出
- Sener & Savarese (2017): Coreset主动学习方法
- Durkan et al. (2019): 神经样条流的技术基础
总体评价:这是一篇针对回归主动学习这一重要但被忽视问题的高质量研究。BALSA算法的提出填补了标准化流在主动学习中应用的空白,实验设计充分且结果令人信服。尽管在理论分析和计算效率方面还有改进空间,但为该领域的发展做出了重要贡献。