2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme

Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.

academic

Bayesian Active Learning By Distribution Disagreement

基本信息

论文ID: 2501.01248
标题: Bayesian Active Learning By Distribution Disagreement
作者: Thorben Werner, Lars Schmidt-Thieme (University of Hildesheim)
分类: cs.LG (Machine Learning)
发表时间: 2025年1月2日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.01248

摘要

回归任务的主动学习由于难以量化回归模型的不确定性而研究不足。虽然标准化流提供完整的预测分布而非点预测，便于直接使用熵或最不置信采样等已知启发式方法，但本文证明这些启发式方法在基于池的主动学习中对标准化流效果不佳，需要更复杂的算法来区分偶然不确定性和认知不确定性。本文提出BALSA算法，这是BALD算法的改进版本，专门针对使用标准化流的回归任务。该工作将标准化流不确定性量化的研究扩展到真实世界数据和多种获取函数与查询大小的基于池的主动学习。在4个不同数据集和2种不同架构上，BALSA取得了SOTA结果。

研究背景与动机

问题定义

核心问题：回归任务的主动学习研究严重不足，主要原因是回归模型的不确定性量化比分类任务更困难
重要性：主动学习能够减少训练强模型所需的标注数据量，但现有研究主要集中在分类问题上
现有方法局限性：
- 传统回归模型（除高斯过程外）难以直接提供不确定性量化
- 现有的不确定性启发式方法（如标准差、最不置信、香农熵）在标准化流上表现不佳
- 无法有效区分偶然不确定性（数据噪声）和认知不确定性（模型欠拟合）
研究动机：标准化流和高斯神经网络等新兴模型提供了完整的预测分布，为回归任务的主动学习提供了新机会

核心贡献

提出BALSA算法：针对具有预测分布的模型设计的BALD算法改进版本，包含两个变体（BALSAKL和BALSAEMD）
构建综合基准：为具有预测分布的模型主动学习创建了包含3个启发式基线和3个BALD适配版本的全面基准
技术创新：两个新的BALD扩展算法，直接利用预测分布而非依赖聚合方法
实验验证：在4个真实世界数据集和2种模型架构上进行了广泛比较，证明了方法的有效性

方法详解

任务定义

输入：训练数据集 $D_{train} := \{(x_i, y_i)\}_{i=1}^N$ ，其中 $x \in \mathcal{X}, y \in \mathcal{Y}$
目标：通过主动学习策略选择最有价值的样本进行标注，最小化标注成本
约束：池式主动学习设置，有固定的标注预算B

模型架构

1. 基础模型

论文使用两种具有预测分布的回归模型：

高斯神经网络(GNN)：使用MLP编码器产生μ和σ参数，构建高斯预测分布
标准化流(NF)：使用可逆变换参数化自由形式的预测分布，能建模更复杂的目标分布

2. BALSA算法核心思想

BALSA基于BALD算法的核心思想，但针对预测分布进行了改进：

原始BALD公式： $BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])$

BALSA的改进策略： $BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))$

其中φ是直接测量预测分布间距离的度量函数。

技术创新点

1. 平均分布计算

网格采样方法：

将目标值标准化到0,1
在200个网格点上分布采样
计算似然向量并平均： $\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x$

配对比较方法：

避免计算平均分布
使用k-1对参数样本： $\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)$

2. 距离度量函数

BALSAKL（KL散度）：

网格版本： $BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)$
配对版本： $BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)$