2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme
Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
academic

ベイズ能動学習による分布の不一致

基本情報

  • 論文ID: 2501.01248
  • タイトル: Bayesian Active Learning By Distribution Disagreement
  • 著者: Thorben Werner, Lars Schmidt-Thieme (ヒルデスハイム大学)
  • 分類: cs.LG (機械学習)
  • 発表日: 2025年1月2日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2501.01248

要約

回帰タスクの能動学習は、回帰モデルの不確実性の定量化が困難であるため、研究が不十分である。正規化フロー(Normalizing Flows)は点予測ではなく完全な予測分布を提供し、エントロピーや最小信頼度サンプリングなどの既知のヒューリスティックスの直接的な使用を可能にするが、本論文はこれらのヒューリスティックスがプール型能動学習において正規化フローに対して効果的でないことを示している。偶然的不確実性と認識論的不確実性を区別するより複雑なアルゴリズムが必要である。本論文はBALSAアルゴリズムを提案する。これはBALDアルゴリズムの改良版であり、正規化フローを使用する回帰タスク専用に設計されている。本研究は、正規化フローの不確実性定量化研究を実世界データおよび複数の獲得関数とクエリサイズを持つプール型能動学習に拡張する。4つの異なるデータセットと2つの異なるアーキテクチャにおいて、BALSAは最先端の結果を達成した。

研究背景と動機

問題定義

  1. 中核的問題:回帰タスクの能動学習研究は極めて不十分であり、主な理由は回帰モデルの不確実性定量化が分類タスクより困難であることである
  2. 重要性:能動学習は強力なモデルの訓練に必要なアノテーション済みデータの量を削減できるが、既存研究は主に分類問題に集中している
  3. 既存手法の限界
    • 従来の回帰モデル(ガウス過程を除く)は不確実性定量化を直接提供することが困難である
    • 既存の不確実性ヒューリスティック(標準偏差、最小信頼度、シャノンエントロピーなど)は正規化フロー上で性能が低い
    • 偶然的不確実性(データノイズ)と認識論的不確実性(モデル未学習)を効果的に区別できない
  4. 研究動機:正規化フローとガウス神経ネットワークなどの新興モデルは完全な予測分布を提供し、回帰タスクの能動学習に新たな機会をもたらす

中核的貢献

  1. BALSAアルゴリズムの提案:予測分布を持つモデル用に設計されたBALDアルゴリズムの改良版。2つの変種(BALSAKLとBALSAEMD)を含む
  2. 包括的ベンチマークの構築:予測分布を持つモデルの能動学習用に、3つのヒューリスティックベースラインと3つのBALD適応版を含む全面的なベンチマークを作成
  3. 技術的革新:2つの新しいBALD拡張アルゴリズム。集約方法に依存せず予測分布を直接利用
  4. 実験的検証:4つの実世界データセットと2つのモデルアーキテクチャにおける広範な比較により、手法の有効性を実証

方法の詳細

タスク定義

  • 入力:訓練データセット Dtrain:={(xi,yi)}i=1ND_{train} := \{(x_i, y_i)\}_{i=1}^N。ここで xX,yYx \in \mathcal{X}, y \in \mathcal{Y}
  • 目標:能動学習戦略を通じて最も価値のあるサンプルを選択してアノテーションし、アノテーションコストを最小化する
  • 制約:プール型能動学習設定。固定のアノテーション予算B

モデルアーキテクチャ

1. 基本モデル

論文は予測分布を持つ2種類の回帰モデルを使用する:

  • ガウス神経ネットワーク(GNN):MLPエンコーダを使用してμとσパラメータを生成し、ガウス予測分布を構築
  • 正規化フロー(NF):可逆変換を使用して自由形式の予測分布をパラメータ化し、より複雑な目標分布をモデル化可能

2. BALSAアルゴリズムの中核的思想

BALSAはBALDアルゴリズムの中核的思想に基づくが、予測分布に対して改良されている:

元のBALD公式BALD(x)=i=1k(H[yˉ(x)]H[y^θi(x)])BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])

BALSAの改良戦略BALD(x)=i=1kϕ(y^θi(x),yˉ(x))BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))

ここでφは予測分布間の距離を直接測定する度量関数である。

技術的革新点

1. 平均分布の計算

グリッドサンプリング法

  • 目標値を0,1に正規化
  • 200個のグリッドポイント上で分布をサンプリング
  • 尤度ベクトルを計算して平均化:pˉx=1kj=1kp^θjx\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x

ペアワイズ比較法

  • 平均分布の計算を回避
  • k-1個のパラメータサンプルペアを使用:i=1k1ϕ(p^θix,p^θi+1x)\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

2. 距離度量関数

BALSAKL(KL発散)

  • グリッド版:BALSAKLGrid(x)=i=1kKL(p^θix,pˉx)BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)
  • ペアワイズ版:BALSAKLPair(x)=i=1k1KL(p^θix,p^θi+1x)BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

BALSAEMD(最適輸送距離)BALSAEMD(x)=i=1k1EMD(yθi,yθi+1)BALSA_{EMD}(x) = \sum_{i=1}^{k-1} EMD(y'_{\theta_i}, y'_{\theta_{i+1}})

ここでyθp^θxy'_\theta \sim \hat{p}_\theta|x

実験設定

データセット

異なるスケールと複雑性をカバーする4つの回帰データセットを使用:

データセット特徴数訓練サンプル数初期アノテーション集合予算
Parkinsons613,760200800
Superconductors8113,608200800
Sarcos2128,4702001,200
Diamonds2634,5222001,200

評価指標

  • 主要指標:負対数尤度(NLL)
  • 補助指標:平均絶対誤差(MAE)、CRPSスコア
  • 統計手法:ウィルコクソン符号付き順位検定。CD図を使用して結果を集約

比較手法

  • クラスタリング法:Coreset、CoreGCN、TypiClust
  • ヒューリスティック法:標準偏差(Std)、最小信頼度(LC)、シャノンエントロピー(Entropy)
  • BALD変種:BALDσ、BALDLC、BALDH
  • 提案手法:BALSAKL Grid/Pair、BALSAEMD

実装の詳細

  • モデルアーキテクチャ:MLPエンコーダ + 分布デコーダ
  • 正規化フロー:有理二次スプライン変換を備えた自己回帰ニューラルスプラインフロー
  • 最適化器:NAdam
  • ドロップアウト率:0.008~0.05(各データセットに対して最適化)
  • 実験反復:各実験を30回繰り返す

実験結果

主要結果

NLL指標に基づく臨界差分図は以下を示す:

  1. BALSAKL Pairs:平均ランキングが最良。最高の性能
  2. BALSAKL Grid:それに続く。ランキング第2位
  3. BALDH:ランキング第3位
  4. Coreset:幾何学的手法の中で最高の性能

重要な発見

  • 従来のヒューリスティック法(エントロピー、標準偏差、最小信頼度)は正規化フロー上で性能が非常に低い
  • BALSA手法は正規化フロー・アーキテクチャ上で明らかな優位性を示す
  • CoresetとCoreGCNはGNNアーキテクチャ上でより良い性能を示す

アブレーション実験

1. デュアルモード実験

訓練と評価段階で異なるドロップアウト率を使用する効果をテスト:

  • 結果は一貫性がない:BALSAEMD dualは性能が低下。BALSAKL Grid dualはわずかに改善
  • 仮説:ドロップアウト率の切り替えはモデル予測品質に影響を与える可能性がある

2. 正規化実験

BALSAKL Gridの正規化版をテスト:

  • 正規化版は非正規化版より性能がわずかに低い
  • より単純な非正規化公式を選択

3. クエリサイズ実験

τ = {50, 200}での性能:

  • 不確実性サンプリング法は大きなクエリサイズで性能を維持
  • クラスタリングアルゴリズム(Coreset、TypiClust)はより速く性能が低下
  • 分類タスクの一般的な認識と矛盾

ケース分析

Diamondsデータセットの能動学習軌跡の例は以下を示す:

  • BALSA手法はより速く収束
  • 従来のヒューリスティック法はランダムサンプリングに近い性能
  • NLLおよびMAE指標で一貫した性能

関連研究

回帰能動学習

  • 幾何学的手法:Coreset、CoreGCN、TypiClustなど。データの幾何学的属性に基づく
  • 不確実性手法:ほとんどが特定のモデルアーキテクチャに結合されており、汎用性が低い
  • BALDアルゴリズム:モデルに依存しない数少ない手法の1つ

最も関連する研究

BerryとMegerの研究1,2

  • 正規化フロー集団とMCドロップアウト近似を提案
  • 合成データのみで検証
  • 本論文は実世界データと複数の獲得関数に拡張

相違点と改善

  1. 単純な-∑logŷθ(x)ではなくシャノンエントロピーを使用
  2. 実世界データセットに拡張
  3. 複数の能動学習アルゴリズムと比較

結論と考察

主要な結論

  1. 手法の有効性:BALSAは正規化フロー上で優れた性能を示す。特にBALSAKL Pairsバージョン
  2. ヒューリスティックスの失効:従来の不確実性ヒューリスティックスは正規化フロー上で効果的でない
  3. アーキテクチャ依存性:異なるアルゴリズムは異なるモデルアーキテクチャ上で顕著な性能差を示す
  4. クエリサイズの影響:不確実性手法は大きなクエリサイズでより安定している

限界

  1. 理論分析の不足:BALSAアルゴリズムの理論的収束性分析が不足している
  2. 計算オーバーヘッド:MCドロップアウトと分布距離計算は計算コストを増加させる
  3. 超パラメータ感度:ドロップアウト率の選択は性能に大きな影響を与える
  4. データセット制限:4つのデータセットのみで検証。汎化性は検証が必要

今後の方向性

  1. 他のパラメータサンプリング手法(Langevin Dynamics、SVGD)への拡張
  2. BALSAの収束特性の理論分析
  3. より多くの分布距離度量の研究
  4. より大規模なデータセットでの検証

深い評価

利点

  1. 問題の重要性:見落とされていたが重要な回帰能動学習の問題を解決
  2. 手法の革新性:分布距離を能動学習に直接使用する初の試み。集約手法の情報損失を回避
  3. 実験の包括性:複数データセット、複数アーキテクチャ、複数指標による総合的な評価
  4. 実用的価値:再現可能なコードと詳細な実験設定を提供

不足

  1. 理論的基礎の弱さ:BALSAがより有効である理由を説明する理論分析が不足している
  2. 計算効率:MCドロップアウトとEMD計算は実際の応用に影響を与える可能性がある
  3. 超パラメータ調整:ドロップアウト率の選択に原則的なガイダンスが不足している
  4. 評価の限界:主にNLLに基づく。他の回帰指標の一貫性は検証が必要

影響力

  1. 学術的貢献:回帰能動学習に新しい研究方向を提供
  2. 実用的価値:特に不確実性定量化が必要な回帰応用に適している
  3. 再現性:完全なコードと実験設定を提供。後続研究を容易にする

適用シーン

  1. 科学計算:不確実性定量化が必要な物理/化学モデリング
  2. リスク評価:金融、医療など不確実性に敏感な分野
  3. 工学最適化:探索と利用のバランスが必要な設計最適化問題
  4. 時系列:複雑な分布を持つ予測タスク

参考文献

本論文は以下の主要な研究を参照している:

  1. Berry & Meger (2023):正規化フロー集団の不確実性モデリング
  2. Gal et al. (2017):BALDアルゴリズムの原始提案
  3. Sener & Savarese (2017):Coreset能動学習手法
  4. Durkan et al. (2019):ニューラルスプラインフローの技術的基礎

総合評価:これは回帰能動学習というこの重要だが見落とされている問題に対する高品質な研究である。BALSAアルゴリズムの提案は、能動学習における正規化フローの応用のギャップを埋めている。実験設計は十分であり、結果は説得力がある。理論分析と計算効率の面でまだ改善の余地があるが、この分野の発展に重要な貢献をしている。