Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
論文ID : 2510.09877タイトル : Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling著者 : Kangping Hu, Stephen Mussmann (ジョージア工科大学)分類 : cs.LG cs.AI stat.ML発表日 : 2025年10月10日 (プレプリント)論文リンク : https://arxiv.org/abs/2510.09877v1 過去数十年間、多くの能動学習獲得関数が提案されてきたが、実務者は適切な方法の選択に困難を抱えている。ベイズ決定理論(BDT)は意思決定を指導する普遍的原則を提供する。本論文は、単一の追加データポイントのみをラベル付けする必要があると仮定する近視的枠組みの下で、(ベイズ)能動学習のためのBDTを導出した。この導出は、期待誤差削減(EER)、期待予測情報ゲイン(EPIG)などの有効なアルゴリズムを生成する。さらに、著者はBAITがBDTと漸近近似を通じて導出可能であることを証明した。このクラスの方法の主要な課題は、大規模バッチへのスケーリングの困難さであり、計算上の課題(BatchBALD)またはパフォーマンスの急激な低下(top-B選択)をもたらす。本論文は特定の決定過程の定式化を通じて、EPIGアルゴリズムの部分バッチラベルサンプリング(ParBaLS)方法を導出した。実験は、固定予算およびニューラルネットワーク埋め込み上のベイズロジスティック回帰設定において、ParBaLS EPIGが複数のデータセットで優れたパフォーマンスを示すことを実証している。
能動学習は、大量の未ラベル付きデータから最も情報量の多いデータを選択してラベル付けし、限定的なラベル付け予算の下でモデルのパフォーマンスを最大化することを目的としている。既存の方法にはヒューリスティック的手法と確率的手法が含まれるが、明確な選択指針が不足している。
実際的需要 :現代の機械学習では、データは通常、個別ではなくバッチ形式でラベル付けされる方法選択の困難さ :既存のアルゴリズムは解釈可能性に欠け、実務者はいつどのアルゴリズムが有効かを判断するのが困難であるスケーラビリティの課題 :既存の方法は大規模バッチサイズの下で計算上またはパフォーマンス上の問題に直面するTop-B選択 :バッチラベル間の依存関係を無視し、冗長なサンプルを選択する可能性があるヒューリスティック多様性 :データセット固有のハイパーパラメータの調整が必要であり、能動学習では実行不可能である貪欲バッチ獲得 :BatchBALDなどの方法は、バッチサイズに関して指数関数的に計算複雑度が増加するベイズ決定理論を通じて統一的な理論的枠組みを提供し、既存アルゴリズムの動作原理を説明し、バッチ選択を効果的に処理できる新しい方法を提案する。
理論的統一 :複数のアルゴリズム(EER、EPIG、BAITなど)を近視的ベイズ決定理論(MBDT)の導出結果として統一する新しい方法の提案 :バッチ能動学習の課題を解決するための部分バッチラベルサンプリング(ParBaLS)を導入する理論的分析 :ParBaLSのモンテカルロ近似誤差がO(1/√m)であり、バッチサイズに依存しないことを証明する実験的検証 :10の異なる設定でParBaLS EPIGの優れたパフォーマンスを検証する入力領域X、出力領域Y、および未ラベル付きプール データセットD⊂Xが与えられた場合、目標は反復的にT個のバッチS⊂Dを選択し、各バッチサイズ|S|=Bをラベル付けして、ラベル付けセット上で訓練されたモデルのテスト損失を最小化することである。
近視的枠組みの下で、単一の追加データポイントx̂のみを選択すると仮定すると、次のラベル付けポイントは以下の通りである:
argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]
負の対数尤度損失の場合、最適予測は事後分布であり、期待損失はエントロピーに簡略化される:
argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)
これはEPIGおよびEERアルゴリズムと同等である。
既存のバッチ戦略は3つのカテゴリに分類される:
Top-B :スコアが最も高いB個のポイントを選択し、依存関係を無視するヒューリスティック多様性 :ランダム性または多様性を追加し、ハイパーパラメータ調整が必要である貪欲バッチ獲得 :バッチ全体を最適化し、計算複雑度が高いラベル付けが承認されたが、ラベルが観測されていない部分バッチSを導入すると、次の最適ポイントは以下の通りである:
argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]
モンテカルロ推定を使用して、指数関数的な合計を処理する:
argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)
ParBaLSアルゴリズムはバッチを段階的に構築する:
空のバッチS=∅を初期化する ベイズモデルM_Lを訓練する m個の疑似ラベル版y^{(i)}~Y_D|Lをサンプリングする 各バッチ位置について:
各候補ポイントのEPIGスコアを計算する スコアが最も高いポイントをバッチに追加する m個の並列モデルを疑似ラベルで更新する 完全なバッチを返す 非公式な漸近近似を通じて、BAITもMBDT原則から導出できる:
Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))
実験は6つのカテゴリのデータセットをカバーしている:
表形式データ :航空会社乗客満足度、クレジットカード不正検出標準画像データ :CIFAR-10、CIFAR-100実世界画像データ :iWildCam、fMoW (WILDSベンチマークから)一対多画像データ :多クラスを二値分類に変換した不均衡シナリオ部分群シフト画像データ :3クラス設定、最初の2クラスのみでテスト画像データ :固定埋め込みモデルを使用(WILDSにはCLIP-ViT-B/32、CIFARにはDINOv2-ViT-S/14)表形式データ :ベイズロジスティック回帰を直接適用ベイズ設定 :k=400個の事後パラメータサンプル、NUTSサンプラーを使用テスト精度を主要な評価指標として使用する
ベイズ方法 :EPIG、BALD (top-BまたはGumbelノイズ付き)ベースライン方法 :Random、Confidence、BatchBALD提案方法 :ParBaLS-MAP EPIG、ParBaLS EPIGT=10回の反復、各回B=10サンプルの予算 初期ランダムサンプリング500サンプル 一部の設定ではB=20、初期100サンプルを使用して区別性を向上させる 各設定を5つの異なるシードで実行 表1の完全な実験結果によると、ParBaLS EPIGは10の設定中9つで最高のパフォーマンスを示している:
アルゴリズム 最高平均値 上位入選 ParBaLS EPIG 4 9 ParBaLS-MAP EPIG 2 7 SoftRankEPIG 0 4 EPIG 0 4 Confidence 3 5
表形式データセット (最も顕著な結果):
航空会社乗客満足度:ParBaLS EPIGが89.42±0.41%に達する クレジットカード不正検出:ParBaLS EPIGが93.55±0.23%に達する 部分群シフト設定 (最も挑戦的):
fMoW:ParBaLS EPIGが31.37±6.60%に達し、他の方法を大幅に上回る iWildCam:ParBaLS EPIGが84.72±1.98%に達する 図2は、表形式データセット上で、ParBaLS方法が学習プロセス全体を通じて一貫した優位性を保つことを示しており、特に低予算設定下でのパフォーマンスがより顕著である。
ParBaLS vs ParBaLS-MAP :完全なParBaLSは通常、MAPラベルのみを使用するバージョンより優れているバッチサイズの影響 :ParBaLSの優位性は、より大きなバッチ(B=20)でより明らかである単一ポイント vs バッチ :付録の実験は、単一ポイント選択(B=1)のパフォーマンスが優れているが、バッチ選択は実際のアプリケーションでより効率的であることを示しているヒューリスティック方法 :不確実性(Confidence、Margin、Entropy)、多様性(CORESET)、またはその両方(BADGE、GALAXY)に基づく確率的方法 :BALD、BatchBALD、BAITなど、情報理論またはベイズ原理に基づくEERは、ゼロワン損失および対数尤度損失などのパフォーマンス指標に直接焦点を当て、より良い解釈可能性を提供する。関連研究には、ヒューリスティック方法を組み合わせた変種および低予算シナリオの適応的方法が含まれる。
半教師あり学習とは異なり、能動学習における疑似ラベルは主に以下の用途に使用される:
訓練の強化 :真のラベルと疑似ラベルを組み合わせた訓練バッチ構築 :ParBaLSの革新は、疑似ラベルを最終的なラベル付けデータを汚染することなく、バッチを一時的に構築するためにのみ使用することである理論的統一 :MBDTは複数の能動学習アルゴリズムに統一的な理論的基礎を提供するバッチ解決策 :ParBaLSはバッチ能動学習のスケーラビリティ問題を効果的に解決する実験的検証 :ParBaLS EPIGは複数の設定で優れたパフォーマンスを示し、特に不確実性が高いシナリオに適している計算複雑度 :ParBaLSの時間複雑度はO(TBm)であり、m個の並列モデルが計算負担を増加させる方法の適用性 :主にベイズロジスティック回帰で検証され、深いネットワークへの拡張にはさらなる研究が必要である理論的分析 :BAITの導出は非公式な漸近近似に依存し、理論的厳密性の向上が必要である計算効率 :計算効率の高い近似方法を見つけ、より大規模なデータセットとモデルに拡張する深層学習統合 :ParBaLSを完全な深いニューラルネットワーク訓練に拡張する方法を研究する理論の完善 :より厳密な理論的分析と収束保証を提供する理論的貢献 :能動学習アルゴリズムの統一的な理論的枠組みを提供し、解釈可能性を向上させる実用的価値 :ParBaLSは実際のアプリケーションにおけるバッチ選択問題を解決する十分な実験 :複数のデータタイプと挑戦的な設定をカバーし、結果は説得力がある方法の革新 :バッチ構築における疑似ラベルの応用は新規性がある計算オーバーヘッド :m個の並列モデルの維持は計算コストを増加させる理論的厳密性 :一部の導出(BAITなど)は非公式な近似に依存している実験の限界 :主に比較的単純なモデル(ロジスティック回帰)で検証されているハイパーパラメータ感度 :mの選択がパフォーマンスと計算のトレードオフに与える影響の分析が不十分である理論的影響 :能動学習に新しい理論的視点を提供し、後続の研究を刺激する可能性がある実用的価値 :ParBaLS方法は直接的な応用価値を持ち、特にバッチラベル付けシナリオで有用である再現性 :オープンソースコードを提供し、再現と拡張を容易にする高不確実性タスク :表形式データおよび部分群シフトなど、削減不可能な不確実性が存在するシナリオバッチラベル付けの需要 :個別ではなくバッチでのラベル付けが必要な実際のアプリケーションベイズ設定 :ベイズ推論を実行できるモデルとタスク本論文は、能動学習分野の重要な文献を引用しており、以下が含まれる:
古典的な不確実性サンプリング方法 (Lewis, 1995) ベイズ能動学習方法 (Houlsby et al., 2011; Gal et al., 2017) バッチ能動学習方法 (Kirsch et al., 2019, 2023) 期待誤差削減方法 (Roy and McCallum, 2001; Mussmann et al., 2022) 総合評価 :これは能動学習分野における重要な理論的および実用的価値を持つ論文である。MBDTを通じて既存のアルゴリズムを統一し、ParBaLSを提案してバッチ選択問題を解決することで、この分野に新しい研究方向を提供している。計算効率と理論的厳密性の面でさらなる改善の余地があるが、その貢献は顕著である。