Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.
論文ID : 2510.26706タイトル : Budgeted Multiple-Expert Deferral著者 : Giulia DeSalvo (Google DeepMind)、Clara Mohri (Harvard University)、Mehryar Mohri (Google Research & Courant Institute)、Yutao Zhong (Google Research)分類 : cs.LG, stat.ML発表日 : 2025年10月30日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.26706 不確実な予測を高コストの専門家に選別的に推迟することを学習することは、機械学習システムの精度と効率を向上させる強力な戦略である。しかし、標準的な推迟アルゴリズムの訓練手順は通常、各訓練インスタンスについてすべての専門家にクエリを行う必要があり、専門家クエリが重大な計算またはリソースコストを生じさせる場合、このアプローチは極めて高コストになり、推迟の中核目標である不要な専門家使用の制限に反する。この課題を克服するため、本論文は予算制約付き推迟フレームワークを導入し、訓練中の専門家クエリコストを最小化しながら効果的な推迟アルゴリズムを訓練することを目的とする。
従来の複数専門家推迀学習(Learning to Defer)は根本的な矛盾に直面している:
中核目標 :予測タスクを選別的に専門家に推迀することでコストを削減する訓練の現実 :標準的な訓練手順は各訓練サンプルについてすべての専門家にクエリを行う必要があり、総コストは neT(専門家数×訓練サンプル数)であるコストのパラドックス :訓練プロセス自体がコスト管理の本来の目的に反する実用的なニーズ :大規模言語モデルや人間の専門家など高コストなリソースが関わるシナリオでは、訓練コストが極めて高くなる可能性があるスケーラビリティの問題 :専門家の数が増加するにつれて訓練コストが線形に増加し、方法の実用性を制限するリソース制約環境 :計算リソースが限定された環境では、既存の方法は展開が困難である全クエリ仮定 :既存の方法はすべての専門家の予測とコスト情報を無コストで取得できると仮定する理論と実践の乖離 :理論分析は訓練段階のクエリコストを無視する拡張性の欠如 :大規模な専門家集合を効果的に処理できない予算制約付き推迀フレームワークの提案 :訓練中の専門家クエリコスト管理問題を初めて体系的に研究する二段階アルゴリズム設計 :
二段階予算制約付き推迀アルゴリズム(第3~5節) 単段階予算制約付き推迀アルゴリズム(付録E) 理論的保証 :
汎化界限:標準手法と同等の性能保証 ラベル複雑度:実現可能な場合 O(T) から Õ(√T) に削減、さらに O(log T) に達成可能 実験的検証 :複数のデータセットで40%以下の専門家クエリ率を実現しながら予測精度を維持二段階設定 :
入力空間 :X、ラベル空間 :Y = n 専門家集合 :{g₁, ..., gₙₑ}、各専門家 gⱼ: X × Y → ℝルーティング関数 :r ∈ R、専門家を選択 r(x) = argmax_k r(x,k)コスト関数 :cₖ(x,y)、通常は0-1損失目標 :二段階推迀損失を最小化
L_def(r,x,y,c) = Σₖ cₖ(x,y)𝟙_{r(x)=k}
主要な革新 :決定を二つの部分に分解
専門家選択 :確率 qₜ,ₖ で専門家 k を選択クエリ決定 :確率 pₜ,ₖ で選択された専門家のコストをクエリアルゴリズムの流れ :
t = 1 から T まで:
(xₜ, yₜ) を受け取る
クエリ確率ベクトル pₜ ← SAMPLING-PROBS(...)を計算
専門家 kₜ ~ q_t を選択
確率 pₜ,ₖₜ でコスト cₜ,ₖₜ をクエリ
訓練集合 Sₜ を更新(重要度重み 1/(qₜ,ₖₜpₜ,ₖₜ) 付き)
ルーティング関数 rₜ を更新
バージョン空間の維持 :
Rₜ₊₁ = {r ∈ Rₜ : Eₜ(r) ≤ E*ₜ + Δₜ}
クエリ確率の計算 :
pₜ,ₖ = max_{r,r'∈Rₜ} {ℓ(r,xₜ,k) - ℓ(r',xₜ,k)}
設計理念 :現在のバージョン空間で最大の不一致を示す専門家-インスタンスペアを優先的にクエリ
適応的クエリ戦略 :仮説の不一致に基づいてクエリ確率を動的に調整重要度加重推定 :1/(qₜ,ₖpₜ,ₖ) 重みを通じて不偏推定を保証バージョン空間の刈り込み :段階的に劣位の仮説を除去し、高い不確実性領域に焦点を当てる理論的ツールの拡張 :
傾斜非対称性(Slope Asymmetry) 仮説距離度量 一般化不一致係数 定理1(二段階汎化界限) :
少なくとも 1-δ の確率で、学習された仮説 rₜ は以下を満たす:
ここで Δₜ = √(q²·8/t·log(2t(t+1)|R|²/δ))、q = 1/q_min + 1
定理6(ラベル複雑度界限) :
期待クエリ回数の上界は:
4θ·Kℓ·(E*ₜ + O((1/q_min + 1)√T log(|R|T/δ)))
主要な改善 :
実現可能な場合:O(neT) から Õ(√T) に削減 Freedman不等式を使用することでさらに O(log T) に達成可能 10個のベンチマークデータセットを使用:
二値分類 :cod-rna、covtype、HIGGS、phishing、shuttle、skin多値分類 :connect、dna、letter、pendigits専門家数 :クラス数 n に等しい専門家の定義 :専門家 gₖ は第k類で完全に正確、他のクラスではランダムに予測コスト関数 :0-1損失 cₖ(x,y) = 𝟙_{gₖ(x)≠y}システム精度 :テストセット上の 1 - L_def(h,x,y) の平均値クエリ効率 :累積専門家クエリ数 対 利用可能なクエリ数仮説クラス :ロジスティック回帰モデル(L2正則化)損失関数 :多項ロジスティック損失実験の繰り返し :各データセット5回のランダム分割クエリ効率 :
二値分類データセット :クエリ率を35~40%に削減多値分類データセット :クエリ率を30%以下に削減専門家数の効果 :専門家が多いほど効率向上が顕著(letterデータセット26専門家時に最良)精度の維持 :
すべてのデータセットでシステム精度が標準手法と同等 二値分類データセットでは誤差バーが極めて小さく、結果の安定性を示す 多値分類データセットではある程度の変動があるが、全体的な傾向は一貫 スケーラビリティの検証 :専門家数の増加に伴い、予算手法の優位性がより明確になる安定性分析 :オンライン学習プロセス中の「ジッター」はアルゴリズムのランダム性の正常な表現理論的検証 :実験結果は理論分析の主要成分(θ、Kℓ、E*)の影響が限定的であることを支持単段階手法 :Mozannar & Sontag (2020)、Verma & Nalisnick (2022)多段階手法 :Mao et al. (2023a)、一貫性保証研究理論的発展 :H-一貫性界限、Bayes一貫性IWAL アルゴリズム :Beygelzimer et al. (2009) の重要度加重能動学習地域能動学習 :Cortes et al. (2019a,b, 2020)Reid et al. (2024) :単一専門家の場合の文脈バンディット手法限界 :複数専門家への拡張が困難、仮定が過度に厳格実現可能性の証明 :訓練コストを大幅に削減しながら推迀アルゴリズムの性能を維持することは可能である理論的ブレークスルー :予算制約付き推迀問題に対する厳密な理論的保証を初めて提供実用的価値 :リソース制約環境で推迀戦略をより実行可能にする専門家設定 :実験中の専門家設定は比較的単純化されており、実際のアプリケーションではより複雑である可能性があるコスト関数 :主に0-1損失を考慮しており、他のコスト構造にはさらなる検証が必要仮説クラスの制限 :理論分析は有限仮説クラスに基づいており、無限仮説クラスはカバリング数分析が必要適応的クエリ戦略 :訓練サンプル間の構造情報を活用動的専門家可用性 :専門家が動的に変化するシナリオへの対応強化学習の統合 :逐次的または対話的意思決定シナリオへの適用問題の重要性 :推迀学習における根本的な実際的問題を解決理論的厳密性 :汎化界限とラベル複雑度を含む完全な理論分析フレームワークを提供アルゴリズムの革新 :能動学習の思想を推迀学習シナリオに巧妙に適応実験の充実性 :複数のデータセットで方法の有効性を検証実験設定の限界 :専門家設定が比較的人工的で、実際のアプリケーションシナリオとの乖離がある可能性比較基線の単一性 :主に標準推迀手法との比較であり、他の予算制約手法との比較が不足計算複雑度分析の不足 :アルゴリズムの計算オーバーヘッドの詳細分析がない学術的貢献 :推迀学習領域に新しい研究方向を開拓実用的価値 :高コストの専門家が関わる実際のアプリケーションに重要な意義を持つ理論的価値 :能動学習理論を新しいアプリケーションシナリオに拡張大規模言語モデルの推迀 :異なる規模のLLM間でコスト敏感な推迀決定を行う医療診断システム :異なる専科医間で診断タスクを配分センサーネットワーク :異なる能力のセンサー間でデータ収集決定を行う本論文は推迀学習、能動学習、多腕バンディット等の領域の重要な文献を引用しており、特に以下が挙げられる:
Mao et al. (2023a, 2024a):複数専門家推迀の理論的基礎 Beygelzimer et al. (2009):IWAL アルゴリズムの重要度加重思想 Reid et al. (2024):予算制約付き推迀の先駆的研究 総合評価 :これは推迀学習における重要な実際的問題を解決し、厳密な理論分析と説得力のある実験検証を提供する高品質な機械学習理論論文である。本論文の主要な貢献は、訓練段階における専門家クエリコスト管理を初めて体系的に研究したことであり、この領域の実際のアプリケーションに対する重要な基礎を築いている。