2025-11-11T14:19:08.761279

Budgeted Multiple-Expert Deferral

DeSalvo, Mohri, Mohri et al.

Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.

academic

予算制約付き複数専門家推迟学習

基本情報

論文ID: 2510.26706
タイトル: Budgeted Multiple-Expert Deferral
著者: Giulia DeSalvo (Google DeepMind)、Clara Mohri (Harvard University)、Mehryar Mohri (Google Research & Courant Institute)、Yutao Zhong (Google Research)
分類: cs.LG, stat.ML
発表日: 2025年10月30日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.26706

要約

不確実な予測を高コストの専門家に選別的に推迟することを学習することは、機械学習システムの精度と効率を向上させる強力な戦略である。しかし、標準的な推迟アルゴリズムの訓練手順は通常、各訓練インスタンスについてすべての専門家にクエリを行う必要があり、専門家クエリが重大な計算またはリソースコストを生じさせる場合、このアプローチは極めて高コストになり、推迟の中核目標である不要な専門家使用の制限に反する。この課題を克服するため、本論文は予算制約付き推迟フレームワークを導入し、訓練中の専門家クエリコストを最小化しながら効果的な推迟アルゴリズムを訓練することを目的とする。

研究背景と動機

問題定義

従来の複数専門家推迀学習（Learning to Defer）は根本的な矛盾に直面している：

中核目標：予測タスクを選別的に専門家に推迀することでコストを削減する
訓練の現実：標準的な訓練手順は各訓練サンプルについてすべての専門家にクエリを行う必要があり、総コストは neT（専門家数×訓練サンプル数）である
コストのパラドックス：訓練プロセス自体がコスト管理の本来の目的に反する

研究の重要性

実用的なニーズ：大規模言語モデルや人間の専門家など高コストなリソースが関わるシナリオでは、訓練コストが極めて高くなる可能性がある
スケーラビリティの問題：専門家の数が増加するにつれて訓練コストが線形に増加し、方法の実用性を制限する
リソース制約環境：計算リソースが限定された環境では、既存の方法は展開が困難である

既存手法の限界

全クエリ仮定：既存の方法はすべての専門家の予測とコスト情報を無コストで取得できると仮定する
理論と実践の乖離：理論分析は訓練段階のクエリコストを無視する
拡張性の欠如：大規模な専門家集合を効果的に処理できない

中核的貢献

予算制約付き推迀フレームワークの提案：訓練中の専門家クエリコスト管理問題を初めて体系的に研究する
二段階アルゴリズム設計：
- 二段階予算制約付き推迀アルゴリズム（第3～5節）
- 単段階予算制約付き推迀アルゴリズム（付録E）
理論的保証：
- 汎化界限：標準手法と同等の性能保証
- ラベル複雑度：実現可能な場合 O(T) から Õ(√T) に削減、さらに O(log T) に達成可能
実験的検証：複数のデータセットで40%以下の専門家クエリ率を実現しながら予測精度を維持

方法の詳細

タスク定義

二段階設定：

入力空間：X、ラベル空間：Y = n
専門家集合：{g₁, ..., gₙₑ}、各専門家 gⱼ: X × Y → ℝ
ルーティング関数：r ∈ R、専門家を選択 r(x) = argmax_k r(x,k)
コスト関数：cₖ(x,y)、通常は0-1損失

目標：二段階推迀損失を最小化

L_def(r,x,y,c) = Σₖ cₖ(x,y)𝟙_{r(x)=k}

中核的なアルゴリズムアーキテクチャ

アルゴリズム1：予算制約付き二段階推迀アルゴリズム

主要な革新：決定を二つの部分に分解

専門家選択：確率 qₜ,ₖ で専門家 k を選択
クエリ決定：確率 pₜ,ₖ で選択された専門家のコストをクエリ

アルゴリズムの流れ：

t = 1 から T まで:
    (xₜ, yₜ) を受け取る
    クエリ確率ベクトル pₜ ← SAMPLING-PROBS(...)を計算
    専門家 kₜ ~ q_t を選択
    確率 pₜ,ₖₜ でコスト cₜ,ₖₜ をクエリ
    訓練集合 Sₜ を更新（重要度重み 1/(qₜ,ₖₜpₜ,ₖₜ) 付き）
    ルーティング関数 rₜ を更新

アルゴリズム2：SAMPLING-PROBS サブルーチン

バージョン空間の維持：

Rₜ₊₁ = {r ∈ Rₜ : Eₜ(r) ≤ E*ₜ + Δₜ}

クエリ確率の計算：

pₜ,ₖ = max_{r,r'∈Rₜ} {ℓ(r,xₜ,k) - ℓ(r',xₜ,k)}

設計理念：現在のバージョン空間で最大の不一致を示す専門家-インスタンスペアを優先的にクエリ

技術的革新点

適応的クエリ戦略：仮説の不一致に基づいてクエリ確率を動的に調整
重要度加重推定：1/(qₜ,ₖpₜ,ₖ) 重みを通じて不偏推定を保証
バージョン空間の刈り込み：段階的に劣位の仮説を除去し、高い不確実性領域に焦点を当てる
理論的ツールの拡張：
- 傾斜非対称性（Slope Asymmetry）
- 仮説距離度量
- 一般化不一致係数

理論分析

汎化保証

定理1（二段階汎化界限）：少なくとも 1-δ の確率で、学習された仮説 rₜ は以下を満たす：

E(rₜ) - E(r*) ≤ 2Δₜ₋₁

ここで Δₜ = √(q²·8/t·log(2t(t+1)|R|²/δ))、q = 1/q_min + 1

ラベル複雑度

定理6（ラベル複雑度界限）：期待クエリ回数の上界は：

4θ·Kℓ·(E*ₜ + O((1/q_min + 1)√T log(|R|T/δ)))

主要な改善：

実現可能な場合：O(neT) から Õ(√T) に削減
Freedman不等式を使用することでさらに O(log T) に達成可能

実験設定

データセット

10個のベンチマークデータセットを使用：

二値分類：cod-rna、covtype、HIGGS、phishing、shuttle、skin
多値分類：connect、dna、letter、pendigits

専門家設定

専門家数：クラス数 n に等しい
専門家の定義：専門家 gₖ は第k類で完全に正確、他のクラスではランダムに予測
コスト関数：0-1損失 cₖ(x,y) = 𝟙_{gₖ(x)≠y}

評価指標

システム精度：テストセット上の 1 - L_def(h,x,y) の平均値
クエリ効率：累積専門家クエリ数対利用可能なクエリ数

実装の詳細

仮説クラス：ロジスティック回帰モデル（L2正則化）
損失関数：多項ロジスティック損失
実験の繰り返し：各データセット5回のランダム分割

実験結果

主要な結果

クエリ効率：

二値分類データセット：クエリ率を35～40%に削減
多値分類データセット：クエリ率を30%以下に削減
専門家数の効果：専門家が多いほど効率向上が顕著（letterデータセット26専門家時に最良）

精度の維持：

すべてのデータセットでシステム精度が標準手法と同等
二値分類データセットでは誤差バーが極めて小さく、結果の安定性を示す
多値分類データセットではある程度の変動があるが、全体的な傾向は一貫

主要な発見

スケーラビリティの検証：専門家数の増加に伴い、予算手法の優位性がより明確になる
安定性分析：オンライン学習プロセス中の「ジッター」はアルゴリズムのランダム性の正常な表現
理論的検証：実験結果は理論分析の主要成分（θ、Kℓ、E*）の影響が限定的であることを支持

結論と考察

主要な結論

実現可能性の証明：訓練コストを大幅に削減しながら推迀アルゴリズムの性能を維持することは可能である
理論的ブレークスルー：予算制約付き推迀問題に対する厳密な理論的保証を初めて提供
実用的価値：リソース制約環境で推迀戦略をより実行可能にする

限界

専門家設定：実験中の専門家設定は比較的単純化されており、実際のアプリケーションではより複雑である可能性がある
コスト関数：主に0-1損失を考慮しており、他のコスト構造にはさらなる検証が必要
仮説クラスの制限：理論分析は有限仮説クラスに基づいており、無限仮説クラスはカバリング数分析が必要

今後の方向性

適応的クエリ戦略：訓練サンプル間の構造情報を活用
動的専門家可用性：専門家が動的に変化するシナリオへの対応
強化学習の統合：逐次的または対話的意思決定シナリオへの適用

深い評価

長所

問題の重要性：推迀学習における根本的な実際的問題を解決
理論的厳密性：汎化界限とラベル複雑度を含む完全な理論分析フレームワークを提供
アルゴリズムの革新：能動学習の思想を推迀学習シナリオに巧妙に適応
実験の充実性：複数のデータセットで方法の有効性を検証

不足

実験設定の限界：専門家設定が比較的人工的で、実際のアプリケーションシナリオとの乖離がある可能性
比較基線の単一性：主に標準推迀手法との比較であり、他の予算制約手法との比較が不足
計算複雑度分析の不足：アルゴリズムの計算オーバーヘッドの詳細分析がない

影響力

学術的貢献：推迀学習領域に新しい研究方向を開拓
実用的価値：高コストの専門家が関わる実際のアプリケーションに重要な意義を持つ
理論的価値：能動学習理論を新しいアプリケーションシナリオに拡張

適用シナリオ

大規模言語モデルの推迀：異なる規模のLLM間でコスト敏感な推迀決定を行う
医療診断システム：異なる専科医間で診断タスクを配分
センサーネットワーク：異なる能力のセンサー間でデータ収集決定を行う

参考文献

本論文は推迀学習、能動学習、多腕バンディット等の領域の重要な文献を引用しており、特に以下が挙げられる：

Mao et al. (2023a, 2024a)：複数専門家推迀の理論的基礎
Beygelzimer et al. (2009)：IWAL アルゴリズムの重要度加重思想
Reid et al. (2024)：予算制約付き推迀の先駆的研究

総合評価：これは推迀学習における重要な実際的問題を解決し、厳密な理論分析と説得力のある実験検証を提供する高品質な機械学習理論論文である。本論文の主要な貢献は、訓練段階における専門家クエリコスト管理を初めて体系的に研究したことであり、この領域の実際のアプリケーションに対する重要な基礎を築いている。