We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
論文ID : 2506.14988タイトル : Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits著者 : Tianyi Xu, Jiaxin Liu, Nicholas Mattei, Zizhan Zheng機関 : Tulane University, University of Illinois Urbana-Champaign分類 : cs.LG, cs.AI発表日時 : arXiv preprint, 2025年11月26日版論文リンク : https://arxiv.org/abs/2506.14988v4 本論文は、複数エージェント間の公平性を確保しながらシステム全体のパフォーマンスを最大化することを目的とした、複数エージェント多腕バンディット(MA-MAB)フレームワークを提案する。腕の報酬情報が限定的な意思決定の課題に対処するため、配分前に戦略的に選定された腕の情報を収集する新規なプロービング(探査)メカニズムを導入する。オフライン設定(報酬分布が既知)では、劣モジュラ性を利用して定数因子近似保証を持つ貪欲プロービングアルゴリズムを設計した。オンライン設定では、準線形後悔(sublinear regret)を実現しながら公平性を維持するアルゴリズムを開発した。合成データセットと実世界データセット上での広範な実験により、本手法が公平性と効率の両面で基線手法を上回ることが示された。
従来の多腕バンディット問題は通常、功利主義的福祉 (utilitarian welfare、すなわち総報酬の合計)を最適化するが、これは深刻な不公平をもたらす。例えば、ライドシェアリングプラットフォームにおいて、中央調度システムがドライバーを異なる地理的領域に配分する際、総収益を最適化すると、一部のドライバーが全く注文を受けられない「飢餓」(starvation)現象が発生する可能性がある。
公平なリソース配分は多くの実際のアプリケーションで極めて重要である:
ライドシェアリングプラットフォーム :ドライバーは利益性の高い地域への公平なアクセスが必要コンテンツ推奨システム :クリエイターの露出が独占されるべきではない無線ネットワークスケジューリング :クライアントデバイスは公平な帯域幅配分が必要公平性の欠如 :既存のMA-MAB手法は主に総報酬の最大化に焦点を当て、個人の公平性を無視している情報依存性 :即座のフィードバック更新に依存し、情報が不完全またはノイズが多い環境では性能が低下する探索不足 :能動的な情報収集メカニズムが欠けており、不確実な腕に対する推定誤差が配分決定に伝播する本論文は、プロービングメカニズム とナッシュ社会福祉 (Nash Social Welfare, NSW)目標を導入することにより、公平な複数エージェント手法と能動的な探索戦略の間のギャップを埋め、能動的な探索を通じて得られた情報がすべてのエージェントの公平な結果に直接変換されるようにする。
新規フレームワーク :MA-MABフレームワークを拡張し、配分前に選定された腕をテストするプロービングメカニズムを導入し、NSW最適化を通じて公平性を確保するオフラインアルゴリズム :既知の報酬パターンに対して、証明可能なパフォーマンス保証を持つシンプルで効果的な貪欲プロービング戦略を開発するオンラインアルゴリズム :探索と公平性のバランスを取るアルゴリズムを提案し、プロービングと公平な配分が漸近的パフォーマンスを損なわないこと(準線形後悔)を証明する実験検証 :合成データと実世界データ上で、本手法が公平性と効率の両面で基線を上回ることを実証する基本設定 :
エージェント :M個のエージェント、記号 j ∈ M 腕 :A個の腕、記号 a ∈ A 報酬分布 :各エージェント-腕ペア (j,a) は未知分布 D_{j,a} を持ち、平均値 μ_{j,a} ∈ 0,1 決定プロセス (各ラウンド t):
プロービング段階 :プロービング集合 S_t ⊆ A を選択し、各 a ∈ S_t に対して新鮮な報酬サンプル R_{j,a,t} を取得する配分段階 :観察された報酬と現在の推定に基づいて、戦略 π_t を通じて腕をエージェントに配分する公平性目標 :ナッシュ社会福祉(NSW)を最大化する
NSW ( S t , R t , μ , π t ) = ∏ j ∈ [ M ] ( ∑ a ∈ S t π j , a , t R j , a , t + ∑ a ∉ S t π j , a , t μ j , a ) \text{NSW}(S_t, R_t, \mu, \pi_t) = \prod_{j \in [M]} \left( \sum_{a \in S_t} \pi_{j,a,t} R_{j,a,t} + \sum_{a \notin S_t} \pi_{j,a,t} \mu_{j,a} \right) NSW ( S t , R t , μ , π t ) = ∏ j ∈ [ M ] ( ∑ a ∈ S t π j , a , t R j , a , t + ∑ a ∈ / S t π j , a , t μ j , a )
プロービングコスト :有効報酬は
R t total = ( 1 − α ( ∣ S t ∣ ) ) E R t [ NSW ( S t , R t , μ , π t ) ] R^{\text{total}}_t = (1 - \alpha(|S_t|)) \mathbb{E}_{R_t}[\text{NSW}(S_t, R_t, \mu, \pi_t)] R t total = ( 1 − α ( ∣ S t ∣ )) E R t [ NSW ( S t , R t , μ , π t )]
ここで α(·) は非減少コスト関数であり、α(0)=0, α(I)=1
後悔の定義 :
R regret ( T ) = ∑ t = 1 T [ ( 1 − α ( ∣ S t ∗ ∣ ) ) E [ NSW ( S t ∗ , R t , μ , π t ∗ ) ] − R t total ] R_{\text{regret}}(T) = \sum_{t=1}^T \left[ (1-\alpha(|S^*_t|)) \mathbb{E}[\text{NSW}(S^*_t, R_t, \mu, \pi^*_t)] - R^{\text{total}}_t \right] R regret ( T ) = ∑ t = 1 T [ ( 1 − α ( ∣ S t ∗ ∣ )) E [ NSW ( S t ∗ , R t , μ , π t ∗ )] − R t total ]
2つの効用関数を定義する:
プロービング効用 g(S):プロービング腕のみを使用した最適NSW期待値
g ( S ) = max π ∈ Δ S A E [ ∏ j ∈ [ M ] ( ∑ a ∈ S π j , a R j , a ) ] g(S) = \max_{\pi \in \Delta^A_S} \mathbb{E}\left[ \prod_{j \in [M]} \left( \sum_{a \in S} \pi_{j,a} R_{j,a} \right) \right] g ( S ) = max π ∈ Δ S A E [ ∏ j ∈ [ M ] ( ∑ a ∈ S π j , a R j , a ) ] 非プロービング効用 h(S):未探査腕のみを使用した最適NSW
h ( S ) = max π ∈ Δ [ A ] \ S A ∏ j ∈ [ M ] ( ∑ a ∉ S π j , a μ j , a ) h(S) = \max_{\pi \in \Delta^A_{[A]\backslash S}} \prod_{j \in [M]} \left( \sum_{a \notin S} \pi_{j,a} \mu_{j,a} \right) h ( S ) = max π ∈ Δ [ A ] \ S A ∏ j ∈ [ M ] ( ∑ a ∈ / S π j , a μ j , a ) log(g(S)) は劣モジュラではないため、直接最適化は困難である。区分線形包絡近似を採用する:
区間 0, x_max を細粒度の区分に分割し、ブレークポイントを τ_0, τ_1, ..., τ_L とする 各ブレークポイントで接線 T_{τ_i}(z) = log(τ_i) + (z - τ_i)/τ_i を構成する φ(z) = max_{0≤i<L} T_{τ_i}(z) を定義し、φ(z) ≥ log(z) を満たす f_upper(S) = φ(g(S)) を設定する 補題1-5 は以下の重要な性質を確立する:
補題1 :g(S) は単調増加補題2 :f_upper(S) は単調増加補題3 :f_upper(S) は劣モジュラ(核心的性質)補題4 :h(S) は単調減少補題5 :R(S) ≤ (1-α(|S|))(g(S) + h(S))入力:分布 {F_{m,a}}, コスト関数 α(·), 予算 I, パラメータ ζ≥1
出力:プロービング集合 S_pr
1. S_0 = ∅ で初期化
2. i = 1 から I まで:
- 限界利得が最大の腕を選択:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. (1-α(|S_j|))f_upper(S_j) で候補集合を降順にソート
4. ソート済み集合を走査:
- (1-α(|S_j|))f_upper(S_j) < h(∅) なら ∅ を返す
- (1-α(|S_j|))f_upper(S_j) > ζR(S_j) なら続行
- そうでなければ S_j を返す
定理1(近似保証) :任意の ζ≥1 に対して、アルゴリズムが返す S_pr は以下を満たす
R ( S p r ) ≥ e − 1 2 e − 1 ⋅ 1 ζ ⋅ R ( S ∗ ) R(S_{pr}) \geq \frac{e-1}{2e-1} \cdot \frac{1}{\zeta} \cdot R(S^*) R ( S p r ) ≥ 2 e − 1 e − 1 ⋅ ζ 1 ⋅ R ( S ∗ )
これは劣モジュラ最大化の (1-1/e) 近似因子から導出される。
初期化段階 (t = 1 から MA):
各エージェント-腕ペアを少なくとも1回探索 経験的CDF F̂_{j,a,t} と平均推定値 μ̂_{j,a,t} を構築 メインループ段階 (t > MA):
プロービング集合選択 :アルゴリズム1を呼び出し、現在の推定 F̂_{j,a,t} に基づいて S_t を選択プロービング更新 :S_t 内の腕をサンプリングし、統計量と信頼上界を更新
U j , a , t = min ( μ ^ j , a , t + w j , a , t , 1 ) U_{j,a,t} = \min(\hat{\mu}_{j,a,t} + w_{j,a,t}, 1) U j , a , t = min ( μ ^ j , a , t + w j , a , t , 1 )
ここで w_{j,a,t} はFreedman不等式に基づく信頼幅戦略最適化 :
π t = arg max π t ∈ Δ A ( 1 − α ( ∣ S t ∣ ) ) E R t [ NSW ( S t , R t , U t , π t ) ] \pi_t = \arg\max_{\pi_t \in \Delta^A} (1-\alpha(|S_t|)) \mathbb{E}_{R_t}[\text{NSW}(S_t, R_t, U_t, \pi_t)] π t = arg max π t ∈ Δ A ( 1 − α ( ∣ S t ∣ )) E R t [ NSW ( S t , R t , U t , π t )] 腕の選択 :各エージェント j は π_t に従って腕を選択し、報酬を観察して更新補題7(濃度界) :少なくとも 1-δ/2 の確率で、すべての t>A, a∈A , j∈M に対して:
∣ μ j , a − μ ^ j , a , t ∣ ≤ 2 ( μ ^ j , a , t − μ ^ j , a , t 2 ) ln ( 2 M A T δ ) N j , a , t + ln ( 2 M A T δ ) 3 N j , a , t = w j , a , t |\mu_{j,a} - \hat{\mu}_{j,a,t}| \leq \sqrt{\frac{2(\hat{\mu}_{j,a,t} - \hat{\mu}^2_{j,a,t}) \ln(\frac{2MAT}{\delta})}{N_{j,a,t}}} + \frac{\ln(\frac{2MAT}{\delta})}{3N_{j,a,t}} = w_{j,a,t} ∣ μ j , a − μ ^ j , a , t ∣ ≤ N j , a , t 2 ( μ ^ j , a , t − μ ^ j , a , t 2 ) l n ( δ 2 M A T ) + 3 N j , a , t l n ( δ 2 M A T ) = w j , a , t
プロービングと公平性の結合 :能動的なプロービングメカニズムとNSW公平目標を結合した初の試み。総報酬のみを最適化する先行研究と異なる劣モジュラ近似技術 :区分線形上界を通じて非劣モジュラ問題を劣モジュラ最適化に変換し、処理可能性を維持UCB-NSW融合 :オンラインアルゴリズムはUCB信頼界とNSW最適化を巧妙に結合し、探索-利用と公平性のバランスを取る階層的後悔分析 :ラウンドを「大γ」と「小γ」の2つのカテゴリに分類し、高不確実性と低不確実性の場合をそれぞれ処理合成データ :
小規模 :M=12 エージェント、A=8 腕中規模 :M=20 エージェント、A=10 腕報酬分布 :
ベルヌーイ分布(報酬0または1、平均値は0.3, 0.8 ) 離散分布(報酬は{0.3, 0.4, 0.5, 0.6, 0.7, 0.8}からサンプリング) 実世界データ :NYYellowTaxi 2016データセット
エージェント :車両(ランダムに事前サンプリングされた位置)腕 :離散化された乗客ピックアップ位置(0.01°×0.01°グリッド)報酬 :車両から乗客ピックアップ地点までの正規化マンハッタン距離に基づく(距離が近いほど報酬が高い)累積後悔 :式(1)に従って計算、最適報酬は全探索により決定数値安定性 :幾何平均を使用して各エージェント報酬の累積NSWを集約近似検証 :f_upper(S) と log(g(S)) の差異 ≤ 0.03 を検証Non-Probing :Jones等(2023)の公平MABアルゴリズム。プロービング能力なし、現在の情報のみに基づいて配分を最適化Random P+A :固定数の腕をランダムに選択してプロービング、その後ランダムに配分Greedy P+A :同じ貪欲プロービング戦略を使用するが、プロービング後はランダムに配分プロービング予算 :問題規模に応じて設定コスト関数 :α(|S|) は増加関数、α(0)=0, α(I)=1信頼パラメータ :δ は高確率保証を確保するよう設定コード公開 :https://github.com/jiaxin26/Fair-MA-MAB-with-Probing 図1に示される核心的発見 :
小規模シナリオ(M=12, A=8, ベルヌーイ) :OFMUPはT=3000時点でRandom P+Aより85%低い後悔 Greedy P+Aより60%低い Non-Probingより大幅に優れている 中規模シナリオ(M=20, A=10, ベルヌーイ) :OFMUPの優位性がより顕著 T=3000時点でRandom P+Aより88%低い後悔 Greedy P+Aより80%低い より優れたスケーラビリティを示す 離散分布シナリオ :OFMUPは継続的に基線を上回る 報酬パターンの学習に伴い、他の手法との差が拡大 T=3000時点でRandom P+Aより85%低く、Non-Probingより65%低い Random P+Aの異常現象 :小規模テストで予想より若干高い後悔 原因:幾何平均で公平性を計算する際、小サンプルが変動性を増加させる 図2に示されるスケーラビリティ :
腕数固定(A=8)、エージェント数変動 :OFMUPはすべてのエージェント数で良好なパフォーマンス 相対的優位性は問題の複雑さの増加に伴い増大 エージェント数固定(M=20)、腕数変動 :OFMUPの優位性は腕数の増加に伴いより顕著 高次元空間ではプロービングメカニズムの価値が証明される プロービングの重要な役割 :プロービングは情報収集と配分指導において決定的な役割を果たす公平な配分の重要性 :Greedy P+AのパフォーマンスはOFMUPより大幅に低く、プロービング後の公平な配分が極めて重要であることを示す理論検証 :実験結果は理論分析を検証する——OFMUPは探索-利用と公平性を効果的にバランスさせる実世界データへの適用性 :NYYellowTaxiデータでの成功は実際のアプリケーション可能性を証明する単一エージェントMAB :Lai & Robbins (1985), Garivier & Cappé (2011)複数エージェントMAB :Martínez-Rubio等(2019), Hossain等(2021)公平性研究 :Joseph等(2016, 2018), Patil等(2021)理論的基礎 :Kaneko & Nakamura (1979)計算方法 :Cole & Gkatzelis (2015)MA-MAB応用 :Jones, Nguyen & Nguyen (2023)——本論文が直接拡張した研究経済学的起源 :Weitzman (1979)単一エージェント報酬プロービングバンディット :
Aaron D. Tucker等(2023):高コスト報酬観察、Θ(c^{1/3}T^{2/3})界 Elumar等(2024):各ラウンド1腕プロービング、Õ(√KT)後悔 Zuo等(2020):Observe-Before-Playフレームワーク 劣モジュラプロービング :Bhaskara等(2020)ルーティング問題本論文の貢献 :プロービングと複数エージェント公平性を初めて結合既存研究は公平MABに焦点を当てるが受動的フィードバックに依存するか、プロービングを研究するが公平性を無視している。本論文はこのギャップを埋める。
結果 :R(S_pr) ≥ (e-1)/(2e-1) · 1/ζ · R(S*)
証明の重要ステップ :
補題5を利用:R(S) ≤ (1-α(|S|))(g(S) + h(S)) 劣モジュラ最大化の(1-1/e)近似を適用 アルゴリズムの選別条件を通じてf_upperをRに関連付け 定数因子近似保証を得る 結果 :少なくとも1-δの確率で、
R regret ( T ) = O ( ζ ( M A T + M A ) ln c ( M A T δ ) ) R_{\text{regret}}(T) = O\left(\zeta(\sqrt{MAT} + MA) \ln^c\left(\frac{MAT}{\delta}\right)\right) R regret ( T ) = O ( ζ ( M A T + M A ) ln c ( δ M A T ) )
証明フレームワーク :
NSW平滑性 (補題6):報酬行列に関するNSWのLipschitz性質濃度界 (補題7):Freedman不等式に基づく信頼界ラウンド分層 (補題8):
γ_{j,t} = Σ_a π_{j,a,t}(1-U_{j,a,t}) を定義 大γラウンド:|Q(t,p)| ≥ 2^p·3lnT、寄与 ≤ 1/T² 小γラウンド:濃度界を適用、根項と線形項に分解 根項界 :Young不等式と補題8を通じて処理線形項界 :Jones等(2023)の補題4.4を利用最終統合 :O(√MAT)主項と低次項を得る重要な技術 :
(S*,π*)から(S_t,π_t)への後悔変換、定理1の因子を利用 UCB楽観性:U_{j,a,t}≥μ_{j,a}は探索を確保 階層分析はすべてのラウンドの複雑な依存性の直接処理を回避 理論的貢献 :オフライン:計算可能なアルゴリズムの定数因子近似保証 オンライン:準線形後悔O(√MAT)、非プロービング公平アルゴリズムと同等だが実際のパフォーマンスはより優れている 実践的価値 :プロービングメカニズムは報酬推定を大幅に改善 探索-利用と公平性のバランスを取る 実世界のライドシェアリングデータで有効性を検証 方法論的革新 :能動的プロービングと複数エージェント公平性を初めて結合 非凸最適化を処理する劣モジュラ近似技術 UCB-NSW融合のオンライン学習フレームワーク 計算複雑性 :オフラインアルゴリズムはNSW最適化の反復的解法が必要(NP困難) オンラインの各ラウンドで最適戦略π_tを計算する必要 大規模シナリオ(M,A が非常に大きい)では計算上の瓶頸が生じる可能性 理論的仮定 :区分線形近似は十分に細かい分割が必要(仮定 d/d'≥τ_i/τ_j) プロービング予算Iは事前に設定する必要 コスト関数α(·)の形式は既知である必要 実験範囲 :実験規模は相対的に限定的(最大M=20, A=10) 実世界データはライドシェアリングシナリオのみ より多くの最新公平MAB手法との比較がない 公平性の測定 :NSWのみを考慮、他の公平性概念(max-min、envy-freenessなど)は未探索 NSWはゼロ報酬に敏感(すべてのエージェントが正の報酬を得る必要) 論文では明示的に提案されていないが、推測される方向性:
他の公平性度量への拡張 :プロービングメカニズムと他の公平性概念の結合を研究適応的プロービング予算 :固定Iではなく動的にプロービング数を調整分散実装 :中央集約的でない探査と配分決定非定常環境 :報酬分布が時間とともに変化するシナリオ制約条件 :予算、遅延などの実際的制約を追加理論的厳密性 :オフラインとオンライン設定の両方に厳密な理論保証 証明は完全で詳細(付録は20ページ以上) 劣モジュラ性の確立は巧妙で重要 問題の重要性 :実際のアプリケーションにおける真の課題を解決(公平性と不確実性) ライドシェアリングの事例は直接的な応用価値を持つ 公平MABと能動的探索の間の研究ギャップを埋める 方法の革新性 :プロービングメカニズムとNSWの結合は新規 区分線形上界構成技術は巧妙 UCBとNSW最適化の融合は非自明 実験の充実性 :合成データと実世界データをカバー 複数の分布と規模設定 スケーラビリティ分析は完全 アブレーション実験(Greedy P+Aとの比較)は明確 記述の明確性 :動機付けは明確 技術的詳細は完全に記述 図表は直感的で効果的 計算効率の不十分な議論 :アルゴリズム実行時間が報告されていない NSW最適化の計算複雑性分析が欠落 大規模シナリオの実行可能性に疑問 プロービングコストモデルの簡略化 :α(|S|)関数形式が過度に抽象的 実際のアプリケーションでのα設定方法が詳細に説明されていない 異なるアプリケーションシナリオのコスト特性の差異が未検討 基線手法の限定性 :主にJones等(2023)の手法と比較 より多くの最新公平MAB手法との比較がない 非公平だが効率的なプロービングアルゴリズムとの比較が欠落 実験規模の制限 :最大M=20, A=10は相対的に小規模 実世界データは1つのデータセットのみ 極端な不均衡シナリオ(M>>AまたはA>>M)は未テスト 理論と実践のギャップ :定理1の近似因子はζパラメータを含むが、実際のζ選択が説明されていない 定理2の後悔界の定数cが明示されていない 区分線形近似の実際の誤差(0.03)がパフォーマンスにどう影響するかが未分析 公平性の議論が不十分 :NSWの限界(ゼロ報酬への敏感性)が十分に議論されていない 他の公平性度量との比較がない 個人的合理性(individual rationality)は考慮されていない 学術的影響 :
高い :重要な研究ギャップを埋め、高い引用率が予想される公平MAB分野に新しい研究パラダイムを提供 プロービングメカニズムと公平性の結合は後続研究を刺激する可能性 実用的価値 :
中程度から高い :
ライドシェアリングなどのプラットフォームに直接的な応用可能性 ただし計算複雑性は大規模展開を制限する可能性 さらなるエンジニアリング最適化が必要 再現性 :
高い :コードはオープンソース、アルゴリズム記述は詳細理論証明は完全で検証が容易 実験設定は明確 強い適用シナリオ :
ライドシェアリング調度 :中規模都市(10-20地域、10-50台の車)コンテンツ推奨 :クリエイターの露出バランスが必要なプラットフォーム無線ネットワークスケジューリング :60 GHz WLAN シナリオ(論文で言及)リソース配分 :公平性が必要で不確実性が存在するあらゆるシナリオ弱い適用シナリオ :
大規模システム :M,A>100の場合、計算が実行不可能な可能性リアルタイムシステム :NSW最適化の計算遅延が過度になる可能性動的環境 :報酬分布が急速に変化するシナリオゼロサムの競争 :エージェント間に直接的な競争が存在する場合非適用シナリオ :
単一エージェント問題 :方法が過度に複雑既知報酬 :プロービングメカニズムが不要極端な公平性要件 :NSW が十分に「公平」でない可能性(max-minを考慮)Jones, Nguyen & Nguyen (2023) : "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - 本論文が直接拡張した基礎研究Cole & Gkatzelis (2015) : "Approximating the Nash social welfare with indivisible items" - NSW最適化理論の基礎Zuo, Zhang & Joe-Wong (2020) : "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - プロービングメカニズムの先駆的研究Bhaskara et al. (2020) : "Adaptive probing policies for shortest path routing" - 劣モジュラプロービングの応用Caragiannis et al. (2019) : "The unreasonable fairness of maximum Nash welfare" - NSW公平性理論本論文は複数エージェント多腕バンディット分野に重要な貢献をしており、能動的プロービングメカニズムと公平性目標を初めて体系的に結合している。理論的には厳密(定数因子近似と準線形後悔)、実験的には充実(合成データ+実世界データ)、方法的には革新的(劣モジュラ近似+UCB-NSW融合)である。主な限界は計算複雑性と実験規模であるが、これは学術的価値と実践的可能性を損なわない。本研究は公平機械学習とオンライン意思決定分野に新しい研究方向を開き、さらなる探索と応用に値する。