This paper investigates the impact of perturbations on the best-response-based algorithms approximating Nash equilibria in zero-sum games, namely Double Oracle and Fictitious Play. More precisely, we assume that the oracle computing the best responses perturbs the utilities before selecting the best response. We show that using such an oracle reduces the number of iterations for both algorithms. For some cases, suitable perturbations ensure the expected number of iterations is logarithmic. Although the utility perturbation is computationally demanding as it requires iterating through all pure strategies, we demonstrate that one can efficiently perturb the utilities in games where pure strategies have further inner structure.
論文ID : 2511.12523タイトル : Perturbing Best Responses in Zero-Sum Games著者 : Adam Dziwoki, Rostislav Horčík (プラハ工科大学)分類 : cs.GT (ゲーム理論), cs.AI (人工知能)発表日 : 2025年11月16日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2511.12523 コードリンク : https://github.com/geoborek/perturbing-best-responses 本論文は、ゼロサムゲームにおけるナッシュ均衡の近似に用いられる最適応答アルゴリズムに対する摂動の影響を研究している。特にDouble OracleとFictitious Playアルゴリズムに焦点を当てている。研究では、最適応答を計算するオラクルが最適応答を選択する前に効用を摂動させることを仮定している。摂動オラクルを使用することで、両アルゴリズムの反復回数を削減できることが示されている。適切な摂動により、期待反復回数が対数レベルになることが保証される場合もある。効用摂動はすべての純粋戦略を走査する必要があり計算コストが高いが、純粋戦略が内部構造を持つゲーム(部分観測確率ゲームなど)では効率的に実装できることが証明されている。
大規模戦略空間を持つ二人ゼロサムゲームにおけるナッシュ均衡の計算は計算集約的な問題である。理論的には、サイズO(log n)のε-ナッシュ均衡が存在することが知られている(nは純粋戦略の数)が、Fictitious Play (FP)やDouble Oracle (DO)などの従来の最適応答オラクル(BRO)ベースのアルゴリズムは、最悪の場合Ω(n)回の反復を必要とする。
理論と実践のギャップ : AlthöferとLiptonらは対数サイズのε-NEの存在を証明したが、実際のアルゴリズムはこの複雑性に到達できない下界の制限 : HazanとKorenは、BROベースのアルゴリズムが少なくともΩ(√n/log³n)回の反復を必要とすることを証明した実用的な応用ニーズ : 深層強化学習アルゴリズム(Policy Space Response Oraclesなど)はこれらの基本アルゴリズムに依存しているFPとDO : 最悪の場合O(n)回の反復が必要Hazan-Korenアルゴリズム : O(√n/ε²)の複雑性を提供するが、アルゴリズムが複雑で平方根レベルの改善に過ぎない正則化方法 : PUやOMWUはO(log n)反復に到達するが、すべての純粋戦略の確率分布を維持する必要があり、大規模ゲームには適さない最適応答オラクルに摂動を導入することで、より強力なオラクルを実現し、理論的下界の制限を突破して、対数レベルの収束速度を達成する。
摂動最適応答オラクル(PBRO)の導入 : 最適応答を計算する前に効用をランダムに摂動させるメカニズムを提案理論結果 :Stochastic Fictitious Play (SFP)が期待上O(log n/ε²)回の反復複雑性を達成することを証明 Stochastic Double Oracle (SDO)が特定の困難な実例(ZhangとSandholmの例)でO(log n)期待反復を達成することを証明 効率的な実装方案 : 内部構造を持つゲーム(POSG、経路計画ゲームなど)に対する効率的な摂動方法を提案し、すべての純粋戦略を走査する必要がない実験検証 : 行列ゲーム、確率ゲーム、経路計画ゲームを含む複数のゲームタイプで摂動方法の有効性を検証理論的ツール : Gumbel-maxトリックを利用してSFPと確率指数加重予測器(REWF)の関連性を確立入力 : 行列ゲームM ∈ ℝ^(m×n)、精度パラメータε > 0
出力 : ε-ナッシュ均衡戦略ペア⟨p*, q*⟩
制約 : 反復回数(オラクル呼び出し回数)を最小化
行プレイヤーについて、列プレイヤーの混合戦略q ∈ Δ_nが与えられた場合:
B̃R_r(q) ∈ argmin_{i∈[m]} π_i(Mq - u)
ここでuはランダムベクトルであり、その成分はi.i.d.ランダム変数である。
列プレイヤーについて、行プレイヤーの混合戦略p ∈ Δ_mが与えられた場合:
B̃R_c(p) ∈ argmax_{j∈[n]} π_j(p^⊤M + v)
アルゴリズムの流れ :
初期化: t←1, p←e_k, q←e_l (初期純粋戦略) 終了条件の境界を計算: lb←BRVal_r(q), ub←BRVal_c(p) ub - lb > tεの間:
t←t+1 i←B̃R_r(q), j←B̃R_c(p) (摂動最適応答) p←p+e_i, q←q+e_j (累積戦略) 境界を更新 平均戦略を返す: ⟨p*/t, q*/t⟩ 主要な革新 :
決定的なオラクルではなく摂動オラクルを使用 累積戦略ベクトルを維持し、最終的に平均戦略を返す 終了条件は摂動されていない最適応答値を使用 Gumbel-maxトリック (補題1):
ベクトルx ∈ ℝ^nについて、zの成分がGumbel分布G(0,β)から独立同分布である場合:
P(argmax_i π_i(x+z) = i*) = π_i*(softmax(x/β))
これはGumbel摂動を使用した最適応答がsoftmax分布からのサンプリングと等価であることを意味する。
REWFとの関連性 :
SFPにおける行プレイヤーの戦略選択はREWF戦略と等価 第t回目では、softmax(-η∑^{t-1} Me )からサンプリング パラメータη = 1/βは探索-利用のトレードオフを制御 定理3 (SFPの複雑性):
0,1 に正規化された行列ゲームM ∈ ℝ^(m×n)、m ≤ nについて、β = (2+√(2ln n))/(ε√(8ln n))とすると、SFPはO(log n/ε²)期待反復内でε-NEを見つける。
証明の概要 :
反復回数T = ((2+√(2ln n))/ε)² ∈ O(log n/ε²)を設定 系2(REWFの後悔界)を利用して、確率≥3/4で:
∑_{t=1}^T M(i_t,j_t) - min_i ∑_{t=1}^T M(i,j_t) ≤ √T(1 + √(ln n)/2)
列プレイヤーに対偶結果を適用(確率≥3/4) 両イベントが同時に発生する確率≥1/2 両不等式を組み合わせてub - lb ≤ εを得る 期待実行回数≤2回 アルゴリズムの特徴 :
戦略部分集合R ⊆ m , C ⊆ n を維持 各ラウンドで部分ゲームMR,C のナッシュ均衡を計算 摂動オラクルを使用して新しい戦略を追加 特定のゲームに対する分析 :
例1 (行列L):
L = [0 1 ... 1 ]
[-1 0 ... 1 ]
[⋮ ⋮ ⋱ ⋮ ]
[-1 -1 ... 0 ]
補題4 (均一摂動の期待値):
第k行x = ⟨1,...,1,0,-1,...,-1⟩について、U(-1/2,1/2)摂動を使用する場合、
摂動最適応答の期待インデックスEI = k/2
定理6 : SDOはO(log n)期待反復内でLのNEを見つける
証明技法 :
ポテンシャル関数X_t = max{r_t, c_t}を定義(r_t = min R_t, c_t = min C_t) ドリフト理論を使用してX_t - EX_{t+2} ≥ X_t/2を証明 系17を適用してET ≤ 2ln nを得る クラスタリング方法 :
内部構造を持つゲーム(確率ゲームなど)に対して:
同じ終端状態に対応する行列要素を識別 行列要素をKクラスタに分類 各クラスタに同じランダム摂動値を適用 摂動公式 :
B̃R_r(q) = argmin_{i∈[m]} π_i((L + ∑_{k=1}^K z_k B_k)q)
ここでB_kはマスク行列で、第kクラスタの要素を識別
利点 :
K個のランダム数を生成するだけ(K << mn) ゲーム構造の意味論を保持 POSG、EFGなどの構造化ゲームに適用可能 ランダム行列ゲーム : n×n行列、要素は0,1 から均一にサンプリング、各規模で100個のインスタンスを生成行列LとU^⊤ : 例1と2からの困難な実例f-finger Morraゲーム : 古典的なゲーム、行列サイズf²×f²Colonel Blottoゲーム : 5つの戦場、異なるユニット予算n-bit確率ゲーム : 2^n×2^n行列に対応、木構造を持つ経路計画ゲーム : n×nグリッド、一方が最短経路を探索、他方が辺のコストを増加反復回数 : ε-NEに到達するために必要なオラクル呼び出し回数ε値 : 0.1に設定統計量 : 10回の繰り返し実験の平均と標準偏差FP : 標準Fictitious PlayAFP : Anticipatory Fictitious PlaySAFP : AFPの摂動版DO : 標準Double OracleSDO : 摂動版Double Oracleプログラミング言語 : Pythonハードウェア : AMD Ryzen 7 PRO 7840U乱数生成 : numpyライブラリ、初期シード1初期化 : 最悪ケースインデックス(k=l=n)同点処理 : 最小インデックスの最適応答を選択SFPのβパラメータ : 定理3に従って設定SDO摂動分布 :
理論分析: U(-1,1) 実用的応用: U(-0.01,0.01)とU(-0.001,0.001) ランダム0,1 行列ゲーム :
AFPが最適な性能を示し、他の方法を大幅に上回る SFPとSAFPは同様の性能を示し、FPをわずかに上回る ランダムゲームでは摂動の利点が明らかでない 反復回数は規模とともに線形に近い成長を示す 行列U^⊤ :
FPとAFPはO(n)最悪ケース複雑性を示す SFPとSAFPの反復回数は大幅に削減される n=1000の場合、SFPは約10-15回の反復が必要だが、FPは1000回必要 理論的なO(log n)複雑性を検証 f-finger Morraゲーム :
SFPとSAFPは高速に収束し、大規模fでも同様 FPとAFPの反復回数はf²とともに増加 f=10の場合、SFPは約50回の反復が必要だが、FPは200回以上必要 行列LとU^⊤ (理論的摂動U(-1,1)):
SDOは理論的に予測された対数複雑性を達成 n=2000の場合、SDOは約10-15回の反復が必要 DOはn回の反復が必要(規模が大きいため図に表示されない) 定理6と7を完全に検証 f-finger Morraゲーム :
摂動は反復回数を大幅に削減 U(-0.01,0.01)とU(-0.001,0.001)の両方が有効 より小さい摂動(U(-0.001,0.001))は大規模時により安定した性能を示す Colonel Blottoゲーム :
5つの戦場、ユニット予算0-40 摂動方法は一貫して摂動なしのバージョンを上回る U(-0.01,0.01)は全体的に最適な性能を示す n-bit確率ゲーム (LとU^⊤に対応):
クラスタリング摂動方法を使用 n=2000(2^11規模)の場合、約100回の反復が必要 理論的摂動よりもやや遅いが、DOの線形複雑性をはるかに上回る 効率的な実装の実現可能性を証明 経路計画ゲーム :
n×nグリッド上でテスト 摂動はグリッド規模の増加に伴い反復回数を大幅に削減 n=14の場合、摂動版は約100回の反復が必要だが、摂動なしは200回以上必要 グリッド規模が大きくなるほど利点が明らかになる 摂動強度の影響 :
過度な摂動は収束を損なう可能性がある(ランダムゲームで観察) U(-0.001,0.001)は多くの場合で安定した性能を示す U(-0.01,0.01)は構造化ゲームでより有効 摂動分布の選択 :
Gumbel分布: 理論的に最適、SFPに適している 均一分布: 実践ではより単純、SDOで有効 両者は実験で同様の性能を示す ゲームタイプへの依存性 : 摂動は構造化/困難な実例で顕著な効果を示し、ランダムゲームではその利点が明らかでない理論と実践の一貫性 : 実験結果は理論的予測と高度に一致効率的な実装の実現可能性 : クラスタリング方法は効果を維持しながら計算コストを大幅に削減堅牢性 : 摂動方法は複数のゲームタイプで安定した性能を示すRobinson (1951) : FPがゼロサムゲームでNEに収束することを証明Karlin予想 : FP収束速度に関する最古の未解決問題部分的結果 : Abernethy等(2021)、Daskalakis and Pan(2014)による特定の行列タイプに対する結果AFP : Cloud等(2023)が提案、O(n)反復が必要だが定数がより小さく、各ラウンドで4回のBRO呼び出しが必要Hofbauer and Sandholm (2002) : 摂動と正則化の関連性を証明PUとOMWU : Cen等(2024)の正則化AFP変体、O(log n)を達成するがすべての戦略の確率分布を維持する必要がある本論文との違い : PBROは選択された戦略の部分集合のみを維持し、大規模ゲームに適している基本的な複雑性 : DOはΘ(n)反復が必要であることが知られているが、深い理論的研究が不足しているZhang and Sandholm (2024) : POSGでのDOの指数下界を証明変体研究 : McAleer等(2022)のSelf-Play PSROなど、ただし収束保証がない本論文の貢献 : SDOの収束特性を初めて体系的に研究Althöfer (1994), Lipton and Young (1994) : O(log n)サイズのε-NEが存在することを証明Hazan and Koren (2016) :
下界: BROアルゴリズムはΩ(√n/log³n)反復が必要 上界: O(√n/ε²)アルゴリズムを提案 本論文の突破 : 増強BRO(摂動を追加)により理論的下界を突破PSROシリーズ : Lanctot等(2017)、McAleer等(2022)、Bighashdel等(2024)関連性 : これらの方法はDOフレームワークに依存し、本論文のSDOを直接適用可能潜在的な影響 : 摂動メカニズムは深層RLの探索戦略を改善する可能性がある理論的突破 :SFPはO(log n/ε²)期待複雑性を達成し、PBROアルゴリズムの対数レベル収束を初めて証明 SDOは特定の困難な実例でO(log n)期待複雑性を達成 実用的価値 :摂動方法は構造化ゲームで反復回数を大幅に削減 効率的な実装方案により、大規模ゲームに適用可能 方法論的貢献 :SFPとREWFの理論的関連性を確立 ドリフト理論を使用してSDOを分析するフレームワークを提供 SDOの一般的な複雑性が未解決 :特定の実例の対数複雑性のみを証明 一般的なケースの複雑性は未解決問題のまま 確率ゲームでの性能 :摂動はランダムに生成されたゲームで利点が明らかでない ランダムゲーム自体が最適応答にランダム性を持つ可能性がある 摂動パラメータの選択 :理論的に最適なパラメータ(β)は実践では過度に大きい可能性がある 特定のゲームに応じて摂動強度を調整する必要がある 効率的な実装の近似性 :クラスタリング摂動は完全な摂動と完全には等価ではない 理論的保証は完全な摂動にのみ適用される 計算コスト :反復回数は削減されるが、各反復でランダム数を生成する必要がある 特定のゲームでは、利益が追加のオーバーヘッドを相殺するのに不十分な可能性がある SDOの一般的な複雑性分析 :SDOが一般的なケースで対数複雑性を持つかどうかを証明または反証 SDOが効率的なゲームカテゴリの特性を識別 適応的な摂動戦略 :収束状況に基づいて摂動強度を動的に調整 異なる摂動分布の理論的特性を探索 深層強化学習への統合 :PBROをPSROフレームワークに統合 ニューラルネットワークがBROを近似する場合の摂動効果を研究 より広範なゲームカテゴリ :一般和ゲームに拡張 多人ゲームにおける摂動メカニズムを研究 実用的な応用検証 :実際のゲームシナリオ(ポーカー、戦略ゲームなど)でテスト 実際の計算リソース制約下での性能を評価 理論的厳密性 :Gumbel-maxトリックからドリフト理論までの完全な数学的証明 SFPと古典的なオンライン学習アルゴリズム(REWF)の関連性を明確に確立 理論結果と実験が高度に一致 問題選択の重要性 :分野内の長年存在する理論と実践のギャップに対処 Hazan-Korenの下界を突破(オラクルを増強することで) 深層強化学習への直接的な応用価値 方法の革新性 :シンプルで効果的な摂動メカニズム 計算ボトルネックを解決する効率的な実装方案 FPとDOの両方のアルゴリズムクラスに適用可能な統一フレームワーク 実験の包括性 :理論的実例、古典的ゲーム、ランダムゲーム、構造化ゲームをカバー 複数のベースライン方法と比較 ランダムゲームでの負の結果を誠実に報告 記述の明確性 :十分な背景紹介と明確な動機 完全な技術詳細で再現可能性が高い オープンソースコードを提供 理論的完全性 :SDOの一般的な複雑性が未解決で、特例分析のみ 摂動が失敗するケース(ランダムゲーム)の理論的説明が不足 効率的な摂動と完全な摂動の理論的ギャップが定量化されていない 実験設計 :ランダムゲーム実験の規模が比較的小さい(n≤1000) Hazan-Korenアルゴリズムとの直接比較が不足 実際の実行時間が報告されておらず、反復回数のみ 実用性の考慮 :摂動パラメータ選択の通用的なガイダンスが不足 摂動をいつ使用するかの判断基準が不明確 効率的な実装方案の適用範囲が十分に明確でない 分析の深さ :摂動メカニズムが有効である理由の直感的な説明が不足 異なるゲーム構造と摂動効果の関係の深い分析が不足 アブレーション実験は比較的単純 比較の公平性 :AFPは各ラウンドで4回のBRO呼び出しが必要だが、FP/SFPは2回のみ 総BRO呼び出し回数の比較も報告すべき 理論的貢献 :BROアルゴリズム研究に新しい方向を提供 増強オラクルの可能性を証明 他の組合せ最適化問題の研究を刺激する可能性 実用的価値 :既存のDO/FPフレームワークに直接適用可能 深層RLのPSRO方法の改善の可能性 効率的な実装方案は実際に操作可能 限界 :さらなる理論的発展が必要で標準的な方法になるまで ランダムゲームでの性能が普遍性を制限 大規模応用での計算オーバーヘッドの検証が必要 再現可能性 :オープンソースコードを提供し、再現性が高い アルゴリズム記述が明確で実装が容易 実験設定が詳細 強く推奨 :
明確な構造を持つゲーム(EFG、POSG) 複数の等価な最適応答が存在するゲーム 従来のDO/FPが遅く収束する困難な実例 戦略空間が巨大だが内部構造を持つゲーム 慎重に使用 :
完全にランダムなゲーム 最適応答が唯一で明確なゲーム 計算リソースが極度に制限されたシナリオ 確定的な保証が必要な応用 推奨しない :
小規模ゲーム(直接解法がより高速) 構造のない一般的なゲーム(摂動の利点が明らかでない) リアルタイム意思決定シナリオ(ランダム性が受け入れられない可能性) 主要な理論的基礎 :
Althöfer (1994) - 対数サイズのε-NEの存在性 Hazan & Koren (2016) - BROアルゴリズムの理論的界限 Hofbauer & Sandholm (2002) - SFP収束性の証明 Cesa-Bianchi & Lugosi (2006) - REWFアルゴリズム 関連研究 :
5. Zhang & Sandholm (2024) - DOの指数下界
6. Cloud et al. (2023) - Anticipatory Fictitious Play
7. Lanctot et al. (2017) - Policy Space Response Oracles
8. Cen et al. (2024) - 正則化ゲームアルゴリズム
総合評価 : これは理論と実践を良好に組み合わせた優れた論文である。主な貢献は、摂動メカニズムがBROアルゴリズムに対数レベルの複雑性を達成させることを証明し、既知の理論的下界を突破したことである(オラクルを増強することで)。SFPの理論結果は完全で厳密であり、SDOの分析は完全ではないが価値のある洞察を提供する。実験設計は包括的で、方法の適用範囲を誠実に報告している。主な不足はSDOの一般的な複雑性が未解決であること、およびランダムゲームでの性能不良の理論的説明が不足していることである。本研究はゲーム理論アルゴリズム研究に新しい方向を開き、深層強化学習にも潜在的な応用価値があり、さらなる研究の価値がある。