2025-11-23T10:46:16.032830

Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control

Phalakarn, Pruekprasert, Hasuo
Stochastic games are fundamental in various applications, including the control of cyber-physical systems (CPS), where both controller and environment are modeled as players. Traditional algorithms typically aim to determine a single winning strategy to develop a controller. However, in CPS control and other domains, permissive controllers are essential, as they enable the system to adapt when additional constraints arise and remain resilient to runtime changes. This work generalizes the concept of (permissive winning) strategy templates, originally introduced by Anand et al. at TACAS and CAV 2023 for deterministic games, to incorporate stochastic games. These templates capture an infinite number of winning strategies, allowing for efficient strategy adaptation to system changes. We focus on two winning criteria (almost-sure and positive winning) and five winning objectives (safety, reachability, Büchi, co-Büchi, and parity). Our contributions include algorithms for constructing templates for each winning criterion and objective and a novel approach for extracting a winning strategy from a given template. Discussions on comparisons between templates and between strategy extraction methods are provided.
academic

確率的パリティゲームのほぼ確実および正の勝利のための戦略テンプレート:許容的かつ弾性的な制御に向けて

基本情報

  • 論文ID: 2409.08607
  • タイトル: Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control
  • 著者: Kittiphon Phalakarn, Sasinee Pruekprasert, Ichiro Hasuo
  • 分類: eess.SY cs.LO cs.SY
  • 発表時期: 2024年9月 (arXiv v2: 2025年10月16日)
  • 論文リンク: https://arxiv.org/abs/2409.08607

要旨

確率的ゲームは多くの応用において基礎的な役割を果たしており、特にサイバーフィジカルシステム(CPS)の制御において、コントローラと環境がゲーム参加者としてモデル化される。従来のアルゴリズムは通常、コントローラを開発するための単一の勝利戦略を決定することを目的としている。しかし、CPS制御およびその他の領域では、追加の制約が発生した場合にシステムが適応でき、実行時の変化に対して弾性を保つことができるため、許容的なコントローラが重要である。本研究は、戦略テンプレートの概念を決定性ゲームから確率的ゲームに一般化し、これらのテンプレートは無限数の勝利戦略を捕捉でき、システム変化に対する効率的な戦略適応を可能にする。我々は2つの勝利基準(ほぼ確実な勝利と正の確率での勝利)および5つの勝利目標(安全性、到達可能性、Büchi、co-Büchi、パリティ)に焦点を当てる。

研究背景と動機

問題背景

  1. 従来の方法の限界: 従来のゲーム求解アルゴリズムは通常、単一の勝利戦略のみを探索し、戦略の許容性(permissiveness)を考慮しない
  2. 実際の応用要件: サイバーフィジカルシステム制御では、追加の制約と実行時の変化に適応するための許容的なコントローラが必要である
  3. 弾性制御の要件: システムは障害または環境変化に直面した場合、堅牢性を維持する必要がある

研究動機

  • 既存の戦略テンプレート概念は決定性ゲームにのみ適用可能であり、確率的ゲームへの対応が不足している
  • 無限数の勝利戦略を捕捉でき、戦略の迅速な適応をサポートするフレームワークが必要である
  • CPS制御などの実際の応用では、許容性と弾性が重要な要件である

核心的貢献

  1. ほぼ確実な勝利戦略テンプレートアルゴリズム: 5つの勝利目標(安全性、到達可能性、Büchi、co-Büchi、パリティ)に対するほぼ確実な勝利戦略テンプレート構築アルゴリズムを提案
  2. 正の確率での勝利戦略テンプレート: 正の確率での勝利基準下での戦略テンプレート構築および組合せアルゴリズムを開発
  3. 戦略テンプレート比較フレームワーク: 許容性とサイズに基づくテンプレート比較の議論を提供
  4. 戦略抽出方法: 与えられたテンプレートから勝利戦略を抽出する新しい方法を提案し、勝利目標と許容性のバランスを取る

方法の詳細

タスク定義

確率的ゲームの定義: G = (V, E, (V□, V○, V△))、ここで:

  • Vは頂点集合、Eは辺集合
  • V□、V○、V△はそれぞれEvenプレイヤー、Oddプレイヤー、Randomプレイヤーの頂点を表す
  • 「2.5」プレイヤーゲームと呼ばれ、2つの主要プレイヤーと1つのランダムプレイヤーを含む

戦略テンプレートの定義: T = (P, L, C)、ここで:

  • P ⊆ E□は禁止辺集合
  • L ⊆ 2^E□はアクティブグループ集合
  • C ⊆ E□は共アクティブ辺集合

モデルアーキテクチャ

1. ほぼ確実な勝利戦略テンプレート構築

安全性目標(G X):

SafetyTemplate(G, X):
1. W□ ← νY.(X ∩ (Pre□(Y) ∪ Pre(Y)))
2. P ← Edges□(W□, V \ W□)
3. return (P, ∅, ∅)

到達可能性目標(F X):

ReachabilityTemplate(G, X):
1. A ← Attr'(X)
2. W□ ← Attr'□(A)
3. P ← Edges□(W□, V \ W□)
4. C ← Edges□(W□ \ A, W□ \ A)
5. return (P, ∅, C)

Büchi目標(GF X): LiveGroups関数を通じてアクティブグループを構築し、パスが目標集合を無限回訪問することを保証する。

パリティ目標:

  1. 確率的ゲームを決定性ゲームに約減(Reduceアルゴリズムを使用)
  2. 決定性ゲームの戦略テンプレートを構築
  3. 確率的ゲームのテンプレートに変換

2. 正の確率での勝利戦略テンプレート構築

PositiveTemplate(G, φ):
1. W□、W○およびほぼ確実な勝利テンプレートT^(a)を計算
2. W? ← V \ (W□ ∪ W○)
3. P^(p) ← P^(a) ∪ Edges□(W?, W○)
4. C^(p) ← C^(a) ∪ Edges□(W?, W?)
5. return T^(p) = (P^(p), L^(p), C^(p))

技術的革新点

  1. 集合操作の拡張: Randomプレイヤーを考慮した新しい集合演算子(Pre△(X', X)およびAttr'□(X)など)を導入
  2. テンプレート組合せアルゴリズム: テンプレートが競合する場合の競合検出メカニズムを提案
  3. パラメータ化戦略抽出: パラメータαおよびβを使用して許容性と目標達成速度のバランスを取る
  4. 正の確率での勝利への拡張: 戦略テンプレートを正の確率での勝利基準に初めて拡張

実験設定

理論的検証

論文は主に理論的証明を通じてアルゴリズムの正確性を検証し、以下を含む:

  • 各テンプレート構築アルゴリズムの正確性定理
  • 戦略抽出方法の許容性定理
  • テンプレート組合せアルゴリズムの正確性証明

複雑性分析

  • 戦略構築アルゴリズムの最悪ケース実行時間は標準アルゴリズムと一致
  • テンプレート組合せと戦略抽出は実行時に効率的に実行可能

実験結果

理論的結果

定理10-14: 各勝利目標の戦略テンプレート構築アルゴリズムの正確性を証明

  • SafetyTemplateが構築するテンプレートはG Xに対してほぼ確実に勝利する
  • ReachabilityTemplateが構築するテンプレートはF Xに対してほぼ確実に勝利する
  • 同様に他の目標にも適用可能

定理18: PositiveTemplateが構築するテンプレートはほぼ確実な勝利と正の確率での勝利の両方である

定理27: パラメータ化抽出方法は元のExtractメソッドより許容的である

許容性分析

命題22: P ⊇ P'、L ⊇ L'、C ⊇ C'の場合、TはT'より許容的ではない

命題23: TがT'より許容的ではなく、T'が勝利する場合、Tも勝利する

実際の応用可能性

論文は、決定性ゲームに基づく実験結果から、戦略テンプレートが増分合成で少なくとも2倍の高速化を実現でき、容錯制御では30%の選択が禁止されても効果的に再計算を削減できることを指摘している。

関連研究

古典的許容性理論

  • Ramadge and Wonham (1987)が監督制御で許容性の概念を正式に導入
  • Bernetらがパリティゲームで最大許容戦略の存在性を証明

戦略テンプレートの発展

  • AnandらがTACSおよびCAV 2023で決定性ゲームの戦略テンプレートを導入
  • 本研究は戦略テンプレートを確率的ゲームに拡張する初めての研究

確率的ゲーム求解

  • Chatterjeeらの確率的パリティゲーム約減方法
  • Banerjeeらの確率的ゲーム用集合演算子

結論と考察

主要な結論

  1. 戦略テンプレート概念を決定性ゲームから確率的ゲームへの拡張に成功
  2. 2つの勝利基準と5つの勝利目標をカバーする完全なアルゴリズムフレームワークを提供
  3. 新しい戦略抽出方法は正確性を保証しながら許容性を向上させる

限界

  1. 正の確率での勝利戦略は最適確率を保証しない
  2. アルゴリズム実装と実験検証が未完了
  3. 有限状態ゲームのみを考慮

今後の方向性

  1. 同じ許容性を保ちながらより小さいテンプレートを構築
  2. 計量時間論理(MTL)公式で定義された目標への拡張
  3. リアルタイムシステムへの応用

深層評価

利点

  1. 理論的貢献が顕著: 戦略テンプレートを確率的ゲームに初めて拡張し、理論フレームワークが完全
  2. アルゴリズム設計が合理的: 既存の集合操作と約減技術を巧妙に活用
  3. 応用前景が広い: サイバーフィジカルシステム制御に重要な実用的意義を持つ
  4. 数学的厳密性: 完全な正確性証明を提供

不足

  1. 実験検証の欠如: 主に理論研究であり、実装と性能評価が不足
  2. 最適性の問題: 正の確率での勝利戦略は最適性を保証しない
  3. 複雑性分析が不十分: 実際の計算複雑性の分析がやや簡潔

影響力

  1. 学術的価値: 確率的ゲーム理論に新しいツールと方法を提供
  2. 実用的価値: 許容的なコントローラ設計に理論的基礎を提供
  3. 拡張性: 後続研究に良好な基礎フレームワークを提供

適用シーン

  1. サイバーフィジカルシステムの堅牢制御
  2. 適応性が必要な自動化システム
  3. 多目標最適化の制御システム設計
  4. 容錯制御システム

参考文献

論文は35篇の関連文献を引用し、主に以下をカバー:

  • ゲーム理論の基礎文献
  • 監督制御理論
  • 戦略テンプレート関連研究
  • 確率的ゲーム求解アルゴリズム
  • 線形時間論理とモデル検査

総合評価: これは高品質な理論研究論文であり、戦略テンプレート概念を決定性ゲームから確率的ゲームへの拡張に成功し、許容的かつ弾性的な制御に重要な理論的基礎を提供している。実験検証が不足しているが、理論的貢献は顕著であり、関連分野に重要な推進力を持つ。