2025-11-23T10:46:16.032830

Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control

Phalakarn, Pruekprasert, Hasuo
Stochastic games are fundamental in various applications, including the control of cyber-physical systems (CPS), where both controller and environment are modeled as players. Traditional algorithms typically aim to determine a single winning strategy to develop a controller. However, in CPS control and other domains, permissive controllers are essential, as they enable the system to adapt when additional constraints arise and remain resilient to runtime changes. This work generalizes the concept of (permissive winning) strategy templates, originally introduced by Anand et al. at TACAS and CAV 2023 for deterministic games, to incorporate stochastic games. These templates capture an infinite number of winning strategies, allowing for efficient strategy adaptation to system changes. We focus on two winning criteria (almost-sure and positive winning) and five winning objectives (safety, reachability, Büchi, co-Büchi, and parity). Our contributions include algorithms for constructing templates for each winning criterion and objective and a novel approach for extracting a winning strategy from a given template. Discussions on comparisons between templates and between strategy extraction methods are provided.
academic

Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control

基本信息

  • 论文ID: 2409.08607
  • 标题: Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control
  • 作者: Kittiphon Phalakarn, Sasinee Pruekprasert, Ichiro Hasuo
  • 分类: eess.SY cs.LO cs.SY
  • 发表时间: 2024年9月 (arXiv v2: 2025年10月16日)
  • 论文链接: https://arxiv.org/abs/2409.08607

摘要

随机博弈在多种应用中具有基础性作用,特别是在网络物理系统(CPS)控制中,控制器和环境被建模为博弈参与者。传统算法通常旨在确定单一获胜策略来开发控制器。然而,在CPS控制和其他领域中,宽松控制器至关重要,因为它们能够在出现附加约束时适应系统并对运行时变化保持弹性。本工作将策略模板概念从确定性博弈推广到随机博弈,这些模板能够捕获无限数量的获胜策略,允许对系统变化进行高效的策略适应。我们专注于两种获胜准则(几乎必然获胜和正概率获胜)以及五种获胜目标(安全性、可达性、Büchi、co-Büchi和奇偶性)。

研究背景与动机

问题背景

  1. 传统方法局限性: 传统的博弈求解算法通常只寻找单一获胜策略,不考虑策略的宽松性(permissiveness)
  2. 实际应用需求: 在网络物理系统控制中,需要宽松控制器来适应额外约束和运行时变化
  3. 弹性控制需求: 系统需要在面临故障或环境变化时保持鲁棒性

研究动机

  • 现有的策略模板概念仅适用于确定性博弈,缺乏对随机博弈的支持
  • 需要能够捕获无限数量获胜策略的框架,以支持策略的快速适应
  • 在CPS控制等实际应用中,宽松性和弹性是关键要求

核心贡献

  1. 几乎必然获胜策略模板算法: 提出了针对五种获胜目标(安全性、可达性、Büchi、co-Büchi、奇偶性)的几乎必然获胜策略模板构造算法
  2. 正概率获胜策略模板: 开发了正概率获胜准则下的策略模板构造和组合算法
  3. 策略模板比较框架: 提供了基于宽松性和大小的模板比较讨论
  4. 策略提取方法: 提出了从给定模板中提取获胜策略的新方法,平衡获胜目标和宽松性

方法详解

任务定义

随机博弈定义: 随机博弈G = (V, E, (V□, V○, V△)),其中:

  • V是顶点集合,E是边集合
  • V□, V○, V△分别表示Even玩家、Odd玩家和Random玩家的顶点
  • 被称为"2.5"玩家博弈,包含两个主要玩家和一个随机玩家

策略模板定义: T = (P, L, C),其中:

  • P ⊆ E□是禁用边集合
  • L ⊆ 2^E□是活跃组集合
  • C ⊆ E□是共活跃边集合

模型架构

1. 几乎必然获胜策略模板构造

安全性目标(G X):

SafetyTemplate(G, X):
1. W□ ← νY.(X ∩ (Pre□(Y) ∪ Pre(Y)))
2. P ← Edges□(W□, V \ W□)
3. return (P, ∅, ∅)

可达性目标(F X):

ReachabilityTemplate(G, X):
1. A ← Attr'(X)
2. W□ ← Attr'□(A)
3. P ← Edges□(W□, V \ W□)
4. C ← Edges□(W□ \ A, W□ \ A)
5. return (P, ∅, C)

Büchi目标(GF X): 通过LiveGroups函数构造活跃组,确保路径无限次访问目标集合。

奇偶性目标:

  1. 将随机博弈约简为确定性博弈(使用Reduce算法)
  2. 构造确定性博弈的策略模板
  3. 转换回随机博弈的模板

2. 正概率获胜策略模板构造

PositiveTemplate(G, φ):
1. 计算W□, W○和几乎必然获胜模板T^(a)
2. W? ← V \ (W□ ∪ W○)
3. P^(p) ← P^(a) ∪ Edges□(W?, W○)
4. C^(p) ← C^(a) ∪ Edges□(W?, W?)
5. return T^(p) = (P^(p), L^(p), C^(p))

技术创新点

  1. 集合操作扩展: 引入了考虑Random玩家的新集合操作符,如Pre△(X', X)和Attr'□(X)
  2. 模板组合算法: 提出了冲突检测机制,当模板冲突时重新计算
  3. 参数化策略提取: 使用参数α和β平衡宽松性和目标达成速度
  4. 正概率获胜扩展: 首次将策略模板扩展到正概率获胜准则

实验设置

理论验证

论文主要通过理论证明验证算法的正确性,包括:

  • 各个模板构造算法的正确性定理
  • 策略提取方法的宽松性定理
  • 模板组合算法的正确性证明

复杂度分析

  • 策略构造算法的最坏情况运行时间与标准算法相匹配
  • 模板组合和策略提取可以在运行时高效执行

实验结果

理论结果

定理10-14: 证明了各获胜目标的策略模板构造算法的正确性

  • SafetyTemplate构造的模板对G X是几乎必然获胜的
  • ReachabilityTemplate构造的模板对F X是几乎必然获胜的
  • 类似地适用于其他目标

定理18: PositiveTemplate构造的模板既是几乎必然获胜也是正概率获胜的

定理27: 参数化提取方法比原始Extract方法更宽松

宽松性分析

命题22: 如果P ⊇ P', L ⊇ L', C ⊇ C',则T不比T'更宽松

命题23: 如果T不比T'更宽松且T'是获胜的,则T也是获胜的

实际应用潜力

论文指出,基于确定性博弈的实验结果,策略模板在增量综合中能够实现至少2倍的加速,在容错控制中即使30%的选择被禁用也能有效减少重计算。

相关工作

经典宽松性理论

  • Ramadge和Wonham (1987)在监督控制中正式引入宽松性概念
  • Bernet等人在奇偶博弈中证明了最大宽松策略的存在性

策略模板发展

  • Anand等人在TACAS和CAV 2023中引入了确定性博弈的策略模板
  • 本工作是首次将策略模板扩展到随机博弈的研究

随机博弈求解

  • Chatterjee等人的随机奇偶博弈约简方法
  • Banerjee等人的集合操作符用于随机博弈

结论与讨论

主要结论

  1. 成功将策略模板概念从确定性博弈扩展到随机博弈
  2. 提供了完整的算法框架,覆盖两种获胜准则和五种获胜目标
  3. 新的策略提取方法在保证正确性的同时提高了宽松性

局限性

  1. 正概率获胜策略不保证最优概率
  2. 算法实现和实验验证有待完成
  3. 仅考虑了有限状态博弈

未来方向

  1. 构造保持相同宽松性但更小的模板
  2. 扩展到度量时间逻辑(MTL)公式定义的目标
  3. 应用于实时系统

深度评价

优点

  1. 理论贡献显著: 首次将策略模板扩展到随机博弈,理论框架完整
  2. 算法设计合理: 巧妙利用现有的集合操作和约简技术
  3. 应用前景广阔: 对网络物理系统控制具有重要实际意义
  4. 数学严谨性: 提供了完整的正确性证明

不足

  1. 缺乏实验验证: 主要是理论工作,缺乏实际实现和性能评估
  2. 最优性问题: 正概率获胜策略不保证最优性
  3. 复杂度分析不够深入: 对实际计算复杂度的分析较为简略

影响力

  1. 学术价值: 为随机博弈理论提供了新的工具和方法
  2. 实用价值: 为宽松控制器设计提供了理论基础
  3. 可扩展性: 为后续研究提供了良好的基础框架

适用场景

  1. 网络物理系统的鲁棒控制
  2. 需要适应性的自动化系统
  3. 多目标优化的控制系统设计
  4. 容错控制系统

参考文献

论文引用了35篇相关文献,主要涵盖:

  • 博弈理论基础文献
  • 监督控制理论
  • 策略模板相关工作
  • 随机博弈求解算法
  • 线性时间逻辑和模型检测

总体评价: 这是一篇高质量的理论研究论文,成功地将策略模板概念从确定性博弈扩展到随机博弈,为宽松和弹性控制提供了重要的理论基础。虽然缺乏实验验证,但理论贡献显著,对相关领域具有重要推动作用。