We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
论文ID : 2407.19911标题 : Efficient Shield Synthesis via State-Space Transformation作者 : Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling机构 : Aalborg University, Denmark分类 : cs.LO cs.AI cs.LG cs.SY eess.SY发表时间 : 2024年7月(arXiv预印本)论文链接 : https://arxiv.org/abs/2407.19911 本文研究控制系统安全策略合成问题,也称为屏蔽(shield)合成。由于状态空间无限,屏蔽通常在有限状态抽象上计算,最常见的抽象是矩形网格。然而,对于许多系统,这种网格与安全属性或系统动力学匹配不佳。粗网格通常不足,而细网格在计算上往往不可行。本文表明,适当的状态空间变换可以在几乎没有计算开销的情况下仍然使用粗网格。通过三个案例研究证明,基于变换的合成方法比标准合成方法的性能提升了几个数量级。
本研究要解决的核心问题是如何高效地为控制系统合成安全策略(屏蔽)。在信息物理系统中,数字控制器需要保证系统安全性,这促使了自动控制器构造方法的发展。
安全关键性 : 许多信息物理系统都是安全关键的,需要形式化的安全保证方法互补 : 强化学习提供最优性但缺乏安全保证,而反应式合成提供安全保证但缺乏最优性屏蔽框架 : 结合两种方法的优势,通过屏蔽在学习过程中防止不安全动作网格抽象问题 : 矩形网格通常与系统动力学和安全属性不匹配计算复杂性 : 粗网格精度不足,细网格计算不可行状态空间爆炸 : 随着精度要求增加,状态空间呈指数级增长通过状态空间变换,在新的状态空间中使网格更好地与系统动力学对齐,从而在保持计算效率的同时提高合成质量。
提出了基于状态空间变换的屏蔽合成方法 ,能够显著减少所需的网格单元数量证明了变换方法的理论正确性 ,包括安全性保证从变换空间到原始空间的转移在三个案例研究中验证了方法有效性 ,性能提升达到几个数量级提供了无领域知识的变换工程方法 ,扩展了方法的适用性实现了与强化学习的集成 ,展示了实际应用价值给定控制系统( S , A c t , δ ) (S, Act, δ) ( S , A c t , δ ) ,其中:
S ⊆ R d S ⊆ \mathbb{R}^d S ⊆ R d :有界d维状态空间A c t Act A c t :有限控制动作集δ : S × A c t → 2 S δ: S × Act → 2^S δ : S × A c t → 2 S :后继函数目标:为安全属性φ ⊆ S φ ⊆ S φ ⊆ S 合成安全策略σ : S → 2 A c t σ: S → 2^{Act} σ : S → 2 A c t
变换函数 : f : S → T f: S → T f : S → T ,将原始状态空间S S S 映射到变换空间T T T 逆变换 : f − 1 : T → 2 S f^{-1}: T → 2^S f − 1 : T → 2 S ,定义为f − 1 ( t ) = { s ∈ S ∣ f ( s ) = t } f^{-1}(t) = \{s ∈ S | f(s) = t\} f − 1 ( t ) = { s ∈ S ∣ f ( s ) = t } 网格友好性 : 变换应使网格边界与决策边界对齐在变换空间T T T 中定义新的控制系统( T , A c t , δ T ) (T, Act, δ_T) ( T , A c t , δ T ) :
δ T ( t , a ) = f ( δ S ( f − 1 ( t ) , a ) ) δ_T(t, a) = f(δ_S(f^{-1}(t), a)) δ T ( t , a ) = f ( δ S ( f − 1 ( t ) , a ))
可控单元集合C φ f C_φ^f C φ f 定义为:
C φ f = ⌊ f ( φ ) ⌋ G ∩ { C ∈ G ∣ ∃ a ∈ A c t . ∀ C ′ . C → a C ′ ⟹ C ′ ∈ C φ f } C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\} C φ f = ⌊ f ( φ ) ⌋ G ∩ { C ∈ G ∣∃ a ∈ A c t .∀ C ′ . C a C ′ ⟹ C ′ ∈ C φ f }
极坐标变换 : 对于圆形轨迹和障碍物,使用极坐标( θ , r ) (θ, r) ( θ , r ) 能量变换 : 利用系统不变量(如机械能)作为变换维度多项式拟合 : 通过拟合决策边界自动生成变换定理1 : 变换方法的正确性
变换空间中的安全策略σ Y ( t ) = σ G ( [ t ] G ) σ_Y(t) = σ_G([t]_G) σ Y ( t ) = σ G ([ t ] G ) 原始空间中的安全策略σ X ( s ) = σ G ( [ f ( s ) ] G ) σ_X(s) = σ_G([f(s)]_G) σ X ( s ) = σ G ([ f ( s ) ] G ) 三步计算 : f − 1 → δ S → f f^{-1} → δ_S → f f − 1 → δ S → f 集合扩展 : 自然处理非双射变换按需计算 : 避免预计算完整转移系统状态空间 : ( x , y ) ∈ [ − 2 , 2 ] × [ − 2 , 2 ] (x, y) ∈ [-2, 2] × [-2, 2] ( x , y ) ∈ [ − 2 , 2 ] × [ − 2 , 2 ] 变换 : 极坐标 f ( x , y ) = ( a t a n 2 ( y , x ) , x 2 + y 2 ) T f(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T f ( x , y ) = ( a t an 2 ( y , x ) , x 2 + y 2 ) T 动作 : { a h e a d , o u t , i n } \{ahead, out, in\} { ah e a d , o u t , in } 安全约束 : 避障 + 距离限制状态空间 : ( v , p ) ∈ [ − 13 , 13 ] × [ 0 , 8 ] (v, p) ∈ [-13, 13] × [0, 8] ( v , p ) ∈ [ − 13 , 13 ] × [ 0 , 8 ] 变换 : 机械能 f ( v , p ) = ( m g p + 1 2 m v 2 , v ) T f(v, p) = (mgp + \frac{1}{2}mv^2, v)^T f ( v , p ) = ( m g p + 2 1 m v 2 , v ) T 目标 : 保持球持续弹跳状态空间 : ( θ , ω ) ∈ [ − 2.095 , 2.095 ] × [ − 3 , 3 ] (θ, ω) ∈ [-2.095, 2.095] × [-3, 3] ( θ , ω ) ∈ [ − 2.095 , 2.095 ] × [ − 3 , 3 ] 变换 : 多项式拟合 f ( θ , ω ) = ( θ , ω − p ( θ ) ) T f(θ, ω) = (θ, ω - p(θ))^T f ( θ , ω ) = ( θ , ω − p ( θ ) ) T 目标 : 保持杆直立网格单元数量 : 衡量计算复杂性计算时间 : 合成效率决策树节点数 : 策略表示复杂性累积奖励 : 强化学习性能模型 原始空间单元数 变换空间单元数 减少倍数 卫星 176,400 27,300 6.5× 弹球 520,000 650 800× 倒立摆 900 400 2.25×
卫星模型 : 从2分41秒减少到10秒弹球模型 : 从19分钟减少到1.3秒(三个数量级)倒立摆 : 从512毫秒减少到244毫秒通过决策树表示进一步减少存储需求:
卫星:从4,913节点减少到544节点 弹球:从940节点减少到49节点 倒立摆:从99节点减少到32节点 在1000个episode的累积奖励对比中:
卫星模型 : 变换屏蔽达到最高奖励1.499弹球模型 : 变换屏蔽达到最低成本36.593倒立摆 : 变换屏蔽达到最低成本0.000结果表明变换屏蔽不仅计算效率更高,而且实际性能更优。
变换选择关键 : 合适的变换可以带来数量级的性能提升不变量利用 : 利用系统不变量(如能量、角动量)效果显著自动变换可行 : 无领域知识的变换工程方法是可行的性能提升 : 变换不仅提高效率,还改善最终控制器性能传统方法 : 基于规则超矩形网格的符号转换系统多层抽象 : 使用不同尺寸网格的多层方法椭球抽象 : 近期使用椭球类网格抽象的努力Uppaal Stratego : 工具实现和应用概率屏蔽 : 使用概率屏蔽的安全强化学习模型预测控制 : 安全模型预测控制的相似概念抽象解释 : Galois连接中的抽象和具体化函数模型降阶 : 降低系统维度的近似方法双模拟 : 基于双模拟的状态空间约简状态空间变换是屏蔽合成的强大工具 ,能够显著提高计算效率理论正确性得到保证 ,安全属性从变换空间正确转移到原始空间实际应用价值高 ,不仅提高计算效率还改善控制性能方法具有通用性 ,适用于多种类型的控制系统变换选择依赖性 : 变换质量直接影响方法效果领域知识需求 : 前两个案例需要领域专业知识非双射变换 : 可能引入额外的近似误差适用范围 : 主要适用于可以找到合适变换的系统自动变换发现 : 开发更通用的自动变换生成方法多变换组合 : 研究变换族的组合使用在线变换 : 探索运行时自适应变换扩展集成 : 与多层抽象等正交方法结合创新性强 : 首次系统性地将状态空间变换应用于屏蔽合成理论完备 : 提供了完整的理论分析和正确性证明实验充分 : 三个不同类型的案例研究验证了方法的广泛适用性实用价值高 : 数量级的性能提升具有重要的实际意义方法通用 : 可与现有的网格抽象方法正交结合变换设计挑战 : 对于复杂系统,找到合适变换仍然困难自动化程度 : 第三个案例的自动方法还不够成熟理论分析 : 缺乏关于何时存在好变换的理论指导比较基准 : 与其他非网格方法的比较不够充分学术贡献 : 为控制系统安全合成领域提供了新的研究方向实用价值 : 显著的性能提升使得更复杂系统的安全合成成为可能可复现性 : 提供了完整的实现和重现包扩展性 : 方法可以扩展到其他抽象和合成技术具有几何结构的系统 : 如机器人导航、航天器控制存在物理不变量的系统 : 如能量守恒系统需要高效安全合成的应用 : 嵌入式系统、实时控制强化学习安全应用 : 需要安全保证的学习系统论文引用了31篇相关文献,涵盖了控制理论、形式化方法、强化学习和抽象解释等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价 : 这是一篇高质量的研究论文,提出了创新性的解决方案来应对屏蔽合成中的计算挑战。方法具有强理论基础和显著实用价值,为控制系统安全合成领域做出了重要贡献。