We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
論文ID : 2407.19911タイトル : Efficient Shield Synthesis via State-Space Transformation著者 : Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling所属機関 : Aalborg University, Denmark分類 : cs.LO cs.AI cs.LG cs.SY eess.SY発表時期 : 2024年7月(arXiv preprint)論文リンク : https://arxiv.org/abs/2407.19911 本論文は制御システムの安全戦略合成問題、すなわちシールド合成を研究する。状態空間が無限であるため、シールドは通常有限状態抽象化上で計算され、最も一般的な抽象化は矩形グリッドである。しかし、多くのシステムにおいて、このグリッドは安全属性またはシステムダイナミクスとの適合性が低い。粗いグリッドは通常不十分であり、細かいグリッドは計算上実行不可能である場合が多い。本論文は、適切な状態空間変換により、ほぼ計算オーバーヘッドなしで粗いグリッドを使用し続けることができることを示す。3つのケーススタディを通じて、変換ベースの合成方法が標準的な合成方法と比べて数桁のパフォーマンス向上を実現することを実証する。
本研究が解決する中核的な問題は、制御システムの安全戦略(シールド)をいかに効率的に合成するかである。情報物理システムにおいて、デジタルコントローラはシステムの安全性を保証する必要があり、これが自動コントローラ構築方法の発展を促進している。
安全クリティカル性 : 多くの情報物理システムは安全クリティカルであり、形式的な安全保証が必要方法の相補性 : 強化学習は最適性を提供するが安全保証に欠け、反応的合成は安全保証を提供するが最適性に欠けるシールドフレームワーク : 両方法の利点を組み合わせ、学習プロセス中にシールドを通じて不安全な動作を防止グリッド抽象化の問題 : 矩形グリッドはシステムダイナミクスと安全属性に通常適合しない計算複雑性 : 粗いグリッドは精度不足であり、細かいグリッドは計算不可能状態空間爆発 : 精度要件の増加に伴い、状態空間は指数関数的に増加状態空間変換を通じて、新しい状態空間においてグリッドをシステムダイナミクスとより良く整列させることで、計算効率を維持しながら合成品質を向上させる。
状態空間変換に基づくシールド合成方法を提案 し、必要なグリッドセル数を大幅に削減変換方法の理論的正確性を証明 し、安全性保証が変換空間から元の空間への転移を含む3つのケーススタディで方法の有効性を検証 し、パフォーマンス向上は数桁に達する領域知識不要の変換エンジニアリング方法を提供 し、方法の適用性を拡張強化学習との統合を実装 し、実用的価値を実証制御システム( S , A c t , δ ) (S, Act, δ) ( S , A c t , δ ) が与えられたとき、ここで:
S ⊆ R d S ⊆ \mathbb{R}^d S ⊆ R d :有界なd次元状態空間A c t Act A c t :有限制御動作集合δ : S × A c t → 2 S δ: S × Act → 2^S δ : S × A c t → 2 S :後続関数目標:安全属性φ ⊆ S φ ⊆ S φ ⊆ S に対して安全戦略σ : S → 2 A c t σ: S → 2^{Act} σ : S → 2 A c t を合成する
変換関数 : f : S → T f: S → T f : S → T 、元の状態空間S S S を変換空間T T T にマッピング逆変換 : f − 1 : T → 2 S f^{-1}: T → 2^S f − 1 : T → 2 S 、f − 1 ( t ) = { s ∈ S ∣ f ( s ) = t } f^{-1}(t) = \{s ∈ S | f(s) = t\} f − 1 ( t ) = { s ∈ S ∣ f ( s ) = t } と定義グリッド親和性 : 変換はグリッド境界を決定境界と整列させるべき変換空間T T T で新しい制御システム( T , A c t , δ T ) (T, Act, δ_T) ( T , A c t , δ T ) を定義:
δ T ( t , a ) = f ( δ S ( f − 1 ( t ) , a ) ) δ_T(t, a) = f(δ_S(f^{-1}(t), a)) δ T ( t , a ) = f ( δ S ( f − 1 ( t ) , a ))
制御可能セル集合C φ f C_φ^f C φ f は以下のように定義:
C φ f = ⌊ f ( φ ) ⌋ G ∩ { C ∈ G ∣ ∃ a ∈ A c t . ∀ C ′ . C → a C ′ ⟹ C ′ ∈ C φ f } C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\} C φ f = ⌊ f ( φ ) ⌋ G ∩ { C ∈ G ∣∃ a ∈ A c t .∀ C ′ . C a C ′ ⟹ C ′ ∈ C φ f }
極座標変換 : 円形軌跡と障害物に対して、極座標( θ , r ) (θ, r) ( θ , r ) を使用エネルギー変換 : システム不変量(機械的エネルギーなど)を変換次元として利用多項式フィッティング : 決定境界をフィッティングすることで自動的に変換を生成定理1 : 変換方法の正確性
変換空間における安全戦略σ Y ( t ) = σ G ( [ t ] G ) σ_Y(t) = σ_G([t]_G) σ Y ( t ) = σ G ([ t ] G ) 元の空間における安全戦略σ X ( s ) = σ G ( [ f ( s ) ] G ) σ_X(s) = σ_G([f(s)]_G) σ X ( s ) = σ G ([ f ( s ) ] G ) 3段階計算 : f − 1 → δ S → f f^{-1} → δ_S → f f − 1 → δ S → f 集合拡張 : 非全単射変換を自然に処理オンデマンド計算 : 完全な遷移システムの事前計算を回避状態空間 : ( x , y ) ∈ [ − 2 , 2 ] × [ − 2 , 2 ] (x, y) ∈ [-2, 2] × [-2, 2] ( x , y ) ∈ [ − 2 , 2 ] × [ − 2 , 2 ] 変換 : 極座標 f ( x , y ) = ( a t a n 2 ( y , x ) , x 2 + y 2 ) T f(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T f ( x , y ) = ( a t an 2 ( y , x ) , x 2 + y 2 ) T 動作 : { a h e a d , o u t , i n } \{ahead, out, in\} { ah e a d , o u t , in } 安全制約 : 障害物回避 + 距離制限状態空間 : ( v , p ) ∈ [ − 13 , 13 ] × [ 0 , 8 ] (v, p) ∈ [-13, 13] × [0, 8] ( v , p ) ∈ [ − 13 , 13 ] × [ 0 , 8 ] 変換 : 機械的エネルギー f ( v , p ) = ( m g p + 1 2 m v 2 , v ) T f(v, p) = (mgp + \frac{1}{2}mv^2, v)^T f ( v , p ) = ( m g p + 2 1 m v 2 , v ) T 目標 : ボールの継続的なバウンスを維持状態空間 : ( θ , ω ) ∈ [ − 2.095 , 2.095 ] × [ − 3 , 3 ] (θ, ω) ∈ [-2.095, 2.095] × [-3, 3] ( θ , ω ) ∈ [ − 2.095 , 2.095 ] × [ − 3 , 3 ] 変換 : 多項式フィッティング f ( θ , ω ) = ( θ , ω − p ( θ ) ) T f(θ, ω) = (θ, ω - p(θ))^T f ( θ , ω ) = ( θ , ω − p ( θ ) ) T 目標 : 振子を直立状態に保つグリッドセル数 : 計算複雑性を測定計算時間 : 合成効率決定木ノード数 : 戦略表現複雑性累積報酬 : 強化学習パフォーマンスモデル 元の空間セル数 変換空間セル数 削減倍数 衛星 176,400 27,300 6.5× バウンシングボール 520,000 650 800× 倒立振子 900 400 2.25×
衛星モデル : 2分41秒から10秒に削減バウンシングボールモデル : 19分から1.3秒に削減(3桁)倒立振子 : 512ミリ秒から244ミリ秒に削減決定木表現を通じた追加のストレージ削減:
衛星:4,913ノードから544ノードに削減 バウンシングボール:940ノードから49ノードに削減 倒立振子:99ノードから32ノードに削減 1000エピソードの累積報酬比較において:
衛星モデル : 変換シールドが最高報酬1.499を達成バウンシングボールモデル : 変換シールドが最低コスト36.593を達成倒立振子 : 変換シールドが最低コスト0.000を達成結果は、変換シールドが計算効率に優れているだけでなく、実際のパフォーマンスも優れていることを示す。
変換選択の重要性 : 適切な変換は数桁のパフォーマンス向上をもたらす不変量の利用 : システム不変量(エネルギー、角運動量など)の利用は顕著な効果を示す自動変換の実現可能性 : 領域知識不要の変換エンジニアリング方法は実現可能パフォーマンス向上 : 変換は効率を向上させるだけでなく、最終的なコントローラパフォーマンスも改善従来的方法 : 規則的超矩形グリッドに基づく記号遷移システム多層抽象化 : 異なるサイズのグリッドを使用する多層方法楕円体抽象化 : 楕円体型グリッド抽象化を使用する最近の取り組みUppaal Stratego : ツール実装と応用確率的シールド : 確率的シールドを使用した安全強化学習モデル予測制御 : 安全モデル予測制御の類似概念抽象解釈 : Galois接続における抽象化と具体化関数モデル低減 : システム次元を低減する近似方法双模倣 : 双模倣に基づく状態空間削減状態空間変換はシールド合成の強力なツール であり、計算効率を大幅に向上させる理論的正確性が保証 され、安全属性は変換空間から元の空間へ正しく転移実用的価値が高い 、計算効率を向上させるだけでなく制御パフォーマンスも改善方法は汎用的 であり、多くの種類の制御システムに適用可能変換選択への依存性 : 変換品質は方法の効果に直接影響領域知識の必要性 : 最初の2つのケースは領域専門知識を必要とする非全単射変換 : 追加の近似誤差を導入する可能性適用範囲 : 主に適切な変換を見つけられるシステムに適用可能自動変換発見 : より汎用的な自動変換生成方法の開発複数変換の組み合わせ : 変換族の組み合わせ使用の研究オンライン変換 : 実行時適応変換の探索統合拡張 : 多層抽象化などの直交的方法との組み合わせ革新性が強い : 状態空間変換をシールド合成に初めて体系的に適用理論が完備 : 完全な理論分析と正確性証明を提供実験が充分 : 異なる種類の3つのケーススタディが方法の広範な適用性を検証実用価値が高い : 数桁のパフォーマンス向上は重要な実用的意義を持つ方法が汎用的 : 既存のグリッド抽象化方法と直交的に組み合わせ可能変換設計の課題 : 複雑なシステムに対して適切な変換を見つけることは依然困難自動化の程度 : 3番目のケースの自動方法はまだ成熟していない理論分析 : 良い変換が存在する時期に関する理論的指導が不足比較基準 : 他の非グリッド方法との比較が不十分学術的貢献 : 制御システム安全合成分野に新しい研究方向を提供実用的価値 : 顕著なパフォーマンス向上により、より複雑なシステムの安全合成が可能に再現性 : 完全な実装と再現パッケージを提供拡張性 : 他の抽象化と合成技術に拡張可能幾何学的構造を持つシステム : ロボット誘導、宇宙船制御など物理的不変量が存在するシステム : エネルギー保存システムなど効率的な安全合成が必要なアプリケーション : 組込みシステム、リアルタイム制御強化学習の安全応用 : 安全保証が必要な学習システム論文は31篇の関連文献を引用しており、制御理論、形式的方法、強化学習、抽象解釈など複数の分野の重要な研究をカバーし、研究に堅実な理論基盤を提供している。
総合評価 : これは高品質な研究論文であり、シールド合成における計算上の課題に対する革新的なソリューションを提案している。方法は強力な理論基盤と顕著な実用的価値を持ち、制御システム安全合成分野に重要な貢献をしている。