We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
논문 ID : 2407.19911제목 : Efficient Shield Synthesis via State-Space Transformation저자 : Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling기관 : Aalborg University, Denmark분류 : cs.LO cs.AI cs.LG cs.SY eess.SY발표 시간 : 2024년 7월 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2407.19911 본 논문은 제어 시스템의 안전 정책 합성 문제, 즉 실드(shield) 합성을 연구한다. 상태공간이 무한하기 때문에 실드는 일반적으로 유한 상태 추상화에서 계산되며, 가장 일반적인 추상화는 직사각형 격자이다. 그러나 많은 시스템에서 이러한 격자는 안전 속성이나 시스템 동역학과 잘 맞지 않는다. 거친 격자는 종종 불충분하고, 세밀한 격자는 계산상 실행 불가능한 경우가 많다. 본 논문은 적절한 상태공간 변환이 거의 계산 오버헤드 없이도 여전히 거친 격자를 사용할 수 있음을 보여준다. 세 가지 사례 연구를 통해 변환 기반 합성 방법이 표준 합성 방법보다 수 개 수량급의 성능 향상을 달성함을 입증한다.
본 연구가 해결하고자 하는 핵심 문제는 제어 시스템을 위한 안전 정책(실드)을 효율적으로 합성하는 방법이다. 정보물리 시스템에서 디지털 제어기는 시스템 안전성을 보장해야 하며, 이는 자동 제어기 구성 방법의 발전을 촉진했다.
안전 관련성 : 많은 정보물리 시스템은 안전 관련 시스템이며 형식적 안전 보장이 필요하다방법 상호보완성 : 강화학습은 최적성을 제공하지만 안전 보장이 부족하고, 반응형 합성은 안전 보장을 제공하지만 최적성이 부족하다실드 프레임워크 : 두 방법의 장점을 결합하여 학습 과정에서 실드를 통해 안전하지 않은 동작을 방지한다격자 추상화 문제 : 직사각형 격자는 일반적으로 시스템 동역학 및 안전 속성과 맞지 않는다계산 복잡성 : 거친 격자는 정확도가 부족하고, 세밀한 격자는 계산 불가능하다상태공간 폭발 : 정확도 요구사항이 증가함에 따라 상태공간이 지수적으로 증가한다상태공간 변환을 통해 새로운 상태공간에서 격자를 시스템 동역학과 더 잘 정렬시킴으로써 계산 효율성을 유지하면서 합성 품질을 향상시킨다.
상태공간 변환 기반의 실드 합성 방법 제안 , 필요한 격자 셀 수를 크게 감소시킬 수 있다변환 방법의 이론적 정확성 증명 , 변환 공간에서 원래 공간으로의 안전성 보장 전이 포함세 가지 사례 연구에서 방법 유효성 검증 , 수 개 수량급의 성능 향상 달성영역 지식 없는 변환 엔지니어링 방법 제공 , 방법의 적용성 확대강화학습과의 통합 구현 , 실제 응용 가치 입증제어 시스템 ( S , A c t , δ ) (S, Act, δ) ( S , A c t , δ ) 가 주어졌을 때:
S ⊆ R d S ⊆ \mathbb{R}^d S ⊆ R d : 유계 d차원 상태공간A c t Act A c t : 유한 제어 동작 집합δ : S × A c t → 2 S δ: S × Act → 2^S δ : S × A c t → 2 S : 후속 함수목표: 안전 속성 φ ⊆ S φ ⊆ S φ ⊆ S 에 대한 안전 정책 σ : S → 2 A c t σ: S → 2^{Act} σ : S → 2 A c t 합성
변환 함수 : f : S → T f: S → T f : S → T , 원래 상태공간 S S S 를 변환 공간 T T T 로 매핑역변환 : f − 1 : T → 2 S f^{-1}: T → 2^S f − 1 : T → 2 S , f − 1 ( t ) = { s ∈ S ∣ f ( s ) = t } f^{-1}(t) = \{s ∈ S | f(s) = t\} f − 1 ( t ) = { s ∈ S ∣ f ( s ) = t } 로 정의됨격자 친화성 : 변환은 격자 경계를 결정 경계와 정렬해야 함변환 공간 T T T 에서 새로운 제어 시스템 ( T , A c t , δ T ) (T, Act, δ_T) ( T , A c t , δ T ) 정의:
δ T ( t , a ) = f ( δ S ( f − 1 ( t ) , a ) ) δ_T(t, a) = f(δ_S(f^{-1}(t), a)) δ T ( t , a ) = f ( δ S ( f − 1 ( t ) , a ))
제어 가능 셀 집합 C φ f C_φ^f C φ f 정의:
C φ f = ⌊ f ( φ ) ⌋ G ∩ { C ∈ G ∣ ∃ a ∈ A c t . ∀ C ′ . C → a C ′ ⟹ C ′ ∈ C φ f } C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\} C φ f = ⌊ f ( φ ) ⌋ G ∩ { C ∈ G ∣∃ a ∈ A c t .∀ C ′ . C a C ′ ⟹ C ′ ∈ C φ f }
극좌표 변환 : 원형 궤적 및 장애물의 경우 극좌표 ( θ , r ) (θ, r) ( θ , r ) 사용에너지 변환 : 시스템 불변량(예: 기계 에너지)을 변환 차원으로 활용다항식 피팅 : 결정 경계 피팅을 통한 자동 변환 생성정리 1 : 변환 방법의 정확성
변환 공간의 안전 정책 σ Y ( t ) = σ G ( [ t ] G ) σ_Y(t) = σ_G([t]_G) σ Y ( t ) = σ G ([ t ] G ) 원래 공간의 안전 정책 σ X ( s ) = σ G ( [ f ( s ) ] G ) σ_X(s) = σ_G([f(s)]_G) σ X ( s ) = σ G ([ f ( s ) ] G ) 3단계 계산 : f − 1 → δ S → f f^{-1} → δ_S → f f − 1 → δ S → f 집합 확장 : 비전단사 변환의 자연스러운 처리필요시 계산 : 완전한 전이 시스템의 사전 계산 회피상태공간 : ( x , y ) ∈ [ − 2 , 2 ] × [ − 2 , 2 ] (x, y) ∈ [-2, 2] × [-2, 2] ( x , y ) ∈ [ − 2 , 2 ] × [ − 2 , 2 ] 변환 : 극좌표 f ( x , y ) = ( a t a n 2 ( y , x ) , x 2 + y 2 ) T f(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T f ( x , y ) = ( a t an 2 ( y , x ) , x 2 + y 2 ) T 동작 : { a h e a d , o u t , i n } \{ahead, out, in\} { ah e a d , o u t , in } 안전 제약 : 장애물 회피 + 거리 제한상태공간 : ( v , p ) ∈ [ − 13 , 13 ] × [ 0 , 8 ] (v, p) ∈ [-13, 13] × [0, 8] ( v , p ) ∈ [ − 13 , 13 ] × [ 0 , 8 ] 변환 : 기계 에너지 f ( v , p ) = ( m g p + 1 2 m v 2 , v ) T f(v, p) = (mgp + \frac{1}{2}mv^2, v)^T f ( v , p ) = ( m g p + 2 1 m v 2 , v ) T 목표 : 공의 지속적인 탄성 유지상태공간 : ( θ , ω ) ∈ [ − 2.095 , 2.095 ] × [ − 3 , 3 ] (θ, ω) ∈ [-2.095, 2.095] × [-3, 3] ( θ , ω ) ∈ [ − 2.095 , 2.095 ] × [ − 3 , 3 ] 변환 : 다항식 피팅 f ( θ , ω ) = ( θ , ω − p ( θ ) ) T f(θ, ω) = (θ, ω - p(θ))^T f ( θ , ω ) = ( θ , ω − p ( θ ) ) T 목표 : 막대 직립 유지격자 셀 수 : 계산 복잡성 측정계산 시간 : 합성 효율성결정 트리 노드 수 : 정책 표현 복잡성누적 보상 : 강화학습 성능모델 원래 공간 셀 수 변환 공간 셀 수 감소 배수 위성 176,400 27,300 6.5× 탄성공 520,000 650 800× 역진자 900 400 2.25×
위성 모델 : 2분 41초에서 10초로 감소탄성공 모델 : 19분에서 1.3초로 감소 (3개 수량급)역진자 : 512밀리초에서 244밀리초로 감소결정 트리 표현을 통한 추가 저장 공간 감소:
위성: 4,913개 노드에서 544개 노드로 감소 탄성공: 940개 노드에서 49개 노드로 감소 역진자: 99개 노드에서 32개 노드로 감소 1000개 에피소드의 누적 보상 비교에서:
위성 모델 : 변환 실드가 최고 보상 1.499 달성탄성공 모델 : 변환 실드가 최저 비용 36.593 달성역진자 : 변환 실드가 최저 비용 0.000 달성결과는 변환 실드가 계산 효율성이 더 높을 뿐만 아니라 실제 성능도 더 우수함을 보여준다.
변환 선택의 중요성 : 적절한 변환은 수량급의 성능 향상을 가져올 수 있다불변량 활용 : 시스템 불변량(예: 에너지, 각운동량) 활용의 효과가 뚜렷하다자동 변환 가능성 : 영역 지식 없는 변환 엔지니어링 방법이 실행 가능하다성능 향상 : 변환은 효율성을 높일 뿐만 아니라 최종 제어기 성능도 개선한다전통적 방법 : 규칙 초직사각형 격자 기반의 기호 전이 시스템다층 추상화 : 다양한 크기의 격자를 사용한 다층 방법타원체 추상화 : 타원체 격자 추상화 사용의 최근 노력Uppaal Stratego : 도구 구현 및 응용확률적 실드 : 확률적 실드를 사용한 안전 강화학습모델 예측 제어 : 안전 모델 예측 제어의 유사 개념추상 해석 : Galois 연결의 추상화 및 구체화 함수모델 축소 : 시스템 차원 감소의 근사 방법양방향 시뮬레이션 : 양방향 시뮬레이션 기반의 상태공간 축약상태공간 변환은 실드 합성의 강력한 도구 이며 계산 효율성을 크게 향상시킬 수 있다이론적 정확성이 보장 되며, 안전 속성이 변환 공간에서 원래 공간으로 올바르게 전이된다실제 응용 가치가 높으며 , 계산 효율성을 높일 뿐만 아니라 제어 성능도 개선한다방법의 범용성이 우수 하며, 다양한 유형의 제어 시스템에 적용 가능하다변환 선택 의존성 : 변환 품질이 방법 효과에 직접 영향을 미친다영역 지식 요구 : 처음 두 사례는 영역 전문 지식이 필요하다비전단사 변환 : 추가 근사 오차를 초래할 수 있다적용 범위 : 주로 적절한 변환을 찾을 수 있는 시스템에 적용 가능하다자동 변환 발견 : 더 범용적인 자동 변환 생성 방법 개발다중 변환 조합 : 변환 족의 조합 사용 연구온라인 변환 : 런타임 자적응 변환 탐색확장 통합 : 다층 추상화 등 직교 방법과의 결합높은 혁신성 : 상태공간 변환을 실드 합성에 체계적으로 적용한 첫 사례이론 완전성 : 완전한 이론 분석 및 정확성 증명 제공충분한 실험 : 세 가지 다양한 유형의 사례 연구로 방법의 광범위한 적용성 검증높은 실용 가치 : 수량급의 성능 향상은 중요한 실제 의미를 가진다방법 범용성 : 기존 격자 추상화 방법과 직교적으로 결합 가능하다변환 설계 어려움 : 복잡한 시스템의 경우 적절한 변환 찾기가 여전히 어렵다자동화 수준 : 세 번째 사례의 자동 방법은 아직 성숙하지 않다이론 분석 부족 : 좋은 변환이 존재하는 시기에 대한 이론적 지침 부족비교 기준 부족 : 다른 비격자 방법과의 비교가 충분하지 않다학술 기여 : 제어 시스템 안전 합성 분야에 새로운 연구 방향 제시실용 가치 : 현저한 성능 향상으로 더 복잡한 시스템의 안전 합성 가능재현성 : 완전한 구현 및 재현 패키지 제공확장성 : 다른 추상화 및 합성 기술로 확장 가능기하학적 구조를 가진 시스템 : 로봇 네비게이션, 우주선 제어 등물리 불변량이 있는 시스템 : 에너지 보존 시스템 등효율적 안전 합성이 필요한 응용 : 임베디드 시스템, 실시간 제어강화학습 안전 응용 : 안전 보장이 필요한 학습 시스템논문은 제어 이론, 형식적 방법, 강화학습 및 추상 해석 등 여러 분야의 중요한 연구를 포함한 31편의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공한다.
종합 평가 : 이는 실드 합성의 계산 문제를 해결하기 위한 혁신적 솔루션을 제시한 고품질 연구 논문이다. 방법은 강력한 이론적 기초와 현저한 실용 가치를 가지며, 제어 시스템 안전 합성 분야에 중요한 기여를 한다.