2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, HÃ¸eg-Petersen, Larsen et al.

We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.

academic

Synthèse efficace de boucliers via transformation d'espace d'état

Informations de base

ID de l'article: 2407.19911
Titre: Efficient Shield Synthesis via State-Space Transformation
Auteurs: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
Institution: Université d'Aalborg, Danemark
Classification: cs.LO cs.AI cs.LG cs.SY eess.SY
Date de publication: Juillet 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2407.19911

Résumé

Cet article étudie le problème de la synthèse de stratégies de sécurité pour les systèmes de contrôle, également appelée synthèse de boucliers. Puisque l'espace d'état est infini, les boucliers sont généralement calculés sur des abstractions d'état fini, l'abstraction la plus courante étant la grille rectangulaire. Cependant, pour de nombreux systèmes, cette grille s'aligne mal avec les propriétés de sécurité ou la dynamique du système. Les grilles grossières sont généralement insuffisantes, tandis que les grilles fines sont souvent computationnellement infaisables. Cet article démontre que les transformations d'espace d'état appropriées permettent l'utilisation de grilles grossières avec un surcoût computationnel négligeable. Par le biais de trois études de cas, nous montrons que la méthode de synthèse basée sur la transformation surpasse la synthèse standard de plusieurs ordres de grandeur.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé par cette recherche est de synthétiser efficacement des stratégies de sécurité (boucliers) pour les systèmes de contrôle. Dans les systèmes cyberphysiques, les contrôleurs numériques doivent garantir la sécurité du système, ce qui a motivé le développement de méthodes de construction automatique de contrôleurs.

Importance

Criticité pour la sécurité: De nombreux systèmes cyberphysiques sont critiques pour la sécurité et nécessitent des garanties de sécurité formelles
Complémentarité des méthodes: L'apprentissage par renforcement offre l'optimalité mais manque de garanties de sécurité, tandis que la synthèse réactive offre des garanties de sécurité mais manque d'optimalité
Cadre de bouclier: Combine les avantages des deux approches en utilisant le bouclier pour prévenir les actions non sûres pendant l'apprentissage

Limitations des méthodes existantes

Problème d'abstraction par grille: Les grilles rectangulaires ne correspondent généralement pas à la dynamique du système et aux propriétés de sécurité
Complexité computationnelle: Les grilles grossières manquent de précision, tandis que les grilles fines sont computationnellement infaisables
Explosion de l'espace d'état: L'espace d'état croît exponentiellement avec les exigences de précision

Motivation de la recherche

Par le biais de transformations d'espace d'état, aligner la grille avec la dynamique du système dans le nouvel espace d'état, améliorant ainsi la qualité de la synthèse tout en maintenant l'efficacité computationnelle.

Contributions principales

Proposition d'une méthode de synthèse de boucliers basée sur la transformation d'espace d'état, capable de réduire significativement le nombre de cellules de grille requises
Preuve de la correction théorique de la méthode de transformation, incluant le transfert des garanties de sécurité de l'espace transformé à l'espace original
Validation de l'efficacité de la méthode dans trois études de cas, avec des améliorations de performance atteignant plusieurs ordres de grandeur
Fourniture d'une méthode d'ingénierie de transformation sans connaissance du domaine, élargissant l'applicabilité de la méthode
Implémentation de l'intégration avec l'apprentissage par renforcement, démontrant la valeur pratique

Explication détaillée de la méthode

Définition de la tâche

Étant donné un système de contrôle $(S, Act, δ)$ , où:

$S ⊆ \mathbb{R}^d$ : espace d'état borné de dimension d
$Act$ : ensemble fini d'actions de contrôle
$δ: S × Act → 2^S$ : fonction de successeur

Objectif: Synthétiser une stratégie de sécurité $σ: S → 2^{Act}$ pour la propriété de sécurité $φ ⊆ S$

Architecture centrale

1. Transformation d'espace d'état

Fonction de transformation: $f: S → T$ , mappant l'espace d'état original $S$ à l'espace transformé $T$
Transformation inverse: $f^{-1}: T → 2^S$ , définie comme $f^{-1}(t) = \{s ∈ S | f(s) = t\}$
Convivialité pour la grille: La transformation doit aligner les limites de la grille avec les limites de décision

2. Fonction de successeur dans l'espace transformé

Définir un nouveau système de contrôle dans l'espace transformé $T$ comme $(T, Act, δ_T)$ : $δ_T(t, a) = f(δ_S(f^{-1}(t), a))$

3. Expansion de grille

L'ensemble des cellules contrôlables $C_φ^f$ est défini comme: $C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}$

Points d'innovation technique

1. Stratégies d'alignement de grille

Transformation polaire: Pour les trajectoires circulaires et les obstacles, utiliser les coordonnées polaires $(θ, r)$
Transformation énergétique: Utiliser les invariants du système (comme l'énergie mécanique) comme dimension de transformation
Ajustement polynomial: Générer automatiquement les transformations en ajustant les limites de décision

2. Garanties théoriques

Théorème 1: Correction de la méthode de transformation

Stratégie de sécurité dans l'espace transformé $σ_Y(t) = σ_G([t]_G)$
Stratégie de sécurité dans l'espace original $σ_X(s) = σ_G([f(s)]_G)$

3. Optimisation computationnelle

Calcul en trois étapes: $f^{-1} → δ_S → f$
Expansion d'ensemble: Traiter naturellement les transformations non bijectives
Calcul à la demande: Éviter le précalcul du système de transition complet

Configuration expérimentale

Études de cas

1. Modèle de satellite

Espace d'état: $(x, y) ∈ [-2, 2] × [-2, 2]$
Transformation: Coordonnées polaires $f(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T$
Actions: $\{ahead, out, in\}$
Contraintes de sécurité: Évitement d'obstacles + limitation de distance

2. Modèle de balle rebondissante

Espace d'état: $(v, p) ∈ [-13, 13] × [0, 8]$
Transformation: Énergie mécanique $f(v, p) = (mgp + \frac{1}{2}mv^2, v)^T$
Objectif: Maintenir le rebond continu de la balle

3. Modèle de pendule inversé

Espace d'état: $(θ, ω) ∈ [-2.095, 2.095] × [-3, 3]$
Transformation: Ajustement polynomial $f(θ, ω) = (θ, ω - p(θ))^T$
Objectif: Maintenir la tige verticale

Métriques d'évaluation

Nombre de cellules de grille: Mesure la complexité computationnelle
Temps de calcul: Efficacité de la synthèse
Nombre de nœuds d'arbre de décision: Complexité de la représentation de stratégie
Récompense cumulée: Performance de l'apprentissage par renforcement

Résultats expérimentaux

Résultats principaux

Réduction de la taille de grille

Modèle	Cellules espace original	Cellules espace transformé	Réduction
Satellite	176,400	27,300	6.5×
Balle rebondissante	520,000	650	800×
Pendule inversé	900	400	2.25×

Amélioration du temps de calcul

Modèle de satellite: Réduit de 2 minutes 41 secondes à 10 secondes
Modèle de balle rebondissante: Réduit de 19 minutes à 1,3 secondes (trois ordres de grandeur)
Pendule inversé: Réduit de 512 millisecondes à 244 millisecondes

Représentation d'arbre de décision

Réduction supplémentaire des besoins de stockage via représentation d'arbre de décision:

Satellite: Réduit de 4,913 nœuds à 544 nœuds
Balle rebondissante: Réduit de 940 nœuds à 49 nœuds
Pendule inversé: Réduit de 99 nœuds à 32 nœuds

Performance de l'apprentissage par renforcement

Dans la comparaison de récompense cumulée sur 1000 épisodes:

Modèle de satellite: Le bouclier transformé atteint la récompense maximale de 1,499
Modèle de balle rebondissante: Le bouclier transformé atteint le coût minimal de 36,593
Pendule inversé: Le bouclier transformé atteint le coût minimal de 0,000

Les résultats montrent que le bouclier transformé est non seulement plus efficace computationnellement, mais aussi supérieur en performance réelle.

Découvertes importantes

Sélection de transformation critique: Les transformations appropriées peuvent apporter des améliorations de plusieurs ordres de grandeur
Utilisation d'invariants: L'exploitation des invariants du système (comme l'énergie, le moment angulaire) est très efficace
Transformation automatique réalisable: Les méthodes d'ingénierie de transformation sans connaissance du domaine sont réalisables
Amélioration de performance: Les transformations non seulement augmentent l'efficacité mais améliorent aussi la performance du contrôleur final

Travaux connexes

Synthèse de contrôleur abstrait

Méthodes traditionnelles: Systèmes de transition symboliques basés sur des grilles hyperrectangulaires régulières
Abstractions multicouches: Méthodes multicouches utilisant des grilles de différentes tailles
Abstraction ellipsoïdale: Efforts récents utilisant des abstractions de type ellipsoïdal

Techniques de bouclier

Uppaal Stratego: Implémentation et applications d'outils
Bouclier probabiliste: Apprentissage par renforcement sûr utilisant le bouclier probabiliste
Contrôle prédictif de modèle: Concepts similaires en contrôle prédictif de modèle sûr

Transformations d'espace d'état connexes

Interprétation abstraite: Fonctions d'abstraction et de concrétisation dans les connexions de Galois
Réduction de modèle: Méthodes d'approximation pour réduire la dimensionnalité du système
Bisimulation: Réduction d'espace d'état basée sur la bisimulation

Conclusion et discussion

Conclusions principales

Les transformations d'espace d'état sont un outil puissant pour la synthèse de boucliers, capable d'améliorer significativement l'efficacité computationnelle
La correction théorique est garantie, les propriétés de sécurité se transfèrent correctement de l'espace transformé à l'espace original
La valeur pratique est élevée, améliorant à la fois l'efficacité computationnelle et la performance de contrôle
La méthode est générale, applicable à de nombreux types de systèmes de contrôle

Limitations

Dépendance de la sélection de transformation: La qualité de la transformation affecte directement l'efficacité de la méthode
Exigences de connaissance du domaine: Les deux premiers cas d'étude nécessitent une expertise du domaine
Transformations non bijectives: Peuvent introduire des erreurs d'approximation supplémentaires
Portée d'applicabilité: Principalement applicable aux systèmes pour lesquels une transformation appropriée peut être trouvée

Directions futures

Découverte de transformation automatique: Développer des méthodes plus générales de génération automatique de transformation
Combinaison de transformations multiples: Étudier l'utilisation combinée de familles de transformations
Transformation en ligne: Explorer les transformations adaptatives au moment de l'exécution
Intégration étendue: Combiner avec des méthodes orthogonales comme les abstractions multicouches

Évaluation approfondie

Points forts

Innovation forte: Première application systématique des transformations d'espace d'état à la synthèse de boucliers
Théorie complète: Analyse théorique complète et preuves de correction
Expérimentation suffisante: Trois études de cas de différents types validant l'applicabilité générale de la méthode
Valeur pratique élevée: Les améliorations de plusieurs ordres de grandeur ont une importance pratique significative
Méthode générale: Peut être combinée orthogonalement avec les méthodes d'abstraction par grille existantes

Insuffisances

Défi de conception de transformation: Pour les systèmes complexes, trouver une transformation appropriée reste difficile
Degré d'automatisation: La méthode automatique du troisième cas d'étude n'est pas encore suffisamment mature
Analyse théorique: Manque de guidance théorique sur quand existent de bonnes transformations
Comparaison de référence: Comparaison insuffisante avec d'autres méthodes non basées sur grille

Impact

Contribution académique: Fournit une nouvelle direction de recherche pour le domaine de la synthèse de sécurité des systèmes de contrôle
Valeur pratique: Les améliorations de performance significatives rendent possible la synthèse de sécurité pour des systèmes plus complexes
Reproductibilité: Fournit une implémentation complète et un paquet de reproduction
Extensibilité: La méthode peut être étendue à d'autres abstractions et techniques de synthèse

Scénarios d'application

Systèmes avec structure géométrique: Comme la navigation robotique, le contrôle d'engin spatial
Systèmes avec invariants physiques: Comme les systèmes de conservation d'énergie
Applications nécessitant une synthèse de sécurité efficace: Systèmes embarqués, contrôle en temps réel
Applications d'apprentissage par renforcement sûr: Systèmes d'apprentissage nécessitant des garanties de sécurité

Références

L'article cite 31 travaux connexes, couvrant les domaines importants de la théorie du contrôle, des méthodes formelles, de l'apprentissage par renforcement et de l'interprétation abstraite, fournissant une base théorique solide pour la recherche.

Évaluation globale: Ceci est un article de recherche de haute qualité proposant une solution innovante pour relever les défis computationnels de la synthèse de boucliers. La méthode possède une base théorique forte et une valeur pratique significative, apportant une contribution importante au domaine de la synthèse de sécurité des systèmes de contrôle.