2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, Høeg-Petersen, Larsen et al.
We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
academic

Synthèse efficace de boucliers via transformation d'espace d'état

Informations de base

  • ID de l'article: 2407.19911
  • Titre: Efficient Shield Synthesis via State-Space Transformation
  • Auteurs: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
  • Institution: Université d'Aalborg, Danemark
  • Classification: cs.LO cs.AI cs.LG cs.SY eess.SY
  • Date de publication: Juillet 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2407.19911

Résumé

Cet article étudie le problème de la synthèse de stratégies de sécurité pour les systèmes de contrôle, également appelée synthèse de boucliers. Puisque l'espace d'état est infini, les boucliers sont généralement calculés sur des abstractions d'état fini, l'abstraction la plus courante étant la grille rectangulaire. Cependant, pour de nombreux systèmes, cette grille s'aligne mal avec les propriétés de sécurité ou la dynamique du système. Les grilles grossières sont généralement insuffisantes, tandis que les grilles fines sont souvent computationnellement infaisables. Cet article démontre que les transformations d'espace d'état appropriées permettent l'utilisation de grilles grossières avec un surcoût computationnel négligeable. Par le biais de trois études de cas, nous montrons que la méthode de synthèse basée sur la transformation surpasse la synthèse standard de plusieurs ordres de grandeur.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé par cette recherche est de synthétiser efficacement des stratégies de sécurité (boucliers) pour les systèmes de contrôle. Dans les systèmes cyberphysiques, les contrôleurs numériques doivent garantir la sécurité du système, ce qui a motivé le développement de méthodes de construction automatique de contrôleurs.

Importance

  1. Criticité pour la sécurité: De nombreux systèmes cyberphysiques sont critiques pour la sécurité et nécessitent des garanties de sécurité formelles
  2. Complémentarité des méthodes: L'apprentissage par renforcement offre l'optimalité mais manque de garanties de sécurité, tandis que la synthèse réactive offre des garanties de sécurité mais manque d'optimalité
  3. Cadre de bouclier: Combine les avantages des deux approches en utilisant le bouclier pour prévenir les actions non sûres pendant l'apprentissage

Limitations des méthodes existantes

  1. Problème d'abstraction par grille: Les grilles rectangulaires ne correspondent généralement pas à la dynamique du système et aux propriétés de sécurité
  2. Complexité computationnelle: Les grilles grossières manquent de précision, tandis que les grilles fines sont computationnellement infaisables
  3. Explosion de l'espace d'état: L'espace d'état croît exponentiellement avec les exigences de précision

Motivation de la recherche

Par le biais de transformations d'espace d'état, aligner la grille avec la dynamique du système dans le nouvel espace d'état, améliorant ainsi la qualité de la synthèse tout en maintenant l'efficacité computationnelle.

Contributions principales

  1. Proposition d'une méthode de synthèse de boucliers basée sur la transformation d'espace d'état, capable de réduire significativement le nombre de cellules de grille requises
  2. Preuve de la correction théorique de la méthode de transformation, incluant le transfert des garanties de sécurité de l'espace transformé à l'espace original
  3. Validation de l'efficacité de la méthode dans trois études de cas, avec des améliorations de performance atteignant plusieurs ordres de grandeur
  4. Fourniture d'une méthode d'ingénierie de transformation sans connaissance du domaine, élargissant l'applicabilité de la méthode
  5. Implémentation de l'intégration avec l'apprentissage par renforcement, démontrant la valeur pratique

Explication détaillée de la méthode

Définition de la tâche

Étant donné un système de contrôle (S,Act,δ)(S, Act, δ), où:

  • SRdS ⊆ \mathbb{R}^d: espace d'état borné de dimension d
  • ActAct: ensemble fini d'actions de contrôle
  • δ:S×Act2Sδ: S × Act → 2^S: fonction de successeur

Objectif: Synthétiser une stratégie de sécurité σ:S2Actσ: S → 2^{Act} pour la propriété de sécurité φSφ ⊆ S

Architecture centrale

1. Transformation d'espace d'état

  • Fonction de transformation: f:STf: S → T, mappant l'espace d'état original SS à l'espace transformé TT
  • Transformation inverse: f1:T2Sf^{-1}: T → 2^S, définie comme f1(t)={sSf(s)=t}f^{-1}(t) = \{s ∈ S | f(s) = t\}
  • Convivialité pour la grille: La transformation doit aligner les limites de la grille avec les limites de décision

2. Fonction de successeur dans l'espace transformé

Définir un nouveau système de contrôle dans l'espace transformé TT comme (T,Act,δT)(T, Act, δ_T): δT(t,a)=f(δS(f1(t),a))δ_T(t, a) = f(δ_S(f^{-1}(t), a))

3. Expansion de grille

L'ensemble des cellules contrôlables CφfC_φ^f est défini comme: Cφf=f(φ)G{CGaAct.C.CaCCCφf}C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}

Points d'innovation technique

1. Stratégies d'alignement de grille

  • Transformation polaire: Pour les trajectoires circulaires et les obstacles, utiliser les coordonnées polaires (θ,r)(θ, r)
  • Transformation énergétique: Utiliser les invariants du système (comme l'énergie mécanique) comme dimension de transformation
  • Ajustement polynomial: Générer automatiquement les transformations en ajustant les limites de décision

2. Garanties théoriques

Théorème 1: Correction de la méthode de transformation

  • Stratégie de sécurité dans l'espace transformé σY(t)=σG([t]G)σ_Y(t) = σ_G([t]_G)
  • Stratégie de sécurité dans l'espace original σX(s)=σG([f(s)]G)σ_X(s) = σ_G([f(s)]_G)

3. Optimisation computationnelle

  • Calcul en trois étapes: f1δSff^{-1} → δ_S → f
  • Expansion d'ensemble: Traiter naturellement les transformations non bijectives
  • Calcul à la demande: Éviter le précalcul du système de transition complet

Configuration expérimentale

Études de cas

1. Modèle de satellite

  • Espace d'état: (x,y)[2,2]×[2,2](x, y) ∈ [-2, 2] × [-2, 2]
  • Transformation: Coordonnées polaires f(x,y)=(atan2(y,x),x2+y2)Tf(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T
  • Actions: {ahead,out,in}\{ahead, out, in\}
  • Contraintes de sécurité: Évitement d'obstacles + limitation de distance

2. Modèle de balle rebondissante

  • Espace d'état: (v,p)[13,13]×[0,8](v, p) ∈ [-13, 13] × [0, 8]
  • Transformation: Énergie mécanique f(v,p)=(mgp+12mv2,v)Tf(v, p) = (mgp + \frac{1}{2}mv^2, v)^T
  • Objectif: Maintenir le rebond continu de la balle

3. Modèle de pendule inversé

  • Espace d'état: (θ,ω)[2.095,2.095]×[3,3](θ, ω) ∈ [-2.095, 2.095] × [-3, 3]
  • Transformation: Ajustement polynomial f(θ,ω)=(θ,ωp(θ))Tf(θ, ω) = (θ, ω - p(θ))^T
  • Objectif: Maintenir la tige verticale

Métriques d'évaluation

  • Nombre de cellules de grille: Mesure la complexité computationnelle
  • Temps de calcul: Efficacité de la synthèse
  • Nombre de nœuds d'arbre de décision: Complexité de la représentation de stratégie
  • Récompense cumulée: Performance de l'apprentissage par renforcement

Résultats expérimentaux

Résultats principaux

Réduction de la taille de grille

ModèleCellules espace originalCellules espace transforméRéduction
Satellite176,40027,3006.5×
Balle rebondissante520,000650800×
Pendule inversé9004002.25×

Amélioration du temps de calcul

  • Modèle de satellite: Réduit de 2 minutes 41 secondes à 10 secondes
  • Modèle de balle rebondissante: Réduit de 19 minutes à 1,3 secondes (trois ordres de grandeur)
  • Pendule inversé: Réduit de 512 millisecondes à 244 millisecondes

Représentation d'arbre de décision

Réduction supplémentaire des besoins de stockage via représentation d'arbre de décision:

  • Satellite: Réduit de 4,913 nœuds à 544 nœuds
  • Balle rebondissante: Réduit de 940 nœuds à 49 nœuds
  • Pendule inversé: Réduit de 99 nœuds à 32 nœuds

Performance de l'apprentissage par renforcement

Dans la comparaison de récompense cumulée sur 1000 épisodes:

  • Modèle de satellite: Le bouclier transformé atteint la récompense maximale de 1,499
  • Modèle de balle rebondissante: Le bouclier transformé atteint le coût minimal de 36,593
  • Pendule inversé: Le bouclier transformé atteint le coût minimal de 0,000

Les résultats montrent que le bouclier transformé est non seulement plus efficace computationnellement, mais aussi supérieur en performance réelle.

Découvertes importantes

  1. Sélection de transformation critique: Les transformations appropriées peuvent apporter des améliorations de plusieurs ordres de grandeur
  2. Utilisation d'invariants: L'exploitation des invariants du système (comme l'énergie, le moment angulaire) est très efficace
  3. Transformation automatique réalisable: Les méthodes d'ingénierie de transformation sans connaissance du domaine sont réalisables
  4. Amélioration de performance: Les transformations non seulement augmentent l'efficacité mais améliorent aussi la performance du contrôleur final

Travaux connexes

Synthèse de contrôleur abstrait

  • Méthodes traditionnelles: Systèmes de transition symboliques basés sur des grilles hyperrectangulaires régulières
  • Abstractions multicouches: Méthodes multicouches utilisant des grilles de différentes tailles
  • Abstraction ellipsoïdale: Efforts récents utilisant des abstractions de type ellipsoïdal

Techniques de bouclier

  • Uppaal Stratego: Implémentation et applications d'outils
  • Bouclier probabiliste: Apprentissage par renforcement sûr utilisant le bouclier probabiliste
  • Contrôle prédictif de modèle: Concepts similaires en contrôle prédictif de modèle sûr

Transformations d'espace d'état connexes

  • Interprétation abstraite: Fonctions d'abstraction et de concrétisation dans les connexions de Galois
  • Réduction de modèle: Méthodes d'approximation pour réduire la dimensionnalité du système
  • Bisimulation: Réduction d'espace d'état basée sur la bisimulation

Conclusion et discussion

Conclusions principales

  1. Les transformations d'espace d'état sont un outil puissant pour la synthèse de boucliers, capable d'améliorer significativement l'efficacité computationnelle
  2. La correction théorique est garantie, les propriétés de sécurité se transfèrent correctement de l'espace transformé à l'espace original
  3. La valeur pratique est élevée, améliorant à la fois l'efficacité computationnelle et la performance de contrôle
  4. La méthode est générale, applicable à de nombreux types de systèmes de contrôle

Limitations

  1. Dépendance de la sélection de transformation: La qualité de la transformation affecte directement l'efficacité de la méthode
  2. Exigences de connaissance du domaine: Les deux premiers cas d'étude nécessitent une expertise du domaine
  3. Transformations non bijectives: Peuvent introduire des erreurs d'approximation supplémentaires
  4. Portée d'applicabilité: Principalement applicable aux systèmes pour lesquels une transformation appropriée peut être trouvée

Directions futures

  1. Découverte de transformation automatique: Développer des méthodes plus générales de génération automatique de transformation
  2. Combinaison de transformations multiples: Étudier l'utilisation combinée de familles de transformations
  3. Transformation en ligne: Explorer les transformations adaptatives au moment de l'exécution
  4. Intégration étendue: Combiner avec des méthodes orthogonales comme les abstractions multicouches

Évaluation approfondie

Points forts

  1. Innovation forte: Première application systématique des transformations d'espace d'état à la synthèse de boucliers
  2. Théorie complète: Analyse théorique complète et preuves de correction
  3. Expérimentation suffisante: Trois études de cas de différents types validant l'applicabilité générale de la méthode
  4. Valeur pratique élevée: Les améliorations de plusieurs ordres de grandeur ont une importance pratique significative
  5. Méthode générale: Peut être combinée orthogonalement avec les méthodes d'abstraction par grille existantes

Insuffisances

  1. Défi de conception de transformation: Pour les systèmes complexes, trouver une transformation appropriée reste difficile
  2. Degré d'automatisation: La méthode automatique du troisième cas d'étude n'est pas encore suffisamment mature
  3. Analyse théorique: Manque de guidance théorique sur quand existent de bonnes transformations
  4. Comparaison de référence: Comparaison insuffisante avec d'autres méthodes non basées sur grille

Impact

  1. Contribution académique: Fournit une nouvelle direction de recherche pour le domaine de la synthèse de sécurité des systèmes de contrôle
  2. Valeur pratique: Les améliorations de performance significatives rendent possible la synthèse de sécurité pour des systèmes plus complexes
  3. Reproductibilité: Fournit une implémentation complète et un paquet de reproduction
  4. Extensibilité: La méthode peut être étendue à d'autres abstractions et techniques de synthèse

Scénarios d'application

  1. Systèmes avec structure géométrique: Comme la navigation robotique, le contrôle d'engin spatial
  2. Systèmes avec invariants physiques: Comme les systèmes de conservation d'énergie
  3. Applications nécessitant une synthèse de sécurité efficace: Systèmes embarqués, contrôle en temps réel
  4. Applications d'apprentissage par renforcement sûr: Systèmes d'apprentissage nécessitant des garanties de sécurité

Références

L'article cite 31 travaux connexes, couvrant les domaines importants de la théorie du contrôle, des méthodes formelles, de l'apprentissage par renforcement et de l'interprétation abstraite, fournissant une base théorique solide pour la recherche.


Évaluation globale: Ceci est un article de recherche de haute qualité proposant une solution innovante pour relever les défis computationnels de la synthèse de boucliers. La méthode possède une base théorique forte et une valeur pratique significative, apportant une contribution importante au domaine de la synthèse de sécurité des systèmes de contrôle.