2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, Høeg-Petersen, Larsen et al.
We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
academic

Effiziente Schild-Synthese durch Zustandsraum-Transformation

Grundlegende Informationen

  • Papier-ID: 2407.19911
  • Titel: Efficient Shield Synthesis via State-Space Transformation
  • Autoren: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
  • Institution: Aalborg University, Dänemark
  • Klassifizierung: cs.LO cs.AI cs.LG cs.SY eess.SY
  • Veröffentlichungsdatum: Juli 2024 (arXiv Preprint)
  • Papierlink: https://arxiv.org/abs/2407.19911

Zusammenfassung

Dieses Papier untersucht das Problem der Synthese von Sicherheitsstrategien für Kontrollsysteme, auch als Schild-Synthese (Shield Synthesis) bekannt. Da der Zustandsraum unendlich ist, wird die Schild-Synthese typischerweise auf endlichen Zustandsabstraktionen berechnet, wobei die häufigste Abstraktion ein rechteckiges Gitter ist. Für viele Systeme stimmt dieses Gitter jedoch schlecht mit den Sicherheitseigenschaften oder der Systemdynamik überein. Grobe Gitter sind oft unzureichend, während feine Gitter rechnerisch häufig nicht machbar sind. Dieses Papier zeigt, dass geeignete Zustandsraum-Transformationen es ermöglichen, trotzdem grobe Gitter mit vernachlässigbarem Rechenaufwand zu verwenden. Durch drei Fallstudien wird demonstriert, dass die transformationsbasierte Synthesemethode eine Leistungssteigerung um mehrere Größenordnungen gegenüber der Standardsynthese erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die effiziente Synthese von Sicherheitsstrategien (Schilden) für Kontrollsysteme. In cyber-physischen Systemen müssen digitale Regler die Systemsicherheit gewährleisten, was die Entwicklung automatisierter Reglerkonstruktionsmethoden motiviert.

Bedeutung

  1. Sicherheitskritikalität: Viele cyber-physische Systeme sind sicherheitskritisch und erfordern formale Sicherheitsgarantien
  2. Methodische Komplementarität: Verstärkungslernen bietet Optimalität, aber keine Sicherheitsgarantien, während reaktive Synthese Sicherheitsgarantien bietet, aber nicht optimal ist
  3. Schild-Framework: Kombiniert die Vorteile beider Ansätze durch Schildschutz gegen unsichere Aktionen während des Lernprozesses

Einschränkungen bestehender Methoden

  1. Gitter-Abstraktionsproblem: Rechteckige Gitter stimmen typischerweise nicht mit der Systemdynamik und den Sicherheitseigenschaften überein
  2. Rechenkomplexität: Grobe Gitter haben unzureichende Genauigkeit, feine Gitter sind rechnerisch nicht machbar
  3. Zustandsraum-Explosion: Mit zunehmenden Genauigkeitsanforderungen wächst der Zustandsraum exponentiell

Forschungsmotivation

Durch Zustandsraum-Transformationen soll das Gitter im neuen Zustandsraum besser mit der Systemdynamik ausgerichtet werden, um die Synthesequalität zu verbessern und gleichzeitig die Recheneffizienz zu bewahren.

Kernbeiträge

  1. Vorschlag einer Schild-Synthesemethode basierend auf Zustandsraum-Transformationen, die die Anzahl der erforderlichen Gitterzellen erheblich reduzieren kann
  2. Beweis der theoretischen Korrektheit der Transformationsmethode, einschließlich der Übertragung von Sicherheitsgarantien vom Transformationsraum zum ursprünglichen Raum
  3. Validierung der Methodeneffektivität in drei Fallstudien mit Leistungssteigerungen um mehrere Größenordnungen
  4. Bereitstellung einer Transformations-Engineering-Methode ohne Domänenwissen, die die Anwendbarkeit der Methode erweitert
  5. Implementierung der Integration mit Verstärkungslernen, die den praktischen Anwendungswert demonstriert

Methodische Details

Aufgabendefinition

Gegeben ein Kontrollsystem (S,Act,δ)(S, Act, δ), wobei:

  • SRdS ⊆ \mathbb{R}^d: Beschränkter d-dimensionaler Zustandsraum
  • ActAct: Endliche Menge von Steueraktionen
  • δ:S×Act2Sδ: S × Act → 2^S: Nachfolgerfunktion

Ziel: Synthese einer Sicherheitsstrategie σ:S2Actσ: S → 2^{Act} für die Sicherheitseigenschaft φSφ ⊆ S

Kernarchitektur

1. Zustandsraum-Transformation

  • Transformationsfunktion: f:STf: S → T, die den ursprünglichen Zustandsraum SS auf den Transformationsraum TT abbildet
  • Inverse Transformation: f1:T2Sf^{-1}: T → 2^S, definiert als f1(t)={sSf(s)=t}f^{-1}(t) = \{s ∈ S | f(s) = t\}
  • Gitter-Freundlichkeit: Die Transformation sollte Gittergrenzen mit Entscheidungsgrenzen ausrichten

2. Nachfolgerfunktion im Transformationsraum

Im Transformationsraum TT wird ein neues Kontrollsystem (T,Act,δT)(T, Act, δ_T) definiert: δT(t,a)=f(δS(f1(t),a))δ_T(t, a) = f(δ_S(f^{-1}(t), a))

3. Gitter-Erweiterung

Die Menge der steuerbaren Zellen CφfC_φ^f wird definiert als: Cφf=f(φ)G{CGaAct.C.CaCCCφf}C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}

Technische Innovationen

1. Gitter-Ausrichtungsstrategien

  • Polarkoordinaten-Transformation: Für kreisförmige Trajektorien und Hindernisse wird die Polarkoordinaten-Form (θ,r)(θ, r) verwendet
  • Energie-Transformation: Nutzung von Systemerhaltungsgrößen (wie mechanischer Energie) als Transformationsdimension
  • Polynomiale Anpassung: Automatische Generierung von Transformationen durch Anpassung an Entscheidungsgrenzen

2. Theoretische Garantien

Satz 1: Korrektheit der Transformationsmethode

  • Sicherheitsstrategie im Transformationsraum σY(t)=σG([t]G)σ_Y(t) = σ_G([t]_G)
  • Sicherheitsstrategie im ursprünglichen Raum σX(s)=σG([f(s)]G)σ_X(s) = σ_G([f(s)]_G)

3. Rechenoptimierung

  • Dreigliedriger Berechnungsablauf: f1δSff^{-1} → δ_S → f
  • Mengen-Erweiterung: Natürliche Behandlung nicht-bijektiver Transformationen
  • Bedarfsgerechte Berechnung: Vermeidung der Vorberechnung des vollständigen Übergangssystems

Experimentelle Einrichtung

Fallstudien

1. Satellitenmodell (Satellite Model)

  • Zustandsraum: (x,y)[2,2]×[2,2](x, y) ∈ [-2, 2] × [-2, 2]
  • Transformation: Polarkoordinaten f(x,y)=(atan2(y,x),x2+y2)Tf(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T
  • Aktionen: {ahead,out,in}\{ahead, out, in\}
  • Sicherheitsbeschränkungen: Hindernisvermeidung + Distanzbeschränkung

2. Springender-Ball-Modell (Bouncing Ball Model)

  • Zustandsraum: (v,p)[13,13]×[0,8](v, p) ∈ [-13, 13] × [0, 8]
  • Transformation: Mechanische Energie f(v,p)=(mgp+12mv2,v)Tf(v, p) = (mgp + \frac{1}{2}mv^2, v)^T
  • Ziel: Aufrechterhaltung des kontinuierlichen Springens des Balls

3. Umgekehrtes-Pendel-Modell (Cart-Pole Model)

  • Zustandsraum: (θ,ω)[2.095,2.095]×[3,3](θ, ω) ∈ [-2.095, 2.095] × [-3, 3]
  • Transformation: Polynomiale Anpassung f(θ,ω)=(θ,ωp(θ))Tf(θ, ω) = (θ, ω - p(θ))^T
  • Ziel: Aufrechterhaltung der aufrechten Position des Stabes

Bewertungsmetriken

  • Anzahl der Gitterzellen: Messung der Rechenkomplexität
  • Rechenzeit: Syntheseeffizienz
  • Knoten des Entscheidungsbaums: Komplexität der Strategiedarstellung
  • Kumulierte Belohnung: Leistung des Verstärkungslernens

Experimentelle Ergebnisse

Hauptergebnisse

Reduktion der Gittergröße

ModellZellen im ursprünglichen RaumZellen im TransformationsraumReduktionsfaktor
Satellit176.40027.3006,5×
Springender Ball520.000650800×
Umgekehrtes Pendel9004002,25×

Verbesserung der Rechenzeit

  • Satellitenmodell: Von 2 Minuten 41 Sekunden auf 10 Sekunden reduziert
  • Springender-Ball-Modell: Von 19 Minuten auf 1,3 Sekunden reduziert (drei Größenordnungen)
  • Umgekehrtes Pendel: Von 512 Millisekunden auf 244 Millisekunden reduziert

Entscheidungsbaum-Darstellung

Weitere Reduktion des Speicherbedarfs durch Entscheidungsbaum-Darstellung:

  • Satellit: Von 4.913 Knoten auf 544 Knoten reduziert
  • Springender Ball: Von 940 Knoten auf 49 Knoten reduziert
  • Umgekehrtes Pendel: Von 99 Knoten auf 32 Knoten reduziert

Leistung des Verstärkungslernens

In Vergleichen der kumulierten Belohnung über 1000 Episoden:

  • Satellitenmodell: Transformationsschild erreicht maximale Belohnung von 1.499
  • Springender-Ball-Modell: Transformationsschild erreicht minimale Kosten von 36.593
  • Umgekehrtes Pendel: Transformationsschild erreicht minimale Kosten von 0.000

Die Ergebnisse zeigen, dass der Transformationsschild nicht nur rechnerisch effizienter ist, sondern auch eine bessere praktische Leistung aufweist.

Wichtige Erkenntnisse

  1. Transformationswahl ist entscheidend: Geeignete Transformationen können Leistungssteigerungen um Größenordnungen bringen
  2. Nutzung von Invarianten: Die Nutzung von Systemerhaltungsgrößen (wie Energie, Drehimpuls) ist sehr wirksam
  3. Automatische Transformation ist machbar: Transformations-Engineering-Methoden ohne Domänenwissen sind praktikabel
  4. Leistungsverbesserung: Transformationen verbessern nicht nur die Effizienz, sondern auch die Leistung des endgültigen Reglers

Verwandte Arbeiten

Abstrakte Reglersynthese

  • Traditionelle Methoden: Symbolische Übergangssysteme basierend auf regelmäßigen Hyperrechteck-Gittern
  • Mehrschicht-Abstraktion: Mehrschicht-Methoden mit unterschiedlich großen Gittern
  • Ellipsoid-Abstraktion: Neuere Bemühungen zur Verwendung von ellipsoid-ähnlichen Gitter-Abstraktionen

Schild-Techniken

  • Uppaal Stratego: Werkzeugimplementierung und Anwendungen
  • Probabilistische Schildschutz: Sicheres Verstärkungslernen mit probabilistischen Schilden
  • Modellprädiktive Steuerung: Ähnliche Konzepte in der sicheren modellprädiktiven Steuerung

Zustandsraum-Transformation verwandte Arbeiten

  • Abstrakte Interpretation: Abstraktions- und Konkretisierungsfunktionen in Galois-Verbindungen
  • Modellreduktion: Näherungsmethoden zur Reduktion der Systemdimension
  • Bisimulation: Zustandsraum-Reduktion basierend auf Bisimulation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Zustandsraum-Transformationen sind ein leistungsstarkes Werkzeug für die Schild-Synthese, das die Recheneffizienz erheblich verbessern kann
  2. Theoretische Korrektheit ist gewährleistet, Sicherheitseigenschaften werden korrekt vom Transformationsraum zum ursprünglichen Raum übertragen
  3. Praktischer Anwendungswert ist hoch, verbessert nicht nur die Recheneffizienz, sondern auch die Steuerleistung
  4. Die Methode ist allgemein anwendbar, geeignet für verschiedene Arten von Kontrollsystemen

Einschränkungen

  1. Abhängigkeit von der Transformationswahl: Die Transformationsqualität beeinflusst direkt die Methodeneffektivität
  2. Anforderungen an Domänenwissen: Die ersten beiden Fallstudien erfordern Domänenfachkenntnisse
  3. Nicht-bijektive Transformationen: Können zusätzliche Approximationsfehler einführen
  4. Anwendungsbereich: Hauptsächlich anwendbar auf Systeme, für die geeignete Transformationen gefunden werden können

Zukünftige Richtungen

  1. Automatische Transformationserkennung: Entwicklung allgemeinerer automatischer Transformationsgenerierungsmethoden
  2. Kombination mehrerer Transformationen: Untersuchung der kombinierten Verwendung von Transformationsfamilien
  3. Online-Transformation: Erkundung adaptiver Transformationen zur Laufzeit
  4. Erweiterte Integration: Kombination mit orthogonalen Methoden wie Mehrschicht-Abstraktion

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste systematische Anwendung von Zustandsraum-Transformationen auf die Schild-Synthese
  2. Theoretische Vollständigkeit: Vollständige theoretische Analyse und Korrektheitsbeweis
  3. Umfangreiche Experimente: Drei verschiedenartige Fallstudien validieren die breite Anwendbarkeit der Methode
  4. Hoher praktischer Wert: Leistungssteigerungen um Größenordnungen haben wichtige praktische Bedeutung
  5. Methodische Universalität: Kann orthogonal mit bestehenden Gitter-Abstraktionsmethoden kombiniert werden

Schwächen

  1. Herausforderung bei der Transformationsgestaltung: Für komplexe Systeme ist es immer noch schwierig, geeignete Transformationen zu finden
  2. Automatisierungsgrad: Die automatische Methode im dritten Fall ist noch nicht ausgereift genug
  3. Theoretische Analyse: Mangel an theoretischer Anleitung, wann gute Transformationen existieren
  4. Vergleichsbasis: Vergleiche mit anderen nicht-gitter-basierten Methoden sind nicht ausreichend

Einfluss

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für das Gebiet der Sicherheitssynthese von Kontrollsystemen
  2. Praktischer Wert: Signifikante Leistungssteigerungen ermöglichen Sicherheitssynthese für komplexere Systeme
  3. Reproduzierbarkeit: Vollständige Implementierung und Reproduktionspaket werden bereitgestellt
  4. Erweiterbarkeit: Die Methode kann auf andere Abstraktions- und Synthesetechniken erweitert werden

Anwendungsszenarien

  1. Systeme mit geometrischer Struktur: Wie Roboternavigation, Raumfahrzeugsteuerung
  2. Systeme mit physikalischen Invarianten: Wie Energieerhaltungssysteme
  3. Anwendungen mit effizienter Sicherheitssynthese: Eingebettete Systeme, Echtzeitsteuerung
  4. Sichere Verstärkungslern-Anwendungen: Lernsysteme, die Sicherheitsgarantien benötigen

Literaturverzeichnis

Das Papier zitiert 31 verwandte Arbeiten, die wichtige Arbeiten aus mehreren Bereichen wie Kontrolltheorie, formale Methoden, Verstärkungslernen und abstrakte Interpretation abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für die rechnerischen Herausforderungen der Schild-Synthese bietet. Die Methode hat eine starke theoretische Grundlage und signifikanten praktischen Wert und leistet einen wichtigen Beitrag zum Gebiet der Sicherheitssynthese von Kontrollsystemen.