2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, HÃ¸eg-Petersen, Larsen et al.

We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.

academic

Effiziente Schild-Synthese durch Zustandsraum-Transformation

Grundlegende Informationen

Papier-ID: 2407.19911
Titel: Efficient Shield Synthesis via State-Space Transformation
Autoren: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
Institution: Aalborg University, Dänemark
Klassifizierung: cs.LO cs.AI cs.LG cs.SY eess.SY
Veröffentlichungsdatum: Juli 2024 (arXiv Preprint)
Papierlink: https://arxiv.org/abs/2407.19911

Zusammenfassung

Dieses Papier untersucht das Problem der Synthese von Sicherheitsstrategien für Kontrollsysteme, auch als Schild-Synthese (Shield Synthesis) bekannt. Da der Zustandsraum unendlich ist, wird die Schild-Synthese typischerweise auf endlichen Zustandsabstraktionen berechnet, wobei die häufigste Abstraktion ein rechteckiges Gitter ist. Für viele Systeme stimmt dieses Gitter jedoch schlecht mit den Sicherheitseigenschaften oder der Systemdynamik überein. Grobe Gitter sind oft unzureichend, während feine Gitter rechnerisch häufig nicht machbar sind. Dieses Papier zeigt, dass geeignete Zustandsraum-Transformationen es ermöglichen, trotzdem grobe Gitter mit vernachlässigbarem Rechenaufwand zu verwenden. Durch drei Fallstudien wird demonstriert, dass die transformationsbasierte Synthesemethode eine Leistungssteigerung um mehrere Größenordnungen gegenüber der Standardsynthese erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die effiziente Synthese von Sicherheitsstrategien (Schilden) für Kontrollsysteme. In cyber-physischen Systemen müssen digitale Regler die Systemsicherheit gewährleisten, was die Entwicklung automatisierter Reglerkonstruktionsmethoden motiviert.

Bedeutung

Sicherheitskritikalität: Viele cyber-physische Systeme sind sicherheitskritisch und erfordern formale Sicherheitsgarantien
Methodische Komplementarität: Verstärkungslernen bietet Optimalität, aber keine Sicherheitsgarantien, während reaktive Synthese Sicherheitsgarantien bietet, aber nicht optimal ist
Schild-Framework: Kombiniert die Vorteile beider Ansätze durch Schildschutz gegen unsichere Aktionen während des Lernprozesses

Einschränkungen bestehender Methoden

Gitter-Abstraktionsproblem: Rechteckige Gitter stimmen typischerweise nicht mit der Systemdynamik und den Sicherheitseigenschaften überein
Rechenkomplexität: Grobe Gitter haben unzureichende Genauigkeit, feine Gitter sind rechnerisch nicht machbar
Zustandsraum-Explosion: Mit zunehmenden Genauigkeitsanforderungen wächst der Zustandsraum exponentiell

Forschungsmotivation

Durch Zustandsraum-Transformationen soll das Gitter im neuen Zustandsraum besser mit der Systemdynamik ausgerichtet werden, um die Synthesequalität zu verbessern und gleichzeitig die Recheneffizienz zu bewahren.

Kernbeiträge

Vorschlag einer Schild-Synthesemethode basierend auf Zustandsraum-Transformationen, die die Anzahl der erforderlichen Gitterzellen erheblich reduzieren kann
Beweis der theoretischen Korrektheit der Transformationsmethode, einschließlich der Übertragung von Sicherheitsgarantien vom Transformationsraum zum ursprünglichen Raum
Validierung der Methodeneffektivität in drei Fallstudien mit Leistungssteigerungen um mehrere Größenordnungen
Bereitstellung einer Transformations-Engineering-Methode ohne Domänenwissen, die die Anwendbarkeit der Methode erweitert
Implementierung der Integration mit Verstärkungslernen, die den praktischen Anwendungswert demonstriert

Methodische Details

Aufgabendefinition

Gegeben ein Kontrollsystem $(S, Act, δ)$ , wobei:

$S ⊆ \mathbb{R}^d$ : Beschränkter d-dimensionaler Zustandsraum
$Act$ : Endliche Menge von Steueraktionen
$δ: S × Act → 2^S$ : Nachfolgerfunktion

Ziel: Synthese einer Sicherheitsstrategie $σ: S → 2^{Act}$ für die Sicherheitseigenschaft $φ ⊆ S$

Kernarchitektur

1. Zustandsraum-Transformation

Transformationsfunktion: $f: S → T$ , die den ursprünglichen Zustandsraum $S$ auf den Transformationsraum $T$ abbildet
Inverse Transformation: $f^{-1}: T → 2^S$ , definiert als $f^{-1}(t) = \{s ∈ S | f(s) = t\}$
Gitter-Freundlichkeit: Die Transformation sollte Gittergrenzen mit Entscheidungsgrenzen ausrichten

2. Nachfolgerfunktion im Transformationsraum

Im Transformationsraum $T$ wird ein neues Kontrollsystem $(T, Act, δ_T)$ definiert: $δ_T(t, a) = f(δ_S(f^{-1}(t), a))$

3. Gitter-Erweiterung

Die Menge der steuerbaren Zellen $C_φ^f$ wird definiert als: $C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}$

Technische Innovationen

1. Gitter-Ausrichtungsstrategien

Polarkoordinaten-Transformation: Für kreisförmige Trajektorien und Hindernisse wird die Polarkoordinaten-Form $(θ, r)$ verwendet
Energie-Transformation: Nutzung von Systemerhaltungsgrößen (wie mechanischer Energie) als Transformationsdimension
Polynomiale Anpassung: Automatische Generierung von Transformationen durch Anpassung an Entscheidungsgrenzen

2. Theoretische Garantien

Satz 1: Korrektheit der Transformationsmethode

Sicherheitsstrategie im Transformationsraum $σ_Y(t) = σ_G([t]_G)$
Sicherheitsstrategie im ursprünglichen Raum $σ_X(s) = σ_G([f(s)]_G)$

3. Rechenoptimierung

Dreigliedriger Berechnungsablauf: $f^{-1} → δ_S → f$
Mengen-Erweiterung: Natürliche Behandlung nicht-bijektiver Transformationen
Bedarfsgerechte Berechnung: Vermeidung der Vorberechnung des vollständigen Übergangssystems

Experimentelle Einrichtung

Fallstudien

1. Satellitenmodell (Satellite Model)

Zustandsraum: $(x, y) ∈ [-2, 2] × [-2, 2]$
Transformation: Polarkoordinaten $f(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T$
Aktionen: $\{ahead, out, in\}$
Sicherheitsbeschränkungen: Hindernisvermeidung + Distanzbeschränkung

2. Springender-Ball-Modell (Bouncing Ball Model)

Zustandsraum: $(v, p) ∈ [-13, 13] × [0, 8]$
Transformation: Mechanische Energie $f(v, p) = (mgp + \frac{1}{2}mv^2, v)^T$
Ziel: Aufrechterhaltung des kontinuierlichen Springens des Balls

3. Umgekehrtes-Pendel-Modell (Cart-Pole Model)

Zustandsraum: $(θ, ω) ∈ [-2.095, 2.095] × [-3, 3]$
Transformation: Polynomiale Anpassung $f(θ, ω) = (θ, ω - p(θ))^T$
Ziel: Aufrechterhaltung der aufrechten Position des Stabes

Bewertungsmetriken

Anzahl der Gitterzellen: Messung der Rechenkomplexität
Rechenzeit: Syntheseeffizienz
Knoten des Entscheidungsbaums: Komplexität der Strategiedarstellung
Kumulierte Belohnung: Leistung des Verstärkungslernens

Experimentelle Ergebnisse

Hauptergebnisse

Reduktion der Gittergröße

Modell	Zellen im ursprünglichen Raum	Zellen im Transformationsraum	Reduktionsfaktor
Satellit	176.400	27.300	6,5×
Springender Ball	520.000	650	800×
Umgekehrtes Pendel	900	400	2,25×

Verbesserung der Rechenzeit

Satellitenmodell: Von 2 Minuten 41 Sekunden auf 10 Sekunden reduziert
Springender-Ball-Modell: Von 19 Minuten auf 1,3 Sekunden reduziert (drei Größenordnungen)
Umgekehrtes Pendel: Von 512 Millisekunden auf 244 Millisekunden reduziert

Entscheidungsbaum-Darstellung

Weitere Reduktion des Speicherbedarfs durch Entscheidungsbaum-Darstellung:

Satellit: Von 4.913 Knoten auf 544 Knoten reduziert
Springender Ball: Von 940 Knoten auf 49 Knoten reduziert
Umgekehrtes Pendel: Von 99 Knoten auf 32 Knoten reduziert

Leistung des Verstärkungslernens

In Vergleichen der kumulierten Belohnung über 1000 Episoden:

Satellitenmodell: Transformationsschild erreicht maximale Belohnung von 1.499
Springender-Ball-Modell: Transformationsschild erreicht minimale Kosten von 36.593
Umgekehrtes Pendel: Transformationsschild erreicht minimale Kosten von 0.000

Die Ergebnisse zeigen, dass der Transformationsschild nicht nur rechnerisch effizienter ist, sondern auch eine bessere praktische Leistung aufweist.

Wichtige Erkenntnisse

Transformationswahl ist entscheidend: Geeignete Transformationen können Leistungssteigerungen um Größenordnungen bringen
Nutzung von Invarianten: Die Nutzung von Systemerhaltungsgrößen (wie Energie, Drehimpuls) ist sehr wirksam
Automatische Transformation ist machbar: Transformations-Engineering-Methoden ohne Domänenwissen sind praktikabel
Leistungsverbesserung: Transformationen verbessern nicht nur die Effizienz, sondern auch die Leistung des endgültigen Reglers

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Zustandsraum-Transformationen sind ein leistungsstarkes Werkzeug für die Schild-Synthese, das die Recheneffizienz erheblich verbessern kann
Theoretische Korrektheit ist gewährleistet, Sicherheitseigenschaften werden korrekt vom Transformationsraum zum ursprünglichen Raum übertragen
Praktischer Anwendungswert ist hoch, verbessert nicht nur die Recheneffizienz, sondern auch die Steuerleistung
Die Methode ist allgemein anwendbar, geeignet für verschiedene Arten von Kontrollsystemen

Einschränkungen

Abhängigkeit von der Transformationswahl: Die Transformationsqualität beeinflusst direkt die Methodeneffektivität
Anforderungen an Domänenwissen: Die ersten beiden Fallstudien erfordern Domänenfachkenntnisse
Nicht-bijektive Transformationen: Können zusätzliche Approximationsfehler einführen
Anwendungsbereich: Hauptsächlich anwendbar auf Systeme, für die geeignete Transformationen gefunden werden können

Zukünftige Richtungen

Automatische Transformationserkennung: Entwicklung allgemeinerer automatischer Transformationsgenerierungsmethoden
Kombination mehrerer Transformationen: Untersuchung der kombinierten Verwendung von Transformationsfamilien
Online-Transformation: Erkundung adaptiver Transformationen zur Laufzeit
Erweiterte Integration: Kombination mit orthogonalen Methoden wie Mehrschicht-Abstraktion

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste systematische Anwendung von Zustandsraum-Transformationen auf die Schild-Synthese
Theoretische Vollständigkeit: Vollständige theoretische Analyse und Korrektheitsbeweis
Umfangreiche Experimente: Drei verschiedenartige Fallstudien validieren die breite Anwendbarkeit der Methode
Hoher praktischer Wert: Leistungssteigerungen um Größenordnungen haben wichtige praktische Bedeutung
Methodische Universalität: Kann orthogonal mit bestehenden Gitter-Abstraktionsmethoden kombiniert werden

Schwächen

Herausforderung bei der Transformationsgestaltung: Für komplexe Systeme ist es immer noch schwierig, geeignete Transformationen zu finden
Automatisierungsgrad: Die automatische Methode im dritten Fall ist noch nicht ausgereift genug
Theoretische Analyse: Mangel an theoretischer Anleitung, wann gute Transformationen existieren
Vergleichsbasis: Vergleiche mit anderen nicht-gitter-basierten Methoden sind nicht ausreichend

Einfluss

Akademischer Beitrag: Bietet neue Forschungsrichtung für das Gebiet der Sicherheitssynthese von Kontrollsystemen
Praktischer Wert: Signifikante Leistungssteigerungen ermöglichen Sicherheitssynthese für komplexere Systeme
Reproduzierbarkeit: Vollständige Implementierung und Reproduktionspaket werden bereitgestellt
Erweiterbarkeit: Die Methode kann auf andere Abstraktions- und Synthesetechniken erweitert werden

Anwendungsszenarien

Systeme mit geometrischer Struktur: Wie Roboternavigation, Raumfahrzeugsteuerung
Systeme mit physikalischen Invarianten: Wie Energieerhaltungssysteme
Anwendungen mit effizienter Sicherheitssynthese: Eingebettete Systeme, Echtzeitsteuerung
Sichere Verstärkungslern-Anwendungen: Lernsysteme, die Sicherheitsgarantien benötigen

Literaturverzeichnis

Das Papier zitiert 31 verwandte Arbeiten, die wichtige Arbeiten aus mehreren Bereichen wie Kontrolltheorie, formale Methoden, Verstärkungslernen und abstrakte Interpretation abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für die rechnerischen Herausforderungen der Schild-Synthese bietet. Die Methode hat eine starke theoretische Grundlage und signifikanten praktischen Wert und leistet einen wichtigen Beitrag zum Gebiet der Sicherheitssynthese von Kontrollsystemen.