2025-11-23T10:46:16.032830

Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control

Phalakarn, Pruekprasert, Hasuo

Stochastic games are fundamental in various applications, including the control of cyber-physical systems (CPS), where both controller and environment are modeled as players. Traditional algorithms typically aim to determine a single winning strategy to develop a controller. However, in CPS control and other domains, permissive controllers are essential, as they enable the system to adapt when additional constraints arise and remain resilient to runtime changes. This work generalizes the concept of (permissive winning) strategy templates, originally introduced by Anand et al. at TACAS and CAV 2023 for deterministic games, to incorporate stochastic games. These templates capture an infinite number of winning strategies, allowing for efficient strategy adaptation to system changes. We focus on two winning criteria (almost-sure and positive winning) and five winning objectives (safety, reachability, BÃ¼chi, co-BÃ¼chi, and parity). Our contributions include algorithms for constructing templates for each winning criterion and objective and a novel approach for extracting a winning strategy from a given template. Discussions on comparisons between templates and between strategy extraction methods are provided.

academic

Strategievorlagen für Fast-Sichere und Positive Gewinne in Stochastischen Paritätsspielen für Permissive und Resiliente Kontrolle

Grundlegende Informationen

Paper-ID: 2409.08607
Titel: Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control
Autoren: Kittiphon Phalakarn, Sasinee Pruekprasert, Ichiro Hasuo
Klassifizierung: eess.SY cs.LO cs.SY
Veröffentlichungsdatum: September 2024 (arXiv v2: 16. Oktober 2025)
Paper-Link: https://arxiv.org/abs/2409.08607

Zusammenfassung

Stochastische Spiele spielen eine grundlegende Rolle in verschiedenen Anwendungen, insbesondere in der Kontrolle von Cyber-Physischen Systemen (CPS), wo der Regler und die Umgebung als Spielteilnehmer modelliert werden. Herkömmliche Algorithmen zielen typischerweise darauf ab, eine einzelne Gewinnstrategie zur Entwicklung des Reglers zu bestimmen. In der CPS-Kontrolle und anderen Bereichen sind jedoch permissive Regler von entscheidender Bedeutung, da sie sich an das System anpassen können, wenn zusätzliche Einschränkungen auftreten, und gegenüber Laufzeitänderungen resilient bleiben. Diese Arbeit verallgemeinert das Konzept der Strategievorlagen von deterministischen Spielen auf stochastische Spiele. Diese Vorlagen können unendlich viele Gewinnstrategien erfassen und ermöglichen eine effiziente Strategieanpassung an Systemänderungen. Wir konzentrieren uns auf zwei Gewinnkriterien (fast-sichere Gewinne und positive Wahrscheinlichkeitsgewinne) sowie fünf Gewinnziele (Sicherheit, Erreichbarkeit, Büchi, Co-Büchi und Parität).

Forschungshintergrund und Motivation

Problemhintergrund

Einschränkungen herkömmlicher Methoden: Herkömmliche Spielauflösungsalgorithmen suchen typischerweise nur nach einer einzelnen Gewinnstrategie, ohne die Permissivität der Strategie zu berücksichtigen
Anforderungen praktischer Anwendungen: In der Kontrolle von Cyber-Physischen Systemen werden permissive Regler benötigt, um sich an zusätzliche Einschränkungen und Laufzeitänderungen anzupassen
Anforderungen an resiliente Kontrolle: Systeme müssen robust bleiben, wenn sie mit Ausfällen oder Umgebungsänderungen konfrontiert werden

Forschungsmotivation

Das bestehende Konzept der Strategievorlagen ist nur auf deterministische Spiele anwendbar und bietet keine Unterstützung für stochastische Spiele
Es wird ein Framework benötigt, das unendlich viele Gewinnstrategien erfassen kann, um eine schnelle Strategieanpassung zu unterstützen
In praktischen Anwendungen wie der CPS-Kontrolle sind Permissivität und Resilienz Schlüsselanforderungen

Kernbeiträge

Algorithmen für fast-sichere Gewinnstrategievorlagen: Präsentation von Konstruktionsalgorithmen für fast-sichere Gewinnstrategievorlagen für fünf Gewinnziele (Sicherheit, Erreichbarkeit, Büchi, Co-Büchi, Parität)
Strategievorlagen für positive Wahrscheinlichkeitsgewinne: Entwicklung von Konstruktions- und Kombinationsalgorithmen für Strategievorlagen unter dem Kriterium der positiven Wahrscheinlichkeitsgewinne
Vergleichsframework für Strategievorlagen: Bereitstellung einer Diskussion zum Vergleich von Vorlagen basierend auf Permissivität und Größe
Strategieextraktionsmethoden: Vorschlag neuer Methoden zur Extraktion von Gewinnstrategien aus gegebenen Vorlagen, die Gewinnziele und Permissivität ausbalancieren

Methodische Details

Aufgabendefinition

Definition stochastischer Spiele: Stochastisches Spiel G = (V, E, (V□, V○, V△)), wobei:

V die Menge der Knoten ist, E die Menge der Kanten
V□, V○, V△ jeweils die Knoten der Even-Spieler, Odd-Spieler und Random-Spieler darstellen
Bezeichnet als "2.5"-Spieler-Spiel mit zwei Hauptspielern und einem zufälligen Spieler

Definition der Strategievorlage: T = (P, L, C), wobei:

P ⊆ E□ die Menge der deaktivierten Kanten ist
L ⊆ 2^E□ die Menge der aktiven Gruppen ist
C ⊆ E□ die Menge der gemeinsam aktiven Kanten ist

Modellarchitektur

1. Konstruktion von Strategievorlagen für fast-sichere Gewinne

Sicherheitsziel (G X):

SafetyTemplate(G, X):
1. W□ ← νY.(X ∩ (Pre□(Y) ∪ Pre(Y)))
2. P ← Edges□(W□, V \ W□)
3. return (P, ∅, ∅)

Erreichbarkeitsziel (F X):

ReachabilityTemplate(G, X):
1. A ← Attr'(X)
2. W□ ← Attr'□(A)
3. P ← Edges□(W□, V \ W□)
4. C ← Edges□(W□ \ A, W□ \ A)
5. return (P, ∅, C)

Büchi-Ziel (GF X): Konstruktion aktiver Gruppen durch die LiveGroups-Funktion, um sicherzustellen, dass Pfade die Zielmengen unendlich oft besuchen.

Paritätsziel:

Reduktion des stochastischen Spiels auf ein deterministisches Spiel (unter Verwendung des Reduce-Algorithmus)
Konstruktion der Strategievorlage des deterministischen Spiels
Umwandlung zurück zur Vorlage des stochastischen Spiels

2. Konstruktion von Strategievorlagen für positive Wahrscheinlichkeitsgewinne

PositiveTemplate(G, φ):
1. Berechnung von W□, W○ und fast-sicherer Gewinnvorlage T^(a)
2. W? ← V \ (W□ ∪ W○)
3. P^(p) ← P^(a) ∪ Edges□(W?, W○)
4. C^(p) ← C^(a) ∪ Edges□(W?, W?)
5. return T^(p) = (P^(p), L^(p), C^(p))

Technische Innovationen

Erweiterung von Mengenoperationen: Einführung neuer Mengenoperatoren, die den Random-Spieler berücksichtigen, wie Pre△(X', X) und Attr'□(X)
Vorlagenkombinationsalgorithmen: Vorschlag eines Konflikterkennungsmechanismus, der bei Vorlagenkonflikten eine Neuberechnung durchführt
Parametrisierte Strategieextraktion: Verwendung von Parametern α und β zur Ausbalancierung von Permissivität und Geschwindigkeit der Zielerfüllung
Erweiterung auf positive Wahrscheinlichkeitsgewinne: Erste Erweiterung von Strategievorlagen auf das Kriterium der positiven Wahrscheinlichkeitsgewinne

Experimentelle Einrichtung

Theoretische Verifikation

Das Paper verifiziert die Korrektheit der Algorithmen hauptsächlich durch theoretische Beweise, einschließlich:

Korrektheitssätze für die verschiedenen Vorlagenkonstruktionsalgorithmen
Permissivitätssätze für Strategieextraktionsmethoden
Korrektheitsbeweise für Vorlagenkombinationsalgorithmen

Komplexitätsanalyse

Die Worst-Case-Laufzeit der Strategiekonstruktionsalgorithmen entspricht der von Standardalgorithmen
Vorlagenkombination und Strategieextraktion können zur Laufzeit effizient ausgeführt werden

Experimentelle Ergebnisse

Theoretische Ergebnisse

Sätze 10-14: Beweis der Korrektheit der Strategievorlagenkonstruktionsalgorithmen für verschiedene Gewinnziele

SafetyTemplate konstruiert Vorlagen, die für G X fast-sicher gewinnend sind
ReachabilityTemplate konstruiert Vorlagen, die für F X fast-sicher gewinnend sind
Ähnliches gilt für andere Ziele

Satz 18: Die von PositiveTemplate konstruierte Vorlage ist sowohl fast-sicher gewinnend als auch positiv wahrscheinlich gewinnend

Satz 27: Die parametrisierte Extraktionsmethode ist permissiver als die ursprüngliche Extract-Methode

Permissivitätsanalyse

Proposition 22: Wenn P ⊇ P', L ⊇ L', C ⊇ C', dann ist T nicht permissiver als T'

Proposition 23: Wenn T nicht permissiver als T' ist und T' gewinnend ist, dann ist auch T gewinnend

Potenzial für praktische Anwendungen

Das Paper weist darauf hin, dass Strategievorlagen basierend auf Ergebnissen deterministischer Spiele in der inkrementellen Synthese mindestens eine 2-fache Beschleunigung erreichen können und in der fehlertoleranten Kontrolle auch dann effektiv Neuberechnungen reduzieren können, wenn 30% der Auswahlmöglichkeiten deaktiviert sind.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Erweiterung des Konzepts der Strategievorlagen von deterministischen auf stochastische Spiele
Bereitstellung eines vollständigen Algorithmen-Frameworks, das zwei Gewinnkriterien und fünf Gewinnziele abdeckt
Neue Strategieextraktionsmethoden erhöhen die Permissivität bei Gewährleistung der Korrektheit

Einschränkungen

Strategien für positive Wahrscheinlichkeitsgewinne garantieren keine optimale Wahrscheinlichkeit
Algorithmische Implementierung und experimentelle Verifikation stehen noch aus
Nur endliche Zustandsspiele werden berücksichtigt

Zukünftige Richtungen

Konstruktion von Vorlagen, die die gleiche Permissivität beibehalten, aber kleiner sind
Erweiterung auf Ziele, die durch metrische zeitliche Logik (MTL) definiert sind
Anwendung auf Echtzeitsysteme

Tiefgreifende Bewertung

Stärken

Bedeutende theoretische Beiträge: Erste Erweiterung von Strategievorlagen auf stochastische Spiele mit vollständigem theoretischem Framework
Angemessenes Algorithmen-Design: Geschickte Nutzung bestehender Mengenoperationen und Reduktionsmethoden
Breite Anwendungsperspektiven: Bedeutende praktische Relevanz für die Kontrolle von Cyber-Physischen Systemen
Mathematische Strenge: Vollständige Korrektheitsbeweise

Schwächen

Mangel an experimenteller Verifikation: Hauptsächlich theoretische Arbeit ohne praktische Implementierung und Leistungsbewertung
Optimalitätsprobleme: Strategien für positive Wahrscheinlichkeitsgewinne garantieren keine Optimalität
Unzureichende Komplexitätsanalyse: Analyse der praktischen Rechenkomplexität ist relativ oberflächlich

Auswirkungen

Akademischer Wert: Bietet neue Werkzeuge und Methoden für die Theorie stochastischer Spiele
Praktischer Wert: Bietet theoretische Grundlagen für das Design permissiver Regler
Erweiterbarkeit: Bietet ein solides Basis-Framework für nachfolgende Forschung

Anwendungsszenarien

Robuste Kontrolle von Cyber-Physischen Systemen
Automatisierungssysteme, die Anpassungsfähigkeit erfordern
Steuerungssystemdesign mit mehreren Zielen
Fehlertolerante Kontrollsysteme

Literaturverzeichnis

Das Paper zitiert 35 relevante Arbeiten, die hauptsächlich folgende Bereiche abdecken:

Grundlegende Literatur zur Spieltheorie
Theorie der Überwachungskontrolle
Arbeiten zu Strategievorlagen
Algorithmen zur Lösung stochastischer Spiele
Lineare Zeitlogik und Modellprüfung

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Forschungspapier, das das Konzept der Strategievorlagen erfolgreich von deterministischen auf stochastische Spiele erweitert und eine wichtige theoretische Grundlage für permissive und resiliente Kontrolle bietet. Obwohl experimentelle Verifikation fehlt, sind die theoretischen Beiträge bedeutend und haben wichtige Auswirkungen auf verwandte Bereiche.