2025-11-23T10:46:16.032830

Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control

Phalakarn, Pruekprasert, Hasuo
Stochastic games are fundamental in various applications, including the control of cyber-physical systems (CPS), where both controller and environment are modeled as players. Traditional algorithms typically aim to determine a single winning strategy to develop a controller. However, in CPS control and other domains, permissive controllers are essential, as they enable the system to adapt when additional constraints arise and remain resilient to runtime changes. This work generalizes the concept of (permissive winning) strategy templates, originally introduced by Anand et al. at TACAS and CAV 2023 for deterministic games, to incorporate stochastic games. These templates capture an infinite number of winning strategies, allowing for efficient strategy adaptation to system changes. We focus on two winning criteria (almost-sure and positive winning) and five winning objectives (safety, reachability, Büchi, co-Büchi, and parity). Our contributions include algorithms for constructing templates for each winning criterion and objective and a novel approach for extracting a winning strategy from a given template. Discussions on comparisons between templates and between strategy extraction methods are provided.
academic

Strategievorlagen für Fast-Sichere und Positive Gewinne in Stochastischen Paritätsspielen für Permissive und Resiliente Kontrolle

Grundlegende Informationen

  • Paper-ID: 2409.08607
  • Titel: Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control
  • Autoren: Kittiphon Phalakarn, Sasinee Pruekprasert, Ichiro Hasuo
  • Klassifizierung: eess.SY cs.LO cs.SY
  • Veröffentlichungsdatum: September 2024 (arXiv v2: 16. Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2409.08607

Zusammenfassung

Stochastische Spiele spielen eine grundlegende Rolle in verschiedenen Anwendungen, insbesondere in der Kontrolle von Cyber-Physischen Systemen (CPS), wo der Regler und die Umgebung als Spielteilnehmer modelliert werden. Herkömmliche Algorithmen zielen typischerweise darauf ab, eine einzelne Gewinnstrategie zur Entwicklung des Reglers zu bestimmen. In der CPS-Kontrolle und anderen Bereichen sind jedoch permissive Regler von entscheidender Bedeutung, da sie sich an das System anpassen können, wenn zusätzliche Einschränkungen auftreten, und gegenüber Laufzeitänderungen resilient bleiben. Diese Arbeit verallgemeinert das Konzept der Strategievorlagen von deterministischen Spielen auf stochastische Spiele. Diese Vorlagen können unendlich viele Gewinnstrategien erfassen und ermöglichen eine effiziente Strategieanpassung an Systemänderungen. Wir konzentrieren uns auf zwei Gewinnkriterien (fast-sichere Gewinne und positive Wahrscheinlichkeitsgewinne) sowie fünf Gewinnziele (Sicherheit, Erreichbarkeit, Büchi, Co-Büchi und Parität).

Forschungshintergrund und Motivation

Problemhintergrund

  1. Einschränkungen herkömmlicher Methoden: Herkömmliche Spielauflösungsalgorithmen suchen typischerweise nur nach einer einzelnen Gewinnstrategie, ohne die Permissivität der Strategie zu berücksichtigen
  2. Anforderungen praktischer Anwendungen: In der Kontrolle von Cyber-Physischen Systemen werden permissive Regler benötigt, um sich an zusätzliche Einschränkungen und Laufzeitänderungen anzupassen
  3. Anforderungen an resiliente Kontrolle: Systeme müssen robust bleiben, wenn sie mit Ausfällen oder Umgebungsänderungen konfrontiert werden

Forschungsmotivation

  • Das bestehende Konzept der Strategievorlagen ist nur auf deterministische Spiele anwendbar und bietet keine Unterstützung für stochastische Spiele
  • Es wird ein Framework benötigt, das unendlich viele Gewinnstrategien erfassen kann, um eine schnelle Strategieanpassung zu unterstützen
  • In praktischen Anwendungen wie der CPS-Kontrolle sind Permissivität und Resilienz Schlüsselanforderungen

Kernbeiträge

  1. Algorithmen für fast-sichere Gewinnstrategievorlagen: Präsentation von Konstruktionsalgorithmen für fast-sichere Gewinnstrategievorlagen für fünf Gewinnziele (Sicherheit, Erreichbarkeit, Büchi, Co-Büchi, Parität)
  2. Strategievorlagen für positive Wahrscheinlichkeitsgewinne: Entwicklung von Konstruktions- und Kombinationsalgorithmen für Strategievorlagen unter dem Kriterium der positiven Wahrscheinlichkeitsgewinne
  3. Vergleichsframework für Strategievorlagen: Bereitstellung einer Diskussion zum Vergleich von Vorlagen basierend auf Permissivität und Größe
  4. Strategieextraktionsmethoden: Vorschlag neuer Methoden zur Extraktion von Gewinnstrategien aus gegebenen Vorlagen, die Gewinnziele und Permissivität ausbalancieren

Methodische Details

Aufgabendefinition

Definition stochastischer Spiele: Stochastisches Spiel G = (V, E, (V□, V○, V△)), wobei:

  • V die Menge der Knoten ist, E die Menge der Kanten
  • V□, V○, V△ jeweils die Knoten der Even-Spieler, Odd-Spieler und Random-Spieler darstellen
  • Bezeichnet als "2.5"-Spieler-Spiel mit zwei Hauptspielern und einem zufälligen Spieler

Definition der Strategievorlage: T = (P, L, C), wobei:

  • P ⊆ E□ die Menge der deaktivierten Kanten ist
  • L ⊆ 2^E□ die Menge der aktiven Gruppen ist
  • C ⊆ E□ die Menge der gemeinsam aktiven Kanten ist

Modellarchitektur

1. Konstruktion von Strategievorlagen für fast-sichere Gewinne

Sicherheitsziel (G X):

SafetyTemplate(G, X):
1. W□ ← νY.(X ∩ (Pre□(Y) ∪ Pre(Y)))
2. P ← Edges□(W□, V \ W□)
3. return (P, ∅, ∅)

Erreichbarkeitsziel (F X):

ReachabilityTemplate(G, X):
1. A ← Attr'(X)
2. W□ ← Attr'□(A)
3. P ← Edges□(W□, V \ W□)
4. C ← Edges□(W□ \ A, W□ \ A)
5. return (P, ∅, C)

Büchi-Ziel (GF X): Konstruktion aktiver Gruppen durch die LiveGroups-Funktion, um sicherzustellen, dass Pfade die Zielmengen unendlich oft besuchen.

Paritätsziel:

  1. Reduktion des stochastischen Spiels auf ein deterministisches Spiel (unter Verwendung des Reduce-Algorithmus)
  2. Konstruktion der Strategievorlage des deterministischen Spiels
  3. Umwandlung zurück zur Vorlage des stochastischen Spiels

2. Konstruktion von Strategievorlagen für positive Wahrscheinlichkeitsgewinne

PositiveTemplate(G, φ):
1. Berechnung von W□, W○ und fast-sicherer Gewinnvorlage T^(a)
2. W? ← V \ (W□ ∪ W○)
3. P^(p) ← P^(a) ∪ Edges□(W?, W○)
4. C^(p) ← C^(a) ∪ Edges□(W?, W?)
5. return T^(p) = (P^(p), L^(p), C^(p))

Technische Innovationen

  1. Erweiterung von Mengenoperationen: Einführung neuer Mengenoperatoren, die den Random-Spieler berücksichtigen, wie Pre△(X', X) und Attr'□(X)
  2. Vorlagenkombinationsalgorithmen: Vorschlag eines Konflikterkennungsmechanismus, der bei Vorlagenkonflikten eine Neuberechnung durchführt
  3. Parametrisierte Strategieextraktion: Verwendung von Parametern α und β zur Ausbalancierung von Permissivität und Geschwindigkeit der Zielerfüllung
  4. Erweiterung auf positive Wahrscheinlichkeitsgewinne: Erste Erweiterung von Strategievorlagen auf das Kriterium der positiven Wahrscheinlichkeitsgewinne

Experimentelle Einrichtung

Theoretische Verifikation

Das Paper verifiziert die Korrektheit der Algorithmen hauptsächlich durch theoretische Beweise, einschließlich:

  • Korrektheitssätze für die verschiedenen Vorlagenkonstruktionsalgorithmen
  • Permissivitätssätze für Strategieextraktionsmethoden
  • Korrektheitsbeweise für Vorlagenkombinationsalgorithmen

Komplexitätsanalyse

  • Die Worst-Case-Laufzeit der Strategiekonstruktionsalgorithmen entspricht der von Standardalgorithmen
  • Vorlagenkombination und Strategieextraktion können zur Laufzeit effizient ausgeführt werden

Experimentelle Ergebnisse

Theoretische Ergebnisse

Sätze 10-14: Beweis der Korrektheit der Strategievorlagenkonstruktionsalgorithmen für verschiedene Gewinnziele

  • SafetyTemplate konstruiert Vorlagen, die für G X fast-sicher gewinnend sind
  • ReachabilityTemplate konstruiert Vorlagen, die für F X fast-sicher gewinnend sind
  • Ähnliches gilt für andere Ziele

Satz 18: Die von PositiveTemplate konstruierte Vorlage ist sowohl fast-sicher gewinnend als auch positiv wahrscheinlich gewinnend

Satz 27: Die parametrisierte Extraktionsmethode ist permissiver als die ursprüngliche Extract-Methode

Permissivitätsanalyse

Proposition 22: Wenn P ⊇ P', L ⊇ L', C ⊇ C', dann ist T nicht permissiver als T'

Proposition 23: Wenn T nicht permissiver als T' ist und T' gewinnend ist, dann ist auch T gewinnend

Potenzial für praktische Anwendungen

Das Paper weist darauf hin, dass Strategievorlagen basierend auf Ergebnissen deterministischer Spiele in der inkrementellen Synthese mindestens eine 2-fache Beschleunigung erreichen können und in der fehlertoleranten Kontrolle auch dann effektiv Neuberechnungen reduzieren können, wenn 30% der Auswahlmöglichkeiten deaktiviert sind.

Verwandte Arbeiten

Klassische Permissivitätstheorie

  • Ramadge und Wonham (1987) führten das Konzept der Permissivität in der Überwachungskontrolle formal ein
  • Bernet et al. bewiesen die Existenz maximaler permissiver Strategien in Paritätsspielen

Entwicklung von Strategievorlagen

  • Anand et al. führten Strategievorlagen für deterministische Spiele in TACAS und CAV 2023 ein
  • Diese Arbeit ist die erste, die Strategievorlagen auf stochastische Spiele erweitert

Lösung stochastischer Spiele

  • Chatterjees Reduktionsmethode für stochastische Paritätsspiele
  • Banerjees Mengenoperatoren für stochastische Spiele

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Erweiterung des Konzepts der Strategievorlagen von deterministischen auf stochastische Spiele
  2. Bereitstellung eines vollständigen Algorithmen-Frameworks, das zwei Gewinnkriterien und fünf Gewinnziele abdeckt
  3. Neue Strategieextraktionsmethoden erhöhen die Permissivität bei Gewährleistung der Korrektheit

Einschränkungen

  1. Strategien für positive Wahrscheinlichkeitsgewinne garantieren keine optimale Wahrscheinlichkeit
  2. Algorithmische Implementierung und experimentelle Verifikation stehen noch aus
  3. Nur endliche Zustandsspiele werden berücksichtigt

Zukünftige Richtungen

  1. Konstruktion von Vorlagen, die die gleiche Permissivität beibehalten, aber kleiner sind
  2. Erweiterung auf Ziele, die durch metrische zeitliche Logik (MTL) definiert sind
  3. Anwendung auf Echtzeitsysteme

Tiefgreifende Bewertung

Stärken

  1. Bedeutende theoretische Beiträge: Erste Erweiterung von Strategievorlagen auf stochastische Spiele mit vollständigem theoretischem Framework
  2. Angemessenes Algorithmen-Design: Geschickte Nutzung bestehender Mengenoperationen und Reduktionsmethoden
  3. Breite Anwendungsperspektiven: Bedeutende praktische Relevanz für die Kontrolle von Cyber-Physischen Systemen
  4. Mathematische Strenge: Vollständige Korrektheitsbeweise

Schwächen

  1. Mangel an experimenteller Verifikation: Hauptsächlich theoretische Arbeit ohne praktische Implementierung und Leistungsbewertung
  2. Optimalitätsprobleme: Strategien für positive Wahrscheinlichkeitsgewinne garantieren keine Optimalität
  3. Unzureichende Komplexitätsanalyse: Analyse der praktischen Rechenkomplexität ist relativ oberflächlich

Auswirkungen

  1. Akademischer Wert: Bietet neue Werkzeuge und Methoden für die Theorie stochastischer Spiele
  2. Praktischer Wert: Bietet theoretische Grundlagen für das Design permissiver Regler
  3. Erweiterbarkeit: Bietet ein solides Basis-Framework für nachfolgende Forschung

Anwendungsszenarien

  1. Robuste Kontrolle von Cyber-Physischen Systemen
  2. Automatisierungssysteme, die Anpassungsfähigkeit erfordern
  3. Steuerungssystemdesign mit mehreren Zielen
  4. Fehlertolerante Kontrollsysteme

Literaturverzeichnis

Das Paper zitiert 35 relevante Arbeiten, die hauptsächlich folgende Bereiche abdecken:

  • Grundlegende Literatur zur Spieltheorie
  • Theorie der Überwachungskontrolle
  • Arbeiten zu Strategievorlagen
  • Algorithmen zur Lösung stochastischer Spiele
  • Lineare Zeitlogik und Modellprüfung

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Forschungspapier, das das Konzept der Strategievorlagen erfolgreich von deterministischen auf stochastische Spiele erweitert und eine wichtige theoretische Grundlage für permissive und resiliente Kontrolle bietet. Obwohl experimentelle Verifikation fehlt, sind die theoretischen Beiträge bedeutend und haben wichtige Auswirkungen auf verwandte Bereiche.