2025-11-23T10:46:16.032830

Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control

Phalakarn, Pruekprasert, Hasuo

Stochastic games are fundamental in various applications, including the control of cyber-physical systems (CPS), where both controller and environment are modeled as players. Traditional algorithms typically aim to determine a single winning strategy to develop a controller. However, in CPS control and other domains, permissive controllers are essential, as they enable the system to adapt when additional constraints arise and remain resilient to runtime changes. This work generalizes the concept of (permissive winning) strategy templates, originally introduced by Anand et al. at TACAS and CAV 2023 for deterministic games, to incorporate stochastic games. These templates capture an infinite number of winning strategies, allowing for efficient strategy adaptation to system changes. We focus on two winning criteria (almost-sure and positive winning) and five winning objectives (safety, reachability, BÃ¼chi, co-BÃ¼chi, and parity). Our contributions include algorithms for constructing templates for each winning criterion and objective and a novel approach for extracting a winning strategy from a given template. Discussions on comparisons between templates and between strategy extraction methods are provided.

academic

Modèles de Stratégie pour la Victoire Presque-Sûre et Positive dans les Jeux de Parité Stochastiques vers un Contrôle Permissif et Résilient

Informations Fondamentales

ID de l'article: 2409.08607
Titre: Strategy Templates for Almost-Sure and Positive Winning of Stochastic Parity Games towards Permissive and Resilient Control
Auteurs: Kittiphon Phalakarn, Sasinee Pruekprasert, Ichiro Hasuo
Classification: eess.SY cs.LO cs.SY
Date de publication: Septembre 2024 (arXiv v2: 16 octobre 2025)
Lien de l'article: https://arxiv.org/abs/2409.08607

Résumé

Les jeux stochastiques jouent un rôle fondamental dans diverses applications, en particulier dans le contrôle des systèmes cyber-physiques (CPS), où le contrôleur et l'environnement sont modélisés comme des participants au jeu. Les algorithmes traditionnels visent généralement à déterminer une stratégie gagnante unique pour développer le contrôleur. Cependant, dans le contrôle des CPS et autres domaines, les contrôleurs permissifs sont essentiels car ils permettent au système de s'adapter en cas de contraintes supplémentaires et de rester résilients aux changements d'exécution. Ce travail généralise le concept de modèles de stratégie des jeux déterministes aux jeux stochastiques. Ces modèles peuvent capturer un nombre infini de stratégies gagnantes, permettant une adaptation efficace des stratégies aux changements du système. Nous nous concentrons sur deux critères de victoire (victoire presque-sûre et victoire à probabilité positive) et cinq objectifs gagnants (sécurité, accessibilité, Büchi, co-Büchi et parité).

Contexte et Motivation de la Recherche

Contexte du Problème

Limitations des approches traditionnelles: Les algorithmes classiques de résolution de jeux recherchent généralement une seule stratégie gagnante, sans tenir compte de la permissivité des stratégies
Besoins des applications pratiques: Dans le contrôle des systèmes cyber-physiques, des contrôleurs permissifs sont nécessaires pour s'adapter à des contraintes supplémentaires et aux changements d'exécution
Exigences de contrôle résilient: Les systèmes doivent maintenir leur robustesse face aux défaillances ou aux changements environnementaux

Motivation de la Recherche

Le concept existant de modèles de stratégie s'applique uniquement aux jeux déterministes, manquant de support pour les jeux stochastiques
Un cadre capable de capturer un nombre infini de stratégies gagnantes est nécessaire pour soutenir l'adaptation rapide des stratégies
Dans les applications pratiques telles que le contrôle des CPS, la permissivité et la résilience sont des exigences clés

Contributions Principales

Algorithme de modèle de stratégie presque-sûre: Présentation d'algorithmes de construction de modèles de stratégie presque-sûre pour cinq objectifs gagnants (sécurité, accessibilité, Büchi, co-Büchi, parité)
Modèles de stratégie à probabilité positive: Développement d'algorithmes de construction et de composition de modèles de stratégie selon le critère de victoire à probabilité positive
Cadre de comparaison des modèles de stratégie: Fourniture d'une discussion comparative des modèles basée sur la permissivité et la taille
Méthode d'extraction de stratégie: Proposition d'une nouvelle méthode d'extraction de stratégies gagnantes à partir d'un modèle donné, équilibrant l'objectif gagnant et la permissivité

Détails de la Méthode

Définition de la Tâche

Définition du jeu stochastique: G = (V, E, (V□, V○, V△)), où:

V est l'ensemble des sommets, E est l'ensemble des arêtes
V□, V○, V△ représentent respectivement les sommets du joueur Even, du joueur Odd et du joueur Random
Appelé jeu « 2.5 » joueurs, contenant deux joueurs principaux et un joueur aléatoire

Définition du modèle de stratégie: T = (P, L, C), où:

P ⊆ E□ est l'ensemble des arêtes interdites
L ⊆ 2^E□ est l'ensemble des groupes actifs
C ⊆ E□ est l'ensemble des arêtes co-actives

Architecture du Modèle

1. Construction du Modèle de Stratégie Presque-Sûre

Objectif de sécurité (G X):

SafetyTemplate(G, X):
1. W□ ← νY.(X ∩ (Pre□(Y) ∪ Pre(Y)))
2. P ← Edges□(W□, V \ W□)
3. return (P, ∅, ∅)

Objectif d'accessibilité (F X):

ReachabilityTemplate(G, X):
1. A ← Attr'(X)
2. W□ ← Attr'□(A)
3. P ← Edges□(W□, V \ W□)
4. C ← Edges□(W□ \ A, W□ \ A)
5. return (P, ∅, C)

Objectif Büchi (GF X): Construction de groupes actifs via la fonction LiveGroups, garantissant que les chemins visitent infiniment souvent l'ensemble cible.

Objectif de parité:

Réduction du jeu stochastique en jeu déterministe (utilisant l'algorithme Reduce)
Construction du modèle de stratégie du jeu déterministe
Conversion du modèle en modèle de jeu stochastique

2. Construction du Modèle de Stratégie à Probabilité Positive

PositiveTemplate(G, φ):
1. Calculer W□, W○ et le modèle presque-sûr T^(a)
2. W? ← V \ (W□ ∪ W○)
3. P^(p) ← P^(a) ∪ Edges□(W?, W○)
4. C^(p) ← C^(a) ∪ Edges□(W?, W?)
5. return T^(p) = (P^(p), L^(p), C^(p))

Points d'Innovation Technique

Extension des opérations ensemblistes: Introduction de nouveaux opérateurs ensemblistes tenant compte du joueur Random, tels que Pre△(X', X) et Attr'□(X)
Algorithme de composition de modèles: Proposition d'un mécanisme de détection de conflits, recalculant lorsque les modèles entrent en conflit
Extraction de stratégie paramétrée: Utilisation de paramètres α et β pour équilibrer la permissivité et la vitesse d'atteinte de l'objectif
Extension à probabilité positive: Première extension des modèles de stratégie au critère de victoire à probabilité positive

Configuration Expérimentale

Vérification Théorique

L'article valide principalement la correction des algorithmes par des preuves théoriques, incluant:

Théorèmes de correction pour chaque algorithme de construction de modèle
Théorèmes de permissivité pour la méthode d'extraction de stratégie
Preuves de correction pour l'algorithme de composition de modèles

Analyse de Complexité

Le temps d'exécution dans le pire cas des algorithmes de construction de stratégie correspond aux algorithmes standards
La composition de modèles et l'extraction de stratégie peuvent être exécutées efficacement à l'exécution

Résultats Expérimentaux

Résultats Théoriques

Théorèmes 10-14: Preuve de la correction des algorithmes de construction de modèles de stratégie pour chaque objectif gagnant

Le modèle construit par SafetyTemplate est presque-sûrement gagnant pour G X
Le modèle construit par ReachabilityTemplate est presque-sûrement gagnant pour F X
Application similaire aux autres objectifs

Théorème 18: Le modèle construit par PositiveTemplate est à la fois presque-sûrement gagnant et gagnant à probabilité positive

Théorème 27: La méthode d'extraction paramétrée est plus permissive que la méthode Extract originale

Analyse de Permissivité

Proposition 22: Si P ⊇ P', L ⊇ L', C ⊇ C', alors T n'est pas plus permissif que T'

Proposition 23: Si T n'est pas plus permissif que T' et T' est gagnant, alors T est également gagnant

Potentiel d'Application Pratique

L'article indique que, sur la base des résultats expérimentaux des jeux déterministes, les modèles de stratégie peuvent réaliser une accélération d'au moins 2 fois dans la synthèse incrémentale et réduire efficacement les recalculs même lorsque 30% des choix sont interdits dans le contrôle tolérant aux pannes.

Travaux Connexes

Théorie Classique de la Permissivité

Ramadge et Wonham (1987) ont formellement introduit le concept de permissivité dans le contrôle supervisé
Bernet et al. ont prouvé l'existence de stratégies maximalement permissives dans les jeux de parité

Développement des Modèles de Stratégie

Anand et al. ont introduit les modèles de stratégie pour les jeux déterministes dans TACAS et CAV 2023
Ce travail est la première recherche étendant les modèles de stratégie aux jeux stochastiques

Résolution de Jeux Stochastiques

Méthode de réduction des jeux de parité stochastiques de Chatterjee et al.
Opérateurs ensemblistes pour les jeux stochastiques de Banerjee et al.

Conclusion et Discussion

Conclusions Principales

Extension réussie du concept de modèles de stratégie des jeux déterministes aux jeux stochastiques
Fourniture d'un cadre algorithmique complet couvrant deux critères de victoire et cinq objectifs gagnants
La nouvelle méthode d'extraction de stratégie améliore la permissivité tout en garantissant la correction

Limitations

Les stratégies à probabilité positive ne garantissent pas l'optimalité de probabilité
L'implémentation algorithmique et la vérification expérimentale restent à accomplir
Considération limitée aux jeux à états finis

Directions Futures

Construction de modèles conservant la même permissivité mais de taille réduite
Extension aux objectifs définis par des formules de logique temporelle métrique (MTL)
Application aux systèmes temps réel

Évaluation Approfondie

Points Forts

Contribution théorique significative: Extension des modèles de stratégie aux jeux stochastiques pour la première fois, cadre théorique complet
Conception algorithmique rationnelle: Utilisation astucieuse des opérateurs ensemblistes existants et des techniques de réduction
Perspectives d'application larges: Importance pratique significative pour le contrôle des systèmes cyber-physiques
Rigueur mathématique: Fourniture de preuves de correction complètes

Insuffisances

Manque de vérification expérimentale: Travail principalement théorique, manquant d'implémentation pratique et d'évaluation de performance
Problème d'optimalité: Les stratégies à probabilité positive ne garantissent pas l'optimalité
Analyse de complexité insuffisante: Analyse relativement sommaire de la complexité de calcul réelle

Impact

Valeur académique: Fourniture de nouveaux outils et méthodes pour la théorie des jeux stochastiques
Valeur pratique: Fourniture de fondations théoriques pour la conception de contrôleurs permissifs
Extensibilité: Fourniture d'un cadre de base solide pour les recherches ultérieures

Scénarios Applicables

Contrôle robuste des systèmes cyber-physiques
Systèmes d'automatisation nécessitant une adaptabilité
Conception de systèmes de contrôle d'optimisation multi-objectifs
Systèmes de contrôle tolérant aux pannes

Références

L'article cite 35 références connexes, couvrant principalement:

Littérature fondamentale de la théorie des jeux
Théorie du contrôle supervisé
Travaux connexes sur les modèles de stratégie
Algorithmes de résolution de jeux stochastiques
Logique temporelle linéaire et vérification de modèles

Évaluation Globale: Ceci est un article de recherche théorique de haute qualité qui étend avec succès le concept de modèles de stratégie des jeux déterministes aux jeux stochastiques, fournissant une base théorique importante pour le contrôle permissif et résilient. Bien que manquant de vérification expérimentale, la contribution théorique est significative et exerce un impact important sur les domaines connexes.