2025-11-20T19:43:15.563163

Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes

Zhao, Li, Feng et al.

State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.

academic

Mappages Homomorphes pour l'Agrégation d'États Préservant la Valeur dans les Processus de Décision Markoviens

Informations Fondamentales

ID de l'article: 2510.09965
Titre: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
Auteurs: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
Classification: cs.LG cs.AI stat.ML
Date de publication: 14 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09965

Résumé

Cet article propose un cadre d'abstraction basé sur les mappages homomorphes pour résoudre le problème d'agrégation d'états dans les processus de décision markoviens (PDM). Le cadre établit une relation linéaire entre les fonctions de valeur de deux chaînes de Markov pour définir l'homomorphisme, préservant ainsi l'équivalence de la politique optimale tout en réduisant la complexité computationnelle. L'article propose deux algorithmes, HPG et EBHPG, qui fournissent des garanties théoriques respectivement lorsque les conditions suffisantes sont satisfaites ou non, et valident les résultats théoriques par des expériences.

Contexte et Motivation de la Recherche

Définition du Problème

Avec l'application généralisée des PDM aux problèmes réels complexes, la complexité computationnelle induite par les espaces d'états de grande taille devient de plus en plus problématique. L'agrégation d'états, en tant que stratégie clé, vise à réduire les coûts computationnels en comprimant l'espace d'états. Cependant, le défi fondamental réside dans la garantie que la politique optimisée dans l'espace abstrait reste optimale dans le PDM original.

Importance de la Recherche

Efficacité computationnelle: La complexité de résolution des PDM de grande taille croît exponentiellement avec l'espace d'états
Applications pratiques: Besoins urgents dans la coordination multi-agents, l'apprentissage de représentations visuelles, les systèmes opérationnels, etc.
Signification théorique: Absence d'outils d'analyse théorique systématique pour l'équivalence des politiques optimales

Limitations des Méthodes Existantes

Méthodes basées sur les caractéristiques: Nécessitent des ressources computationnelles considérables, particulièrement en dimensions élevées
Agrégation basée sur la valeur: Bien que centrées sur la minimisation de l'erreur de fonction de valeur, elles manquent d'outils théoriques pour l'équivalence des politiques optimales
Théorie des PDM homomorphes: Exige que le PDM abstrait préserve complètement la dynamique des récompenses et des transitions du PDM original, conditions trop restrictives

Contributions Principales

Proposition du cadre des chaînes de Markov homomorphes: Établit un cadre théorique plus flexible que les PDM homomorphes traditionnels, ne nécessitant qu'une relation linéaire entre les fonctions de valeur
Établissement des conditions suffisantes pour l'équivalence des politiques optimales: Démontre que l'équivalence des politiques optimales est garantie lorsque l'espace ligne de la matrice d'encodage contient l'espace engendré par les vecteurs de transition fondamentaux
Développement de l'algorithme HPG: Algorithme de gradient de politique garantissant l'équivalence des politiques optimales lorsque les conditions suffisantes sont satisfaites
Conception de l'algorithme EBHPG: Algorithme étendu traitant les cas où les conditions suffisantes ne sont pas satisfaites, fournissant des garanties de borne inférieure de performance
Fourniture d'analyse des bornes d'erreur: Dérive les bornes supérieures d'erreur d'approximation et les bornes inférieures de performance de la fonction objectif

Détails de la Méthode

Définition de la Tâche

Étant donné un PDM à horizon infini $M_S = (S,A,P_{SA},\gamma,r)$ , l'objectif est de trouver une matrice d'encodage $P_\nu$ et un espace d'états abstrait $U$ tels que la politique optimisée dans l'espace abstrait reste optimale dans le PDM original.

Cadre Théorique Principal

Définition des Chaînes de Markov Homomorphes

Définition 1: Étant donnée la chaîne de Markov fondamentale $M^\pi_S$ induite par la politique $\pi$ et la chaîne de Markov abstraite $M^\mu_U$ , on dit que $M^\mu_U$ est une chaîne de Markov homomorphe de $M^\pi_S$ si les conditions suivantes sont satisfaites:

$P^\mu_U P_\nu = P_\nu P^\pi_S$ $R^{\pi,\nu}_U = P_\nu R^\pi_S$

où $P_\nu \in \mathbb{R}^{|U| \times |S|}$ est la matrice d'encodage.

Relation Linéaire des Fonctions de Valeur

Théorème 1: Si $M^\mu_U$ est une chaîne de Markov homomorphe de $M^\pi_S$ , alors leurs fonctions de valeur satisfont la relation linéaire: $V^\mu_U = P_\nu V^\pi_S$

Conditions d'Existence du Mappage Homomorphe

Théorème 3: Étant donné un PDM fondamental $M_S$ et une matrice d'encodage $P_\nu$ , le mappage homomorphe $f_\nu: \Pi_S \to \Pi_U$ existe si et seulement si l'espace ligne de $P_\nu$ contient $\text{span}(F)$ , où $F$ est le sous-ensemble maximal linéairement indépendant de tous les vecteurs de transition fondamentaux.

Conception des Algorithmes

Algorithme HPG (Algorithme 1)

Lorsque les conditions suffisantes sont satisfaites:

Calculer la pseudo-inverse de Moore-Penrose $P_\nu^\dagger$ de $P_\nu$
Calculer la matrice de transition abstraite via $C^{\pi_{\theta_t}} = P^{\pi_{\theta_t}}_S P_\nu^\dagger$
Évaluer la fonction de valeur abstraite $V^{f_\nu(\pi_{\theta_t})}_U$
Mettre à jour les paramètres de politique $\theta_{t+1}$

Complexité computationnelle: $O(|S||A| + |U||S|^2 + |U|^3)$ , significativement inférieure à l'évaluation de politique standard $O(|S||A| + |S|^3)$ lorsque $|U| \ll |S|$ .

Algorithme EBHPG (Algorithme 2)

Lorsque les conditions suffisantes ne sont pas satisfaites, optimise la borne inférieure de performance: $J_S(\tilde{\pi}) \geq J_U(f_\nu(\tilde{\pi})) - \frac{\|g(\tilde{\pi},\nu)\|}{1-\gamma}$

où $\frac{\|g(\pi,\nu)\|}{1-\gamma}$ est une borne supérieure de la différence de performance.

Points d'Innovation Technique

Assouplissement des conditions: Comparé aux PDM homomorphes traditionnels exigeant l'égalité complète des probabilités de transition, cet article ne nécessite qu'une relation de dépendance linéaire
Optimisation des opérations matricielles: Réalise l'agrégation par opérations matricielles plutôt que par boucles itératives, améliorant l'efficacité computationnelle
Bornes d'erreur: Fournit des garanties théoriques et des directions d'optimisation lorsque les conditions idéales ne sont pas satisfaites

Configuration Expérimentale

Ensembles de Données

Modèles aléatoires: $|S|=100, |A|=10$ , densité de matrice de transition 10%-100%
PDM faiblement couplés: $|S|=3600, |A|=10$ , simulant la prise de décision hiérarchique
Monde en grille à quatre pièces: $|S|=6400, |A|=4$ , tâche de navigation classique
Gestion de file d'attente en série: $|S|=6084, |A|=3$ , inspirée par les systèmes de serveurs réels

Métriques d'Évaluation

Performance de politique: $J_S(\pi) = \mathbb{E}_{s_0 \sim \xi_S}[V^\pi_S(s_0)]$
Temps computationnel: Mesure du temps réel d'exécution
Convergence: Convergence de l'itération de politique vers la solution optimale

Méthodes de Comparaison

Incluent 7 méthodes de base:

Itération de politique standard (PolicyIter)
Techniques d'agrégation classiques (Bertsekas)
Méthodes récentes: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.

Détails d'Implémentation

Taux d'apprentissage: $1 \times 10^{-3}$
Nombre d'états abstraits: $|U| = \text{int}(0.5 \times r)$
Matériel: CPU AMD Ryzen 7 5800X + GPU NVIDIA GeForce RTX 3090

Résultats Expérimentaux

Expériences de Validation Théorique

La figure 2 présente les résultats de validation sur des tâches à petite échelle ( $|S|=100$ ):

Conditions suffisantes satisfaites: Les courbes marquées "100%" (correspondant à $|U|=r$ ) convergent vers la valeur optimale dans toutes les tâches, validant la correction des théorèmes 2 et 3
Conditions suffisantes non satisfaites: Les courbes marquées "80%", "50%", "20%" présentent des oscillations évidentes et ne garantissent pas la convergence vers la solution optimale
Performance EBHPG: La performance réelle (ligne continue) s'améliore avec la borne inférieure de performance (ligne pointillée), validant les théorèmes 5 et 6

Comparaison de Performance à Grande Échelle

La figure 3 présente la comparaison de performance sur des tâches à grande échelle:

Efficacité computationnelle: La méthode proposée surpasse significativement les méthodes de base dans toutes les tâches sauf l'environnement à quatre pièces
Basé sur modèle vs sans modèle: Les méthodes basées sur modèle surpassent généralement les méthodes sans modèle, utilisant la planification exacte plutôt que l'échantillonnage
Avantage des opérations matricielles: Comparé à l'implémentation par boucles imbriquées des méthodes de base, les opérations matricielles apportent des améliorations d'efficacité significatives

Analyse de Cas Particuliers

Dans l'environnement à quatre pièces, toutes les méthodes peinent à surpasser la base, les raisons possibles étant:

Structure de récompense extrêmement clairsemée
La combinaison d'un grand espace d'états et de récompenses clairsemées rend l'exploration difficile
La parcimonie de la fonction de récompense peut ralentir l'efficacité de l'itération de politique

Travaux Connexes

Classification des Méthodes d'Abstraction d'États

Méthodes basées sur les caractéristiques: Utilisant des fonctions de caractéristiques conçues manuellement ou apprises, telles que les réseaux bayésiens dynamiques, l'analyse spectrale
Agrégation basée sur la valeur: Centrées sur la minimisation de l'erreur d'approximation de fonction de valeur, telles que les algorithmes d'agrégation itérative adaptative

Développement du Cadre Théorique

Théorie des PDM homomorphes: Cadre de mappage préservant la structure proposé par Ravindran
Théorie de la bisimulation: Extension du concept classique d'équivalence comportementale aux PDM
Extension aux espaces continus: Extension de la métrique de bisimulation aux espaces d'états continus par Ferns et al.

Avantages Relatifs de cet Article

Comparé aux méthodes existantes, cet article fournit des conditions suffisantes plus flexibles et une implémentation computationnelle plus efficace.

Conclusion et Discussion

Conclusions Principales

Établit un cadre théorique d'agrégation d'états basé sur les mappages homomorphes
Fournit des conditions suffisantes pour l'équivalence des politiques optimales, plus flexibles que les PDM homomorphes traditionnels
Développe deux algorithmes pratiques, HPG et EBHPG, validés théoriquement et expérimentalement

Limitations

Restriction des conditions suffisantes: Dans certains cas, le coût computationnel de satisfaction des conditions suffisantes peut rester élevé
Garanties de convergence: En présence d'erreur d'approximation, impossible de garantir la convergence vers la politique optimale
Espaces continus: L'analyse n'est pas étendue aux espaces d'états continus

Directions Futures

Assouplir les conditions suffisantes pour l'équivalence des politiques optimales
Étendre aux espaces d'états continus
Améliorer les garanties de convergence en cas d'approximation

Évaluation Approfondie

Points Forts

Contribution théorique: Propose un cadre théorique plus général que les méthodes existantes
Praticité: La conception des algorithmes considère l'efficacité computationnelle, adaptée aux applications à grande échelle
Complétude: Forme une chaîne de recherche complète allant de l'analyse théorique à la conception d'algorithmes et à la validation expérimentale
Rigueur: Dérivations mathématiques rigoureuses et conception expérimentale raisonnée

Insuffisances

Portée d'application: Les conditions suffisantes peuvent rester trop restrictives dans certains cas
Couverture expérimentale: Les résultats anormaux dans l'environnement à quatre pièces nécessitent une analyse plus approfondie
Méthodes de comparaison: Certaines méthodes de comparaison peuvent ne pas être les plus récentes méthodes SOTA

Impact

Valeur théorique: Fournit de nouveaux outils théoriques pour l'agrégation d'états dans les PDM
Valeur pratique: Les algorithmes démontrent des avantages dans plusieurs tâches pratiques
Extensibilité: Le cadre possède un potentiel d'extension à d'autres problèmes

Scénarios d'Application

Résolution de PDM de grande taille
Apprentissage par renforcement hiérarchique
Systèmes multi-agents
Problèmes de décision avec espaces d'états structurés

Références Bibliographiques

L'article cite 50 travaux connexes, couvrant plusieurs domaines importants incluant la théorie des PDM, l'abstraction d'états, et l'apprentissage par renforcement, fournissant une base théorique solide à la recherche.

Évaluation Générale: Cet article de haute qualité met l'accent sur la théorie et la pratique, apportant des contributions importantes au domaine de l'agrégation d'états dans les PDM. Le cadre théorique est novateur et pratique, la conception des algorithmes est raisonnée, et la validation expérimentale est complète. Malgré certaines limitations, dans l'ensemble, il fournit des outils théoriques et des méthodes pratiques précieux pour le développement du domaine.