State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}.
This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy.
We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
- ID de l'article: 2510.09965
- Titre: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
- Auteurs: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
- Classification: cs.LG cs.AI stat.ML
- Date de publication: 14 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.09965
Cet article propose un cadre d'abstraction basé sur les mappages homomorphes pour résoudre le problème d'agrégation d'états dans les processus de décision markoviens (PDM). Le cadre établit une relation linéaire entre les fonctions de valeur de deux chaînes de Markov pour définir l'homomorphisme, préservant ainsi l'équivalence de la politique optimale tout en réduisant la complexité computationnelle. L'article propose deux algorithmes, HPG et EBHPG, qui fournissent des garanties théoriques respectivement lorsque les conditions suffisantes sont satisfaites ou non, et valident les résultats théoriques par des expériences.
Avec l'application généralisée des PDM aux problèmes réels complexes, la complexité computationnelle induite par les espaces d'états de grande taille devient de plus en plus problématique. L'agrégation d'états, en tant que stratégie clé, vise à réduire les coûts computationnels en comprimant l'espace d'états. Cependant, le défi fondamental réside dans la garantie que la politique optimisée dans l'espace abstrait reste optimale dans le PDM original.
- Efficacité computationnelle: La complexité de résolution des PDM de grande taille croît exponentiellement avec l'espace d'états
- Applications pratiques: Besoins urgents dans la coordination multi-agents, l'apprentissage de représentations visuelles, les systèmes opérationnels, etc.
- Signification théorique: Absence d'outils d'analyse théorique systématique pour l'équivalence des politiques optimales
- Méthodes basées sur les caractéristiques: Nécessitent des ressources computationnelles considérables, particulièrement en dimensions élevées
- Agrégation basée sur la valeur: Bien que centrées sur la minimisation de l'erreur de fonction de valeur, elles manquent d'outils théoriques pour l'équivalence des politiques optimales
- Théorie des PDM homomorphes: Exige que le PDM abstrait préserve complètement la dynamique des récompenses et des transitions du PDM original, conditions trop restrictives
- Proposition du cadre des chaînes de Markov homomorphes: Établit un cadre théorique plus flexible que les PDM homomorphes traditionnels, ne nécessitant qu'une relation linéaire entre les fonctions de valeur
- Établissement des conditions suffisantes pour l'équivalence des politiques optimales: Démontre que l'équivalence des politiques optimales est garantie lorsque l'espace ligne de la matrice d'encodage contient l'espace engendré par les vecteurs de transition fondamentaux
- Développement de l'algorithme HPG: Algorithme de gradient de politique garantissant l'équivalence des politiques optimales lorsque les conditions suffisantes sont satisfaites
- Conception de l'algorithme EBHPG: Algorithme étendu traitant les cas où les conditions suffisantes ne sont pas satisfaites, fournissant des garanties de borne inférieure de performance
- Fourniture d'analyse des bornes d'erreur: Dérive les bornes supérieures d'erreur d'approximation et les bornes inférieures de performance de la fonction objectif
Étant donné un PDM à horizon infini MS=(S,A,PSA,γ,r), l'objectif est de trouver une matrice d'encodage Pν et un espace d'états abstrait U tels que la politique optimisée dans l'espace abstrait reste optimale dans le PDM original.
Définition 1: Étant donnée la chaîne de Markov fondamentale MSπ induite par la politique π et la chaîne de Markov abstraite MUμ, on dit que MUμ est une chaîne de Markov homomorphe de MSπ si les conditions suivantes sont satisfaites:
PUμPν=PνPSπRUπ,ν=PνRSπ
où Pν∈R∣U∣×∣S∣ est la matrice d'encodage.
Théorème 1: Si MUμ est une chaîne de Markov homomorphe de MSπ, alors leurs fonctions de valeur satisfont la relation linéaire:
VUμ=PνVSπ
Théorème 3: Étant donné un PDM fondamental MS et une matrice d'encodage Pν, le mappage homomorphe fν:ΠS→ΠU existe si et seulement si l'espace ligne de Pν contient span(F), où F est le sous-ensemble maximal linéairement indépendant de tous les vecteurs de transition fondamentaux.
Lorsque les conditions suffisantes sont satisfaites:
- Calculer la pseudo-inverse de Moore-Penrose Pν† de Pν
- Calculer la matrice de transition abstraite via Cπθt=PSπθtPν†
- Évaluer la fonction de valeur abstraite VUfν(πθt)
- Mettre à jour les paramètres de politique θt+1
Complexité computationnelle: O(∣S∣∣A∣+∣U∣∣S∣2+∣U∣3), significativement inférieure à l'évaluation de politique standard O(∣S∣∣A∣+∣S∣3) lorsque ∣U∣≪∣S∣.
Lorsque les conditions suffisantes ne sont pas satisfaites, optimise la borne inférieure de performance:
JS(π~)≥JU(fν(π~))−1−γ∥g(π~,ν)∥
où 1−γ∥g(π,ν)∥ est une borne supérieure de la différence de performance.
- Assouplissement des conditions: Comparé aux PDM homomorphes traditionnels exigeant l'égalité complète des probabilités de transition, cet article ne nécessite qu'une relation de dépendance linéaire
- Optimisation des opérations matricielles: Réalise l'agrégation par opérations matricielles plutôt que par boucles itératives, améliorant l'efficacité computationnelle
- Bornes d'erreur: Fournit des garanties théoriques et des directions d'optimisation lorsque les conditions idéales ne sont pas satisfaites
- Modèles aléatoires: ∣S∣=100,∣A∣=10, densité de matrice de transition 10%-100%
- PDM faiblement couplés: ∣S∣=3600,∣A∣=10, simulant la prise de décision hiérarchique
- Monde en grille à quatre pièces: ∣S∣=6400,∣A∣=4, tâche de navigation classique
- Gestion de file d'attente en série: ∣S∣=6084,∣A∣=3, inspirée par les systèmes de serveurs réels
- Performance de politique: JS(π)=Es0∼ξS[VSπ(s0)]
- Temps computationnel: Mesure du temps réel d'exécution
- Convergence: Convergence de l'itération de politique vers la solution optimale
Incluent 7 méthodes de base:
- Itération de politique standard (PolicyIter)
- Techniques d'agrégation classiques (Bertsekas)
- Méthodes récentes: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.
- Taux d'apprentissage: 1×10−3
- Nombre d'états abstraits: ∣U∣=int(0.5×r)
- Matériel: CPU AMD Ryzen 7 5800X + GPU NVIDIA GeForce RTX 3090
La figure 2 présente les résultats de validation sur des tâches à petite échelle (∣S∣=100):
- Conditions suffisantes satisfaites: Les courbes marquées "100%" (correspondant à ∣U∣=r) convergent vers la valeur optimale dans toutes les tâches, validant la correction des théorèmes 2 et 3
- Conditions suffisantes non satisfaites: Les courbes marquées "80%", "50%", "20%" présentent des oscillations évidentes et ne garantissent pas la convergence vers la solution optimale
- Performance EBHPG: La performance réelle (ligne continue) s'améliore avec la borne inférieure de performance (ligne pointillée), validant les théorèmes 5 et 6
La figure 3 présente la comparaison de performance sur des tâches à grande échelle:
- Efficacité computationnelle: La méthode proposée surpasse significativement les méthodes de base dans toutes les tâches sauf l'environnement à quatre pièces
- Basé sur modèle vs sans modèle: Les méthodes basées sur modèle surpassent généralement les méthodes sans modèle, utilisant la planification exacte plutôt que l'échantillonnage
- Avantage des opérations matricielles: Comparé à l'implémentation par boucles imbriquées des méthodes de base, les opérations matricielles apportent des améliorations d'efficacité significatives
Dans l'environnement à quatre pièces, toutes les méthodes peinent à surpasser la base, les raisons possibles étant:
- Structure de récompense extrêmement clairsemée
- La combinaison d'un grand espace d'états et de récompenses clairsemées rend l'exploration difficile
- La parcimonie de la fonction de récompense peut ralentir l'efficacité de l'itération de politique
- Méthodes basées sur les caractéristiques: Utilisant des fonctions de caractéristiques conçues manuellement ou apprises, telles que les réseaux bayésiens dynamiques, l'analyse spectrale
- Agrégation basée sur la valeur: Centrées sur la minimisation de l'erreur d'approximation de fonction de valeur, telles que les algorithmes d'agrégation itérative adaptative
- Théorie des PDM homomorphes: Cadre de mappage préservant la structure proposé par Ravindran
- Théorie de la bisimulation: Extension du concept classique d'équivalence comportementale aux PDM
- Extension aux espaces continus: Extension de la métrique de bisimulation aux espaces d'états continus par Ferns et al.
Comparé aux méthodes existantes, cet article fournit des conditions suffisantes plus flexibles et une implémentation computationnelle plus efficace.
- Établit un cadre théorique d'agrégation d'états basé sur les mappages homomorphes
- Fournit des conditions suffisantes pour l'équivalence des politiques optimales, plus flexibles que les PDM homomorphes traditionnels
- Développe deux algorithmes pratiques, HPG et EBHPG, validés théoriquement et expérimentalement
- Restriction des conditions suffisantes: Dans certains cas, le coût computationnel de satisfaction des conditions suffisantes peut rester élevé
- Garanties de convergence: En présence d'erreur d'approximation, impossible de garantir la convergence vers la politique optimale
- Espaces continus: L'analyse n'est pas étendue aux espaces d'états continus
- Assouplir les conditions suffisantes pour l'équivalence des politiques optimales
- Étendre aux espaces d'états continus
- Améliorer les garanties de convergence en cas d'approximation
- Contribution théorique: Propose un cadre théorique plus général que les méthodes existantes
- Praticité: La conception des algorithmes considère l'efficacité computationnelle, adaptée aux applications à grande échelle
- Complétude: Forme une chaîne de recherche complète allant de l'analyse théorique à la conception d'algorithmes et à la validation expérimentale
- Rigueur: Dérivations mathématiques rigoureuses et conception expérimentale raisonnée
- Portée d'application: Les conditions suffisantes peuvent rester trop restrictives dans certains cas
- Couverture expérimentale: Les résultats anormaux dans l'environnement à quatre pièces nécessitent une analyse plus approfondie
- Méthodes de comparaison: Certaines méthodes de comparaison peuvent ne pas être les plus récentes méthodes SOTA
- Valeur théorique: Fournit de nouveaux outils théoriques pour l'agrégation d'états dans les PDM
- Valeur pratique: Les algorithmes démontrent des avantages dans plusieurs tâches pratiques
- Extensibilité: Le cadre possède un potentiel d'extension à d'autres problèmes
- Résolution de PDM de grande taille
- Apprentissage par renforcement hiérarchique
- Systèmes multi-agents
- Problèmes de décision avec espaces d'états structurés
L'article cite 50 travaux connexes, couvrant plusieurs domaines importants incluant la théorie des PDM, l'abstraction d'états, et l'apprentissage par renforcement, fournissant une base théorique solide à la recherche.
Évaluation Générale: Cet article de haute qualité met l'accent sur la théorie et la pratique, apportant des contributions importantes au domaine de l'agrégation d'états dans les PDM. Le cadre théorique est novateur et pratique, la conception des algorithmes est raisonnée, et la validation expérimentale est complète. Malgré certaines limitations, dans l'ensemble, il fournit des outils théoriques et des méthodes pratiques précieux pour le développement du domaine.