2025-11-20T19:43:15.563163

Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes

Zhao, Li, Feng et al.
State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
academic

Mappages Homomorphes pour l'Agrégation d'États Préservant la Valeur dans les Processus de Décision Markoviens

Informations Fondamentales

  • ID de l'article: 2510.09965
  • Titre: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
  • Auteurs: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
  • Classification: cs.LG cs.AI stat.ML
  • Date de publication: 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.09965

Résumé

Cet article propose un cadre d'abstraction basé sur les mappages homomorphes pour résoudre le problème d'agrégation d'états dans les processus de décision markoviens (PDM). Le cadre établit une relation linéaire entre les fonctions de valeur de deux chaînes de Markov pour définir l'homomorphisme, préservant ainsi l'équivalence de la politique optimale tout en réduisant la complexité computationnelle. L'article propose deux algorithmes, HPG et EBHPG, qui fournissent des garanties théoriques respectivement lorsque les conditions suffisantes sont satisfaites ou non, et valident les résultats théoriques par des expériences.

Contexte et Motivation de la Recherche

Définition du Problème

Avec l'application généralisée des PDM aux problèmes réels complexes, la complexité computationnelle induite par les espaces d'états de grande taille devient de plus en plus problématique. L'agrégation d'états, en tant que stratégie clé, vise à réduire les coûts computationnels en comprimant l'espace d'états. Cependant, le défi fondamental réside dans la garantie que la politique optimisée dans l'espace abstrait reste optimale dans le PDM original.

Importance de la Recherche

  1. Efficacité computationnelle: La complexité de résolution des PDM de grande taille croît exponentiellement avec l'espace d'états
  2. Applications pratiques: Besoins urgents dans la coordination multi-agents, l'apprentissage de représentations visuelles, les systèmes opérationnels, etc.
  3. Signification théorique: Absence d'outils d'analyse théorique systématique pour l'équivalence des politiques optimales

Limitations des Méthodes Existantes

  1. Méthodes basées sur les caractéristiques: Nécessitent des ressources computationnelles considérables, particulièrement en dimensions élevées
  2. Agrégation basée sur la valeur: Bien que centrées sur la minimisation de l'erreur de fonction de valeur, elles manquent d'outils théoriques pour l'équivalence des politiques optimales
  3. Théorie des PDM homomorphes: Exige que le PDM abstrait préserve complètement la dynamique des récompenses et des transitions du PDM original, conditions trop restrictives

Contributions Principales

  1. Proposition du cadre des chaînes de Markov homomorphes: Établit un cadre théorique plus flexible que les PDM homomorphes traditionnels, ne nécessitant qu'une relation linéaire entre les fonctions de valeur
  2. Établissement des conditions suffisantes pour l'équivalence des politiques optimales: Démontre que l'équivalence des politiques optimales est garantie lorsque l'espace ligne de la matrice d'encodage contient l'espace engendré par les vecteurs de transition fondamentaux
  3. Développement de l'algorithme HPG: Algorithme de gradient de politique garantissant l'équivalence des politiques optimales lorsque les conditions suffisantes sont satisfaites
  4. Conception de l'algorithme EBHPG: Algorithme étendu traitant les cas où les conditions suffisantes ne sont pas satisfaites, fournissant des garanties de borne inférieure de performance
  5. Fourniture d'analyse des bornes d'erreur: Dérive les bornes supérieures d'erreur d'approximation et les bornes inférieures de performance de la fonction objectif

Détails de la Méthode

Définition de la Tâche

Étant donné un PDM à horizon infini MS=(S,A,PSA,γ,r)M_S = (S,A,P_{SA},\gamma,r), l'objectif est de trouver une matrice d'encodage PνP_\nu et un espace d'états abstrait UU tels que la politique optimisée dans l'espace abstrait reste optimale dans le PDM original.

Cadre Théorique Principal

Définition des Chaînes de Markov Homomorphes

Définition 1: Étant donnée la chaîne de Markov fondamentale MSπM^\pi_S induite par la politique π\pi et la chaîne de Markov abstraite MUμM^\mu_U, on dit que MUμM^\mu_U est une chaîne de Markov homomorphe de MSπM^\pi_S si les conditions suivantes sont satisfaites:

PUμPν=PνPSπP^\mu_U P_\nu = P_\nu P^\pi_SRUπ,ν=PνRSπR^{\pi,\nu}_U = P_\nu R^\pi_S

PνRU×SP_\nu \in \mathbb{R}^{|U| \times |S|} est la matrice d'encodage.

Relation Linéaire des Fonctions de Valeur

Théorème 1: Si MUμM^\mu_U est une chaîne de Markov homomorphe de MSπM^\pi_S, alors leurs fonctions de valeur satisfont la relation linéaire: VUμ=PνVSπV^\mu_U = P_\nu V^\pi_S

Conditions d'Existence du Mappage Homomorphe

Théorème 3: Étant donné un PDM fondamental MSM_S et une matrice d'encodage PνP_\nu, le mappage homomorphe fν:ΠSΠUf_\nu: \Pi_S \to \Pi_U existe si et seulement si l'espace ligne de PνP_\nu contient span(F)\text{span}(F), où FF est le sous-ensemble maximal linéairement indépendant de tous les vecteurs de transition fondamentaux.

Conception des Algorithmes

Algorithme HPG (Algorithme 1)

Lorsque les conditions suffisantes sont satisfaites:

  1. Calculer la pseudo-inverse de Moore-Penrose PνP_\nu^\dagger de PνP_\nu
  2. Calculer la matrice de transition abstraite via Cπθt=PSπθtPνC^{\pi_{\theta_t}} = P^{\pi_{\theta_t}}_S P_\nu^\dagger
  3. Évaluer la fonction de valeur abstraite VUfν(πθt)V^{f_\nu(\pi_{\theta_t})}_U
  4. Mettre à jour les paramètres de politique θt+1\theta_{t+1}

Complexité computationnelle: O(SA+US2+U3)O(|S||A| + |U||S|^2 + |U|^3), significativement inférieure à l'évaluation de politique standard O(SA+S3)O(|S||A| + |S|^3) lorsque US|U| \ll |S|.

Algorithme EBHPG (Algorithme 2)

Lorsque les conditions suffisantes ne sont pas satisfaites, optimise la borne inférieure de performance: JS(π~)JU(fν(π~))g(π~,ν)1γJ_S(\tilde{\pi}) \geq J_U(f_\nu(\tilde{\pi})) - \frac{\|g(\tilde{\pi},\nu)\|}{1-\gamma}

g(π,ν)1γ\frac{\|g(\pi,\nu)\|}{1-\gamma} est une borne supérieure de la différence de performance.

Points d'Innovation Technique

  1. Assouplissement des conditions: Comparé aux PDM homomorphes traditionnels exigeant l'égalité complète des probabilités de transition, cet article ne nécessite qu'une relation de dépendance linéaire
  2. Optimisation des opérations matricielles: Réalise l'agrégation par opérations matricielles plutôt que par boucles itératives, améliorant l'efficacité computationnelle
  3. Bornes d'erreur: Fournit des garanties théoriques et des directions d'optimisation lorsque les conditions idéales ne sont pas satisfaites

Configuration Expérimentale

Ensembles de Données

  1. Modèles aléatoires: S=100,A=10|S|=100, |A|=10, densité de matrice de transition 10%-100%
  2. PDM faiblement couplés: S=3600,A=10|S|=3600, |A|=10, simulant la prise de décision hiérarchique
  3. Monde en grille à quatre pièces: S=6400,A=4|S|=6400, |A|=4, tâche de navigation classique
  4. Gestion de file d'attente en série: S=6084,A=3|S|=6084, |A|=3, inspirée par les systèmes de serveurs réels

Métriques d'Évaluation

  • Performance de politique: JS(π)=Es0ξS[VSπ(s0)]J_S(\pi) = \mathbb{E}_{s_0 \sim \xi_S}[V^\pi_S(s_0)]
  • Temps computationnel: Mesure du temps réel d'exécution
  • Convergence: Convergence de l'itération de politique vers la solution optimale

Méthodes de Comparaison

Incluent 7 méthodes de base:

  • Itération de politique standard (PolicyIter)
  • Techniques d'agrégation classiques (Bertsekas)
  • Méthodes récentes: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.

Détails d'Implémentation

  • Taux d'apprentissage: 1×1031 \times 10^{-3}
  • Nombre d'états abstraits: U=int(0.5×r)|U| = \text{int}(0.5 \times r)
  • Matériel: CPU AMD Ryzen 7 5800X + GPU NVIDIA GeForce RTX 3090

Résultats Expérimentaux

Expériences de Validation Théorique

La figure 2 présente les résultats de validation sur des tâches à petite échelle (S=100|S|=100):

  1. Conditions suffisantes satisfaites: Les courbes marquées "100%" (correspondant à U=r|U|=r) convergent vers la valeur optimale dans toutes les tâches, validant la correction des théorèmes 2 et 3
  2. Conditions suffisantes non satisfaites: Les courbes marquées "80%", "50%", "20%" présentent des oscillations évidentes et ne garantissent pas la convergence vers la solution optimale
  3. Performance EBHPG: La performance réelle (ligne continue) s'améliore avec la borne inférieure de performance (ligne pointillée), validant les théorèmes 5 et 6

Comparaison de Performance à Grande Échelle

La figure 3 présente la comparaison de performance sur des tâches à grande échelle:

  1. Efficacité computationnelle: La méthode proposée surpasse significativement les méthodes de base dans toutes les tâches sauf l'environnement à quatre pièces
  2. Basé sur modèle vs sans modèle: Les méthodes basées sur modèle surpassent généralement les méthodes sans modèle, utilisant la planification exacte plutôt que l'échantillonnage
  3. Avantage des opérations matricielles: Comparé à l'implémentation par boucles imbriquées des méthodes de base, les opérations matricielles apportent des améliorations d'efficacité significatives

Analyse de Cas Particuliers

Dans l'environnement à quatre pièces, toutes les méthodes peinent à surpasser la base, les raisons possibles étant:

  • Structure de récompense extrêmement clairsemée
  • La combinaison d'un grand espace d'états et de récompenses clairsemées rend l'exploration difficile
  • La parcimonie de la fonction de récompense peut ralentir l'efficacité de l'itération de politique

Travaux Connexes

Classification des Méthodes d'Abstraction d'États

  1. Méthodes basées sur les caractéristiques: Utilisant des fonctions de caractéristiques conçues manuellement ou apprises, telles que les réseaux bayésiens dynamiques, l'analyse spectrale
  2. Agrégation basée sur la valeur: Centrées sur la minimisation de l'erreur d'approximation de fonction de valeur, telles que les algorithmes d'agrégation itérative adaptative

Développement du Cadre Théorique

  1. Théorie des PDM homomorphes: Cadre de mappage préservant la structure proposé par Ravindran
  2. Théorie de la bisimulation: Extension du concept classique d'équivalence comportementale aux PDM
  3. Extension aux espaces continus: Extension de la métrique de bisimulation aux espaces d'états continus par Ferns et al.

Avantages Relatifs de cet Article

Comparé aux méthodes existantes, cet article fournit des conditions suffisantes plus flexibles et une implémentation computationnelle plus efficace.

Conclusion et Discussion

Conclusions Principales

  1. Établit un cadre théorique d'agrégation d'états basé sur les mappages homomorphes
  2. Fournit des conditions suffisantes pour l'équivalence des politiques optimales, plus flexibles que les PDM homomorphes traditionnels
  3. Développe deux algorithmes pratiques, HPG et EBHPG, validés théoriquement et expérimentalement

Limitations

  1. Restriction des conditions suffisantes: Dans certains cas, le coût computationnel de satisfaction des conditions suffisantes peut rester élevé
  2. Garanties de convergence: En présence d'erreur d'approximation, impossible de garantir la convergence vers la politique optimale
  3. Espaces continus: L'analyse n'est pas étendue aux espaces d'états continus

Directions Futures

  1. Assouplir les conditions suffisantes pour l'équivalence des politiques optimales
  2. Étendre aux espaces d'états continus
  3. Améliorer les garanties de convergence en cas d'approximation

Évaluation Approfondie

Points Forts

  1. Contribution théorique: Propose un cadre théorique plus général que les méthodes existantes
  2. Praticité: La conception des algorithmes considère l'efficacité computationnelle, adaptée aux applications à grande échelle
  3. Complétude: Forme une chaîne de recherche complète allant de l'analyse théorique à la conception d'algorithmes et à la validation expérimentale
  4. Rigueur: Dérivations mathématiques rigoureuses et conception expérimentale raisonnée

Insuffisances

  1. Portée d'application: Les conditions suffisantes peuvent rester trop restrictives dans certains cas
  2. Couverture expérimentale: Les résultats anormaux dans l'environnement à quatre pièces nécessitent une analyse plus approfondie
  3. Méthodes de comparaison: Certaines méthodes de comparaison peuvent ne pas être les plus récentes méthodes SOTA

Impact

  1. Valeur théorique: Fournit de nouveaux outils théoriques pour l'agrégation d'états dans les PDM
  2. Valeur pratique: Les algorithmes démontrent des avantages dans plusieurs tâches pratiques
  3. Extensibilité: Le cadre possède un potentiel d'extension à d'autres problèmes

Scénarios d'Application

  1. Résolution de PDM de grande taille
  2. Apprentissage par renforcement hiérarchique
  3. Systèmes multi-agents
  4. Problèmes de décision avec espaces d'états structurés

Références Bibliographiques

L'article cite 50 travaux connexes, couvrant plusieurs domaines importants incluant la théorie des PDM, l'abstraction d'états, et l'apprentissage par renforcement, fournissant une base théorique solide à la recherche.


Évaluation Générale: Cet article de haute qualité met l'accent sur la théorie et la pratique, apportant des contributions importantes au domaine de l'agrégation d'états dans les PDM. Le cadre théorique est novateur et pratique, la conception des algorithmes est raisonnée, et la validation expérimentale est complète. Malgré certaines limitations, dans l'ensemble, il fournit des outils théoriques et des méthodes pratiques précieux pour le développement du domaine.