2025-11-20T19:43:15.563163

Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes

Zhao, Li, Feng et al.

State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.

academic

Asignaciones Homomórficas para Agregación de Estados que Preserva Valor en Procesos de Decisión de Markov

Información Básica

ID del Artículo: 2510.09965
Título: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
Autores: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
Clasificación: cs.LG cs.AI stat.ML
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09965

Resumen

Este artículo aborda el problema de agregación de estados en Procesos de Decisión de Markov (MDP) mediante un marco abstracto basado en asignaciones homomórficas. El marco establece la homomorficidad definiendo relaciones lineales de funciones de valor entre dos cadenas de Markov, preservando así la equivalencia de políticas óptimas mientras se reduce la complejidad computacional. El artículo propone dos algoritmos, HPG y EBHPG, que proporcionan garantías teóricas cuando se satisfacen y no se satisfacen condiciones suficientes, respectivamente, y verifica la validez de los resultados teóricos mediante experimentos.

Antecedentes de Investigación y Motivación

Definición del Problema

Con la aplicación generalizada de MDP en problemas complejos del mundo real, la complejidad computacional derivada de espacios de estados de gran escala se ha vuelto cada vez más prominente. La agregación de estados, como estrategia clave, tiene como objetivo reducir los costos computacionales comprimiendo el espacio de estados. Sin embargo, el desafío central radica en garantizar que las políticas optimizadas en el espacio abstracto sigan siendo óptimas en el MDP original.

Importancia de la Investigación

Eficiencia Computacional: La complejidad de resolver MDP a gran escala crece exponencialmente con el espacio de estados
Aplicaciones Prácticas: Demanda urgente en coordinación multiagente, aprendizaje de representación visual, sistemas operacionales y otros campos
Significado Teórico: Falta de herramientas teóricas sistemáticas para analizar la equivalencia de políticas óptimas

Limitaciones de Métodos Existentes

Métodos Basados en Características: Requieren recursos computacionales sustanciales, especialmente en configuraciones de alta dimensionalidad
Agregación Basada en Valor: Aunque se enfoca en minimizar errores de funciones de valor, carece de herramientas teóricas para la equivalencia de políticas óptimas
Teoría de MDP Homomórficos: Requiere que el MDP abstracto preserve completamente la dinámica de recompensas y transiciones del MDP original, imponiendo condiciones demasiado restrictivas

Contribuciones Principales

Propone Marco de Cadenas de Markov Homomórficas: Establece un marco teórico más flexible que el MDP homomórfico tradicional, requiriendo solo relaciones lineales entre funciones de valor
Establece Condiciones Suficientes para Equivalencia de Políticas Óptimas: Demuestra que la equivalencia de políticas óptimas se cumple cuando el espacio de filas de la matriz de codificación contiene el espacio generado por vectores de transición fundamentales
Desarrolla Algoritmo HPG: Algoritmo de gradiente de política que garantiza equivalencia de políticas óptimas cuando se satisfacen condiciones suficientes
Diseña Algoritmo EBHPG: Algoritmo extendido que maneja casos donde no se satisfacen condiciones suficientes, proporcionando garantías de cota inferior de desempeño
Proporciona Análisis de Límites de Error: Deriva límites superiores de error de aproximación y cotas inferiores de desempeño de función objetivo

Explicación Detallada del Método

Definición de la Tarea

Dado un MDP de horizonte infinito $M_S = (S,A,P_{SA},\gamma,r)$ , el objetivo es encontrar una matriz de codificación $P_\nu$ y un espacio de estados abstracto $U$ tales que la política optimizada en el espacio abstracto permanezca óptima en el MDP original.

Marco Teórico Principal

Definición de Cadena de Markov Homomórfica

Definición 1: Dada una cadena de Markov base $M^\pi_S$ inducida por política $\pi$ y una cadena de Markov abstracta $M^\mu_U$ , se dice que $M^\mu_U$ es una cadena de Markov homomórfica de $M^\pi_S$ si satisface:

$P^\mu_U P_\nu = P_\nu P^\pi_S$ $R^{\pi,\nu}_U = P_\nu R^\pi_S$

donde $P_\nu \in \mathbb{R}^{|U| \times |S|}$ es la matriz de codificación.

Relación Lineal de Funciones de Valor

Teorema 1: Si $M^\mu_U$ es una cadena de Markov homomórfica de $M^\pi_S$ , entonces sus funciones de valor satisfacen la relación lineal: $V^\mu_U = P_\nu V^\pi_S$

Condiciones de Existencia de Asignación Homomórfica

Teorema 3: Dado un MDP base $M_S$ y una matriz de codificación $P_\nu$ , la asignación homomórfica $f_\nu: \Pi_S \to \Pi_U$ existe si y solo si el espacio de filas de $P_\nu$ contiene $\text{span}(F)$ , donde $F$ es el subconjunto máximo linealmente independiente de todos los vectores de transición fundamentales.

Diseño de Algoritmos

Algoritmo HPG (Algoritmo 1)

Cuando se satisfacen las condiciones suficientes:

Calcular la pseudoinversa de Moore-Penrose $P_\nu^\dagger$ de $P_\nu$
Calcular la matriz de transición abstracta mediante $C^{\pi_{\theta_t}} = P^{\pi_{\theta_t}}_S P_\nu^\dagger$
Evaluar la función de valor abstracta $V^{f_\nu(\pi_{\theta_t})}_U$
Actualizar parámetros de política $\theta_{t+1}$

Complejidad Computacional: $O(|S||A| + |U||S|^2 + |U|^3)$ , significativamente mejor que la evaluación de política estándar de $O(|S||A| + |S|^3)$ cuando $|U| \ll |S|$ .

Algoritmo EBHPG (Algoritmo 2)

Cuando no se satisfacen las condiciones suficientes, optimiza la cota inferior de desempeño: $J_S(\tilde{\pi}) \geq J_U(f_\nu(\tilde{\pi})) - \frac{\|g(\tilde{\pi},\nu)\|}{1-\gamma}$

donde $\frac{\|g(\pi,\nu)\|}{1-\gamma}$ es una cota superior de la diferencia de desempeño.

Puntos de Innovación Técnica

Relajación de Condiciones: Comparado con MDP homomórficos tradicionales que requieren igualdad completa de probabilidades de transición, este trabajo solo requiere dependencia lineal
Optimización de Operaciones Matriciales: Implementa agregación mediante operaciones matriciales en lugar de bucles iterativos, mejorando eficiencia computacional
Límites de Error: Proporciona garantías teóricas y direcciones de optimización cuando no se satisfacen condiciones ideales

Configuración Experimental

Conjuntos de Datos

Modelos Aleatorios: $|S|=100, |A|=10$ , densidad de matriz de transición 10%-100%
MDP Débilmente Acoplado: $|S|=3600, |A|=10$ , simulando toma de decisiones jerárquica
Mundo de Cuadrícula de Cuatro Habitaciones: $|S|=6400, |A|=4$ , tarea de navegación clásica
Gestión de Cola en Cascada: $|S|=6084, |A|=3$ , inspirada en sistemas de servidores reales

Métricas de Evaluación

Desempeño de Política: $J_S(\pi) = \mathbb{E}_{s_0 \sim \xi_S}[V^\pi_S(s_0)]$
Tiempo Computacional: Medición de tiempo de reloj para eficiencia real
Convergencia: Convergencia de iteración de política a solución óptima

Métodos de Comparación

Incluye 7 métodos de referencia:

Iteración de Política Estándar (PolicyIter)
Técnicas de Agregación Clásica (Bertsekas)
Métodos Recientes: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.

Detalles de Implementación

Tasa de Aprendizaje: $1 \times 10^{-3}$
Número de Estados Abstractos: $|U| = \text{int}(0.5 \times r)$
Hardware: CPU AMD Ryzen 7 5800X + GPU NVIDIA GeForce RTX 3090

Resultados Experimentales

Experimentos de Verificación Teórica

La Figura 2 presenta resultados de verificación en tareas de pequeña escala con $|S|=100$ :

Cuando se Satisfacen Condiciones Suficientes: Las curvas marcadas como "100%" (correspondientes a $|U|=r$ ) convergen al valor óptimo en todas las tareas, verificando la corrección de Teoremas 2 y 3
Cuando No se Satisfacen Condiciones Suficientes: Las curvas marcadas como "80%", "50%", "20%" muestran oscilaciones evidentes, sin garantizar convergencia a solución óptima
Desempeño de EBHPG: El desempeño real (línea sólida) mejora conforme la cota inferior de desempeño (línea punteada) mejora, verificando Teoremas 5 y 6

Comparación de Desempeño a Gran Escala

La Figura 3 presenta comparación de desempeño en tareas a gran escala:

Eficiencia Computacional: El método propuesto supera significativamente a métodos de referencia en todas las tareas excepto el entorno de cuatro habitaciones
Basado en Modelo vs Sin Modelo: Los métodos basados en modelo generalmente superan a métodos sin modelo, debido a planificación exacta en lugar de muestreo
Ventaja de Operaciones Matriciales: Las operaciones matriciales proporcionan mejoras de eficiencia significativas comparadas con implementaciones de bucles anidados en métodos de referencia

Análisis de Casos Especiales

En el entorno de cuatro habitaciones, todos los métodos tienen dificultad para superar la referencia, posibles razones:

Estructura de recompensa extremadamente dispersa
La combinación de espacio de estados grande con recompensas dispersas dificulta la exploración
La dispersión de la función de recompensa puede ralentizar la eficiencia de iteración de política

Trabajo Relacionado

Clasificación de Métodos de Abstracción de Estados

Métodos Basados en Características: Utilizan funciones de características diseñadas manualmente o aprendidas, como redes bayesianas dinámicas, análisis espectral
Agregación Basada en Valor: Se enfoca en minimizar errores de aproximación de funciones de valor, como algoritmos de agregación iterativa adaptativa

Desarrollo de Marcos Teóricos

Teoría de MDP Homomórficos: Marco de asignaciones que preservan estructura propuesto por Ravindran
Teoría de Bisimulación: Extensión de conceptos clásicos de equivalencia de comportamiento en MDP
Extensión a Espacios Continuos: Extensión de métricas de bisimulación a espacios de estados continuos por Ferns et al.

Ventajas Relativas de Este Trabajo

Comparado con métodos existentes, este trabajo proporciona condiciones suficientes más flexibles e implementación computacional más eficiente.

Conclusiones y Discusión

Conclusiones Principales

Establece un marco teórico de agregación de estados basado en asignaciones homomórficas
Proporciona condiciones suficientes para equivalencia de políticas óptimas, más flexibles que MDP homomórficos tradicionales
Desarrolla dos algoritmos prácticos, HPG y EBHPG, verificados tanto teórica como experimentalmente

Limitaciones

Restricción de Condiciones Suficientes: En algunos casos, el costo computacional de satisfacer condiciones suficientes podría seguir siendo alto
Garantías de Convergencia: No se puede garantizar convergencia a política óptima cuando existe error de aproximación
Espacios Continuos: El análisis no se extiende a espacios de estados continuos

Direcciones Futuras

Relajar condiciones suficientes para equivalencia de políticas óptimas
Extender a espacios de estados continuos
Mejorar garantías de convergencia en casos con aproximación

Evaluación Profunda

Fortalezas

Contribución Teórica: Propone un marco teórico más general que métodos existentes
Practicidad: El diseño de algoritmos considera eficiencia computacional, adecuado para aplicaciones a gran escala
Completitud: Forma una cadena de investigación completa desde análisis teórico, diseño de algoritmos hasta verificación experimental
Rigor: Derivaciones matemáticas rigurosas y diseño experimental razonable

Insuficiencias

Rango de Aplicabilidad: Las condiciones suficientes podrían seguir siendo demasiado restrictivas en algunos casos
Cobertura Experimental: Los resultados anómalos en el entorno de cuatro habitaciones requieren análisis más profundo
Métodos de Comparación: Algunos métodos de comparación podrían no ser los más recientes del estado del arte

Impacto

Valor Teórico: Proporciona nuevas herramientas teóricas para agregación de estados en MDP
Valor Práctico: Los algoritmos demuestran ventajas en múltiples tareas prácticas
Extensibilidad: El marco tiene potencial para extensión a otros problemas

Escenarios Aplicables

Resolución de MDP a gran escala
Aprendizaje por refuerzo jerárquico
Sistemas multiagente
Problemas de decisión con espacios de estados estructurados

Referencias

El artículo cita 50 trabajos relacionados, abarcando múltiples campos incluyendo teoría de MDP, abstracción de estados, aprendizaje por refuerzo, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad que equilibra teoría y práctica, realizando contribuciones importantes en el campo de agregación de estados en MDP. El marco teórico es novedoso y práctico, el diseño de algoritmos es razonable, y la verificación experimental es suficiente. Aunque existen algunas limitaciones, en general proporciona herramientas teóricas y métodos prácticos valiosos para el desarrollo del campo.