State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}.
This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy.
We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
- ID del Artículo: 2510.09965
- Título: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
- Autores: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
- Clasificación: cs.LG cs.AI stat.ML
- Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.09965
Este artículo aborda el problema de agregación de estados en Procesos de Decisión de Markov (MDP) mediante un marco abstracto basado en asignaciones homomórficas. El marco establece la homomorficidad definiendo relaciones lineales de funciones de valor entre dos cadenas de Markov, preservando así la equivalencia de políticas óptimas mientras se reduce la complejidad computacional. El artículo propone dos algoritmos, HPG y EBHPG, que proporcionan garantías teóricas cuando se satisfacen y no se satisfacen condiciones suficientes, respectivamente, y verifica la validez de los resultados teóricos mediante experimentos.
Con la aplicación generalizada de MDP en problemas complejos del mundo real, la complejidad computacional derivada de espacios de estados de gran escala se ha vuelto cada vez más prominente. La agregación de estados, como estrategia clave, tiene como objetivo reducir los costos computacionales comprimiendo el espacio de estados. Sin embargo, el desafío central radica en garantizar que las políticas optimizadas en el espacio abstracto sigan siendo óptimas en el MDP original.
- Eficiencia Computacional: La complejidad de resolver MDP a gran escala crece exponencialmente con el espacio de estados
- Aplicaciones Prácticas: Demanda urgente en coordinación multiagente, aprendizaje de representación visual, sistemas operacionales y otros campos
- Significado Teórico: Falta de herramientas teóricas sistemáticas para analizar la equivalencia de políticas óptimas
- Métodos Basados en Características: Requieren recursos computacionales sustanciales, especialmente en configuraciones de alta dimensionalidad
- Agregación Basada en Valor: Aunque se enfoca en minimizar errores de funciones de valor, carece de herramientas teóricas para la equivalencia de políticas óptimas
- Teoría de MDP Homomórficos: Requiere que el MDP abstracto preserve completamente la dinámica de recompensas y transiciones del MDP original, imponiendo condiciones demasiado restrictivas
- Propone Marco de Cadenas de Markov Homomórficas: Establece un marco teórico más flexible que el MDP homomórfico tradicional, requiriendo solo relaciones lineales entre funciones de valor
- Establece Condiciones Suficientes para Equivalencia de Políticas Óptimas: Demuestra que la equivalencia de políticas óptimas se cumple cuando el espacio de filas de la matriz de codificación contiene el espacio generado por vectores de transición fundamentales
- Desarrolla Algoritmo HPG: Algoritmo de gradiente de política que garantiza equivalencia de políticas óptimas cuando se satisfacen condiciones suficientes
- Diseña Algoritmo EBHPG: Algoritmo extendido que maneja casos donde no se satisfacen condiciones suficientes, proporcionando garantías de cota inferior de desempeño
- Proporciona Análisis de Límites de Error: Deriva límites superiores de error de aproximación y cotas inferiores de desempeño de función objetivo
Dado un MDP de horizonte infinito MS=(S,A,PSA,γ,r), el objetivo es encontrar una matriz de codificación Pν y un espacio de estados abstracto U tales que la política optimizada en el espacio abstracto permanezca óptima en el MDP original.
Definición 1: Dada una cadena de Markov base MSπ inducida por política π y una cadena de Markov abstracta MUμ, se dice que MUμ es una cadena de Markov homomórfica de MSπ si satisface:
PUμPν=PνPSπRUπ,ν=PνRSπ
donde Pν∈R∣U∣×∣S∣ es la matriz de codificación.
Teorema 1: Si MUμ es una cadena de Markov homomórfica de MSπ, entonces sus funciones de valor satisfacen la relación lineal:
VUμ=PνVSπ
Teorema 3: Dado un MDP base MS y una matriz de codificación Pν, la asignación homomórfica fν:ΠS→ΠU existe si y solo si el espacio de filas de Pν contiene span(F), donde F es el subconjunto máximo linealmente independiente de todos los vectores de transición fundamentales.
Cuando se satisfacen las condiciones suficientes:
- Calcular la pseudoinversa de Moore-Penrose Pν† de Pν
- Calcular la matriz de transición abstracta mediante Cπθt=PSπθtPν†
- Evaluar la función de valor abstracta VUfν(πθt)
- Actualizar parámetros de política θt+1
Complejidad Computacional: O(∣S∣∣A∣+∣U∣∣S∣2+∣U∣3), significativamente mejor que la evaluación de política estándar de O(∣S∣∣A∣+∣S∣3) cuando ∣U∣≪∣S∣.
Cuando no se satisfacen las condiciones suficientes, optimiza la cota inferior de desempeño:
JS(π~)≥JU(fν(π~))−1−γ∥g(π~,ν)∥
donde 1−γ∥g(π,ν)∥ es una cota superior de la diferencia de desempeño.
- Relajación de Condiciones: Comparado con MDP homomórficos tradicionales que requieren igualdad completa de probabilidades de transición, este trabajo solo requiere dependencia lineal
- Optimización de Operaciones Matriciales: Implementa agregación mediante operaciones matriciales en lugar de bucles iterativos, mejorando eficiencia computacional
- Límites de Error: Proporciona garantías teóricas y direcciones de optimización cuando no se satisfacen condiciones ideales
- Modelos Aleatorios: ∣S∣=100,∣A∣=10, densidad de matriz de transición 10%-100%
- MDP Débilmente Acoplado: ∣S∣=3600,∣A∣=10, simulando toma de decisiones jerárquica
- Mundo de Cuadrícula de Cuatro Habitaciones: ∣S∣=6400,∣A∣=4, tarea de navegación clásica
- Gestión de Cola en Cascada: ∣S∣=6084,∣A∣=3, inspirada en sistemas de servidores reales
- Desempeño de Política: JS(π)=Es0∼ξS[VSπ(s0)]
- Tiempo Computacional: Medición de tiempo de reloj para eficiencia real
- Convergencia: Convergencia de iteración de política a solución óptima
Incluye 7 métodos de referencia:
- Iteración de Política Estándar (PolicyIter)
- Técnicas de Agregación Clásica (Bertsekas)
- Métodos Recientes: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.
- Tasa de Aprendizaje: 1×10−3
- Número de Estados Abstractos: ∣U∣=int(0.5×r)
- Hardware: CPU AMD Ryzen 7 5800X + GPU NVIDIA GeForce RTX 3090
La Figura 2 presenta resultados de verificación en tareas de pequeña escala con ∣S∣=100:
- Cuando se Satisfacen Condiciones Suficientes: Las curvas marcadas como "100%" (correspondientes a ∣U∣=r) convergen al valor óptimo en todas las tareas, verificando la corrección de Teoremas 2 y 3
- Cuando No se Satisfacen Condiciones Suficientes: Las curvas marcadas como "80%", "50%", "20%" muestran oscilaciones evidentes, sin garantizar convergencia a solución óptima
- Desempeño de EBHPG: El desempeño real (línea sólida) mejora conforme la cota inferior de desempeño (línea punteada) mejora, verificando Teoremas 5 y 6
La Figura 3 presenta comparación de desempeño en tareas a gran escala:
- Eficiencia Computacional: El método propuesto supera significativamente a métodos de referencia en todas las tareas excepto el entorno de cuatro habitaciones
- Basado en Modelo vs Sin Modelo: Los métodos basados en modelo generalmente superan a métodos sin modelo, debido a planificación exacta en lugar de muestreo
- Ventaja de Operaciones Matriciales: Las operaciones matriciales proporcionan mejoras de eficiencia significativas comparadas con implementaciones de bucles anidados en métodos de referencia
En el entorno de cuatro habitaciones, todos los métodos tienen dificultad para superar la referencia, posibles razones:
- Estructura de recompensa extremadamente dispersa
- La combinación de espacio de estados grande con recompensas dispersas dificulta la exploración
- La dispersión de la función de recompensa puede ralentizar la eficiencia de iteración de política
- Métodos Basados en Características: Utilizan funciones de características diseñadas manualmente o aprendidas, como redes bayesianas dinámicas, análisis espectral
- Agregación Basada en Valor: Se enfoca en minimizar errores de aproximación de funciones de valor, como algoritmos de agregación iterativa adaptativa
- Teoría de MDP Homomórficos: Marco de asignaciones que preservan estructura propuesto por Ravindran
- Teoría de Bisimulación: Extensión de conceptos clásicos de equivalencia de comportamiento en MDP
- Extensión a Espacios Continuos: Extensión de métricas de bisimulación a espacios de estados continuos por Ferns et al.
Comparado con métodos existentes, este trabajo proporciona condiciones suficientes más flexibles e implementación computacional más eficiente.
- Establece un marco teórico de agregación de estados basado en asignaciones homomórficas
- Proporciona condiciones suficientes para equivalencia de políticas óptimas, más flexibles que MDP homomórficos tradicionales
- Desarrolla dos algoritmos prácticos, HPG y EBHPG, verificados tanto teórica como experimentalmente
- Restricción de Condiciones Suficientes: En algunos casos, el costo computacional de satisfacer condiciones suficientes podría seguir siendo alto
- Garantías de Convergencia: No se puede garantizar convergencia a política óptima cuando existe error de aproximación
- Espacios Continuos: El análisis no se extiende a espacios de estados continuos
- Relajar condiciones suficientes para equivalencia de políticas óptimas
- Extender a espacios de estados continuos
- Mejorar garantías de convergencia en casos con aproximación
- Contribución Teórica: Propone un marco teórico más general que métodos existentes
- Practicidad: El diseño de algoritmos considera eficiencia computacional, adecuado para aplicaciones a gran escala
- Completitud: Forma una cadena de investigación completa desde análisis teórico, diseño de algoritmos hasta verificación experimental
- Rigor: Derivaciones matemáticas rigurosas y diseño experimental razonable
- Rango de Aplicabilidad: Las condiciones suficientes podrían seguir siendo demasiado restrictivas en algunos casos
- Cobertura Experimental: Los resultados anómalos en el entorno de cuatro habitaciones requieren análisis más profundo
- Métodos de Comparación: Algunos métodos de comparación podrían no ser los más recientes del estado del arte
- Valor Teórico: Proporciona nuevas herramientas teóricas para agregación de estados en MDP
- Valor Práctico: Los algoritmos demuestran ventajas en múltiples tareas prácticas
- Extensibilidad: El marco tiene potencial para extensión a otros problemas
- Resolución de MDP a gran escala
- Aprendizaje por refuerzo jerárquico
- Sistemas multiagente
- Problemas de decisión con espacios de estados estructurados
El artículo cita 50 trabajos relacionados, abarcando múltiples campos incluyendo teoría de MDP, abstracción de estados, aprendizaje por refuerzo, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad que equilibra teoría y práctica, realizando contribuciones importantes en el campo de agregación de estados en MDP. El marco teórico es novedoso y práctico, el diseño de algoritmos es razonable, y la verificación experimental es suficiente. Aunque existen algunas limitaciones, en general proporciona herramientas teóricas y métodos prácticos valiosos para el desarrollo del campo.