2025-11-20T19:43:15.563163

Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes

Zhao, Li, Feng et al.
State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
academic

Asignaciones Homomórficas para Agregación de Estados que Preserva Valor en Procesos de Decisión de Markov

Información Básica

  • ID del Artículo: 2510.09965
  • Título: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
  • Autores: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
  • Clasificación: cs.LG cs.AI stat.ML
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09965

Resumen

Este artículo aborda el problema de agregación de estados en Procesos de Decisión de Markov (MDP) mediante un marco abstracto basado en asignaciones homomórficas. El marco establece la homomorficidad definiendo relaciones lineales de funciones de valor entre dos cadenas de Markov, preservando así la equivalencia de políticas óptimas mientras se reduce la complejidad computacional. El artículo propone dos algoritmos, HPG y EBHPG, que proporcionan garantías teóricas cuando se satisfacen y no se satisfacen condiciones suficientes, respectivamente, y verifica la validez de los resultados teóricos mediante experimentos.

Antecedentes de Investigación y Motivación

Definición del Problema

Con la aplicación generalizada de MDP en problemas complejos del mundo real, la complejidad computacional derivada de espacios de estados de gran escala se ha vuelto cada vez más prominente. La agregación de estados, como estrategia clave, tiene como objetivo reducir los costos computacionales comprimiendo el espacio de estados. Sin embargo, el desafío central radica en garantizar que las políticas optimizadas en el espacio abstracto sigan siendo óptimas en el MDP original.

Importancia de la Investigación

  1. Eficiencia Computacional: La complejidad de resolver MDP a gran escala crece exponencialmente con el espacio de estados
  2. Aplicaciones Prácticas: Demanda urgente en coordinación multiagente, aprendizaje de representación visual, sistemas operacionales y otros campos
  3. Significado Teórico: Falta de herramientas teóricas sistemáticas para analizar la equivalencia de políticas óptimas

Limitaciones de Métodos Existentes

  1. Métodos Basados en Características: Requieren recursos computacionales sustanciales, especialmente en configuraciones de alta dimensionalidad
  2. Agregación Basada en Valor: Aunque se enfoca en minimizar errores de funciones de valor, carece de herramientas teóricas para la equivalencia de políticas óptimas
  3. Teoría de MDP Homomórficos: Requiere que el MDP abstracto preserve completamente la dinámica de recompensas y transiciones del MDP original, imponiendo condiciones demasiado restrictivas

Contribuciones Principales

  1. Propone Marco de Cadenas de Markov Homomórficas: Establece un marco teórico más flexible que el MDP homomórfico tradicional, requiriendo solo relaciones lineales entre funciones de valor
  2. Establece Condiciones Suficientes para Equivalencia de Políticas Óptimas: Demuestra que la equivalencia de políticas óptimas se cumple cuando el espacio de filas de la matriz de codificación contiene el espacio generado por vectores de transición fundamentales
  3. Desarrolla Algoritmo HPG: Algoritmo de gradiente de política que garantiza equivalencia de políticas óptimas cuando se satisfacen condiciones suficientes
  4. Diseña Algoritmo EBHPG: Algoritmo extendido que maneja casos donde no se satisfacen condiciones suficientes, proporcionando garantías de cota inferior de desempeño
  5. Proporciona Análisis de Límites de Error: Deriva límites superiores de error de aproximación y cotas inferiores de desempeño de función objetivo

Explicación Detallada del Método

Definición de la Tarea

Dado un MDP de horizonte infinito MS=(S,A,PSA,γ,r)M_S = (S,A,P_{SA},\gamma,r), el objetivo es encontrar una matriz de codificación PνP_\nu y un espacio de estados abstracto UU tales que la política optimizada en el espacio abstracto permanezca óptima en el MDP original.

Marco Teórico Principal

Definición de Cadena de Markov Homomórfica

Definición 1: Dada una cadena de Markov base MSπM^\pi_S inducida por política π\pi y una cadena de Markov abstracta MUμM^\mu_U, se dice que MUμM^\mu_U es una cadena de Markov homomórfica de MSπM^\pi_S si satisface:

PUμPν=PνPSπP^\mu_U P_\nu = P_\nu P^\pi_SRUπ,ν=PνRSπR^{\pi,\nu}_U = P_\nu R^\pi_S

donde PνRU×SP_\nu \in \mathbb{R}^{|U| \times |S|} es la matriz de codificación.

Relación Lineal de Funciones de Valor

Teorema 1: Si MUμM^\mu_U es una cadena de Markov homomórfica de MSπM^\pi_S, entonces sus funciones de valor satisfacen la relación lineal: VUμ=PνVSπV^\mu_U = P_\nu V^\pi_S

Condiciones de Existencia de Asignación Homomórfica

Teorema 3: Dado un MDP base MSM_S y una matriz de codificación PνP_\nu, la asignación homomórfica fν:ΠSΠUf_\nu: \Pi_S \to \Pi_U existe si y solo si el espacio de filas de PνP_\nu contiene span(F)\text{span}(F), donde FF es el subconjunto máximo linealmente independiente de todos los vectores de transición fundamentales.

Diseño de Algoritmos

Algoritmo HPG (Algoritmo 1)

Cuando se satisfacen las condiciones suficientes:

  1. Calcular la pseudoinversa de Moore-Penrose PνP_\nu^\dagger de PνP_\nu
  2. Calcular la matriz de transición abstracta mediante Cπθt=PSπθtPνC^{\pi_{\theta_t}} = P^{\pi_{\theta_t}}_S P_\nu^\dagger
  3. Evaluar la función de valor abstracta VUfν(πθt)V^{f_\nu(\pi_{\theta_t})}_U
  4. Actualizar parámetros de política θt+1\theta_{t+1}

Complejidad Computacional: O(SA+US2+U3)O(|S||A| + |U||S|^2 + |U|^3), significativamente mejor que la evaluación de política estándar de O(SA+S3)O(|S||A| + |S|^3) cuando US|U| \ll |S|.

Algoritmo EBHPG (Algoritmo 2)

Cuando no se satisfacen las condiciones suficientes, optimiza la cota inferior de desempeño: JS(π~)JU(fν(π~))g(π~,ν)1γJ_S(\tilde{\pi}) \geq J_U(f_\nu(\tilde{\pi})) - \frac{\|g(\tilde{\pi},\nu)\|}{1-\gamma}

donde g(π,ν)1γ\frac{\|g(\pi,\nu)\|}{1-\gamma} es una cota superior de la diferencia de desempeño.

Puntos de Innovación Técnica

  1. Relajación de Condiciones: Comparado con MDP homomórficos tradicionales que requieren igualdad completa de probabilidades de transición, este trabajo solo requiere dependencia lineal
  2. Optimización de Operaciones Matriciales: Implementa agregación mediante operaciones matriciales en lugar de bucles iterativos, mejorando eficiencia computacional
  3. Límites de Error: Proporciona garantías teóricas y direcciones de optimización cuando no se satisfacen condiciones ideales

Configuración Experimental

Conjuntos de Datos

  1. Modelos Aleatorios: S=100,A=10|S|=100, |A|=10, densidad de matriz de transición 10%-100%
  2. MDP Débilmente Acoplado: S=3600,A=10|S|=3600, |A|=10, simulando toma de decisiones jerárquica
  3. Mundo de Cuadrícula de Cuatro Habitaciones: S=6400,A=4|S|=6400, |A|=4, tarea de navegación clásica
  4. Gestión de Cola en Cascada: S=6084,A=3|S|=6084, |A|=3, inspirada en sistemas de servidores reales

Métricas de Evaluación

  • Desempeño de Política: JS(π)=Es0ξS[VSπ(s0)]J_S(\pi) = \mathbb{E}_{s_0 \sim \xi_S}[V^\pi_S(s_0)]
  • Tiempo Computacional: Medición de tiempo de reloj para eficiencia real
  • Convergencia: Convergencia de iteración de política a solución óptima

Métodos de Comparación

Incluye 7 métodos de referencia:

  • Iteración de Política Estándar (PolicyIter)
  • Técnicas de Agregación Clásica (Bertsekas)
  • Métodos Recientes: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.

Detalles de Implementación

  • Tasa de Aprendizaje: 1×1031 \times 10^{-3}
  • Número de Estados Abstractos: U=int(0.5×r)|U| = \text{int}(0.5 \times r)
  • Hardware: CPU AMD Ryzen 7 5800X + GPU NVIDIA GeForce RTX 3090

Resultados Experimentales

Experimentos de Verificación Teórica

La Figura 2 presenta resultados de verificación en tareas de pequeña escala con S=100|S|=100:

  1. Cuando se Satisfacen Condiciones Suficientes: Las curvas marcadas como "100%" (correspondientes a U=r|U|=r) convergen al valor óptimo en todas las tareas, verificando la corrección de Teoremas 2 y 3
  2. Cuando No se Satisfacen Condiciones Suficientes: Las curvas marcadas como "80%", "50%", "20%" muestran oscilaciones evidentes, sin garantizar convergencia a solución óptima
  3. Desempeño de EBHPG: El desempeño real (línea sólida) mejora conforme la cota inferior de desempeño (línea punteada) mejora, verificando Teoremas 5 y 6

Comparación de Desempeño a Gran Escala

La Figura 3 presenta comparación de desempeño en tareas a gran escala:

  1. Eficiencia Computacional: El método propuesto supera significativamente a métodos de referencia en todas las tareas excepto el entorno de cuatro habitaciones
  2. Basado en Modelo vs Sin Modelo: Los métodos basados en modelo generalmente superan a métodos sin modelo, debido a planificación exacta en lugar de muestreo
  3. Ventaja de Operaciones Matriciales: Las operaciones matriciales proporcionan mejoras de eficiencia significativas comparadas con implementaciones de bucles anidados en métodos de referencia

Análisis de Casos Especiales

En el entorno de cuatro habitaciones, todos los métodos tienen dificultad para superar la referencia, posibles razones:

  • Estructura de recompensa extremadamente dispersa
  • La combinación de espacio de estados grande con recompensas dispersas dificulta la exploración
  • La dispersión de la función de recompensa puede ralentizar la eficiencia de iteración de política

Trabajo Relacionado

Clasificación de Métodos de Abstracción de Estados

  1. Métodos Basados en Características: Utilizan funciones de características diseñadas manualmente o aprendidas, como redes bayesianas dinámicas, análisis espectral
  2. Agregación Basada en Valor: Se enfoca en minimizar errores de aproximación de funciones de valor, como algoritmos de agregación iterativa adaptativa

Desarrollo de Marcos Teóricos

  1. Teoría de MDP Homomórficos: Marco de asignaciones que preservan estructura propuesto por Ravindran
  2. Teoría de Bisimulación: Extensión de conceptos clásicos de equivalencia de comportamiento en MDP
  3. Extensión a Espacios Continuos: Extensión de métricas de bisimulación a espacios de estados continuos por Ferns et al.

Ventajas Relativas de Este Trabajo

Comparado con métodos existentes, este trabajo proporciona condiciones suficientes más flexibles e implementación computacional más eficiente.

Conclusiones y Discusión

Conclusiones Principales

  1. Establece un marco teórico de agregación de estados basado en asignaciones homomórficas
  2. Proporciona condiciones suficientes para equivalencia de políticas óptimas, más flexibles que MDP homomórficos tradicionales
  3. Desarrolla dos algoritmos prácticos, HPG y EBHPG, verificados tanto teórica como experimentalmente

Limitaciones

  1. Restricción de Condiciones Suficientes: En algunos casos, el costo computacional de satisfacer condiciones suficientes podría seguir siendo alto
  2. Garantías de Convergencia: No se puede garantizar convergencia a política óptima cuando existe error de aproximación
  3. Espacios Continuos: El análisis no se extiende a espacios de estados continuos

Direcciones Futuras

  1. Relajar condiciones suficientes para equivalencia de políticas óptimas
  2. Extender a espacios de estados continuos
  3. Mejorar garantías de convergencia en casos con aproximación

Evaluación Profunda

Fortalezas

  1. Contribución Teórica: Propone un marco teórico más general que métodos existentes
  2. Practicidad: El diseño de algoritmos considera eficiencia computacional, adecuado para aplicaciones a gran escala
  3. Completitud: Forma una cadena de investigación completa desde análisis teórico, diseño de algoritmos hasta verificación experimental
  4. Rigor: Derivaciones matemáticas rigurosas y diseño experimental razonable

Insuficiencias

  1. Rango de Aplicabilidad: Las condiciones suficientes podrían seguir siendo demasiado restrictivas en algunos casos
  2. Cobertura Experimental: Los resultados anómalos en el entorno de cuatro habitaciones requieren análisis más profundo
  3. Métodos de Comparación: Algunos métodos de comparación podrían no ser los más recientes del estado del arte

Impacto

  1. Valor Teórico: Proporciona nuevas herramientas teóricas para agregación de estados en MDP
  2. Valor Práctico: Los algoritmos demuestran ventajas en múltiples tareas prácticas
  3. Extensibilidad: El marco tiene potencial para extensión a otros problemas

Escenarios Aplicables

  1. Resolución de MDP a gran escala
  2. Aprendizaje por refuerzo jerárquico
  3. Sistemas multiagente
  4. Problemas de decisión con espacios de estados estructurados

Referencias

El artículo cita 50 trabajos relacionados, abarcando múltiples campos incluyendo teoría de MDP, abstracción de estados, aprendizaje por refuerzo, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad que equilibra teoría y práctica, realizando contribuciones importantes en el campo de agregación de estados en MDP. El marco teórico es novedoso y práctico, el diseño de algoritmos es razonable, y la verificación experimental es suficiente. Aunque existen algunas limitaciones, en general proporciona herramientas teóricas y métodos prácticos valiosos para el desarrollo del campo.