2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic

Heterogeneous RBCs via deep multi-agent reinforcement learning

Información Básica

  • ID del Artículo: 2510.12272
  • Título: Heterogeneous RBCs via deep multi-agent reinforcement learning
  • Autores: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
  • Clasificación: cs.MA cs.LG econ.TH
  • Fecha de Publicación: 14 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.12272

Resumen

Los modelos macroeconómicos actuales con heterogeneidad de agentes pueden clasificarse en dos categorías principales. Los modelos de equilibrio general (GE) con agentes heterogéneos, como aquellos basados en los métodos HANK o Krusell-Smith (KS), dependen de supuestos de equilibrio general y "expectativas racionales", que son poco realistas y hacen que el modelo sea computacionalmente complejo, limitando el grado de heterogeneidad que puede modelarse. En contraste, los modelos basados en agentes (ABMs) pueden incluir flexiblemente una gran cantidad de agentes arbitrariamente heterogéneos, pero típicamente requieren la especificación explícita de reglas de comportamiento, lo que resulta en un largo proceso de desarrollo de modelos por ensayo y error. Para abordar estas limitaciones, este artículo introduce el marco MARL-BC, que combina aprendizaje por refuerzo profundo multiagente (MARL) con modelos de ciclo económico real (RBC).

Antecedentes y Motivación de la Investigación

Definición del Problema

La modelización macroeconómica tradicional se basa en modelos de equilibrio general que utilizan agentes representativos, como los modelos RBC y neokeynesiano. Sin embargo, una limitación bien conocida de los modelos de agentes representativos es su incapacidad para considerar la heterogeneidad de agentes.

Limitaciones de los Métodos Existentes

  1. Modelos GE con Agentes Heterogéneos:
    • Requieren el supuesto de "expectativas racionales", es decir, los agentes deben rastrear toda la distribución de riqueza o ingresos como variables de estado
    • Alto costo computacional, que limita significativamente el grado de heterogeneidad alcanzable
    • Típicamente solo pueden lograr heterogeneidad "ex-post", es decir, todos los agentes comienzan idénticos y se diferencian solo por choques aleatorios individuales
  2. Modelos Basados en Agentes (ABMs):
    • Abandonan completamente el agente representativo y el supuesto de expectativas racionales
    • Requieren que el modelador decida directamente las reglas de comportamiento de los agentes
    • Difícil de manejar correctamente la arbitrariedad en la especificación de reglas y determinar reglas realistas

Motivación de la Investigación

El aprendizaje por refuerzo (RL), particularmente el aprendizaje por refuerzo multiagente (MARL), proporciona nuevos métodos para modelar agentes heterogéneos en macroeconomía. El paradigma de aprendizaje RL parece ofrecer una síntesis natural entre los extremos de GE y ABM: los agentes pueden ser de racionalidad limitada y diversos, pero su comportamiento emerge endógenamente de un proceso de optimización fundamentado (aprendizaje para maximizar recompensas).

Contribuciones Principales

  1. Desarrollo del Marco MARL-BC: Un marco basado en MARL que extiende el modelo RBC clásico, soportando múltiples hogares con heterogeneidad rica y flexible
  2. Demostración de Viabilidad de Entrenamiento: El entrenamiento utilizando algoritmos RL de última generación (PPO, SAC, DDPG) es computacionalmente viable
  3. Reproducción de Resultados Clásicos: Cuando se utiliza un único agente, se pueden recuperar resultados de RBC de libros de texto
  4. Reproducción de Modelos de Campo Medio: Cuando se utilizan muchos agentes ex-ante idénticos, se pueden recuperar resultados del modelo de campo medio Krusell-Smith
  5. Soporte para Heterogeneidad Rica: Simulación efectiva de heterogeneidad rica entre agentes, una tarea difícil para los métodos GE tradicionales

Explicación Detallada del Método

Definición de la Tarea

El marco MARL-BC tiene como objetivo extender el modelo RBC clásico mediante aprendizaje por refuerzo multiagente para soportar agentes de hogares heterogéneos, permitiendo:

  • Recuperar el modelo RBC tradicional en el caso de un único agente
  • Recuperar el modelo de campo medio Krusell-Smith en el caso de múltiples agentes idénticos
  • Soportar modelización de agentes con heterogeneidad arbitraria

Arquitectura del Modelo

Entorno RBC Heterogéneo

El modelo contiene n tipos de hogares i = 1,...,n y una única empresa:

  1. Capital Efectivo Total y Fuerza Laboral:
    K_t = (1/n) * Σ(κ_i * k_i_t)
    L_t = (1/n) * Σ(λ_i * ℓ_i_t)
    

    donde κ_i y λ_i son las productividades del capital y trabajo respectivamente
  2. Función de Producción: Utilizando función Cobb-Douglas
    Y_t = A_t * K_t^α * L_t^(1-α)
    
  3. Costos de Capital y Trabajo: Asumiendo mercados perfectamente competitivos
    r_i_t = α * (Y_t/K_t) * κ_i
    w_i_t = (1-α) * (Y_t/L_t) * λ_i
    
  4. Riqueza del Hogar:
    a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t
    

Agentes de Hogares RL

  1. Espacio de Acciones: La acción en cada paso de tiempo es una tupla (c_i_t, ℓ_i_t)
    • c_i_t: proporción de consumo, rango (0.01, 0.99)
    • ℓ_i_t: oferta de trabajo, rango (0.01, 0.99)
  2. Espacio de Observación:
    x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)
    
  3. Función de Recompensa:
    R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
    

    donde b > 0 controla el equilibrio entre consumo y ocio
  4. Aprendizaje de Política: Cada hogar RL aprende una política determinista
    π_i: x_i_t → (c_i_t, ℓ_i_t)
    

    maximizando la suma de recompensas descontadas esperadas:
    R_i = E_π_i[Σ_t β^t * R_i_t]
    

Puntos de Innovación Técnica

  1. Compartición de Parámetros: Adopción del paradigma estándar de compartición de parámetros MARL, donde una única red neuronal representa todos los agentes, logrando comportamientos diferentes a través de características individuales en las observaciones
  2. Aprendices Independientes: Entrenamiento de aprendices independientes, cada uno accediendo solo a un conjunto de información parcial x_i_t, optimizando políticas de mejor respuesta aproximadas
  3. Heterogeneidad Flexible: Soporte para configuraciones arbitrarias de heterogeneidad en productividades de capital y trabajo
  4. Marco Unificado: Recuperación de resultados GE en casos límite, uso como ABM en casos generales

Configuración Experimental

Parámetros Experimentales

ParámetroRBCKSGeneral
n (número de hogares)12020
T (longitud de episodio)500500500
κ_i (productividad del capital)11{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (productividad del trabajo)11{0.98, 1, 1.02}
α (elasticidad de producción)0.360.360.36
δ (depreciación del capital){1, 0.025}0.0250.025
β (factor de descuento)0.950.950.95

Métodos de Comparación

Se utilizan cuatro algoritmos RL para comparación:

  • DDPG (Deep Deterministic Policy Gradient)
  • TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • SAC (Soft Actor Critic)
  • PPO (Proximal Policy Optimization)

Detalles de Implementación

  • Desarrollo del entorno MARL utilizando la interfaz PettingZoo
  • Algoritmos RL de Stable-Baselines3
  • Entrenamiento de 10^6 pasos para entorno de un único agente, 10^5 actualizaciones por agente para entorno multiagente
  • Adopción de compartición de parámetros para mejorar eficiencia de muestras y escalabilidad

Resultados Experimentales

Resultados Principales

1. Límite de Agente Representativo RBC

  • Desempeño del Algoritmo: SAC, TD3 y DDPG convergen significativamente más rápido que PPO, siendo SAC el aprendiz más estable
  • Reproducción de RBC de Libro de Texto: En caso de depreciación completa (δ=1), el hogar RL aprende a recuperar la política óptima, convergiendo al valor óptimo después de aproximadamente 10^4 pasos de entrenamiento
  • Reproducción de RBC Típico: En caso de depreciación parcial (δ=0.025), las elecciones de consumo y trabajo aprendidas coinciden con resultados calculados por software Dynare
  • Funciones de Respuesta al Impulso: Reproducción exitosa de funciones de respuesta al impulso estándar, estadísticamente consistentes con resultados de métodos tradicionales

2. Límite de Campo Medio Krusell-Smith

  • Ley de Movimiento KS: Relación completamente lineal emerge endógenamente (R² > 0.99), sin necesidad de supuestos previos
  • Características de Distribución: Coeficiente de Gini convergente de 0.18 después de convergencia, cercano a 0.25 calculado en KS original
  • Propensión Marginal al Consumo: Curva aprendida plana en riqueza alta, aumentando abruptamente en riqueza baja, consistente con resultados clave del artículo KS original

3. Modelización de Mayor Heterogeneidad

  • KS con Retornos de Capital Heterogéneos: Introducción de diferentes productividades de capital permite coeficiente de Gini de 0.33 (heterogeneidad leve) y 0.61 (heterogeneidad significativa)
  • RBC Heterogéneo: En configuración de cuadrícula 3×3 de 9 agentes, diferentes productividades resultan en niveles de riqueza superpuestos pero distintos
  • Escalabilidad: Extensión exitosa a cientos de agentes (máximo 529), manteniendo SAC alto desempeño estable en todas las escalas

Experimentos de Ablación

Comparación del desempeño de diferentes algoritmos RL bajo diferentes números de agentes:

  • SAC obtiene consistentemente alta recompensa de evaluación en todos los tamaños de población
  • PPO muestra desempeño pobre en poblaciones pequeñas, mejorando con aumento de n
  • TD3 y DDPG muestran desempeño inestable en casos de n grande

Hallazgos Experimentales

  1. Convergencia: Todos los algoritmos RL considerados logran aprender exitosamente políticas que optimizan recompensas acumuladas
  2. Estabilidad: SAC es el aprendiz más confiable, particularmente en configuraciones multiagente
  3. Escalabilidad: El marco puede extenderse a cientos de hogares heterogéneos, alcanzable incluso en hardware ordinario
  4. Comportamiento Emergente: Comportamientos como estrategias de consumo "mano a boca" emergen endógenamente, sin necesidad de codificación heurística

Trabajo Relacionado

Aplicaciones de RL en Economía

  • Contribuciones tempranas: Uso de RL profundo multiagente para simular comportamiento económico emergente en economías de juguete simplificadas
  • Dominio financiero: Aplicación exitosa en modelización de diversas estrategias de negociación
  • Macroeconomía: Exploración reciente de técnicas RL para extender marcos GE clásicos

Distinción del Trabajo Existente

  1. Extremo Económico: Enfoque principal en RL de un único agente, demostrando recuperación de funciones de política de modelos GE de agentes representativos
  2. Extremo Informático: Experimentación con RL multiagente, demostrando capacidad de producir comportamiento económico emergente rico, pero mayormente ignorando modelos base de macroeconomía
  3. Este Trabajo: Puente entre dos líneas de investigación, proporcionando fundación conectando investigación de ambas disciplinas

Conclusiones y Discusión

Conclusiones Principales

  1. El marco MARL-BC integra exitosamente MARL profundo con entornos RBC
  2. El marco puede recuperar resultados RBC clásicos de libro de texto y modelo de campo medio Krusell-Smith
  3. Capaz de modelizar heterogeneidad de agentes rica, difícil de lograr con métodos GE tradicionales
  4. Proporciona paso hacia síntesis de modelos ABM y GE con agentes heterogéneos

Limitaciones

  1. Costo Computacional: Entrenamiento preciso de agentes RL requiere costo computacional considerable, ejecución de entrenamiento multiagente requiere horas
  2. Dependencia de Hardware: Requiere aceleración GPU para reducir significativamente carga computacional
  3. Complejidad del Modelo: Comparado con métodos tradicionales, requiere proceso de entrenamiento y ajuste más complejo

Direcciones Futuras

  1. Implementación Vectorizada GPU: Implementación de estilo vectorizado de entorno MARL para aprovechar completamente aceleración GPU
  2. Investigación de Problemas Económicos Específicos: Aplicación del marco para investigar desigualdad económica, cambios asimétricos en productividad laboral y otros problemas económicos concretos
  3. Impacto de Herramientas IA: Investigación de consecuencias económicas y financieras de propagación de herramientas IA en lugares de trabajo

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica:
    • Primera combinación exitosa de MARL con modelos macroeconómicos clásicos
    • Proporciona puente entre modelos ABM y GE
    • Reproducción precisa de resultados de modelos tradicionales en casos límite
  2. Suficiencia Experimental:
    • Validación en tres niveles: RBC de un único agente, KS de campo medio, heterogeneidad general
    • Comparación sistemática de múltiples algoritmos RL
    • Pruebas de escalabilidad cubriendo desde dígitos simples a cientos de agentes
  3. Convincencia de Resultados:
    • Reproducción cuantitativa de métricas clave de modelos clásicos
    • Validación de significancia estadística (como funciones de respuesta al impulso)
    • Demostración de capacidad de modelización de heterogeneidad difícil de lograr con métodos tradicionales
  4. Claridad de Escritura:
    • Descripción clara del marco y expresión matemática
    • Gráficos intuitivos presentando resultados
    • Detalles detallados de hiperparámetros e implementación

Insuficiencias

  1. Limitaciones Metodológicas:
    • Dependencia de compartición de parámetros puede limitar verdadera independencia de comportamiento de agentes
    • Método de aprendices independientes puede no alcanzar soluciones de equilibrio verdadero
  2. Defectos en Configuración Experimental:
    • Número de agentes relativamente limitado (máximo 529)
    • Falta de comparación directa con otros métodos de modelización económica
    • Análisis de tiempo computacional basado principalmente en CPU, desempeño GPU no suficientemente explorado
  3. Análisis Insuficiente:
    • Falta de análisis teórico de convergencia
    • Comprensión teórica limitada de dinámicas de aprendizaje
    • Análisis de sensibilidad de parámetros insuficiente

Impacto

  1. Contribución al Campo:
    • Proporciona nuevo marco metodológico para modelización macroeconómica
    • Promueve investigación interdisciplinaria entre informática y economía
    • Abre nuevas direcciones para modelización de sistemas económicos complejos
  2. Valor Práctico:
    • Código de código abierto mejora reproducibilidad y extensibilidad
    • Proporciona nuevas herramientas para análisis de política
    • Soporta supuestos de heterogeneidad más realistas
  3. Reproducibilidad:
    • Configuración detallada de hiperparámetros
    • Código de código abierto y detalles de implementación
    • Protocolo experimental estandarizado

Escenarios Aplicables

  1. Análisis de Política Macroeconómica: Particularmente escenarios que requieren consideración de heterogeneidad de agentes
  2. Investigación de Desigualdad Económica: Utilización de productividades heterogéneas para modelización de distribución de riqueza
  3. Modelización de Sistemas Económicos Complejos: Problemas de heterogeneidad de alta dimensión difíciles de manejar con métodos GE tradicionales
  4. Herramienta de Enseñanza e Investigación: Marco de modelización intuitivo para educación económica

Referencias

Este artículo cita 60 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo macroeconomía, aprendizaje por refuerzo y sistemas multiagente, proporcionando base teórica sólida para investigación interdisciplinaria.