2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

academic

Heterogeneous RBCs via deep multi-agent reinforcement learning

Información Básica

ID del Artículo: 2510.12272
Título: Heterogeneous RBCs via deep multi-agent reinforcement learning
Autores: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
Clasificación: cs.MA cs.LG econ.TH
Fecha de Publicación: 14 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12272

Resumen

Los modelos macroeconómicos actuales con heterogeneidad de agentes pueden clasificarse en dos categorías principales. Los modelos de equilibrio general (GE) con agentes heterogéneos, como aquellos basados en los métodos HANK o Krusell-Smith (KS), dependen de supuestos de equilibrio general y "expectativas racionales", que son poco realistas y hacen que el modelo sea computacionalmente complejo, limitando el grado de heterogeneidad que puede modelarse. En contraste, los modelos basados en agentes (ABMs) pueden incluir flexiblemente una gran cantidad de agentes arbitrariamente heterogéneos, pero típicamente requieren la especificación explícita de reglas de comportamiento, lo que resulta en un largo proceso de desarrollo de modelos por ensayo y error. Para abordar estas limitaciones, este artículo introduce el marco MARL-BC, que combina aprendizaje por refuerzo profundo multiagente (MARL) con modelos de ciclo económico real (RBC).

Antecedentes y Motivación de la Investigación

Definición del Problema

La modelización macroeconómica tradicional se basa en modelos de equilibrio general que utilizan agentes representativos, como los modelos RBC y neokeynesiano. Sin embargo, una limitación bien conocida de los modelos de agentes representativos es su incapacidad para considerar la heterogeneidad de agentes.

Limitaciones de los Métodos Existentes

Modelos GE con Agentes Heterogéneos:
- Requieren el supuesto de "expectativas racionales", es decir, los agentes deben rastrear toda la distribución de riqueza o ingresos como variables de estado
- Alto costo computacional, que limita significativamente el grado de heterogeneidad alcanzable
- Típicamente solo pueden lograr heterogeneidad "ex-post", es decir, todos los agentes comienzan idénticos y se diferencian solo por choques aleatorios individuales
Modelos Basados en Agentes (ABMs):
- Abandonan completamente el agente representativo y el supuesto de expectativas racionales
- Requieren que el modelador decida directamente las reglas de comportamiento de los agentes
- Difícil de manejar correctamente la arbitrariedad en la especificación de reglas y determinar reglas realistas

Motivación de la Investigación

El aprendizaje por refuerzo (RL), particularmente el aprendizaje por refuerzo multiagente (MARL), proporciona nuevos métodos para modelar agentes heterogéneos en macroeconomía. El paradigma de aprendizaje RL parece ofrecer una síntesis natural entre los extremos de GE y ABM: los agentes pueden ser de racionalidad limitada y diversos, pero su comportamiento emerge endógenamente de un proceso de optimización fundamentado (aprendizaje para maximizar recompensas).

Contribuciones Principales

Desarrollo del Marco MARL-BC: Un marco basado en MARL que extiende el modelo RBC clásico, soportando múltiples hogares con heterogeneidad rica y flexible
Demostración de Viabilidad de Entrenamiento: El entrenamiento utilizando algoritmos RL de última generación (PPO, SAC, DDPG) es computacionalmente viable
Reproducción de Resultados Clásicos: Cuando se utiliza un único agente, se pueden recuperar resultados de RBC de libros de texto
Reproducción de Modelos de Campo Medio: Cuando se utilizan muchos agentes ex-ante idénticos, se pueden recuperar resultados del modelo de campo medio Krusell-Smith
Soporte para Heterogeneidad Rica: Simulación efectiva de heterogeneidad rica entre agentes, una tarea difícil para los métodos GE tradicionales

Explicación Detallada del Método

Definición de la Tarea

El marco MARL-BC tiene como objetivo extender el modelo RBC clásico mediante aprendizaje por refuerzo multiagente para soportar agentes de hogares heterogéneos, permitiendo:

Recuperar el modelo RBC tradicional en el caso de un único agente
Recuperar el modelo de campo medio Krusell-Smith en el caso de múltiples agentes idénticos
Soportar modelización de agentes con heterogeneidad arbitraria

Arquitectura del Modelo

Entorno RBC Heterogéneo

El modelo contiene n tipos de hogares i = 1,...,n y una única empresa:

Capital Efectivo Total y Fuerza Laboral:
```
K_t = (1/n) * Σ(κ_i * k_i_t)
L_t = (1/n) * Σ(λ_i * ℓ_i_t)
```
donde κ_i y λ_i son las productividades del capital y trabajo respectivamente
Función de Producción: Utilizando función Cobb-Douglas
```
Y_t = A_t * K_t^α * L_t^(1-α)
```
Costos de Capital y Trabajo: Asumiendo mercados perfectamente competitivos
```
r_i_t = α * (Y_t/K_t) * κ_i
w_i_t = (1-α) * (Y_t/L_t) * λ_i
```

Riqueza del Hogar:

a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t

Agentes de Hogares RL

Espacio de Acciones: La acción en cada paso de tiempo es una tupla (c_i_t, ℓ_i_t)
- c_i_t: proporción de consumo, rango (0.01, 0.99)
- ℓ_i_t: oferta de trabajo, rango (0.01, 0.99)

Espacio de Observación:

x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)

Función de Recompensa:
```
R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
```
donde b > 0 controla el equilibrio entre consumo y ocio
Aprendizaje de Política: Cada hogar RL aprende una política determinista
```
π_i: x_i_t → (c_i_t, ℓ_i_t)
```
maximizando la suma de recompensas descontadas esperadas:
```
R_i = E_π_i[Σ_t β^t * R_i_t]
```

Puntos de Innovación Técnica

Compartición de Parámetros: Adopción del paradigma estándar de compartición de parámetros MARL, donde una única red neuronal representa todos los agentes, logrando comportamientos diferentes a través de características individuales en las observaciones
Aprendices Independientes: Entrenamiento de aprendices independientes, cada uno accediendo solo a un conjunto de información parcial x_i_t, optimizando políticas de mejor respuesta aproximadas
Heterogeneidad Flexible: Soporte para configuraciones arbitrarias de heterogeneidad en productividades de capital y trabajo
Marco Unificado: Recuperación de resultados GE en casos límite, uso como ABM en casos generales

Configuración Experimental

Parámetros Experimentales

Parámetro	RBC	KS	General
n (número de hogares)	1	20	20
T (longitud de episodio)	500	500	500
κ_i (productividad del capital)	1	1	{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (productividad del trabajo)	1	1	{0.98, 1, 1.02}
α (elasticidad de producción)	0.36	0.36	0.36
δ (depreciación del capital)	{1, 0.025}	0.025	0.025
β (factor de descuento)	0.95	0.95	0.95

Métodos de Comparación

Se utilizan cuatro algoritmos RL para comparación:

DDPG (Deep Deterministic Policy Gradient)
TD3 (Twin Delayed Deep Deterministic Policy Gradient)
SAC (Soft Actor Critic)
PPO (Proximal Policy Optimization)

Detalles de Implementación

Desarrollo del entorno MARL utilizando la interfaz PettingZoo
Algoritmos RL de Stable-Baselines3
Entrenamiento de 10^6 pasos para entorno de un único agente, 10^5 actualizaciones por agente para entorno multiagente
Adopción de compartición de parámetros para mejorar eficiencia de muestras y escalabilidad

Resultados Experimentales

Resultados Principales

1. Límite de Agente Representativo RBC

Desempeño del Algoritmo: SAC, TD3 y DDPG convergen significativamente más rápido que PPO, siendo SAC el aprendiz más estable
Reproducción de RBC de Libro de Texto: En caso de depreciación completa (δ=1), el hogar RL aprende a recuperar la política óptima, convergiendo al valor óptimo después de aproximadamente 10^4 pasos de entrenamiento
Reproducción de RBC Típico: En caso de depreciación parcial (δ=0.025), las elecciones de consumo y trabajo aprendidas coinciden con resultados calculados por software Dynare
Funciones de Respuesta al Impulso: Reproducción exitosa de funciones de respuesta al impulso estándar, estadísticamente consistentes con resultados de métodos tradicionales

2. Límite de Campo Medio Krusell-Smith

Ley de Movimiento KS: Relación completamente lineal emerge endógenamente (R² > 0.99), sin necesidad de supuestos previos
Características de Distribución: Coeficiente de Gini convergente de 0.18 después de convergencia, cercano a 0.25 calculado en KS original
Propensión Marginal al Consumo: Curva aprendida plana en riqueza alta, aumentando abruptamente en riqueza baja, consistente con resultados clave del artículo KS original

3. Modelización de Mayor Heterogeneidad

KS con Retornos de Capital Heterogéneos: Introducción de diferentes productividades de capital permite coeficiente de Gini de 0.33 (heterogeneidad leve) y 0.61 (heterogeneidad significativa)
RBC Heterogéneo: En configuración de cuadrícula 3×3 de 9 agentes, diferentes productividades resultan en niveles de riqueza superpuestos pero distintos
Escalabilidad: Extensión exitosa a cientos de agentes (máximo 529), manteniendo SAC alto desempeño estable en todas las escalas

Experimentos de Ablación

Comparación del desempeño de diferentes algoritmos RL bajo diferentes números de agentes:

SAC obtiene consistentemente alta recompensa de evaluación en todos los tamaños de población
PPO muestra desempeño pobre en poblaciones pequeñas, mejorando con aumento de n
TD3 y DDPG muestran desempeño inestable en casos de n grande

Hallazgos Experimentales

Convergencia: Todos los algoritmos RL considerados logran aprender exitosamente políticas que optimizan recompensas acumuladas
Estabilidad: SAC es el aprendiz más confiable, particularmente en configuraciones multiagente
Escalabilidad: El marco puede extenderse a cientos de hogares heterogéneos, alcanzable incluso en hardware ordinario
Comportamiento Emergente: Comportamientos como estrategias de consumo "mano a boca" emergen endógenamente, sin necesidad de codificación heurística

Trabajo Relacionado

Aplicaciones de RL en Economía

Contribuciones tempranas: Uso de RL profundo multiagente para simular comportamiento económico emergente en economías de juguete simplificadas
Dominio financiero: Aplicación exitosa en modelización de diversas estrategias de negociación
Macroeconomía: Exploración reciente de técnicas RL para extender marcos GE clásicos

Distinción del Trabajo Existente

Extremo Económico: Enfoque principal en RL de un único agente, demostrando recuperación de funciones de política de modelos GE de agentes representativos
Extremo Informático: Experimentación con RL multiagente, demostrando capacidad de producir comportamiento económico emergente rico, pero mayormente ignorando modelos base de macroeconomía
Este Trabajo: Puente entre dos líneas de investigación, proporcionando fundación conectando investigación de ambas disciplinas

Conclusiones y Discusión

Conclusiones Principales

El marco MARL-BC integra exitosamente MARL profundo con entornos RBC
El marco puede recuperar resultados RBC clásicos de libro de texto y modelo de campo medio Krusell-Smith
Capaz de modelizar heterogeneidad de agentes rica, difícil de lograr con métodos GE tradicionales
Proporciona paso hacia síntesis de modelos ABM y GE con agentes heterogéneos

Limitaciones

Costo Computacional: Entrenamiento preciso de agentes RL requiere costo computacional considerable, ejecución de entrenamiento multiagente requiere horas
Dependencia de Hardware: Requiere aceleración GPU para reducir significativamente carga computacional
Complejidad del Modelo: Comparado con métodos tradicionales, requiere proceso de entrenamiento y ajuste más complejo

Direcciones Futuras

Implementación Vectorizada GPU: Implementación de estilo vectorizado de entorno MARL para aprovechar completamente aceleración GPU
Investigación de Problemas Económicos Específicos: Aplicación del marco para investigar desigualdad económica, cambios asimétricos en productividad laboral y otros problemas económicos concretos
Impacto de Herramientas IA: Investigación de consecuencias económicas y financieras de propagación de herramientas IA en lugares de trabajo

Evaluación Profunda

Fortalezas

Innovación Metodológica:
- Primera combinación exitosa de MARL con modelos macroeconómicos clásicos
- Proporciona puente entre modelos ABM y GE
- Reproducción precisa de resultados de modelos tradicionales en casos límite
Suficiencia Experimental:
- Validación en tres niveles: RBC de un único agente, KS de campo medio, heterogeneidad general
- Comparación sistemática de múltiples algoritmos RL
- Pruebas de escalabilidad cubriendo desde dígitos simples a cientos de agentes
Convincencia de Resultados:
- Reproducción cuantitativa de métricas clave de modelos clásicos
- Validación de significancia estadística (como funciones de respuesta al impulso)
- Demostración de capacidad de modelización de heterogeneidad difícil de lograr con métodos tradicionales
Claridad de Escritura:
- Descripción clara del marco y expresión matemática
- Gráficos intuitivos presentando resultados
- Detalles detallados de hiperparámetros e implementación

Insuficiencias

Limitaciones Metodológicas:
- Dependencia de compartición de parámetros puede limitar verdadera independencia de comportamiento de agentes
- Método de aprendices independientes puede no alcanzar soluciones de equilibrio verdadero
Defectos en Configuración Experimental:
- Número de agentes relativamente limitado (máximo 529)
- Falta de comparación directa con otros métodos de modelización económica
- Análisis de tiempo computacional basado principalmente en CPU, desempeño GPU no suficientemente explorado
Análisis Insuficiente:
- Falta de análisis teórico de convergencia
- Comprensión teórica limitada de dinámicas de aprendizaje
- Análisis de sensibilidad de parámetros insuficiente

Impacto

Contribución al Campo:
- Proporciona nuevo marco metodológico para modelización macroeconómica
- Promueve investigación interdisciplinaria entre informática y economía
- Abre nuevas direcciones para modelización de sistemas económicos complejos
Valor Práctico:
- Código de código abierto mejora reproducibilidad y extensibilidad
- Proporciona nuevas herramientas para análisis de política
- Soporta supuestos de heterogeneidad más realistas
Reproducibilidad:
- Configuración detallada de hiperparámetros
- Código de código abierto y detalles de implementación
- Protocolo experimental estandarizado

Escenarios Aplicables

Análisis de Política Macroeconómica: Particularmente escenarios que requieren consideración de heterogeneidad de agentes
Investigación de Desigualdad Económica: Utilización de productividades heterogéneas para modelización de distribución de riqueza
Modelización de Sistemas Económicos Complejos: Problemas de heterogeneidad de alta dimensión difíciles de manejar con métodos GE tradicionales
Herramienta de Enseñanza e Investigación: Marco de modelización intuitivo para educación económica

Referencias

Este artículo cita 60 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo macroeconomía, aprendizaje por refuerzo y sistemas multiagente, proporcionando base teórica sólida para investigación interdisciplinaria.