Heterogeneous RBCs via deep multi-agent reinforcement learning
Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic
Heterogeneous RBCs via deep multi-agent reinforcement learning
Los modelos macroeconómicos actuales con heterogeneidad de agentes pueden clasificarse en dos categorías principales. Los modelos de equilibrio general (GE) con agentes heterogéneos, como aquellos basados en los métodos HANK o Krusell-Smith (KS), dependen de supuestos de equilibrio general y "expectativas racionales", que son poco realistas y hacen que el modelo sea computacionalmente complejo, limitando el grado de heterogeneidad que puede modelarse. En contraste, los modelos basados en agentes (ABMs) pueden incluir flexiblemente una gran cantidad de agentes arbitrariamente heterogéneos, pero típicamente requieren la especificación explícita de reglas de comportamiento, lo que resulta en un largo proceso de desarrollo de modelos por ensayo y error. Para abordar estas limitaciones, este artículo introduce el marco MARL-BC, que combina aprendizaje por refuerzo profundo multiagente (MARL) con modelos de ciclo económico real (RBC).
La modelización macroeconómica tradicional se basa en modelos de equilibrio general que utilizan agentes representativos, como los modelos RBC y neokeynesiano. Sin embargo, una limitación bien conocida de los modelos de agentes representativos es su incapacidad para considerar la heterogeneidad de agentes.
Requieren el supuesto de "expectativas racionales", es decir, los agentes deben rastrear toda la distribución de riqueza o ingresos como variables de estado
Alto costo computacional, que limita significativamente el grado de heterogeneidad alcanzable
Típicamente solo pueden lograr heterogeneidad "ex-post", es decir, todos los agentes comienzan idénticos y se diferencian solo por choques aleatorios individuales
Modelos Basados en Agentes (ABMs):
Abandonan completamente el agente representativo y el supuesto de expectativas racionales
Requieren que el modelador decida directamente las reglas de comportamiento de los agentes
Difícil de manejar correctamente la arbitrariedad en la especificación de reglas y determinar reglas realistas
El aprendizaje por refuerzo (RL), particularmente el aprendizaje por refuerzo multiagente (MARL), proporciona nuevos métodos para modelar agentes heterogéneos en macroeconomía. El paradigma de aprendizaje RL parece ofrecer una síntesis natural entre los extremos de GE y ABM: los agentes pueden ser de racionalidad limitada y diversos, pero su comportamiento emerge endógenamente de un proceso de optimización fundamentado (aprendizaje para maximizar recompensas).
Desarrollo del Marco MARL-BC: Un marco basado en MARL que extiende el modelo RBC clásico, soportando múltiples hogares con heterogeneidad rica y flexible
Demostración de Viabilidad de Entrenamiento: El entrenamiento utilizando algoritmos RL de última generación (PPO, SAC, DDPG) es computacionalmente viable
Reproducción de Resultados Clásicos: Cuando se utiliza un único agente, se pueden recuperar resultados de RBC de libros de texto
Reproducción de Modelos de Campo Medio: Cuando se utilizan muchos agentes ex-ante idénticos, se pueden recuperar resultados del modelo de campo medio Krusell-Smith
Soporte para Heterogeneidad Rica: Simulación efectiva de heterogeneidad rica entre agentes, una tarea difícil para los métodos GE tradicionales
El marco MARL-BC tiene como objetivo extender el modelo RBC clásico mediante aprendizaje por refuerzo multiagente para soportar agentes de hogares heterogéneos, permitiendo:
Recuperar el modelo RBC tradicional en el caso de un único agente
Recuperar el modelo de campo medio Krusell-Smith en el caso de múltiples agentes idénticos
Soportar modelización de agentes con heterogeneidad arbitraria
Compartición de Parámetros: Adopción del paradigma estándar de compartición de parámetros MARL, donde una única red neuronal representa todos los agentes, logrando comportamientos diferentes a través de características individuales en las observaciones
Aprendices Independientes: Entrenamiento de aprendices independientes, cada uno accediendo solo a un conjunto de información parcial x_i_t, optimizando políticas de mejor respuesta aproximadas
Heterogeneidad Flexible: Soporte para configuraciones arbitrarias de heterogeneidad en productividades de capital y trabajo
Marco Unificado: Recuperación de resultados GE en casos límite, uso como ABM en casos generales
Desempeño del Algoritmo: SAC, TD3 y DDPG convergen significativamente más rápido que PPO, siendo SAC el aprendiz más estable
Reproducción de RBC de Libro de Texto: En caso de depreciación completa (δ=1), el hogar RL aprende a recuperar la política óptima, convergiendo al valor óptimo después de aproximadamente 10^4 pasos de entrenamiento
Reproducción de RBC Típico: En caso de depreciación parcial (δ=0.025), las elecciones de consumo y trabajo aprendidas coinciden con resultados calculados por software Dynare
Funciones de Respuesta al Impulso: Reproducción exitosa de funciones de respuesta al impulso estándar, estadísticamente consistentes con resultados de métodos tradicionales
Ley de Movimiento KS: Relación completamente lineal emerge endógenamente (R² > 0.99), sin necesidad de supuestos previos
Características de Distribución: Coeficiente de Gini convergente de 0.18 después de convergencia, cercano a 0.25 calculado en KS original
Propensión Marginal al Consumo: Curva aprendida plana en riqueza alta, aumentando abruptamente en riqueza baja, consistente con resultados clave del artículo KS original
KS con Retornos de Capital Heterogéneos: Introducción de diferentes productividades de capital permite coeficiente de Gini de 0.33 (heterogeneidad leve) y 0.61 (heterogeneidad significativa)
RBC Heterogéneo: En configuración de cuadrícula 3×3 de 9 agentes, diferentes productividades resultan en niveles de riqueza superpuestos pero distintos
Escalabilidad: Extensión exitosa a cientos de agentes (máximo 529), manteniendo SAC alto desempeño estable en todas las escalas
Extremo Económico: Enfoque principal en RL de un único agente, demostrando recuperación de funciones de política de modelos GE de agentes representativos
Extremo Informático: Experimentación con RL multiagente, demostrando capacidad de producir comportamiento económico emergente rico, pero mayormente ignorando modelos base de macroeconomía
Este Trabajo: Puente entre dos líneas de investigación, proporcionando fundación conectando investigación de ambas disciplinas
Implementación Vectorizada GPU: Implementación de estilo vectorizado de entorno MARL para aprovechar completamente aceleración GPU
Investigación de Problemas Económicos Específicos: Aplicación del marco para investigar desigualdad económica, cambios asimétricos en productividad laboral y otros problemas económicos concretos
Impacto de Herramientas IA: Investigación de consecuencias económicas y financieras de propagación de herramientas IA en lugares de trabajo
Este artículo cita 60 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo macroeconomía, aprendizaje por refuerzo y sistemas multiagente, proporcionando base teórica sólida para investigación interdisciplinaria.