Heterogeneous RBCs via deep multi-agent reinforcement learning
Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
현재 에이전트 이질성을 갖춘 거시경제 모델은 두 가지 주요 범주로 나뉜다. 이질적 에이전트 일반균형(GE) 모델(예: HANK 또는 Krusell-Smith(KS) 방법 기반 모델)은 일반균형과 "합리적 기대" 가정에 의존하며, 이러한 가정은 현실성이 부족하고 모델 계산을 복잡하게 하여 모델링 가능한 이질성의 정도를 제한한다. 이와 대조적으로, 에이전트 기반 모델(ABMs)은 많은 수의 임의로 이질적인 에이전트를 유연하게 포함할 수 있지만, 일반적으로 행동 규칙을 명시적으로 지정해야 하므로 길고 시행착오적인 모델 개발 과정이 필요하다. 이러한 제한을 해결하기 위해, 본 논문은 심화 다중에이전트 강화학습(MARL)을 실제 경기변동(RBC) 모델과 결합하는 MARL-BC 프레임워크를 제시한다.
강화학습(RL), 특히 다중에이전트 강화학습(MARL)은 거시경제에서 이질적 에이전트를 모델링하기 위한 새로운 방법을 제공한다. RL 학습 패러다임은 GE와 ABM의 극단 사이에 자연스러운 종합을 제공하는 것으로 보인다: 에이전트는 제한된 합리성과 다양성을 가질 수 있지만, 그 행동은 원칙 있는 최적화 과정(보상 최대화 학습)에서 내생적으로 나타난다.