2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

academic

Heterogeneous RBCs via deep multi-agent reinforcement learning

基本信息

论文ID: 2510.12272
标题: Heterogeneous RBCs via deep multi-agent reinforcement learning
作者: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
分类: cs.MA cs.LG econ.TH
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2510.12272

摘要

当前具有智能体异质性的宏观经济模型可以分为两大类。异质智能体一般均衡(GE)模型，如基于HANK或Krusell-Smith(KS)方法的模型，依赖于一般均衡和"理性预期"假设，这些假设不够现实且使模型计算复杂，限制了可建模的异质性程度。相比之下，基于智能体的模型(ABMs)可以灵活包含大量任意异质的智能体，但通常需要明确指定行为规则，导致冗长的试错模型开发过程。为解决这些局限性，本文引入了MARL-BC框架，将深度多智能体强化学习(MARL)与实际商业周期(RBC)模型相结合。

研究背景与动机

问题定义

宏观经济建模传统上依赖于使用代表性智能体的一般均衡模型，如RBC和新凯恩斯主义模型。然而，代表性智能体模型的一个众所周知的局限性是无法考虑智能体异质性。

现有方法的局限性

异质智能体GE模型：
- 需要"理性预期"假设，即智能体需要跟踪整个财富或收入分布作为状态变量
- 计算成本高，显著限制了可实现的异质性程度
- 通常只能实现"事后"异质性，即所有智能体初始相同，仅因个体随机冲击而分化
基于智能体的模型(ABMs)：
- 完全放弃代表性智能体和理性预期假设
- 需要建模者直接决定智能体的行为规则
- 难以正确处理规则规范中的任意性并确定现实的规则

研究动机

强化学习(RL)，特别是多智能体强化学习(MARL)，为宏观经济中建模异质智能体提供了新的方法。RL学习范式似乎在GE和ABM的极端之间提供了自然的综合：智能体可以是有限理性和多样化的，但其行为从有原则的优化过程(学习最大化奖励)中内生出现。

核心贡献

开发了MARL-BC框架：基于MARL的框架，扩展了经典RBC模型，支持具有丰富灵活异质性的多个家庭
证明了训练可行性：使用最先进的RL算法(PPO、SAC、DDPG)进行训练在计算上是可行的
复现经典结果：当使用单个智能体时，可以恢复教科书RBC结果
复现均场模型：使用大量事前相同的智能体时，可以恢复均场Krusell-Smith模型结果
支持丰富异质性：有效模拟智能体间的丰富异质性，这是传统GE方法难以实现的任务

方法详解

任务定义

MARL-BC框架旨在扩展经典RBC模型，通过多智能体强化学习支持异质家庭智能体，使其能够：

在单智能体情况下恢复传统RBC模型
在多相同智能体情况下恢复Krusell-Smith均场模型
支持任意异质性的智能体建模

模型架构

异质RBC环境

模型包含n种类型的家庭i = 1,...,n和单个企业：

有效总资本和劳动力：
```
K_t = (1/n) * Σ(κ_i * k_i_t)
L_t = (1/n) * Σ(λ_i * ℓ_i_t)
```
其中κ_i和λ_i分别是资本和劳动生产率
生产函数：使用Cobb-Douglas函数
```
Y_t = A_t * K_t^α * L_t^(1-α)
```

资本和劳动成本：假设完全竞争市场

r_i_t = α * (Y_t/K_t) * κ_i
w_i_t = (1-α) * (Y_t/L_t) * λ_i

家庭财富：

a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t

RL家庭智能体

动作空间：每个时间步的动作是元组(c_i_t, ℓ_i_t)
- c_i_t：消费比例，范围(0.01, 0.99)
- ℓ_i_t：劳动供给，范围(0.01, 0.99)

观察空间：

x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)

奖励函数：
```
R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
```
其中b > 0控制消费和休闲之间的权衡
策略学习：每个RL家庭学习确定性策略
```
π_i: x_i_t → (c_i_t, ℓ_i_t)
```
通过最大化期望折扣奖励和：
```
R_i = E_π_i[Σ_t β^t * R_i_t]
```

技术创新点

参数共享：采用标准MARL参数共享范式，单个神经网络代表所有智能体，通过观察中的个体特征实现不同行为
独立学习者：训练独立学习者，每个只访问部分信息集x_i_t，优化近似最佳响应策略
灵活异质性：支持资本和劳动生产率的任意异质性设置
统一框架：在极限情况下可以恢复GE结果，在一般情况下可作为ABM使用

实验设置

实验参数

参数	RBC	KS	General
n (家庭数量)	1	20	20
T (回合长度)	500	500	500
κ_i (资本生产率)	1	1	{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (劳动生产率)	1	1	{0.98, 1, 1.02}
α (产出弹性)	0.36	0.36	0.36
δ (资本折旧)	{1, 0.025}	0.025	0.025
β (折扣因子)	0.95	0.95	0.95