2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic

Heterogeneous RBCs via deep multi-agent reinforcement learning

基本信息

  • 论文ID: 2510.12272
  • 标题: Heterogeneous RBCs via deep multi-agent reinforcement learning
  • 作者: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
  • 分类: cs.MA cs.LG econ.TH
  • 发表时间: 2025年10月14日
  • 论文链接: https://arxiv.org/abs/2510.12272

摘要

当前具有智能体异质性的宏观经济模型可以分为两大类。异质智能体一般均衡(GE)模型,如基于HANK或Krusell-Smith(KS)方法的模型,依赖于一般均衡和"理性预期"假设,这些假设不够现实且使模型计算复杂,限制了可建模的异质性程度。相比之下,基于智能体的模型(ABMs)可以灵活包含大量任意异质的智能体,但通常需要明确指定行为规则,导致冗长的试错模型开发过程。为解决这些局限性,本文引入了MARL-BC框架,将深度多智能体强化学习(MARL)与实际商业周期(RBC)模型相结合。

研究背景与动机

问题定义

宏观经济建模传统上依赖于使用代表性智能体的一般均衡模型,如RBC和新凯恩斯主义模型。然而,代表性智能体模型的一个众所周知的局限性是无法考虑智能体异质性。

现有方法的局限性

  1. 异质智能体GE模型
    • 需要"理性预期"假设,即智能体需要跟踪整个财富或收入分布作为状态变量
    • 计算成本高,显著限制了可实现的异质性程度
    • 通常只能实现"事后"异质性,即所有智能体初始相同,仅因个体随机冲击而分化
  2. 基于智能体的模型(ABMs)
    • 完全放弃代表性智能体和理性预期假设
    • 需要建模者直接决定智能体的行为规则
    • 难以正确处理规则规范中的任意性并确定现实的规则

研究动机

强化学习(RL),特别是多智能体强化学习(MARL),为宏观经济中建模异质智能体提供了新的方法。RL学习范式似乎在GE和ABM的极端之间提供了自然的综合:智能体可以是有限理性和多样化的,但其行为从有原则的优化过程(学习最大化奖励)中内生出现。

核心贡献

  1. 开发了MARL-BC框架:基于MARL的框架,扩展了经典RBC模型,支持具有丰富灵活异质性的多个家庭
  2. 证明了训练可行性:使用最先进的RL算法(PPO、SAC、DDPG)进行训练在计算上是可行的
  3. 复现经典结果:当使用单个智能体时,可以恢复教科书RBC结果
  4. 复现均场模型:使用大量事前相同的智能体时,可以恢复均场Krusell-Smith模型结果
  5. 支持丰富异质性:有效模拟智能体间的丰富异质性,这是传统GE方法难以实现的任务

方法详解

任务定义

MARL-BC框架旨在扩展经典RBC模型,通过多智能体强化学习支持异质家庭智能体,使其能够:

  • 在单智能体情况下恢复传统RBC模型
  • 在多相同智能体情况下恢复Krusell-Smith均场模型
  • 支持任意异质性的智能体建模

模型架构

异质RBC环境

模型包含n种类型的家庭i = 1,...,n和单个企业:

  1. 有效总资本和劳动力
    K_t = (1/n) * Σ(κ_i * k_i_t)
    L_t = (1/n) * Σ(λ_i * ℓ_i_t)
    

    其中κ_i和λ_i分别是资本和劳动生产率
  2. 生产函数:使用Cobb-Douglas函数
    Y_t = A_t * K_t^α * L_t^(1-α)
    
  3. 资本和劳动成本:假设完全竞争市场
    r_i_t = α * (Y_t/K_t) * κ_i
    w_i_t = (1-α) * (Y_t/L_t) * λ_i
    
  4. 家庭财富
    a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t
    

RL家庭智能体

  1. 动作空间:每个时间步的动作是元组(c_i_t, ℓ_i_t)
    • c_i_t:消费比例,范围(0.01, 0.99)
    • ℓ_i_t:劳动供给,范围(0.01, 0.99)
  2. 观察空间
    x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)
    
  3. 奖励函数
    R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
    

    其中b > 0控制消费和休闲之间的权衡
  4. 策略学习:每个RL家庭学习确定性策略
    π_i: x_i_t → (c_i_t, ℓ_i_t)
    

    通过最大化期望折扣奖励和:
    R_i = E_π_i[Σ_t β^t * R_i_t]
    

技术创新点

  1. 参数共享:采用标准MARL参数共享范式,单个神经网络代表所有智能体,通过观察中的个体特征实现不同行为
  2. 独立学习者:训练独立学习者,每个只访问部分信息集x_i_t,优化近似最佳响应策略
  3. 灵活异质性:支持资本和劳动生产率的任意异质性设置
  4. 统一框架:在极限情况下可以恢复GE结果,在一般情况下可作为ABM使用

实验设置

实验参数

参数RBCKSGeneral
n (家庭数量)12020
T (回合长度)500500500
κ_i (资本生产率)11{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (劳动生产率)11{0.98, 1, 1.02}
α (产出弹性)0.360.360.36
δ (资本折旧){1, 0.025}0.0250.025
β (折扣因子)0.950.950.95

对比方法

使用四种RL算法进行比较:

  • DDPG (Deep Deterministic Policy Gradient)
  • TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • SAC (Soft Actor Critic)
  • PPO (Proximal Policy Optimization)

实现细节

  • 使用PettingZoo接口开发MARL环境
  • 使用Stable-Baselines3中的RL算法
  • 单智能体环境训练10^6步,多智能体环境每智能体10^5步更新
  • 采用参数共享提高样本效率和可扩展性

实验结果

主要结果

1. 代表性智能体RBC极限

  • 算法性能:SAC、TD3和DDPG在收敛速度上显著优于PPO,SAC是最稳定的学习器
  • 教科书RBC复现:在完全折旧(δ=1)情况下,RL家庭学习恢复最优策略,约10^4训练步后收敛到最优值
  • 典型RBC复现:在部分折旧(δ=0.025)情况下,学习到的最优消费和劳动选择与Dynare软件计算结果一致
  • 脉冲响应函数:成功复现标准脉冲响应函数,与传统方法结果统计一致

2. 均场Krusell-Smith极限

  • KS运动定律:内生出现完全线性关系(R² > 0.99),无需先验假设
  • 分布特性:收敛后基尼系数增加到0.18,接近原始KS计算的0.25
  • 边际消费倾向:学习到的曲线在高财富时平坦,低财富时急剧增加,与原始KS论文的关键结果一致

3. 更大异质性建模

  • 异质资本回报的KS:通过引入不同资本生产率,基尼系数可达到0.33(轻微异质)和0.61(显著异质)
  • 异质RBC:9个智能体的3×3网格设置中,不同生产率导致重叠但不同的财富水平
  • 可扩展性:成功扩展到数百个智能体(最大529个),SAC在所有规模下保持稳定高性能

消融实验

通过比较不同RL算法在不同智能体数量下的表现:

  • SAC在所有人群规模下一致获得高评估奖励
  • PPO在小人群中表现较差,但随n增加而改善
  • TD3和DDPG在大n情况下表现不稳定

实验发现

  1. 收敛性:所有考虑的RL算法都能成功学习优化累积奖励的策略
  2. 稳定性:SAC是最可靠的学习器,特别是在多智能体设置中
  3. 可扩展性:框架可以扩展到数百个异质家庭,即使在普通硬件上也能实现
  4. 行为涌现:"手到口"消费策略等行为内生涌现,无需启发式编码

相关工作

经济学中的RL应用

  • 早期贡献:使用深度多智能体RL模拟简化玩具经济中的涌现经济行为
  • 金融领域:成功应用于建模各种交易策略
  • 宏观经济学:最近开始探索RL技术扩展经典GE框架

与现有工作的区别

  1. 经济学端:主要关注单智能体RL,显示其可以恢复代表性智能体GE模型的策略函数
  2. 计算机科学端:实验多智能体RL,显示方法可以产生丰富的涌现经济行为,但大多忽略了宏观经济学的基础模型
  3. 本工作:桥接两个研究线,提供连接两个学科研究的基础

结论与讨论

主要结论

  1. MARL-BC框架成功集成了深度MARL与RBC环境
  2. 框架可以恢复经典教科书RBC结果和Krusell-Smith均场模型
  3. 能够模拟传统GE方法难以实现的丰富智能体异质性
  4. 为ABM和异质智能体GE模型的综合提供了步骤

局限性

  1. 计算成本:准确训练RL智能体需要相当大的计算成本,多智能体训练运行需要数小时
  2. 硬件依赖:需要GPU加速来显著减轻计算负担
  3. 模型复杂性:相比传统方法,需要更复杂的训练和调优过程

未来方向

  1. GPU向量化实现:实现MARL环境的向量化风格以充分利用GPU加速
  2. 特定经济问题研究:应用框架研究经济不平等、劳动生产率不对称变化等具体经济问题
  3. AI工具影响:研究AI工具在工作场所传播的经济和金融后果

深度评价

优点

  1. 方法创新性
    • 首次成功将MARL与经典宏观经济模型结合
    • 提供了ABM和GE模型之间的桥梁
    • 在极限情况下精确复现传统模型结果
  2. 实验充分性
    • 三个层次的验证:单智能体RBC、均场KS、一般异质性
    • 多种RL算法的系统比较
    • 可扩展性测试覆盖从个位数到数百个智能体
  3. 结果说服力
    • 定量复现经典模型的关键指标
    • 统计显著性验证(如脉冲响应函数)
    • 展示了传统方法难以实现的异质性建模能力
  4. 写作清晰度
    • 清晰的框架描述和数学表述
    • 直观的图表展示结果
    • 详细的超参数和实现细节

不足

  1. 方法局限性
    • 依赖参数共享可能限制智能体行为的真正独立性
    • 独立学习者方法可能无法达到真正的均衡解
  2. 实验设置缺陷
    • 智能体数量相对有限(最大529个)
    • 缺乏与其他经济建模方法的直接比较
    • 计算时间分析主要基于CPU,GPU性能未充分探索
  3. 分析不足
    • 缺乏理论收敛性分析
    • 对学习动态的理论理解有限
    • 参数敏感性分析不够充分

影响力

  1. 对领域的贡献
    • 为宏观经济建模提供了新的方法论框架
    • 促进计算机科学和经济学之间的交叉研究
    • 为复杂经济系统建模开辟新方向
  2. 实用价值
    • 开源代码提高了可复现性和可扩展性
    • 为政策分析提供了新工具
    • 支持更现实的异质性假设
  3. 可复现性
    • 详细的超参数设置
    • 开源代码和实现细节
    • 标准化的实验协议

适用场景

  1. 宏观经济政策分析:特别是需要考虑智能体异质性的场景
  2. 经济不平等研究:利用异质生产率建模财富分配
  3. 复杂经济系统建模:传统GE方法难以处理的高维异质性问题
  4. 教学和研究工具:为经济学教育提供直观的建模框架

参考文献

本文引用了60篇相关文献,涵盖了宏观经济学、强化学习、多智能体系统等多个领域的重要工作,为跨学科研究提供了坚实的理论基础。