2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic

深層多エージェント強化学習による異質RBC

基本情報

  • 論文ID: 2510.12272
  • タイトル: Heterogeneous RBCs via deep multi-agent reinforcement learning
  • 著者: Federico Gabriele (Sapienza Università di Roma)、Aldo Glielmo (Banca d'Italia)、Marco Taboga (Banca d'Italia)
  • 分類: cs.MA cs.LG econ.TH
  • 発表日: 2025年10月14日
  • 論文リンク: https://arxiv.org/abs/2510.12272

要旨

エージェント異質性を持つ現在のマクロ経済モデルは、大きく2つのカテゴリーに分類できます。HANK法やKrusell-Smith(KS)法に基づくモデルなどの異質エージェント一般均衡(GE)モデルは、一般均衡と「合理的期待」仮説に依存しており、これらの仮説は現実的でなく、モデルの計算複雑性を増加させ、モデル化可能な異質性の程度を制限しています。これに対して、エージェント・ベース・モデル(ABM)は、多数の任意の異質エージェントを柔軟に含めることができますが、通常は行動ルールを明示的に指定する必要があり、長い試行錯誤的なモデル開発プロセスが必要になります。これらの制限を解決するため、本論文はMARL-BCフレームワークを導入し、深層多エージェント強化学習(MARL)と実際の景気循環(RBC)モデルを組み合わせています。

研究背景と動機

問題定義

マクロ経済モデリングは伝統的に、RBCおよび新ケインズ主義モデルなどの代表的エージェントを使用した一般均衡モデルに依存しています。しかし、代表的エージェントモデルの周知の制限は、エージェント異質性を考慮できないことです。

既存手法の制限

  1. 異質エージェントGEモデル
    • 「合理的期待」仮説が必要であり、エージェントは全体的な富または所得分布を状態変数として追跡する必要があります
    • 計算コストが高く、達成可能な異質性の程度を大幅に制限します
    • 通常、「事後的」異質性のみを実現でき、つまりすべてのエージェントは初期状態で同一であり、個別の確率的ショックによってのみ分化します
  2. エージェント・ベース・モデル(ABM)
    • 代表的エージェントと合理的期待仮説を完全に放棄します
    • モデラーがエージェントの行動ルールを直接決定する必要があります
    • ルール仕様の恣意性を適切に処理し、現実的なルールを決定することが困難です

研究動機

強化学習(RL)、特に多エージェント強化学習(MARL)は、マクロ経済における異質エージェントのモデリングのための新しい方法を提供します。RL学習パラダイムは、GEとABMの極端の間に自然な統合を提供するように見えます。エージェントは限定的に合理的で多様である可能性がありますが、その行動は原則的な最適化プロセス(報酬を最大化する学習)から内生的に出現します。

核心的貢献

  1. MARL-BCフレームワークの開発:MARLに基づくフレームワークを開発し、古典的RBCモデルを拡張して、豊かで柔軟な異質性を持つ複数の家計をサポートします
  2. 訓練可能性の実証:最先端のRLアルゴリズム(PPO、SAC、DDPG)を使用した訓練は計算上実行可能であることを示しました
  3. 古典的結果の再現:単一エージェントを使用する場合、教科書的RBC結果を復元できます
  4. 平均場モデルの再現:多数の事前に同一のエージェントを使用する場合、平均場Krusell-Smithモデルの結果を復元できます
  5. 豊かな異質性のサポート:エージェント間の豊かな異質性を効果的にシミュレートでき、これは従来のGE手法では達成困難なタスクです

方法の詳細

タスク定義

MARL-BCフレームワークは、古典的RBCモデルを拡張することを目的としており、多エージェント強化学習を通じて異質な家計エージェントをサポートし、以下を可能にします:

  • 単一エージェントの場合、従来のRBCモデルを復元する
  • 複数の同一エージェントの場合、Krusell-Smith平均場モデルを復元する
  • 任意の異質性を持つエージェントのモデリングをサポートする

モデルアーキテクチャ

異質RBC環境

モデルはn種類の家計 i = 1,...,n と単一の企業を含みます:

  1. 有効総資本と労働力
    K_t = (1/n) * Σ(κ_i * k_i_t)
    L_t = (1/n) * Σ(λ_i * ℓ_i_t)
    

    ここで κ_i と λ_i はそれぞれ資本と労働の生産性です
  2. 生産関数:Cobb-Douglas関数を使用
    Y_t = A_t * K_t^α * L_t^(1-α)
    
  3. 資本と労働のコスト:完全競争市場を仮定
    r_i_t = α * (Y_t/K_t) * κ_i
    w_i_t = (1-α) * (Y_t/L_t) * λ_i
    
  4. 家計の富
    a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t
    

RL家計エージェント

  1. 行動空間:各時間ステップでの行動はタプル(c_i_t, ℓ_i_t)です
    • c_i_t:消費比率、範囲(0.01, 0.99)
    • ℓ_i_t:労働供給、範囲(0.01, 0.99)
  2. 観察空間
    x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)
    
  3. 報酬関数
    R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
    

    ここで b > 0 は消費と余暇のバランスを制御します
  4. 政策学習:各RLエージェントは決定論的政策を学習します
    π_i: x_i_t → (c_i_t, ℓ_i_t)
    

    期待割引報酬の合計を最大化することにより:
    R_i = E_π_i[Σ_t β^t * R_i_t]
    

技術的革新点

  1. パラメータ共有:標準的なMARLパラメータ共有パラダイムを採用し、単一のニューラルネットワークがすべてのエージェントを表現し、観察内の個別特性を通じて異なる行動を実現します
  2. 独立学習者:独立学習者を訓練し、各学習者は部分情報集合 x_i_t のみにアクセスし、近似最適応答政策を最適化します
  3. 柔軟な異質性:資本と労働の生産性の任意の異質性設定をサポートします
  4. 統一フレームワーク:極限の場合にはGE結果を復元でき、一般的な場合にはABMとして機能します

実験設定

実験パラメータ

パラメータRBCKS一般
n (家計数)12020
T (エピソード長)500500500
κ_i (資本生産性)11{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (労働生産性)11{0.98, 1, 1.02}
α (産出弾性)0.360.360.36
δ (資本減耗率){1, 0.025}0.0250.025
β (割引因子)0.950.950.95

比較手法

4つのRLアルゴリズムを比較に使用:

  • DDPG (Deep Deterministic Policy Gradient)
  • TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • SAC (Soft Actor Critic)
  • PPO (Proximal Policy Optimization)

実装詳細

  • PettingZooインターフェースを使用してMARL環境を開発
  • Stable-Baselines3のRLアルゴリズムを使用
  • 単一エージェント環境は10^6ステップ、多エージェント環境はエージェントあたり10^5ステップの更新で訓練
  • パラメータ共有を採用してサンプル効率とスケーラビリティを向上

実験結果

主要な結果

1. 代表的エージェントRBC極限

  • アルゴリズムパフォーマンス:SAC、TD3、DDPGは収束速度においてPPOを大幅に上回り、SACが最も安定した学習者です
  • 教科書的RBC再現:完全減耗(δ=1)の場合、RLエージェントは最適政策を学習し、約10^4訓練ステップ後に最適値に収束します
  • 典型的RBC再現:部分的減耗(δ=0.025)の場合、学習された最適消費と労働選択はDynareソフトウェアの計算結果と一致します
  • インパルス応答関数:標準的なインパルス応答関数を成功裏に再現し、従来の手法の結果と統計的に一致します

2. 平均場Krusell-Smith極限

  • KS運動の法則:完全に線形な関係(R² > 0.99)が内生的に出現し、事前の仮定は不要です
  • 分布特性:収束後、ジニ係数は0.18に増加し、元のKS計算の0.25に近づきます
  • 限界消費性向:学習された曲線は高い富では平坦で、低い富では急激に増加し、元のKS論文の重要な結果と一致します

3. より大きな異質性のモデリング

  • 異質資本リターンのKS:異なる資本生産性を導入することで、ジニ係数は0.33(軽微な異質性)および0.61(顕著な異質性)に達します
  • 異質RBC:9エージェントの3×3グリッド設定では、異なる生産性が重複しているが異なる富水準をもたらします
  • スケーラビリティ:数百のエージェント(最大529個)への拡張に成功し、SACはすべての規模で安定した高パフォーマンスを維持します

アブレーション実験

異なるRL アルゴリズムの異なるエージェント数での性能を比較:

  • SACはすべての人口規模で一貫して高い評価報酬を獲得
  • PPOは小規模人口では性能が低いですが、nの増加に伴い改善
  • TD3とDDPGは大規模n設定で不安定な性能を示します

実験的知見

  1. 収束性:検討されたすべてのRLアルゴリズムは、累積報酬を最適化する政策を学習することに成功しました
  2. 安定性:SACは最も信頼性の高い学習者であり、特に多エージェント設定で顕著です
  3. スケーラビリティ:フレームワークは数百の異質な家計に拡張でき、通常のハードウェアでも実現可能です
  4. 行動の出現:「手から口へ」の消費政策などの行動が内生的に出現し、ヒューリスティックなコーディングは不要です

関連研究

経済学におけるRL応用

  • 初期の貢献:簡略化されたおもちゃ経済における涌現経済行動をシミュレートするために深層多エージェントRLを使用
  • 金融分野:様々な取引戦略のモデリングへの成功した応用
  • マクロ経済学:古典的GEフレームワークを拡張するためのRL技術の探索が最近開始されました

既存研究との違い

  1. 経済学側:主に単一エージェントRLに焦点を当て、代表的エージェントGEモデルの政策関数を復元できることを示しています
  2. コンピュータサイエンス側:多エージェントRLを実験し、方法が豊かな涌現経済行動を生成できることを示していますが、ほとんどはマクロ経済学の基礎モデルを無視しています
  3. 本研究:2つの研究線を橋渡けし、2つの学問分野の研究を結ぶ基礎を提供します

結論と議論

主要な結論

  1. MARL-BCフレームワークは深層MARLとRBC環境の統合に成功しました
  2. フレームワークは古典的な教科書的RBC結果とKrusell-Smith平均場モデルを復元できます
  3. 従来のGE手法では達成困難な豊かなエージェント異質性をモデル化できます
  4. ABMと異質エージェントGEモデルの統合への段階を提供します

制限事項

  1. 計算コスト:RLエージェントの正確な訓練には相当な計算コストが必要であり、多エージェント訓練の実行には数時間かかります
  2. ハードウェア依存性:計算負担を大幅に軽減するためにはGPUアクセラレーションが必要です
  3. モデルの複雑性:従来の手法と比較して、より複雑な訓練と調整プロセスが必要です

今後の方向性

  1. GPUベクトル化実装:MARL環境のベクトル化スタイルの実装によるGPUアクセラレーションの完全活用
  2. 特定の経済問題研究:経済的不平等、労働生産性の非対称的変化などの具体的な経済問題を研究するためのフレームワークの応用
  3. AI工具の影響:職場におけるAI工具の普及の経済的および金融的影響の研究

深い評価

利点

  1. 方法の革新性
    • MARLを古典的マクロ経済モデルと結合した初の成功
    • ABMとGEモデル間の橋渡けを提供
    • 極限の場合に従来のモデル結果を正確に再現
  2. 実験の充分性
    • 3つのレベルの検証:単一エージェントRBC、平均場KS、一般的異質性
    • 複数のRLアルゴリズムの体系的比較
    • 個位数から数百のエージェントまでのスケーラビリティテスト
  3. 結果の説得力
    • 古典的モデルの重要指標の定量的再現
    • 統計的有意性の検証(インパルス応答関数など)
    • 従来の手法では達成困難な異質性モデリング能力の実証
  4. 文章の明確性
    • 明確なフレームワーク説明と数学的表現
    • 直感的なグラフによる結果表示
    • 詳細なハイパーパラメータと実装詳細

不足点

  1. 方法の制限
    • パラメータ共有への依存は、エージェント行動の真の独立性を制限する可能性があります
    • 独立学習者方法は真の均衡解に到達できない可能性があります
  2. 実験設定の欠陥
    • エージェント数は比較的限定的(最大529個)
    • 他の経済モデリング手法との直接比較の欠如
    • 計算時間分析は主にCPUベースで、GPU性能は十分に探索されていません
  3. 分析の不足
    • 理論的収束性分析の欠如
    • 学習ダイナミクスの理論的理解の制限
    • パラメータ感度分析が不十分です

影響力

  1. 分野への貢献
    • マクロ経済モデリングのための新しい方法論フレームワークを提供
    • コンピュータサイエンスと経済学間の学際的研究を促進
    • 複雑な経済システムのモデリングのための新しい方向を開く
  2. 実用的価値
    • オープンソースコードは再現性と拡張性を向上
    • 政策分析のための新しいツールを提供
    • より現実的な異質性仮定をサポート
  3. 再現性
    • 詳細なハイパーパラメータ設定
    • オープンソースコードと実装詳細
    • 標準化された実験プロトコル

適用シナリオ

  1. マクロ経済政策分析:特にエージェント異質性を考慮する必要があるシナリオ
  2. 経済的不平等研究:異質な生産性を利用した富の分配のモデリング
  3. 複雑な経済システムのモデリング:従来のGE手法では処理困難な高次元異質性問題
  4. 教育および研究ツール:経済学教育のための直感的なモデリングフレームワーク

参考文献

本論文は、マクロ経済学、強化学習、多エージェントシステムなど複数の分野の重要な研究を網羅する60編の関連文献を引用しており、学際的研究のための堅実な理論的基礎を提供しています。