2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic

Heterogene RBCs via tiefe Multi-Agent-Verstärkungslernverfahren

Grundlegende Informationen

  • Papier-ID: 2510.12272
  • Titel: Heterogene RBCs via tiefe Multi-Agent-Verstärkungslernverfahren
  • Autoren: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
  • Klassifizierung: cs.MA cs.LG econ.TH
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Papierlink: https://arxiv.org/abs/2510.12272

Zusammenfassung

Makroökonomische Modelle mit Agentenheterogenität können derzeit in zwei Hauptkategorien eingeteilt werden. Heterogene-Agenten-Allgemeine-Gleichgewichts-(GE)-Modelle, wie solche, die auf HANK- oder Krusell-Smith-(KS)-Methoden basieren, beruhen auf Annahmen des allgemeinen Gleichgewichts und der „rationalen Erwartungen", die unrealistisch sind und die Modellkomplexität erhöhen, was den Grad der modellierbaren Heterogenität einschränkt. Im Gegensatz dazu können agentenbasierte Modelle (ABMs) flexibel eine große Anzahl willkürlich heterogener Agenten einbeziehen, erfordern aber typischerweise die explizite Angabe von Verhaltensregeln, was zu einem langwierigen Trial-and-Error-Modellentwicklungsprozess führt. Um diese Einschränkungen zu beheben, wird in diesem Papier das MARL-BC-Framework eingeführt, das tiefe Multi-Agent-Verstärkungslernverfahren (MARL) mit realen Konjunkturzyklusmodellen (RBC) kombiniert.

Forschungshintergrund und Motivation

Problemdefinition

Die makroökonomische Modellierung stützt sich traditionell auf Allgemeine-Gleichgewichts-Modelle mit repräsentativen Agenten, wie RBC- und Neukeynesianische Modelle. Eine bekannte Einschränkung von Modellen mit repräsentativen Agenten ist jedoch die Unfähigkeit, Agentenheterogenität zu berücksichtigen.

Einschränkungen bestehender Methoden

  1. Heterogene-Agenten-GE-Modelle:
    • Erfordern die Annahme „rationaler Erwartungen", wobei Agenten die gesamte Vermögens- oder Einkommensverteilung als Zustandsvariablen verfolgen müssen
    • Hohe Rechenkosten, die den erreichbaren Heterogenitätsgrad erheblich einschränken
    • Können typischerweise nur „ex-post"-Heterogenität erreichen, d. h. alle Agenten sind anfangs identisch und differenzieren sich nur durch individuelle zufällige Schocks
  2. Agentenbasierte Modelle (ABMs):
    • Verzichten vollständig auf repräsentative Agenten und die Annahme rationaler Erwartungen
    • Erfordern, dass der Modellierer direkt die Verhaltensregeln der Agenten bestimmt
    • Schwierigkeiten bei der korrekten Behandlung von Willkürlichkeit in der Regelspezifikation und der Bestimmung realistischer Regeln

Forschungsmotivation

Verstärkungslernverfahren (RL), insbesondere Multi-Agent-Verstärkungslernverfahren (MARL), bieten neue Methoden zur Modellierung heterogener Agenten in der Makroökonomie. Das RL-Lernparadigma scheint eine natürliche Synthese zwischen den Extremen von GE und ABM zu bieten: Agenten können begrenzt rational und vielfältig sein, aber ihr Verhalten entsteht endogen aus einem prinzipiengestützten Optimierungsprozess (Lernen zur Maximierung von Belohnungen).

Kernbeiträge

  1. Entwicklung des MARL-BC-Frameworks: Ein auf MARL basierendes Framework, das klassische RBC-Modelle erweitert und mehrere Haushalte mit reichhaltiger und flexibler Heterogenität unterstützt
  2. Nachweis der Trainierbarkeit: Das Training mit modernsten RL-Algorithmen (PPO, SAC, DDPG) ist rechnerisch machbar
  3. Reproduktion klassischer Ergebnisse: Bei Verwendung eines einzelnen Agenten können Lehrbuch-RBC-Ergebnisse reproduziert werden
  4. Reproduktion von Mittelfeld-Modellen: Bei Verwendung einer großen Anzahl ex-ante identischer Agenten können Mittelfeld-Krusell-Smith-Modellergebnisse reproduziert werden
  5. Unterstützung reichhaltiger Heterogenität: Effektive Simulation reichhaltiger Heterogenität zwischen Agenten, eine Aufgabe, die für traditionelle GE-Methoden schwierig ist

Methodische Details

Aufgabendefinition

Das MARL-BC-Framework zielt darauf ab, klassische RBC-Modelle durch Multi-Agent-Verstärkungslernverfahren zu erweitern, um heterogene Haushaltsagenten zu unterstützen, die in der Lage sind:

  • Traditionelle RBC-Modelle im Fall eines einzelnen Agenten zu reproduzieren
  • Mittelfeld-Krusell-Smith-Modelle im Fall mehrerer identischer Agenten zu reproduzieren
  • Agenten mit willkürlicher Heterogenität zu modellieren

Modellarchitektur

Heterogene RBC-Umgebung

Das Modell enthält n Haushaltstypen i = 1,...,n und ein einzelnes Unternehmen:

  1. Effektives Gesamtkapital und Arbeit:
    K_t = (1/n) * Σ(κ_i * k_i_t)
    L_t = (1/n) * Σ(λ_i * ℓ_i_t)
    

    wobei κ_i und λ_i die Kapital- bzw. Arbeitsproduktivität sind
  2. Produktionsfunktion: Verwendung einer Cobb-Douglas-Funktion
    Y_t = A_t * K_t^α * L_t^(1-α)
    
  3. Kapital- und Arbeitskosten: Annahme vollständig konkurrenzfähiger Märkte
    r_i_t = α * (Y_t/K_t) * κ_i
    w_i_t = (1-α) * (Y_t/L_t) * λ_i
    
  4. Haushaltvermögen:
    a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t
    

RL-Haushaltsagenten

  1. Aktionsraum: Die Aktion bei jedem Zeitschritt ist ein Tupel (c_i_t, ℓ_i_t)
    • c_i_t: Konsumquote, Bereich (0,01, 0,99)
    • ℓ_i_t: Arbeitsangebot, Bereich (0,01, 0,99)
  2. Beobachtungsraum:
    x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)
    
  3. Belohnungsfunktion:
    R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
    

    wobei b > 0 den Kompromiss zwischen Konsum und Freizeit steuert
  4. Richtlinienlernverfahren: Jeder RL-Haushalt lernt eine deterministische Richtlinie
    π_i: x_i_t → (c_i_t, ℓ_i_t)
    

    durch Maximierung der erwarteten diskontierten Belohnungssumme:
    R_i = E_π_i[Σ_t β^t * R_i_t]
    

Technische Innovationen

  1. Parameterfreigabe: Anwendung des Standard-MARL-Parameterfreigabe-Paradigmas, wobei ein einzelnes neuronales Netzwerk alle Agenten darstellt und durch individuelle Merkmale in Beobachtungen unterschiedliches Verhalten ermöglicht
  2. Unabhängige Lernende: Training unabhängiger Lernender, von denen jeder nur auf die Teilinformationsmenge x_i_t zugreift und ungefähre Best-Response-Richtlinien optimiert
  3. Flexible Heterogenität: Unterstützung willkürlicher Heterogenitätseinstellungen bei Kapital- und Arbeitsproduktivität
  4. Einheitliches Framework: Kann GE-Ergebnisse in Grenzfällen reproduzieren und als ABM im allgemeinen Fall fungieren

Experimentelle Einrichtung

Experimentelle Parameter

ParameterRBCKSAllgemein
n (Anzahl der Haushalte)12020
T (Episodenlänge)500500500
κ_i (Kapitalproduktivität)11{0, 0,8, 1, 1,2, 0,98, 1,02}
λ_i (Arbeitsproduktivität)11{0,98, 1, 1,02}
α (Outputelastizität)0,360,360,36
δ (Kapitalabschreibung){1, 0,025}0,0250,025
β (Diskontfaktor)0,950,950,95

Vergleichsmethoden

Vergleich von vier RL-Algorithmen:

  • DDPG (Deep Deterministic Policy Gradient)
  • TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • SAC (Soft Actor Critic)
  • PPO (Proximal Policy Optimization)

Implementierungsdetails

  • Entwicklung der MARL-Umgebung mit PettingZoo-Schnittstelle
  • Verwendung von RL-Algorithmen aus Stable-Baselines3
  • Training von Single-Agent-Umgebungen für 10^6 Schritte, Multi-Agent-Umgebungen mit 10^5 Schritten pro Agent
  • Anwendung der Parameterfreigabe zur Verbesserung der Stichprobeneffizienz und Skalierbarkeit

Experimentelle Ergebnisse

Hauptergebnisse

1. Repräsentativer Agent RBC-Grenzfall

  • Algorithmusleistung: SAC, TD3 und DDPG zeigen signifikant schnellere Konvergenzgeschwindigkeit als PPO, SAC ist der stabilste Lernende
  • Lehrbuch-RBC-Reproduktion: Bei vollständiger Abschreibung (δ=1) lernen RL-Haushalte, optimale Richtlinien zu reproduzieren und konvergieren nach etwa 10^4 Trainingsschritten zum optimalen Wert
  • Typische RBC-Reproduktion: Bei teilweiser Abschreibung (δ=0,025) stimmen die gelernten optimalen Konsum- und Arbeitswahlentscheidungen mit den von Dynare-Software berechneten Ergebnissen überein
  • Impulsantwortfunktionen: Erfolgreiche Reproduktion standardisierter Impulsantwortfunktionen, statistisch konsistent mit traditionellen Methodenergebnissen

2. Mittelfeld-Krusell-Smith-Grenzfall

  • KS-Bewegungsgesetze: Endogene Entstehung vollständig linearer Beziehungen (R² > 0,99) ohne vorherige Annahmen
  • Verteilungsmerkmale: Nach Konvergenz erhöht sich der Gini-Koeffizient auf 0,18, nahe dem ursprünglichen KS-berechneten Wert von 0,25
  • Grenzkonsumsatz: Die gelernte Kurve ist bei hohem Vermögen flach und steigt bei niedrigem Vermögen steil an, konsistent mit Schlüsselergebnissen des ursprünglichen KS-Papiers

3. Modellierung größerer Heterogenität

  • Heterogene Kapitalrenditen KS: Durch Einführung unterschiedlicher Kapitalproduktivitäten können Gini-Koeffizienten von 0,33 (leichte Heterogenität) bis 0,61 (signifikante Heterogenität) erreicht werden
  • Heterogene RBC: In einem 3×3-Gitter-Setup mit 9 Agenten führen unterschiedliche Produktivitäten zu überlappenden, aber unterschiedlichen Vermögensniveaus
  • Skalierbarkeit: Erfolgreiche Skalierung auf Hunderte von Agenten (maximal 529), SAC behält stabile hohe Leistung bei allen Skalierungen bei

Ablationsstudien

Durch Vergleich der Leistung verschiedener RL-Algorithmen bei unterschiedlichen Agentenzahlen:

  • SAC erreicht konsistent hohe Bewertungsbelohnungen bei allen Populationsgrößen
  • PPO zeigt schlechtere Leistung bei kleinen Populationen, verbessert sich aber mit zunehmendem n
  • TD3 und DDPG zeigen instabile Leistung bei großem n

Experimentelle Erkenntnisse

  1. Konvergenz: Alle betrachteten RL-Algorithmen können erfolgreich Richtlinien lernen, die kumulierte Belohnungen optimieren
  2. Stabilität: SAC ist der zuverlässigste Lernende, besonders in Multi-Agent-Einstellungen
  3. Skalierbarkeit: Das Framework kann auf Hunderte heterogener Haushalte skaliert werden, auch auf gewöhnlicher Hardware
  4. Verhaltensemergenz: Verhaltensweisen wie „Hand-zu-Mund"-Konsumstrategien entstehen endogen, ohne heuristische Kodierung

Verwandte Arbeiten

RL-Anwendungen in der Wirtschaftswissenschaft

  • Frühe Beiträge: Verwendung tiefgreifender Multi-Agent-RL zur Simulation aufkommenden wirtschaftlichen Verhaltens in vereinfachten Spielzeugökonomien
  • Finanzbereich: Erfolgreiche Anwendung auf die Modellierung verschiedener Handelsstrategien
  • Makroökonomie: Kürzliche Erkundung von RL-Techniken zur Erweiterung klassischer GE-Frameworks

Unterschiede zu bestehenden Arbeiten

  1. Wirtschaftsseite: Konzentriert sich hauptsächlich auf Single-Agent-RL und zeigt, dass es Richtlinienfunktionen von Repräsentativ-Agent-GE-Modellen reproduzieren kann
  2. Informatikseite: Experimentiert mit Multi-Agent-RL und zeigt, dass die Methode reichhaltiges aufkommendes wirtschaftliches Verhalten erzeugen kann, ignoriert aber größtenteils grundlegende makroökonomische Modelle
  3. Diese Arbeit: Überbrückt beide Forschungslinien und bietet eine Grundlage, die Forschung beider Disziplinen zu verbinden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Das MARL-BC-Framework integriert erfolgreich tiefe MARL mit RBC-Umgebungen
  2. Das Framework kann klassische Lehrbuch-RBC-Ergebnisse und Mittelfeld-Krusell-Smith-Modelle reproduzieren
  3. Kann reichhaltige Agentenheterogenität modellieren, die traditionelle GE-Methoden schwer erreichen können
  4. Bietet Schritte zur Synthese von ABM und heterogenen Agenten-GE-Modellen

Einschränkungen

  1. Rechenkosten: Das genaue Training von RL-Agenten erfordert erhebliche Rechenkosten, Multi-Agent-Trainingsläufe benötigen Stunden
  2. Hardwareabhängigkeit: Erfordert GPU-Beschleunigung, um die Rechenbelastung erheblich zu verringern
  3. Modellkomplexität: Erfordert komplexere Trainings- und Optimierungsprozesse im Vergleich zu traditionellen Methoden

Zukünftige Richtungen

  1. GPU-Vektorisierte Implementierung: Implementierung vektorisierter Stile der MARL-Umgebung zur vollständigen Nutzung der GPU-Beschleunigung
  2. Forschung zu spezifischen wirtschaftlichen Problemen: Anwendung des Frameworks zur Untersuchung wirtschaftlicher Ungleichheit, asymmetrischer Veränderungen der Arbeitsproduktivität und anderer konkreter wirtschaftlicher Probleme
  3. Auswirkungen von KI-Werkzeugen: Untersuchung der wirtschaftlichen und finanziellen Folgen der Verbreitung von KI-Werkzeugen am Arbeitsplatz

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovativität:
    • Erste erfolgreiche Kombination von MARL mit klassischen makroökonomischen Modellen
    • Bietet eine Brücke zwischen ABM und GE-Modellen
    • Reproduziert präzise traditionelle Modellergebnisse in Grenzfällen
  2. Experimentelle Vollständigkeit:
    • Validierung auf drei Ebenen: Single-Agent-RBC, Mittelfeld-KS, allgemeine Heterogenität
    • Systematischer Vergleich mehrerer RL-Algorithmen
    • Skalierungstests von einzelnen Ziffern bis zu Hunderten von Agenten
  3. Überzeugungskraft der Ergebnisse:
    • Quantitative Reproduktion von Schlüsselindikatoren klassischer Modelle
    • Statistische Signifikanzvalidierung (z. B. Impulsantwortfunktionen)
    • Demonstration von Heterogenitätsmodellierungsfähigkeiten, die traditionelle Methoden schwer erreichen können
  4. Schreibklarheit:
    • Klare Framework-Beschreibung und mathematische Notation
    • Intuitive Diagramme zur Ergebnisdarstellung
    • Detaillierte Hyperparameter und Implementierungsdetails

Mängel

  1. Methodische Einschränkungen:
    • Die Abhängigkeit von Parameterfreigabe kann die wahre Unabhängigkeit des Agentenverhaltens einschränken
    • Die Methode unabhängiger Lernender kann möglicherweise keine echten Gleichgewichtslösungen erreichen
  2. Experimentelle Mängel:
    • Relativ begrenzte Agentenzahlen (maximal 529)
    • Fehlender direkter Vergleich mit anderen wirtschaftlichen Modellierungsmethoden
    • Rechenzeit-Analyse basiert hauptsächlich auf CPU, GPU-Leistung nicht vollständig erforscht
  3. Unzureichende Analyse:
    • Fehlende theoretische Konvergenzanalyse
    • Begrenzte theoretische Verständigung der Lernynamiken
    • Unzureichende Parameterempfindlichkeitsanalyse

Auswirkungen

  1. Beitrag zum Bereich:
    • Bietet neues methodisches Framework für makroökonomische Modellierung
    • Fördert interdisziplinäre Forschung zwischen Informatik und Wirtschaftswissenschaften
    • Eröffnet neue Richtungen für die Modellierung komplexer Wirtschaftssysteme
  2. Praktischer Wert:
    • Open-Source-Code verbessert Reproduzierbarkeit und Erweiterbarkeit
    • Bietet neue Werkzeuge für Politikanalyse
    • Unterstützt realistischere Heterogenitätsannahmen
  3. Reproduzierbarkeit:
    • Detaillierte Hyperparameter-Einstellungen
    • Open-Source-Code und Implementierungsdetails
    • Standardisierte experimentelle Protokolle

Anwendungsszenarien

  1. Makroökonomische Politikanalyse: Besonders Szenarien, die Agentenheterogenität berücksichtigen müssen
  2. Forschung zu wirtschaftlicher Ungleichheit: Nutzung heterogener Produktivität zur Modellierung von Vermögensverteilung
  3. Modellierung komplexer Wirtschaftssysteme: Hochdimensionale Heterogenitätsprobleme, die traditionelle GE-Methoden schwer handhaben können
  4. Lehr- und Forschungswerkzeuge: Bietet intuitive Modellierungsrahmen für wirtschaftliche Ausbildung

Literaturverzeichnis

Dieses Papier zitiert 60 verwandte Literaturquellen, die wichtige Arbeiten aus mehreren Bereichen wie Makroökonomie, Verstärkungslernverfahren und Multi-Agent-Systemen abdecken und eine solide theoretische Grundlage für interdisziplinäre Forschung bieten.