2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

academic

Heterogene RBCs via tiefe Multi-Agent-Verstärkungslernverfahren

Grundlegende Informationen

Papier-ID: 2510.12272
Titel: Heterogene RBCs via tiefe Multi-Agent-Verstärkungslernverfahren
Autoren: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
Klassifizierung: cs.MA cs.LG econ.TH
Veröffentlichungsdatum: 14. Oktober 2025
Papierlink: https://arxiv.org/abs/2510.12272

Zusammenfassung

Makroökonomische Modelle mit Agentenheterogenität können derzeit in zwei Hauptkategorien eingeteilt werden. Heterogene-Agenten-Allgemeine-Gleichgewichts-(GE)-Modelle, wie solche, die auf HANK- oder Krusell-Smith-(KS)-Methoden basieren, beruhen auf Annahmen des allgemeinen Gleichgewichts und der „rationalen Erwartungen", die unrealistisch sind und die Modellkomplexität erhöhen, was den Grad der modellierbaren Heterogenität einschränkt. Im Gegensatz dazu können agentenbasierte Modelle (ABMs) flexibel eine große Anzahl willkürlich heterogener Agenten einbeziehen, erfordern aber typischerweise die explizite Angabe von Verhaltensregeln, was zu einem langwierigen Trial-and-Error-Modellentwicklungsprozess führt. Um diese Einschränkungen zu beheben, wird in diesem Papier das MARL-BC-Framework eingeführt, das tiefe Multi-Agent-Verstärkungslernverfahren (MARL) mit realen Konjunkturzyklusmodellen (RBC) kombiniert.

Forschungshintergrund und Motivation

Problemdefinition

Die makroökonomische Modellierung stützt sich traditionell auf Allgemeine-Gleichgewichts-Modelle mit repräsentativen Agenten, wie RBC- und Neukeynesianische Modelle. Eine bekannte Einschränkung von Modellen mit repräsentativen Agenten ist jedoch die Unfähigkeit, Agentenheterogenität zu berücksichtigen.

Einschränkungen bestehender Methoden

Heterogene-Agenten-GE-Modelle:
- Erfordern die Annahme „rationaler Erwartungen", wobei Agenten die gesamte Vermögens- oder Einkommensverteilung als Zustandsvariablen verfolgen müssen
- Hohe Rechenkosten, die den erreichbaren Heterogenitätsgrad erheblich einschränken
- Können typischerweise nur „ex-post"-Heterogenität erreichen, d. h. alle Agenten sind anfangs identisch und differenzieren sich nur durch individuelle zufällige Schocks
Agentenbasierte Modelle (ABMs):
- Verzichten vollständig auf repräsentative Agenten und die Annahme rationaler Erwartungen
- Erfordern, dass der Modellierer direkt die Verhaltensregeln der Agenten bestimmt
- Schwierigkeiten bei der korrekten Behandlung von Willkürlichkeit in der Regelspezifikation und der Bestimmung realistischer Regeln

Forschungsmotivation

Verstärkungslernverfahren (RL), insbesondere Multi-Agent-Verstärkungslernverfahren (MARL), bieten neue Methoden zur Modellierung heterogener Agenten in der Makroökonomie. Das RL-Lernparadigma scheint eine natürliche Synthese zwischen den Extremen von GE und ABM zu bieten: Agenten können begrenzt rational und vielfältig sein, aber ihr Verhalten entsteht endogen aus einem prinzipiengestützten Optimierungsprozess (Lernen zur Maximierung von Belohnungen).

Kernbeiträge

Entwicklung des MARL-BC-Frameworks: Ein auf MARL basierendes Framework, das klassische RBC-Modelle erweitert und mehrere Haushalte mit reichhaltiger und flexibler Heterogenität unterstützt
Nachweis der Trainierbarkeit: Das Training mit modernsten RL-Algorithmen (PPO, SAC, DDPG) ist rechnerisch machbar
Reproduktion klassischer Ergebnisse: Bei Verwendung eines einzelnen Agenten können Lehrbuch-RBC-Ergebnisse reproduziert werden
Reproduktion von Mittelfeld-Modellen: Bei Verwendung einer großen Anzahl ex-ante identischer Agenten können Mittelfeld-Krusell-Smith-Modellergebnisse reproduziert werden
Unterstützung reichhaltiger Heterogenität: Effektive Simulation reichhaltiger Heterogenität zwischen Agenten, eine Aufgabe, die für traditionelle GE-Methoden schwierig ist

Methodische Details

Aufgabendefinition

Das MARL-BC-Framework zielt darauf ab, klassische RBC-Modelle durch Multi-Agent-Verstärkungslernverfahren zu erweitern, um heterogene Haushaltsagenten zu unterstützen, die in der Lage sind:

Traditionelle RBC-Modelle im Fall eines einzelnen Agenten zu reproduzieren
Mittelfeld-Krusell-Smith-Modelle im Fall mehrerer identischer Agenten zu reproduzieren
Agenten mit willkürlicher Heterogenität zu modellieren

Modellarchitektur

Heterogene RBC-Umgebung

Das Modell enthält n Haushaltstypen i = 1,...,n und ein einzelnes Unternehmen:

Effektives Gesamtkapital und Arbeit:
```
K_t = (1/n) * Σ(κ_i * k_i_t)
L_t = (1/n) * Σ(λ_i * ℓ_i_t)
```
wobei κ_i und λ_i die Kapital- bzw. Arbeitsproduktivität sind
Produktionsfunktion: Verwendung einer Cobb-Douglas-Funktion
```
Y_t = A_t * K_t^α * L_t^(1-α)
```
Kapital- und Arbeitskosten: Annahme vollständig konkurrenzfähiger Märkte
```
r_i_t = α * (Y_t/K_t) * κ_i
w_i_t = (1-α) * (Y_t/L_t) * λ_i
```

Haushaltvermögen:

a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t

RL-Haushaltsagenten

Aktionsraum: Die Aktion bei jedem Zeitschritt ist ein Tupel (c_i_t, ℓ_i_t)
- c_i_t: Konsumquote, Bereich (0,01, 0,99)
- ℓ_i_t: Arbeitsangebot, Bereich (0,01, 0,99)

Beobachtungsraum:

x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)

Belohnungsfunktion:
```
R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
```
wobei b > 0 den Kompromiss zwischen Konsum und Freizeit steuert
Richtlinienlernverfahren: Jeder RL-Haushalt lernt eine deterministische Richtlinie
```
π_i: x_i_t → (c_i_t, ℓ_i_t)
```
durch Maximierung der erwarteten diskontierten Belohnungssumme:
```
R_i = E_π_i[Σ_t β^t * R_i_t]
```

Technische Innovationen

Parameterfreigabe: Anwendung des Standard-MARL-Parameterfreigabe-Paradigmas, wobei ein einzelnes neuronales Netzwerk alle Agenten darstellt und durch individuelle Merkmale in Beobachtungen unterschiedliches Verhalten ermöglicht
Unabhängige Lernende: Training unabhängiger Lernender, von denen jeder nur auf die Teilinformationsmenge x_i_t zugreift und ungefähre Best-Response-Richtlinien optimiert
Flexible Heterogenität: Unterstützung willkürlicher Heterogenitätseinstellungen bei Kapital- und Arbeitsproduktivität
Einheitliches Framework: Kann GE-Ergebnisse in Grenzfällen reproduzieren und als ABM im allgemeinen Fall fungieren

Experimentelle Einrichtung

Experimentelle Parameter

Parameter	RBC	KS	Allgemein
n (Anzahl der Haushalte)	1	20	20
T (Episodenlänge)	500	500	500
κ_i (Kapitalproduktivität)	1	1	{0, 0,8, 1, 1,2, 0,98, 1,02}
λ_i (Arbeitsproduktivität)	1	1	{0,98, 1, 1,02}
α (Outputelastizität)	0,36	0,36	0,36
δ (Kapitalabschreibung)	{1, 0,025}	0,025	0,025
β (Diskontfaktor)	0,95	0,95	0,95

Vergleichsmethoden

Vergleich von vier RL-Algorithmen:

DDPG (Deep Deterministic Policy Gradient)
TD3 (Twin Delayed Deep Deterministic Policy Gradient)
SAC (Soft Actor Critic)
PPO (Proximal Policy Optimization)

Implementierungsdetails

Entwicklung der MARL-Umgebung mit PettingZoo-Schnittstelle
Verwendung von RL-Algorithmen aus Stable-Baselines3
Training von Single-Agent-Umgebungen für 10^6 Schritte, Multi-Agent-Umgebungen mit 10^5 Schritten pro Agent
Anwendung der Parameterfreigabe zur Verbesserung der Stichprobeneffizienz und Skalierbarkeit

Experimentelle Ergebnisse

Hauptergebnisse

1. Repräsentativer Agent RBC-Grenzfall

Algorithmusleistung: SAC, TD3 und DDPG zeigen signifikant schnellere Konvergenzgeschwindigkeit als PPO, SAC ist der stabilste Lernende
Lehrbuch-RBC-Reproduktion: Bei vollständiger Abschreibung (δ=1) lernen RL-Haushalte, optimale Richtlinien zu reproduzieren und konvergieren nach etwa 10^4 Trainingsschritten zum optimalen Wert
Typische RBC-Reproduktion: Bei teilweiser Abschreibung (δ=0,025) stimmen die gelernten optimalen Konsum- und Arbeitswahlentscheidungen mit den von Dynare-Software berechneten Ergebnissen überein
Impulsantwortfunktionen: Erfolgreiche Reproduktion standardisierter Impulsantwortfunktionen, statistisch konsistent mit traditionellen Methodenergebnissen

2. Mittelfeld-Krusell-Smith-Grenzfall

KS-Bewegungsgesetze: Endogene Entstehung vollständig linearer Beziehungen (R² > 0,99) ohne vorherige Annahmen
Verteilungsmerkmale: Nach Konvergenz erhöht sich der Gini-Koeffizient auf 0,18, nahe dem ursprünglichen KS-berechneten Wert von 0,25
Grenzkonsumsatz: Die gelernte Kurve ist bei hohem Vermögen flach und steigt bei niedrigem Vermögen steil an, konsistent mit Schlüsselergebnissen des ursprünglichen KS-Papiers

3. Modellierung größerer Heterogenität

Heterogene Kapitalrenditen KS: Durch Einführung unterschiedlicher Kapitalproduktivitäten können Gini-Koeffizienten von 0,33 (leichte Heterogenität) bis 0,61 (signifikante Heterogenität) erreicht werden
Heterogene RBC: In einem 3×3-Gitter-Setup mit 9 Agenten führen unterschiedliche Produktivitäten zu überlappenden, aber unterschiedlichen Vermögensniveaus
Skalierbarkeit: Erfolgreiche Skalierung auf Hunderte von Agenten (maximal 529), SAC behält stabile hohe Leistung bei allen Skalierungen bei

Ablationsstudien

Durch Vergleich der Leistung verschiedener RL-Algorithmen bei unterschiedlichen Agentenzahlen:

SAC erreicht konsistent hohe Bewertungsbelohnungen bei allen Populationsgrößen
PPO zeigt schlechtere Leistung bei kleinen Populationen, verbessert sich aber mit zunehmendem n
TD3 und DDPG zeigen instabile Leistung bei großem n

Experimentelle Erkenntnisse

Konvergenz: Alle betrachteten RL-Algorithmen können erfolgreich Richtlinien lernen, die kumulierte Belohnungen optimieren
Stabilität: SAC ist der zuverlässigste Lernende, besonders in Multi-Agent-Einstellungen
Skalierbarkeit: Das Framework kann auf Hunderte heterogener Haushalte skaliert werden, auch auf gewöhnlicher Hardware
Verhaltensemergenz: Verhaltensweisen wie „Hand-zu-Mund"-Konsumstrategien entstehen endogen, ohne heuristische Kodierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Das MARL-BC-Framework integriert erfolgreich tiefe MARL mit RBC-Umgebungen
Das Framework kann klassische Lehrbuch-RBC-Ergebnisse und Mittelfeld-Krusell-Smith-Modelle reproduzieren
Kann reichhaltige Agentenheterogenität modellieren, die traditionelle GE-Methoden schwer erreichen können
Bietet Schritte zur Synthese von ABM und heterogenen Agenten-GE-Modellen

Einschränkungen

Rechenkosten: Das genaue Training von RL-Agenten erfordert erhebliche Rechenkosten, Multi-Agent-Trainingsläufe benötigen Stunden
Hardwareabhängigkeit: Erfordert GPU-Beschleunigung, um die Rechenbelastung erheblich zu verringern
Modellkomplexität: Erfordert komplexere Trainings- und Optimierungsprozesse im Vergleich zu traditionellen Methoden

Zukünftige Richtungen

GPU-Vektorisierte Implementierung: Implementierung vektorisierter Stile der MARL-Umgebung zur vollständigen Nutzung der GPU-Beschleunigung
Forschung zu spezifischen wirtschaftlichen Problemen: Anwendung des Frameworks zur Untersuchung wirtschaftlicher Ungleichheit, asymmetrischer Veränderungen der Arbeitsproduktivität und anderer konkreter wirtschaftlicher Probleme
Auswirkungen von KI-Werkzeugen: Untersuchung der wirtschaftlichen und finanziellen Folgen der Verbreitung von KI-Werkzeugen am Arbeitsplatz

Tiefgreifende Bewertung

Stärken

Methodische Innovativität:
- Erste erfolgreiche Kombination von MARL mit klassischen makroökonomischen Modellen
- Bietet eine Brücke zwischen ABM und GE-Modellen
- Reproduziert präzise traditionelle Modellergebnisse in Grenzfällen
Experimentelle Vollständigkeit:
- Validierung auf drei Ebenen: Single-Agent-RBC, Mittelfeld-KS, allgemeine Heterogenität
- Systematischer Vergleich mehrerer RL-Algorithmen
- Skalierungstests von einzelnen Ziffern bis zu Hunderten von Agenten
Überzeugungskraft der Ergebnisse:
- Quantitative Reproduktion von Schlüsselindikatoren klassischer Modelle
- Statistische Signifikanzvalidierung (z. B. Impulsantwortfunktionen)
- Demonstration von Heterogenitätsmodellierungsfähigkeiten, die traditionelle Methoden schwer erreichen können
Schreibklarheit:
- Klare Framework-Beschreibung und mathematische Notation
- Intuitive Diagramme zur Ergebnisdarstellung
- Detaillierte Hyperparameter und Implementierungsdetails

Mängel

Methodische Einschränkungen:
- Die Abhängigkeit von Parameterfreigabe kann die wahre Unabhängigkeit des Agentenverhaltens einschränken
- Die Methode unabhängiger Lernender kann möglicherweise keine echten Gleichgewichtslösungen erreichen
Experimentelle Mängel:
- Relativ begrenzte Agentenzahlen (maximal 529)
- Fehlender direkter Vergleich mit anderen wirtschaftlichen Modellierungsmethoden
- Rechenzeit-Analyse basiert hauptsächlich auf CPU, GPU-Leistung nicht vollständig erforscht
Unzureichende Analyse:
- Fehlende theoretische Konvergenzanalyse
- Begrenzte theoretische Verständigung der Lernynamiken
- Unzureichende Parameterempfindlichkeitsanalyse

Auswirkungen

Beitrag zum Bereich:
- Bietet neues methodisches Framework für makroökonomische Modellierung
- Fördert interdisziplinäre Forschung zwischen Informatik und Wirtschaftswissenschaften
- Eröffnet neue Richtungen für die Modellierung komplexer Wirtschaftssysteme
Praktischer Wert:
- Open-Source-Code verbessert Reproduzierbarkeit und Erweiterbarkeit
- Bietet neue Werkzeuge für Politikanalyse
- Unterstützt realistischere Heterogenitätsannahmen
Reproduzierbarkeit:
- Detaillierte Hyperparameter-Einstellungen
- Open-Source-Code und Implementierungsdetails
- Standardisierte experimentelle Protokolle

Anwendungsszenarien

Makroökonomische Politikanalyse: Besonders Szenarien, die Agentenheterogenität berücksichtigen müssen
Forschung zu wirtschaftlicher Ungleichheit: Nutzung heterogener Produktivität zur Modellierung von Vermögensverteilung
Modellierung komplexer Wirtschaftssysteme: Hochdimensionale Heterogenitätsprobleme, die traditionelle GE-Methoden schwer handhaben können
Lehr- und Forschungswerkzeuge: Bietet intuitive Modellierungsrahmen für wirtschaftliche Ausbildung

Literaturverzeichnis

Dieses Papier zitiert 60 verwandte Literaturquellen, die wichtige Arbeiten aus mehreren Bereichen wie Makroökonomie, Verstärkungslernverfahren und Multi-Agent-Systemen abdecken und eine solide theoretische Grundlage für interdisziplinäre Forschung bieten.