Heterogeneous RBCs via deep multi-agent reinforcement learning
Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic
Heterogene RBCs via tiefe Multi-Agent-Verstärkungslernverfahren
Makroökonomische Modelle mit Agentenheterogenität können derzeit in zwei Hauptkategorien eingeteilt werden. Heterogene-Agenten-Allgemeine-Gleichgewichts-(GE)-Modelle, wie solche, die auf HANK- oder Krusell-Smith-(KS)-Methoden basieren, beruhen auf Annahmen des allgemeinen Gleichgewichts und der „rationalen Erwartungen", die unrealistisch sind und die Modellkomplexität erhöhen, was den Grad der modellierbaren Heterogenität einschränkt. Im Gegensatz dazu können agentenbasierte Modelle (ABMs) flexibel eine große Anzahl willkürlich heterogener Agenten einbeziehen, erfordern aber typischerweise die explizite Angabe von Verhaltensregeln, was zu einem langwierigen Trial-and-Error-Modellentwicklungsprozess führt. Um diese Einschränkungen zu beheben, wird in diesem Papier das MARL-BC-Framework eingeführt, das tiefe Multi-Agent-Verstärkungslernverfahren (MARL) mit realen Konjunkturzyklusmodellen (RBC) kombiniert.
Die makroökonomische Modellierung stützt sich traditionell auf Allgemeine-Gleichgewichts-Modelle mit repräsentativen Agenten, wie RBC- und Neukeynesianische Modelle. Eine bekannte Einschränkung von Modellen mit repräsentativen Agenten ist jedoch die Unfähigkeit, Agentenheterogenität zu berücksichtigen.
Erfordern die Annahme „rationaler Erwartungen", wobei Agenten die gesamte Vermögens- oder Einkommensverteilung als Zustandsvariablen verfolgen müssen
Hohe Rechenkosten, die den erreichbaren Heterogenitätsgrad erheblich einschränken
Können typischerweise nur „ex-post"-Heterogenität erreichen, d. h. alle Agenten sind anfangs identisch und differenzieren sich nur durch individuelle zufällige Schocks
Agentenbasierte Modelle (ABMs):
Verzichten vollständig auf repräsentative Agenten und die Annahme rationaler Erwartungen
Erfordern, dass der Modellierer direkt die Verhaltensregeln der Agenten bestimmt
Schwierigkeiten bei der korrekten Behandlung von Willkürlichkeit in der Regelspezifikation und der Bestimmung realistischer Regeln
Verstärkungslernverfahren (RL), insbesondere Multi-Agent-Verstärkungslernverfahren (MARL), bieten neue Methoden zur Modellierung heterogener Agenten in der Makroökonomie. Das RL-Lernparadigma scheint eine natürliche Synthese zwischen den Extremen von GE und ABM zu bieten: Agenten können begrenzt rational und vielfältig sein, aber ihr Verhalten entsteht endogen aus einem prinzipiengestützten Optimierungsprozess (Lernen zur Maximierung von Belohnungen).
Entwicklung des MARL-BC-Frameworks: Ein auf MARL basierendes Framework, das klassische RBC-Modelle erweitert und mehrere Haushalte mit reichhaltiger und flexibler Heterogenität unterstützt
Nachweis der Trainierbarkeit: Das Training mit modernsten RL-Algorithmen (PPO, SAC, DDPG) ist rechnerisch machbar
Reproduktion klassischer Ergebnisse: Bei Verwendung eines einzelnen Agenten können Lehrbuch-RBC-Ergebnisse reproduziert werden
Reproduktion von Mittelfeld-Modellen: Bei Verwendung einer großen Anzahl ex-ante identischer Agenten können Mittelfeld-Krusell-Smith-Modellergebnisse reproduziert werden
Unterstützung reichhaltiger Heterogenität: Effektive Simulation reichhaltiger Heterogenität zwischen Agenten, eine Aufgabe, die für traditionelle GE-Methoden schwierig ist
Das MARL-BC-Framework zielt darauf ab, klassische RBC-Modelle durch Multi-Agent-Verstärkungslernverfahren zu erweitern, um heterogene Haushaltsagenten zu unterstützen, die in der Lage sind:
Traditionelle RBC-Modelle im Fall eines einzelnen Agenten zu reproduzieren
Mittelfeld-Krusell-Smith-Modelle im Fall mehrerer identischer Agenten zu reproduzieren
Agenten mit willkürlicher Heterogenität zu modellieren
Parameterfreigabe: Anwendung des Standard-MARL-Parameterfreigabe-Paradigmas, wobei ein einzelnes neuronales Netzwerk alle Agenten darstellt und durch individuelle Merkmale in Beobachtungen unterschiedliches Verhalten ermöglicht
Unabhängige Lernende: Training unabhängiger Lernender, von denen jeder nur auf die Teilinformationsmenge x_i_t zugreift und ungefähre Best-Response-Richtlinien optimiert
Flexible Heterogenität: Unterstützung willkürlicher Heterogenitätseinstellungen bei Kapital- und Arbeitsproduktivität
Einheitliches Framework: Kann GE-Ergebnisse in Grenzfällen reproduzieren und als ABM im allgemeinen Fall fungieren
Algorithmusleistung: SAC, TD3 und DDPG zeigen signifikant schnellere Konvergenzgeschwindigkeit als PPO, SAC ist der stabilste Lernende
Lehrbuch-RBC-Reproduktion: Bei vollständiger Abschreibung (δ=1) lernen RL-Haushalte, optimale Richtlinien zu reproduzieren und konvergieren nach etwa 10^4 Trainingsschritten zum optimalen Wert
Typische RBC-Reproduktion: Bei teilweiser Abschreibung (δ=0,025) stimmen die gelernten optimalen Konsum- und Arbeitswahlentscheidungen mit den von Dynare-Software berechneten Ergebnissen überein
Impulsantwortfunktionen: Erfolgreiche Reproduktion standardisierter Impulsantwortfunktionen, statistisch konsistent mit traditionellen Methodenergebnissen
Verteilungsmerkmale: Nach Konvergenz erhöht sich der Gini-Koeffizient auf 0,18, nahe dem ursprünglichen KS-berechneten Wert von 0,25
Grenzkonsumsatz: Die gelernte Kurve ist bei hohem Vermögen flach und steigt bei niedrigem Vermögen steil an, konsistent mit Schlüsselergebnissen des ursprünglichen KS-Papiers
Heterogene Kapitalrenditen KS: Durch Einführung unterschiedlicher Kapitalproduktivitäten können Gini-Koeffizienten von 0,33 (leichte Heterogenität) bis 0,61 (signifikante Heterogenität) erreicht werden
Heterogene RBC: In einem 3×3-Gitter-Setup mit 9 Agenten führen unterschiedliche Produktivitäten zu überlappenden, aber unterschiedlichen Vermögensniveaus
Skalierbarkeit: Erfolgreiche Skalierung auf Hunderte von Agenten (maximal 529), SAC behält stabile hohe Leistung bei allen Skalierungen bei
Wirtschaftsseite: Konzentriert sich hauptsächlich auf Single-Agent-RL und zeigt, dass es Richtlinienfunktionen von Repräsentativ-Agent-GE-Modellen reproduzieren kann
Informatikseite: Experimentiert mit Multi-Agent-RL und zeigt, dass die Methode reichhaltiges aufkommendes wirtschaftliches Verhalten erzeugen kann, ignoriert aber größtenteils grundlegende makroökonomische Modelle
Diese Arbeit: Überbrückt beide Forschungslinien und bietet eine Grundlage, die Forschung beider Disziplinen zu verbinden
GPU-Vektorisierte Implementierung: Implementierung vektorisierter Stile der MARL-Umgebung zur vollständigen Nutzung der GPU-Beschleunigung
Forschung zu spezifischen wirtschaftlichen Problemen: Anwendung des Frameworks zur Untersuchung wirtschaftlicher Ungleichheit, asymmetrischer Veränderungen der Arbeitsproduktivität und anderer konkreter wirtschaftlicher Probleme
Auswirkungen von KI-Werkzeugen: Untersuchung der wirtschaftlichen und finanziellen Folgen der Verbreitung von KI-Werkzeugen am Arbeitsplatz
Dieses Papier zitiert 60 verwandte Literaturquellen, die wichtige Arbeiten aus mehreren Bereichen wie Makroökonomie, Verstärkungslernverfahren und Multi-Agent-Systemen abdecken und eine solide theoretische Grundlage für interdisziplinäre Forschung bieten.