2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic

Modelli RBC eterogenei tramite apprendimento per rinforzo multi-agente profondo

Informazioni di base

  • ID articolo: 2510.12272
  • Titolo: Heterogeneous RBCs via deep multi-agent reinforcement learning
  • Autori: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
  • Classificazione: cs.MA cs.LG econ.TH
  • Data di pubblicazione: 14 ottobre 2025
  • Link articolo: https://arxiv.org/abs/2510.12272

Riassunto

I modelli macroeconomici contemporanei con eterogeneità degli agenti possono essere divisi in due categorie principali. I modelli di equilibrio generale (GE) con agenti eterogenei, come quelli basati su metodi HANK o Krusell-Smith (KS), si basano su ipotesi di equilibrio generale e "aspettative razionali", che non sono sufficientemente realistiche e rendono il modello computazionalmente complesso, limitando il grado di eterogeneità modellabile. Al contrario, i modelli basati su agenti (ABMs) possono includere in modo flessibile un gran numero di agenti arbitrariamente eterogenei, ma richiedono generalmente la specifica esplicita di regole comportamentali, portando a lunghi processi di sviluppo del modello per tentativi ed errori. Per affrontare queste limitazioni, il presente articolo introduce il framework MARL-BC, che combina l'apprendimento per rinforzo multi-agente profondo (MARL) con modelli di cicli economici reali (RBC).

Contesto di ricerca e motivazione

Definizione del problema

La modellazione macroeconomica tradizionalmente si basa su modelli di equilibrio generale che utilizzano agenti rappresentativi, come i modelli RBC e neo-keynesiani. Tuttavia, una limitazione ben nota dei modelli con agenti rappresentativi è l'incapacità di considerare l'eterogeneità degli agenti.

Limitazioni dei metodi esistenti

  1. Modelli GE con agenti eterogenei:
    • Richiedono l'ipotesi di "aspettative razionali", ovvero gli agenti devono tracciare l'intera distribuzione di ricchezza o reddito come variabili di stato
    • Costi computazionali elevati, che limitano significativamente il grado di eterogeneità realizzabile
    • Generalmente possono realizzare solo eterogeneità "ex-post", ovvero tutti gli agenti iniziano identici e si differenziano solo a causa di shock casuali individuali
  2. Modelli basati su agenti (ABMs):
    • Abbandonano completamente l'agente rappresentativo e l'ipotesi di aspettative razionali
    • Richiedono che il modellatore decida direttamente le regole comportamentali degli agenti
    • Difficile affrontare correttamente l'arbitrarietà nella specifica delle regole e determinare regole realistiche

Motivazione della ricerca

L'apprendimento per rinforzo (RL), in particolare l'apprendimento per rinforzo multi-agente (MARL), offre nuovi metodi per modellare agenti eterogenei in macroeconomia. Il paradigma di apprendimento RL sembra offrire una sintesi naturale tra gli estremi di GE e ABM: gli agenti possono essere a razionalità limitata e diversificati, ma il loro comportamento emerge endogenamente da un processo di ottimizzazione principiato (apprendimento per massimizzare il premio).

Contributi principali

  1. Sviluppo del framework MARL-BC: un framework basato su MARL che estende il modello RBC classico, supportando più famiglie con ricca eterogeneità flessibile
  2. Dimostrazione della fattibilità dell'addestramento: l'addestramento con algoritmi RL all'avanguardia (PPO, SAC, DDPG) è computazionalmente fattibile
  3. Riproduzione dei risultati classici: quando si utilizza un singolo agente, è possibile recuperare i risultati RBC da manuale
  4. Riproduzione del modello di campo medio: quando si utilizza un gran numero di agenti identici ex-ante, è possibile recuperare i risultati del modello di campo medio Krusell-Smith
  5. Supporto per eterogeneità ricca: simulazione efficace di ricca eterogeneità tra agenti, un compito difficile per i metodi GE tradizionali

Spiegazione dettagliata del metodo

Definizione del compito

Il framework MARL-BC mira a estendere il modello RBC classico, supportando agenti famiglia eterogenei tramite apprendimento per rinforzo multi-agente, consentendo di:

  • Recuperare il modello RBC tradizionale nel caso di singolo agente
  • Recuperare il modello di campo medio Krusell-Smith nel caso di più agenti identici
  • Supportare la modellazione di agenti con eterogeneità arbitraria

Architettura del modello

Ambiente RBC eterogeneo

Il modello contiene n tipi di famiglie i = 1,...,n e una singola impresa:

  1. Capitale e lavoro effettivi totali:
    K_t = (1/n) * Σ(κ_i * k_i_t)
    L_t = (1/n) * Σ(λ_i * ℓ_i_t)
    

    dove κ_i e λ_i sono rispettivamente la produttività del capitale e del lavoro
  2. Funzione di produzione: utilizza la funzione Cobb-Douglas
    Y_t = A_t * K_t^α * L_t^(1-α)
    
  3. Costi del capitale e del lavoro: assumendo mercati perfettamente competitivi
    r_i_t = α * (Y_t/K_t) * κ_i
    w_i_t = (1-α) * (Y_t/L_t) * λ_i
    
  4. Ricchezza della famiglia:
    a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t
    

Agenti famiglia RL

  1. Spazio delle azioni: l'azione ad ogni passo temporale è la tupla (c_i_t, ℓ_i_t)
    • c_i_t: proporzione di consumo, intervallo (0.01, 0.99)
    • ℓ_i_t: offerta di lavoro, intervallo (0.01, 0.99)
  2. Spazio di osservazione:
    x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)
    
  3. Funzione di premio:
    R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
    

    dove b > 0 controlla il compromesso tra consumo e tempo libero
  4. Apprendimento della politica: ogni famiglia RL apprende una politica deterministica
    π_i: x_i_t → (c_i_t, ℓ_i_t)
    

    massimizzando la somma di premio scontato atteso:
    R_i = E_π_i[Σ_t β^t * R_i_t]
    

Punti di innovazione tecnica

  1. Condivisione dei parametri: adotta il paradigma standard di condivisione dei parametri MARL, con una singola rete neurale che rappresenta tutti gli agenti, realizzando comportamenti diversi attraverso caratteristiche individuali nell'osservazione
  2. Apprendenti indipendenti: addestramento di apprendenti indipendenti, ognuno accedendo solo a un insieme di informazioni parziale x_i_t, ottimizzando politiche di risposta migliore approssimata
  3. Eterogeneità flessibile: supporta impostazioni di eterogeneità arbitraria della produttività del capitale e del lavoro
  4. Framework unificato: può recuperare risultati GE nei casi limite e fungere da ABM nel caso generale

Configurazione sperimentale

Parametri sperimentali

ParametroRBCKSGenerale
n (numero di famiglie)12020
T (lunghezza episodio)500500500
κ_i (produttività del capitale)11{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (produttività del lavoro)11{0.98, 1, 1.02}
α (elasticità dell'output)0.360.360.36
δ (deprezzamento del capitale){1, 0.025}0.0250.025
β (fattore di sconto)0.950.950.95

Metodi di confronto

Confronto di quattro algoritmi RL:

  • DDPG (Deep Deterministic Policy Gradient)
  • TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • SAC (Soft Actor Critic)
  • PPO (Proximal Policy Optimization)

Dettagli di implementazione

  • Sviluppo dell'ambiente MARL utilizzando l'interfaccia PettingZoo
  • Algoritmi RL da Stable-Baselines3
  • Addestramento di 10^6 passi per ambienti a singolo agente, 10^5 aggiornamenti per agente per ambienti multi-agente
  • Utilizzo della condivisione dei parametri per migliorare l'efficienza campionaria e la scalabilità

Risultati sperimentali

Risultati principali

1. Limite RBC con agente rappresentativo

  • Prestazioni dell'algoritmo: SAC, TD3 e DDPG superano significativamente PPO in velocità di convergenza, con SAC come apprendente più stabile
  • Riproduzione RBC da manuale: nel caso di deprezzamento completo (δ=1), la famiglia RL apprende a recuperare la politica ottimale, convergendo al valore ottimale dopo circa 10^4 passi di addestramento
  • Riproduzione RBC tipico: nel caso di deprezzamento parziale (δ=0.025), le scelte di consumo e lavoro ottimali apprese sono coerenti con i risultati calcolati dal software Dynare
  • Funzioni di risposta all'impulso: riproduzione riuscita delle funzioni di risposta all'impulso standard, statisticamente coerenti con i risultati dei metodi tradizionali

2. Limite di campo medio Krusell-Smith

  • Legge del movimento KS: emerge endogenamente una relazione completamente lineare (R² > 0.99), senza ipotesi a priori
  • Caratteristiche di distribuzione: il coefficiente di Gini converge a 0.18 dopo la convergenza, prossimo ai 0.25 calcolati nel KS originale
  • Propensione marginale al consumo: la curva appresa è piatta ad alta ricchezza e aumenta drasticamente a bassa ricchezza, coerente con i risultati chiave del documento KS originale

3. Modellazione di maggiore eterogeneità

  • KS con rendimenti del capitale eterogenei: introducendo diverse produttività del capitale, il coefficiente di Gini può raggiungere 0.33 (eterogeneità lieve) e 0.61 (eterogeneità significativa)
  • RBC eterogeneo: in un'impostazione di griglia 3×3 con 9 agenti, diverse produttività portano a livelli di ricchezza sovrapposti ma distinti
  • Scalabilità: estensione riuscita a centinaia di agenti (massimo 529), con SAC che mantiene prestazioni stabili e elevate a tutte le scale

Esperimenti di ablazione

Confronto delle prestazioni di diversi algoritmi RL con diversi numeri di agenti:

  • SAC ottiene costantemente alto premio di valutazione a tutte le dimensioni della popolazione
  • PPO mostra prestazioni inferiori in piccole popolazioni, ma migliora con l'aumento di n
  • TD3 e DDPG mostrano prestazioni instabili in grandi n

Scoperte sperimentali

  1. Convergenza: tutti gli algoritmi RL considerati apprendono con successo politiche che ottimizzano il premio cumulativo
  2. Stabilità: SAC è l'apprendente più affidabile, in particolare in impostazioni multi-agente
  3. Scalabilità: il framework può essere esteso a centinaia di famiglie eterogenee, realizzabile anche su hardware ordinario
  4. Comportamento emergente: comportamenti come strategie di consumo "hand-to-mouth" emergono endogenamente, senza codifica euristica

Lavori correlati

Applicazioni di RL in economia

  • Contributi iniziali: utilizzo di RL multi-agente profondo per simulare comportamenti economici emergenti in economie giocattolo semplificate
  • Settore finanziario: applicazione riuscita alla modellazione di varie strategie di trading
  • Macroeconomia: esplorazione recente di tecniche RL per estendere framework GE classici

Differenze dal lavoro esistente

  1. Lato economico: focus principalmente su RL a singolo agente, mostrando che può recuperare le funzioni di politica dei modelli GE con agenti rappresentativi
  2. Lato informatica: esperimenti con RL multi-agente, mostrando che il metodo può produrre ricchi comportamenti economici emergenti, ma la maggior parte ignora i modelli fondamentali della macroeconomia
  3. Questo lavoro: collega le due linee di ricerca, fornendo una base per connettere la ricerca tra le due discipline

Conclusioni e discussione

Conclusioni principali

  1. Il framework MARL-BC integra con successo MARL profondo con ambienti RBC
  2. Il framework può recuperare risultati RBC da manuale classico e modello di campo medio Krusell-Smith
  3. Può modellare ricca eterogeneità di agenti difficile da realizzare con metodi GE tradizionali
  4. Fornisce un passo verso la sintesi di modelli ABM e GE con agenti eterogenei

Limitazioni

  1. Costo computazionale: l'addestramento accurato di agenti RL richiede costi computazionali considerevoli, con esecuzioni di addestramento multi-agente che richiedono ore
  2. Dipendenza dall'hardware: richiede accelerazione GPU per ridurre significativamente l'onere computazionale
  3. Complessità del modello: rispetto ai metodi tradizionali, richiede processi di addestramento e sintonizzazione più complessi

Direzioni future

  1. Implementazione vettorizzata GPU: realizzazione dello stile vettorizzato dell'ambiente MARL per sfruttare pienamente l'accelerazione GPU
  2. Studio di problemi economici specifici: applicazione del framework allo studio di disuguaglianza economica, cambiamenti asimmetrici della produttività del lavoro e altri problemi economici specifici
  3. Impatto degli strumenti AI: studio delle conseguenze economiche e finanziarie della diffusione di strumenti AI nei luoghi di lavoro

Valutazione approfondita

Punti di forza

  1. Innovazione metodologica:
    • Prima integrazione riuscita di MARL con modelli macroeconomici classici
    • Fornisce un ponte tra modelli ABM e GE
    • Riproduce esattamente i risultati dei modelli tradizionali nei casi limite
  2. Completezza sperimentale:
    • Validazione a tre livelli: RBC a singolo agente, KS di campo medio, eterogeneità generale
    • Confronto sistematico di più algoritmi RL
    • Test di scalabilità da singoli agenti a centinaia di agenti
  3. Convincenza dei risultati:
    • Riproduzione quantitativa di metriche chiave dei modelli classici
    • Validazione della significatività statistica (ad es., funzioni di risposta all'impulso)
    • Dimostrazione della capacità di modellare eterogeneità difficile da realizzare con metodi tradizionali
  4. Chiarezza della scrittura:
    • Descrizione chiara del framework e notazione matematica
    • Grafici intuitivi che presentano i risultati
    • Dettagli completi di iperparametri e implementazione

Insufficienze

  1. Limitazioni metodologiche:
    • La dipendenza dalla condivisione dei parametri potrebbe limitare la vera indipendenza del comportamento degli agenti
    • L'approccio degli apprendenti indipendenti potrebbe non raggiungere soluzioni di equilibrio vero
  2. Difetti nella configurazione sperimentale:
    • Numero di agenti relativamente limitato (massimo 529)
    • Mancanza di confronto diretto con altri metodi di modellazione economica
    • L'analisi del tempo computazionale si basa principalmente su CPU, con prestazioni GPU non completamente esplorate
  3. Analisi insufficiente:
    • Mancanza di analisi teorica della convergenza
    • Comprensione teorica limitata della dinamica di apprendimento
    • Analisi della sensibilità ai parametri non sufficientemente approfondita

Impatto

  1. Contributo al campo:
    • Fornisce un nuovo framework metodologico per la modellazione macroeconomica
    • Promuove la ricerca interdisciplinare tra informatica ed economia
    • Apre nuove direzioni per la modellazione di sistemi economici complessi
  2. Valore pratico:
    • Il codice open-source migliora la riproducibilità e l'estensibilità
    • Fornisce nuovi strumenti per l'analisi delle politiche
    • Supporta ipotesi di eterogeneità più realistiche
  3. Riproducibilità:
    • Impostazioni dettagliate degli iperparametri
    • Codice open-source e dettagli di implementazione
    • Protocolli sperimentali standardizzati

Scenari applicabili

  1. Analisi delle politiche macroeconomiche: in particolare scenari che richiedono considerazione dell'eterogeneità degli agenti
  2. Ricerca sulla disuguaglianza economica: utilizzo della modellazione della produttività eterogenea per la distribuzione della ricchezza
  3. Modellazione di sistemi economici complessi: problemi di eterogeneità ad alta dimensionalità difficili da affrontare con metodi GE tradizionali
  4. Strumenti didattici e di ricerca: fornisce un framework di modellazione intuitivo per l'educazione economica

Bibliografia

Il presente articolo cita 60 lavori correlati, coprendo importanti contributi in macroeconomia, apprendimento per rinforzo, sistemi multi-agente e altri campi, fornendo una base teorica solida per la ricerca interdisciplinare.