2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

academic

Modelli RBC eterogenei tramite apprendimento per rinforzo multi-agente profondo

Informazioni di base

ID articolo: 2510.12272
Titolo: Heterogeneous RBCs via deep multi-agent reinforcement learning
Autori: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
Classificazione: cs.MA cs.LG econ.TH
Data di pubblicazione: 14 ottobre 2025
Link articolo: https://arxiv.org/abs/2510.12272

Riassunto

I modelli macroeconomici contemporanei con eterogeneità degli agenti possono essere divisi in due categorie principali. I modelli di equilibrio generale (GE) con agenti eterogenei, come quelli basati su metodi HANK o Krusell-Smith (KS), si basano su ipotesi di equilibrio generale e "aspettative razionali", che non sono sufficientemente realistiche e rendono il modello computazionalmente complesso, limitando il grado di eterogeneità modellabile. Al contrario, i modelli basati su agenti (ABMs) possono includere in modo flessibile un gran numero di agenti arbitrariamente eterogenei, ma richiedono generalmente la specifica esplicita di regole comportamentali, portando a lunghi processi di sviluppo del modello per tentativi ed errori. Per affrontare queste limitazioni, il presente articolo introduce il framework MARL-BC, che combina l'apprendimento per rinforzo multi-agente profondo (MARL) con modelli di cicli economici reali (RBC).

Contesto di ricerca e motivazione

Definizione del problema

La modellazione macroeconomica tradizionalmente si basa su modelli di equilibrio generale che utilizzano agenti rappresentativi, come i modelli RBC e neo-keynesiani. Tuttavia, una limitazione ben nota dei modelli con agenti rappresentativi è l'incapacità di considerare l'eterogeneità degli agenti.

Limitazioni dei metodi esistenti

Modelli GE con agenti eterogenei:
- Richiedono l'ipotesi di "aspettative razionali", ovvero gli agenti devono tracciare l'intera distribuzione di ricchezza o reddito come variabili di stato
- Costi computazionali elevati, che limitano significativamente il grado di eterogeneità realizzabile
- Generalmente possono realizzare solo eterogeneità "ex-post", ovvero tutti gli agenti iniziano identici e si differenziano solo a causa di shock casuali individuali
Modelli basati su agenti (ABMs):
- Abbandonano completamente l'agente rappresentativo e l'ipotesi di aspettative razionali
- Richiedono che il modellatore decida direttamente le regole comportamentali degli agenti
- Difficile affrontare correttamente l'arbitrarietà nella specifica delle regole e determinare regole realistiche

Motivazione della ricerca

L'apprendimento per rinforzo (RL), in particolare l'apprendimento per rinforzo multi-agente (MARL), offre nuovi metodi per modellare agenti eterogenei in macroeconomia. Il paradigma di apprendimento RL sembra offrire una sintesi naturale tra gli estremi di GE e ABM: gli agenti possono essere a razionalità limitata e diversificati, ma il loro comportamento emerge endogenamente da un processo di ottimizzazione principiato (apprendimento per massimizzare il premio).

Contributi principali

Sviluppo del framework MARL-BC: un framework basato su MARL che estende il modello RBC classico, supportando più famiglie con ricca eterogeneità flessibile
Dimostrazione della fattibilità dell'addestramento: l'addestramento con algoritmi RL all'avanguardia (PPO, SAC, DDPG) è computazionalmente fattibile
Riproduzione dei risultati classici: quando si utilizza un singolo agente, è possibile recuperare i risultati RBC da manuale
Riproduzione del modello di campo medio: quando si utilizza un gran numero di agenti identici ex-ante, è possibile recuperare i risultati del modello di campo medio Krusell-Smith
Supporto per eterogeneità ricca: simulazione efficace di ricca eterogeneità tra agenti, un compito difficile per i metodi GE tradizionali

Spiegazione dettagliata del metodo

Definizione del compito

Il framework MARL-BC mira a estendere il modello RBC classico, supportando agenti famiglia eterogenei tramite apprendimento per rinforzo multi-agente, consentendo di:

Recuperare il modello RBC tradizionale nel caso di singolo agente
Recuperare il modello di campo medio Krusell-Smith nel caso di più agenti identici
Supportare la modellazione di agenti con eterogeneità arbitraria

Architettura del modello

Ambiente RBC eterogeneo

Il modello contiene n tipi di famiglie i = 1,...,n e una singola impresa:

Capitale e lavoro effettivi totali:
```
K_t = (1/n) * Σ(κ_i * k_i_t)
L_t = (1/n) * Σ(λ_i * ℓ_i_t)
```
dove κ_i e λ_i sono rispettivamente la produttività del capitale e del lavoro
Funzione di produzione: utilizza la funzione Cobb-Douglas
```
Y_t = A_t * K_t^α * L_t^(1-α)
```
Costi del capitale e del lavoro: assumendo mercati perfettamente competitivi
```
r_i_t = α * (Y_t/K_t) * κ_i
w_i_t = (1-α) * (Y_t/L_t) * λ_i
```

Ricchezza della famiglia:

a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t

Agenti famiglia RL

Spazio delle azioni: l'azione ad ogni passo temporale è la tupla (c_i_t, ℓ_i_t)
- c_i_t: proporzione di consumo, intervallo (0.01, 0.99)
- ℓ_i_t: offerta di lavoro, intervallo (0.01, 0.99)

Spazio di osservazione:

x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)

Funzione di premio:
```
R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
```
dove b > 0 controlla il compromesso tra consumo e tempo libero
Apprendimento della politica: ogni famiglia RL apprende una politica deterministica
```
π_i: x_i_t → (c_i_t, ℓ_i_t)
```
massimizzando la somma di premio scontato atteso:
```
R_i = E_π_i[Σ_t β^t * R_i_t]
```

Punti di innovazione tecnica

Condivisione dei parametri: adotta il paradigma standard di condivisione dei parametri MARL, con una singola rete neurale che rappresenta tutti gli agenti, realizzando comportamenti diversi attraverso caratteristiche individuali nell'osservazione
Apprendenti indipendenti: addestramento di apprendenti indipendenti, ognuno accedendo solo a un insieme di informazioni parziale x_i_t, ottimizzando politiche di risposta migliore approssimata
Eterogeneità flessibile: supporta impostazioni di eterogeneità arbitraria della produttività del capitale e del lavoro
Framework unificato: può recuperare risultati GE nei casi limite e fungere da ABM nel caso generale

Configurazione sperimentale

Parametri sperimentali

Parametro	RBC	KS	Generale
n (numero di famiglie)	1	20	20
T (lunghezza episodio)	500	500	500
κ_i (produttività del capitale)	1	1	{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (produttività del lavoro)	1	1	{0.98, 1, 1.02}
α (elasticità dell'output)	0.36	0.36	0.36
δ (deprezzamento del capitale)	{1, 0.025}	0.025	0.025
β (fattore di sconto)	0.95	0.95	0.95

Metodi di confronto

Confronto di quattro algoritmi RL:

DDPG (Deep Deterministic Policy Gradient)
TD3 (Twin Delayed Deep Deterministic Policy Gradient)
SAC (Soft Actor Critic)
PPO (Proximal Policy Optimization)

Dettagli di implementazione

Sviluppo dell'ambiente MARL utilizzando l'interfaccia PettingZoo
Algoritmi RL da Stable-Baselines3
Addestramento di 10^6 passi per ambienti a singolo agente, 10^5 aggiornamenti per agente per ambienti multi-agente
Utilizzo della condivisione dei parametri per migliorare l'efficienza campionaria e la scalabilità

Risultati sperimentali

Risultati principali

1. Limite RBC con agente rappresentativo

Prestazioni dell'algoritmo: SAC, TD3 e DDPG superano significativamente PPO in velocità di convergenza, con SAC come apprendente più stabile
Riproduzione RBC da manuale: nel caso di deprezzamento completo (δ=1), la famiglia RL apprende a recuperare la politica ottimale, convergendo al valore ottimale dopo circa 10^4 passi di addestramento
Riproduzione RBC tipico: nel caso di deprezzamento parziale (δ=0.025), le scelte di consumo e lavoro ottimali apprese sono coerenti con i risultati calcolati dal software Dynare
Funzioni di risposta all'impulso: riproduzione riuscita delle funzioni di risposta all'impulso standard, statisticamente coerenti con i risultati dei metodi tradizionali

2. Limite di campo medio Krusell-Smith

Legge del movimento KS: emerge endogenamente una relazione completamente lineare (R² > 0.99), senza ipotesi a priori
Caratteristiche di distribuzione: il coefficiente di Gini converge a 0.18 dopo la convergenza, prossimo ai 0.25 calcolati nel KS originale
Propensione marginale al consumo: la curva appresa è piatta ad alta ricchezza e aumenta drasticamente a bassa ricchezza, coerente con i risultati chiave del documento KS originale

3. Modellazione di maggiore eterogeneità

KS con rendimenti del capitale eterogenei: introducendo diverse produttività del capitale, il coefficiente di Gini può raggiungere 0.33 (eterogeneità lieve) e 0.61 (eterogeneità significativa)
RBC eterogeneo: in un'impostazione di griglia 3×3 con 9 agenti, diverse produttività portano a livelli di ricchezza sovrapposti ma distinti
Scalabilità: estensione riuscita a centinaia di agenti (massimo 529), con SAC che mantiene prestazioni stabili e elevate a tutte le scale

Esperimenti di ablazione

Confronto delle prestazioni di diversi algoritmi RL con diversi numeri di agenti:

SAC ottiene costantemente alto premio di valutazione a tutte le dimensioni della popolazione
PPO mostra prestazioni inferiori in piccole popolazioni, ma migliora con l'aumento di n
TD3 e DDPG mostrano prestazioni instabili in grandi n

Scoperte sperimentali

Convergenza: tutti gli algoritmi RL considerati apprendono con successo politiche che ottimizzano il premio cumulativo
Stabilità: SAC è l'apprendente più affidabile, in particolare in impostazioni multi-agente
Scalabilità: il framework può essere esteso a centinaia di famiglie eterogenee, realizzabile anche su hardware ordinario
Comportamento emergente: comportamenti come strategie di consumo "hand-to-mouth" emergono endogenamente, senza codifica euristica

Lavori correlati

Applicazioni di RL in economia

Contributi iniziali: utilizzo di RL multi-agente profondo per simulare comportamenti economici emergenti in economie giocattolo semplificate
Settore finanziario: applicazione riuscita alla modellazione di varie strategie di trading
Macroeconomia: esplorazione recente di tecniche RL per estendere framework GE classici

Differenze dal lavoro esistente

Lato economico: focus principalmente su RL a singolo agente, mostrando che può recuperare le funzioni di politica dei modelli GE con agenti rappresentativi
Lato informatica: esperimenti con RL multi-agente, mostrando che il metodo può produrre ricchi comportamenti economici emergenti, ma la maggior parte ignora i modelli fondamentali della macroeconomia
Questo lavoro: collega le due linee di ricerca, fornendo una base per connettere la ricerca tra le due discipline

Conclusioni e discussione

Conclusioni principali

Il framework MARL-BC integra con successo MARL profondo con ambienti RBC
Il framework può recuperare risultati RBC da manuale classico e modello di campo medio Krusell-Smith
Può modellare ricca eterogeneità di agenti difficile da realizzare con metodi GE tradizionali
Fornisce un passo verso la sintesi di modelli ABM e GE con agenti eterogenei

Limitazioni

Costo computazionale: l'addestramento accurato di agenti RL richiede costi computazionali considerevoli, con esecuzioni di addestramento multi-agente che richiedono ore
Dipendenza dall'hardware: richiede accelerazione GPU per ridurre significativamente l'onere computazionale
Complessità del modello: rispetto ai metodi tradizionali, richiede processi di addestramento e sintonizzazione più complessi

Direzioni future

Implementazione vettorizzata GPU: realizzazione dello stile vettorizzato dell'ambiente MARL per sfruttare pienamente l'accelerazione GPU
Studio di problemi economici specifici: applicazione del framework allo studio di disuguaglianza economica, cambiamenti asimmetrici della produttività del lavoro e altri problemi economici specifici
Impatto degli strumenti AI: studio delle conseguenze economiche e finanziarie della diffusione di strumenti AI nei luoghi di lavoro

Valutazione approfondita

Punti di forza

Innovazione metodologica:
- Prima integrazione riuscita di MARL con modelli macroeconomici classici
- Fornisce un ponte tra modelli ABM e GE
- Riproduce esattamente i risultati dei modelli tradizionali nei casi limite
Completezza sperimentale:
- Validazione a tre livelli: RBC a singolo agente, KS di campo medio, eterogeneità generale
- Confronto sistematico di più algoritmi RL
- Test di scalabilità da singoli agenti a centinaia di agenti
Convincenza dei risultati:
- Riproduzione quantitativa di metriche chiave dei modelli classici
- Validazione della significatività statistica (ad es., funzioni di risposta all'impulso)
- Dimostrazione della capacità di modellare eterogeneità difficile da realizzare con metodi tradizionali
Chiarezza della scrittura:
- Descrizione chiara del framework e notazione matematica
- Grafici intuitivi che presentano i risultati
- Dettagli completi di iperparametri e implementazione

Insufficienze

Limitazioni metodologiche:
- La dipendenza dalla condivisione dei parametri potrebbe limitare la vera indipendenza del comportamento degli agenti
- L'approccio degli apprendenti indipendenti potrebbe non raggiungere soluzioni di equilibrio vero
Difetti nella configurazione sperimentale:
- Numero di agenti relativamente limitato (massimo 529)
- Mancanza di confronto diretto con altri metodi di modellazione economica
- L'analisi del tempo computazionale si basa principalmente su CPU, con prestazioni GPU non completamente esplorate
Analisi insufficiente:
- Mancanza di analisi teorica della convergenza
- Comprensione teorica limitata della dinamica di apprendimento
- Analisi della sensibilità ai parametri non sufficientemente approfondita

Impatto

Contributo al campo:
- Fornisce un nuovo framework metodologico per la modellazione macroeconomica
- Promuove la ricerca interdisciplinare tra informatica ed economia
- Apre nuove direzioni per la modellazione di sistemi economici complessi
Valore pratico:
- Il codice open-source migliora la riproducibilità e l'estensibilità
- Fornisce nuovi strumenti per l'analisi delle politiche
- Supporta ipotesi di eterogeneità più realistiche
Riproducibilità:
- Impostazioni dettagliate degli iperparametri
- Codice open-source e dettagli di implementazione
- Protocolli sperimentali standardizzati

Scenari applicabili

Analisi delle politiche macroeconomiche: in particolare scenari che richiedono considerazione dell'eterogeneità degli agenti
Ricerca sulla disuguaglianza economica: utilizzo della modellazione della produttività eterogenea per la distribuzione della ricchezza
Modellazione di sistemi economici complessi: problemi di eterogeneità ad alta dimensionalità difficili da affrontare con metodi GE tradizionali
Strumenti didattici e di ricerca: fornisce un framework di modellazione intuitivo per l'educazione economica

Bibliografia

Il presente articolo cita 60 lavori correlati, coprendo importanti contributi in macroeconomia, apprendimento per rinforzo, sistemi multi-agente e altri campi, fornendo una base teorica solida per la ricerca interdisciplinare.