2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

academic

Гетерогенные RBC через глубокое многоагентное обучение с подкреплением

Основная информация

ID статьи: 2510.12272
Название: Heterogeneous RBCs via deep multi-agent reinforcement learning
Авторы: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
Классификация: cs.MA cs.LG econ.TH
Дата публикации: 14 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12272

Аннотация

Современные макроэкономические модели с гетерогенностью агентов можно разделить на две основные категории. Модели общего равновесия (GE) с гетерогенными агентами, такие как модели на основе HANK или Krusell-Smith (KS), полагаются на предположения общего равновесия и "рациональных ожиданий", которые недостаточно реалистичны и усложняют вычисления модели, ограничивая степень моделируемой гетерогенности. В отличие от этого, модели на основе агентов (ABM) могут гибко включать большое количество произвольно гетерогенных агентов, но обычно требуют явного задания правил поведения, что приводит к длительному процессу разработки методом проб и ошибок. Для решения этих ограничений в данной работе представлена структура MARL-BC, которая объединяет глубокое многоагентное обучение с подкреплением (MARL) с моделями реальных деловых циклов (RBC).

Исследовательский контекст и мотивация

Определение проблемы

Традиционное макроэкономическое моделирование опирается на модели общего равновесия с репрезентативным агентом, такие как RBC и новокейнсианские модели. Однако хорошо известным ограничением моделей с репрезентативным агентом является невозможность учета гетерогенности агентов.

Ограничения существующих подходов

Модели GE с гетерогенными агентами:
- Требуют предположения о "рациональных ожиданиях", то есть агенты должны отслеживать всё распределение богатства или доходов как переменную состояния
- Высокие вычислительные затраты, значительно ограничивающие достижимую степень гетерогенности
- Обычно реализуют только "апостериорную" гетерогенность, то есть все агенты изначально идентичны и дифференцируются только из-за индивидуальных случайных шоков
Модели на основе агентов (ABM):
- Полностью отказываются от предположения о репрезентативном агенте и рациональных ожиданиях
- Требуют, чтобы моделировщик непосредственно определял правила поведения агентов
- Сложно правильно обрабатывать произвольность в спецификации правил и определять реалистичные правила

Исследовательская мотивация

Обучение с подкреплением (RL), в частности многоагентное обучение с подкреплением (MARL), предоставляет новый подход к моделированию гетерогенных агентов в макроэкономике. Парадигма обучения RL, похоже, предоставляет естественный синтез между крайностями GE и ABM: агенты могут быть ограниченно рациональными и разнообразными, но их поведение возникает эндогенно из принципиального процесса оптимизации (обучение максимизации вознаграждения).

Основные вклады

Разработана структура MARL-BC: структура на основе MARL, расширяющая классическую модель RBC, поддерживающая несколько домохозяйств с богатой гибкой гетерогенностью
Доказана осуществимость обучения: обучение с использованием современных алгоритмов RL (PPO, SAC, DDPG) вычислительно осуществимо
Воспроизведены классические результаты: при использовании одного агента можно восстановить результаты учебника RBC
Воспроизведены модели среднего поля: при использовании большого количества априори идентичных агентов можно восстановить результаты модели среднего поля Krusell-Smith
Поддержана богатая гетерогенность: эффективное моделирование богатой гетерогенности между агентами, что является сложной задачей для традиционных методов GE

Подробное описание методологии

Определение задачи

Структура MARL-BC направлена на расширение классической модели RBC посредством многоагентного обучения с подкреплением для поддержки гетерогенных агентов домохозяйств, позволяя:

Восстановить традиционную модель RBC в случае одного агента
Восстановить модель среднего поля Krusell-Smith в случае нескольких идентичных агентов
Поддерживать моделирование агентов с произвольной гетерогенностью

Архитектура модели

Гетерогенная среда RBC

Модель содержит n типов домохозяйств i = 1,...,n и одну фирму:

Эффективный совокупный капитал и труд:
```
K_t = (1/n) * Σ(κ_i * k_i_t)
L_t = (1/n) * Σ(λ_i * ℓ_i_t)
```
где κ_i и λ_i — производительность капитала и труда соответственно
Производственная функция: используется функция Кобба-Дугласа
```
Y_t = A_t * K_t^α * L_t^(1-α)
```
Стоимость капитала и труда: предполагается совершенная конкуренция
```
r_i_t = α * (Y_t/K_t) * κ_i
w_i_t = (1-α) * (Y_t/L_t) * λ_i
```

Богатство домохозяйства:

a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t

Агенты домохозяйств RL

Пространство действий: действие на каждом временном шаге — это кортеж (c_i_t, ℓ_i_t)
- c_i_t: доля потребления, диапазон (0.01, 0.99)
- ℓ_i_t: предложение труда, диапазон (0.01, 0.99)

Пространство наблюдений:

x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)

Функция вознаграждения:
```
R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
```
где b > 0 контролирует компромисс между потреблением и досугом
Обучение политике: каждый агент RL обучается детерминированной политике
```
π_i: x_i_t → (c_i_t, ℓ_i_t)
```
путём максимизации ожидаемой суммы дисконтированных вознаграждений:
```
R_i = E_π_i[Σ_t β^t * R_i_t]
```

Технические инновации

Совместное использование параметров: применяется стандартная парадигма совместного использования параметров MARL, где одна нейронная сеть представляет всех агентов, реализуя различное поведение через индивидуальные характеристики в наблюдениях
Независимые обучающиеся: обучение независимых обучающихся, каждый из которых имеет доступ только к частичному набору информации x_i_t, оптимизирующих приблизительные политики наилучшего ответа
Гибкая гетерогенность: поддержка произвольных конфигураций гетерогенности производительности капитала и труда
Унифицированная структура: может восстанавливать результаты GE в предельных случаях и использоваться как ABM в общем случае

Экспериментальная установка

Экспериментальные параметры

Параметр	RBC	KS	Общий
n (количество домохозяйств)	1	20	20
T (длина эпизода)	500	500	500
κ_i (производительность капитала)	1	1	{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (производительность труда)	1	1	{0.98, 1, 1.02}
α (эластичность выпуска)	0.36	0.36	0.36
δ (амортизация капитала)	{1, 0.025}	0.025	0.025
β (коэффициент дисконтирования)	0.95	0.95	0.95

Методы сравнения

Используются четыре алгоритма RL для сравнения:

DDPG (Deep Deterministic Policy Gradient)
TD3 (Twin Delayed Deep Deterministic Policy Gradient)
SAC (Soft Actor Critic)
PPO (Proximal Policy Optimization)

Детали реализации

Разработка среды MARL с использованием интерфейса PettingZoo
Использование алгоритмов RL из Stable-Baselines3
Обучение среды с одним агентом в течение 10^6 шагов, обновление каждого агента в многоагентной среде 10^5 шагов
Применение совместного использования параметров для повышения эффективности выборки и масштабируемости

Результаты экспериментов

Основные результаты

1. Предел репрезентативного агента RBC

Производительность алгоритма: SAC, TD3 и DDPG значительно превосходят PPO по скорости сходимости, SAC является наиболее стабильным обучающимся
Воспроизведение учебника RBC: при полной амортизации (δ=1) агенты RL обучаются восстанавливать оптимальную политику, сходясь к оптимальному значению примерно после 10^4 шагов обучения
Воспроизведение типичного RBC: при частичной амортизации (δ=0.025) изученные оптимальные выборы потребления и труда совпадают с результатами, вычисленными программным обеспечением Dynare
Функции импульсного отклика: успешно воспроизведены стандартные функции импульсного отклика, статистически согласующиеся с результатами традиционных методов

2. Предел среднего поля Krusell-Smith

Закон движения KS: эндогенно возникает полностью линейная зависимость (R² > 0.99) без априорных предположений
Характеристики распределения: коэффициент Джини после сходимости увеличивается до 0.18, приближаясь к 0.25, вычисленному в исходной работе KS
Предельная склонность к потреблению: изученная кривая плоская при высоком богатстве и резко возрастает при низком богатстве, что согласуется с ключевыми результатами исходной работы KS

3. Моделирование большей гетерогенности

KS с гетерогенной доходностью капитала: введение различных производительностей капитала позволяет достичь коэффициента Джини 0.33 (слабая гетерогенность) и 0.61 (значительная гетерогенность)
Гетерогенный RBC: в конфигурации сетки 3×3 с 9 агентами различные производительности приводят к перекрывающимся, но различным уровням богатства
Масштабируемость: успешное расширение до сотен агентов (максимум 529), SAC сохраняет стабильную высокую производительность при всех масштабах

Абляционные эксперименты

Сравнение производительности различных алгоритмов RL при различном количестве агентов:

SAC последовательно достигает высокого вознаграждения при оценке при всех размерах популяции
PPO показывает худшую производительность в малых популяциях, но улучшается с увеличением n
TD3 и DDPG показывают нестабильную производительность при большом n

Экспериментальные выводы

Сходимость: все рассмотренные алгоритмы RL успешно обучаются политикам, оптимизирующим накопленное вознаграждение
Стабильность: SAC является наиболее надёжным обучающимся, особенно в многоагентных конфигурациях
Масштабируемость: структура может быть расширена до сотен гетерогенных домохозяйств, даже на обычном оборудовании
Возникающее поведение: поведение, такое как политика "от руки в рот", возникает эндогенно без эвристического кодирования

Связанные работы

Применение RL в экономике

Ранние вклады: использование глубокого многоагентного RL для моделирования возникающего экономического поведения в упрощённых игрушечных экономиках
Финансовая область: успешное применение к моделированию различных торговых стратегий
Макроэкономика: недавнее начало исследования технологий RL для расширения классических структур GE

Отличия от существующих работ

Экономический аспект: основное внимание уделяется одноагентному RL, показывающему, что он может восстанавливать функции политики моделей GE с репрезентативным агентом
Аспект компьютерных наук: экспериментирование с многоагентным RL, показывающее, что методы могут производить богатое возникающее экономическое поведение, но большинство игнорирует основные модели макроэкономики
Данная работа: соединяет две исследовательские линии, обеспечивая основу для связи исследований двух дисциплин

Заключение и обсуждение

Основные выводы

Структура MARL-BC успешно интегрирует глубокое MARL с окружением RBC
Структура может восстанавливать классические результаты учебника RBC и модель среднего поля Krusell-Smith
Способна моделировать богатую гетерогенность агентов, которую традиционные методы GE с трудом реализуют
Предоставляет шаг к синтезу моделей ABM и гетерогенных агентов GE

Ограничения

Вычислительные затраты: точное обучение агентов RL требует значительных вычислительных ресурсов, многоагентное обучение требует часов работы
Зависимость от оборудования: требуется ускорение на GPU для значительного снижения вычислительной нагрузки
Сложность модели: требует более сложного процесса обучения и настройки по сравнению с традиционными методами

Направления будущих исследований

Векторизованная реализация на GPU: реализация векторизованного стиля среды MARL для полного использования ускорения GPU
Исследование конкретных экономических проблем: применение структуры к исследованию экономического неравенства, асимметричных изменений производительности труда и других конкретных экономических проблем
Влияние инструментов ИИ: исследование экономических и финансовых последствий распространения инструментов ИИ на рабочих местах

Глубокая оценка

Преимущества

Методологическая инновативность:
- Первое успешное объединение MARL с классическими макроэкономическими моделями
- Обеспечивает мост между моделями ABM и GE
- Точно воспроизводит результаты традиционных моделей в предельных случаях
Полнота экспериментов:
- Трёхуровневая валидация: одноагентный RBC, среднее поле KS, общая гетерогенность
- Систематическое сравнение нескольких алгоритмов RL
- Тестирование масштабируемости от единиц до сотен агентов
Убедительность результатов:
- Количественное воспроизведение ключевых показателей классических моделей
- Проверка статистической значимости (например, функции импульсного отклика)
- Демонстрация способности к моделированию гетерогенности, недостижимой традиционными методами
Ясность изложения:
- Чёткое описание структуры и математическая нотация
- Интуитивные графики для представления результатов
- Подробные гиперпараметры и детали реализации

Недостатки

Методологические ограничения:
- Зависимость от совместного использования параметров может ограничить истинную независимость поведения агентов
- Метод независимых обучающихся может не достичь истинного равновесного решения
Дефекты экспериментальной установки:
- Относительно ограниченное количество агентов (максимум 529)
- Отсутствие прямого сравнения с другими методами экономического моделирования
- Анализ времени вычислений в основном основан на CPU, производительность GPU недостаточно изучена
Недостаточный анализ:
- Отсутствие теоретического анализа сходимости
- Ограниченное теоретическое понимание динамики обучения
- Недостаточный анализ чувствительности к параметрам

Влияние

Вклад в область:
- Предоставляет новую методологическую структуру для макроэкономического моделирования
- Способствует междисциплинарным исследованиям между компьютерными науками и экономикой
- Открывает новые направления для моделирования сложных экономических систем
Практическая ценность:
- Открытый исходный код повышает воспроизводимость и расширяемость
- Предоставляет новые инструменты для анализа экономической политики
- Поддерживает более реалистичные предположения о гетерогенности
Воспроизводимость:
- Подробные настройки гиперпараметров
- Открытый исходный код и детали реализации
- Стандартизированные экспериментальные протоколы

Применимые сценарии

Анализ макроэкономической политики: особенно сценарии, требующие учёта гетерогенности агентов
Исследование экономического неравенства: использование гетерогенной производительности для моделирования распределения богатства
Моделирование сложных экономических систем: высокомерные проблемы гетерогенности, которые традиционные методы GE с трудом обрабатывают
Инструменты обучения и исследования: предоставление интуитивной структуры моделирования для экономического образования

Библиография

В данной работе цитируется 60 соответствующих источников, охватывающих важные работы в области макроэкономики, обучения с подкреплением, многоагентных систем и других областей, обеспечивая прочную теоретическую основу для междисциплинарных исследований.