Heterogeneous RBCs via deep multi-agent reinforcement learning
Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic
Гетерогенные RBC через глубокое многоагентное обучение с подкреплением
Современные макроэкономические модели с гетерогенностью агентов можно разделить на две основные категории. Модели общего равновесия (GE) с гетерогенными агентами, такие как модели на основе HANK или Krusell-Smith (KS), полагаются на предположения общего равновесия и "рациональных ожиданий", которые недостаточно реалистичны и усложняют вычисления модели, ограничивая степень моделируемой гетерогенности. В отличие от этого, модели на основе агентов (ABM) могут гибко включать большое количество произвольно гетерогенных агентов, но обычно требуют явного задания правил поведения, что приводит к длительному процессу разработки методом проб и ошибок. Для решения этих ограничений в данной работе представлена структура MARL-BC, которая объединяет глубокое многоагентное обучение с подкреплением (MARL) с моделями реальных деловых циклов (RBC).
Традиционное макроэкономическое моделирование опирается на модели общего равновесия с репрезентативным агентом, такие как RBC и новокейнсианские модели. Однако хорошо известным ограничением моделей с репрезентативным агентом является невозможность учета гетерогенности агентов.
Требуют предположения о "рациональных ожиданиях", то есть агенты должны отслеживать всё распределение богатства или доходов как переменную состояния
Высокие вычислительные затраты, значительно ограничивающие достижимую степень гетерогенности
Обычно реализуют только "апостериорную" гетерогенность, то есть все агенты изначально идентичны и дифференцируются только из-за индивидуальных случайных шоков
Модели на основе агентов (ABM):
Полностью отказываются от предположения о репрезентативном агенте и рациональных ожиданиях
Требуют, чтобы моделировщик непосредственно определял правила поведения агентов
Сложно правильно обрабатывать произвольность в спецификации правил и определять реалистичные правила
Обучение с подкреплением (RL), в частности многоагентное обучение с подкреплением (MARL), предоставляет новый подход к моделированию гетерогенных агентов в макроэкономике. Парадигма обучения RL, похоже, предоставляет естественный синтез между крайностями GE и ABM: агенты могут быть ограниченно рациональными и разнообразными, но их поведение возникает эндогенно из принципиального процесса оптимизации (обучение максимизации вознаграждения).
Разработана структура MARL-BC: структура на основе MARL, расширяющая классическую модель RBC, поддерживающая несколько домохозяйств с богатой гибкой гетерогенностью
Доказана осуществимость обучения: обучение с использованием современных алгоритмов RL (PPO, SAC, DDPG) вычислительно осуществимо
Воспроизведены классические результаты: при использовании одного агента можно восстановить результаты учебника RBC
Воспроизведены модели среднего поля: при использовании большого количества априори идентичных агентов можно восстановить результаты модели среднего поля Krusell-Smith
Поддержана богатая гетерогенность: эффективное моделирование богатой гетерогенности между агентами, что является сложной задачей для традиционных методов GE
Структура MARL-BC направлена на расширение классической модели RBC посредством многоагентного обучения с подкреплением для поддержки гетерогенных агентов домохозяйств, позволяя:
Восстановить традиционную модель RBC в случае одного агента
Восстановить модель среднего поля Krusell-Smith в случае нескольких идентичных агентов
Поддерживать моделирование агентов с произвольной гетерогенностью
Совместное использование параметров: применяется стандартная парадигма совместного использования параметров MARL, где одна нейронная сеть представляет всех агентов, реализуя различное поведение через индивидуальные характеристики в наблюдениях
Независимые обучающиеся: обучение независимых обучающихся, каждый из которых имеет доступ только к частичному набору информации x_i_t, оптимизирующих приблизительные политики наилучшего ответа
Гибкая гетерогенность: поддержка произвольных конфигураций гетерогенности производительности капитала и труда
Унифицированная структура: может восстанавливать результаты GE в предельных случаях и использоваться как ABM в общем случае
Производительность алгоритма: SAC, TD3 и DDPG значительно превосходят PPO по скорости сходимости, SAC является наиболее стабильным обучающимся
Воспроизведение учебника RBC: при полной амортизации (δ=1) агенты RL обучаются восстанавливать оптимальную политику, сходясь к оптимальному значению примерно после 10^4 шагов обучения
Воспроизведение типичного RBC: при частичной амортизации (δ=0.025) изученные оптимальные выборы потребления и труда совпадают с результатами, вычисленными программным обеспечением Dynare
Функции импульсного отклика: успешно воспроизведены стандартные функции импульсного отклика, статистически согласующиеся с результатами традиционных методов
Закон движения KS: эндогенно возникает полностью линейная зависимость (R² > 0.99) без априорных предположений
Характеристики распределения: коэффициент Джини после сходимости увеличивается до 0.18, приближаясь к 0.25, вычисленному в исходной работе KS
Предельная склонность к потреблению: изученная кривая плоская при высоком богатстве и резко возрастает при низком богатстве, что согласуется с ключевыми результатами исходной работы KS
KS с гетерогенной доходностью капитала: введение различных производительностей капитала позволяет достичь коэффициента Джини 0.33 (слабая гетерогенность) и 0.61 (значительная гетерогенность)
Гетерогенный RBC: в конфигурации сетки 3×3 с 9 агентами различные производительности приводят к перекрывающимся, но различным уровням богатства
Масштабируемость: успешное расширение до сотен агентов (максимум 529), SAC сохраняет стабильную высокую производительность при всех масштабах
Экономический аспект: основное внимание уделяется одноагентному RL, показывающему, что он может восстанавливать функции политики моделей GE с репрезентативным агентом
Аспект компьютерных наук: экспериментирование с многоагентным RL, показывающее, что методы могут производить богатое возникающее экономическое поведение, но большинство игнорирует основные модели макроэкономики
Данная работа: соединяет две исследовательские линии, обеспечивая основу для связи исследований двух дисциплин
Векторизованная реализация на GPU: реализация векторизованного стиля среды MARL для полного использования ускорения GPU
Исследование конкретных экономических проблем: применение структуры к исследованию экономического неравенства, асимметричных изменений производительности труда и других конкретных экономических проблем
Влияние инструментов ИИ: исследование экономических и финансовых последствий распространения инструментов ИИ на рабочих местах
В данной работе цитируется 60 соответствующих источников, охватывающих важные работы в области макроэкономики, обучения с подкреплением, многоагентных систем и других областей, обеспечивая прочную теоретическую основу для междисциплинарных исследований.