2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

academic

심화 다중에이전트 강화학습을 통한 이질적 RBC

기본 정보

논문 ID: 2510.12272
제목: Heterogeneous RBCs via deep multi-agent reinforcement learning
저자: Federico Gabriele (Sapienza Università di Roma), Aldo Glielmo (Banca d'Italia), Marco Taboga (Banca d'Italia)
분류: cs.MA cs.LG econ.TH
발표 시간: 2025년 10월 14일
논문 링크: https://arxiv.org/abs/2510.12272

초록

현재 에이전트 이질성을 갖춘 거시경제 모델은 두 가지 주요 범주로 나뉜다. 이질적 에이전트 일반균형(GE) 모델(예: HANK 또는 Krusell-Smith(KS) 방법 기반 모델)은 일반균형과 "합리적 기대" 가정에 의존하며, 이러한 가정은 현실성이 부족하고 모델 계산을 복잡하게 하여 모델링 가능한 이질성의 정도를 제한한다. 이와 대조적으로, 에이전트 기반 모델(ABMs)은 많은 수의 임의로 이질적인 에이전트를 유연하게 포함할 수 있지만, 일반적으로 행동 규칙을 명시적으로 지정해야 하므로 길고 시행착오적인 모델 개발 과정이 필요하다. 이러한 제한을 해결하기 위해, 본 논문은 심화 다중에이전트 강화학습(MARL)을 실제 경기변동(RBC) 모델과 결합하는 MARL-BC 프레임워크를 제시한다.

연구 배경 및 동기

문제 정의

거시경제 모델링은 전통적으로 RBC 및 신케인즈주의 모델과 같은 대표 에이전트 일반균형 모델을 사용해왔다. 그러나 대표 에이전트 모델의 잘 알려진 제한은 에이전트 이질성을 고려할 수 없다는 것이다.

기존 방법의 제한점

이질적 에이전트 GE 모델:
- "합리적 기대" 가정이 필요하며, 에이전트는 전체 부의 또는 소득 분포를 상태 변수로 추적해야 함
- 계산 비용이 높으며, 달성 가능한 이질성 정도를 크게 제한
- 일반적으로 "사후적" 이질성만 실현 가능하며, 즉 모든 에이전트가 초기에는 동일하고 개별 무작위 충격으로 인해서만 분화
에이전트 기반 모델(ABMs):
- 대표 에이전트 및 합리적 기대 가정을 완전히 포기
- 모델러가 에이전트의 행동 규칙을 직접 결정해야 함
- 규칙 명세에서의 자의성을 올바르게 처리하고 현실적인 규칙을 결정하기 어려움

연구 동기

강화학습(RL), 특히 다중에이전트 강화학습(MARL)은 거시경제에서 이질적 에이전트를 모델링하기 위한 새로운 방법을 제공한다. RL 학습 패러다임은 GE와 ABM의 극단 사이에 자연스러운 종합을 제공하는 것으로 보인다: 에이전트는 제한된 합리성과 다양성을 가질 수 있지만, 그 행동은 원칙 있는 최적화 과정(보상 최대화 학습)에서 내생적으로 나타난다.

핵심 기여

MARL-BC 프레임워크 개발: MARL 기반 프레임워크를 개발하여 고전적 RBC 모델을 확장하고 풍부하고 유연한 이질성을 가진 다중 가구를 지원
훈련 가능성 입증: 최첨단 RL 알고리즘(PPO, SAC, DDPG)을 사용한 훈련이 계산상 실행 가능함을 입증
고전적 결과 복현: 단일 에이전트를 사용할 때 교과서 RBC 결과를 복현 가능
평균장 모델 복현: 많은 수의 사전에 동일한 에이전트를 사용할 때 평균장 Krusell-Smith 모델 결과를 복현 가능
풍부한 이질성 지원: 전통적 GE 방법이 달성하기 어려운 에이전트 간 풍부한 이질성을 효과적으로 시뮬레이션

방법 상세 설명

작업 정의

MARL-BC 프레임워크는 다중에이전트 강화학습을 통해 고전적 RBC 모델을 확장하여 이질적 가구 에이전트를 지원하도록 설계되었으며, 다음을 가능하게 한다:

단일 에이전트 경우에 전통적 RBC 모델 복현
다중 동일 에이전트 경우에 Krusell-Smith 평균장 모델 복현
임의의 이질성을 가진 에이전트 모델링

모델 아키텍처

이질적 RBC 환경

모델은 n가지 유형의 가구 i = 1,...,n과 단일 기업을 포함한다:

유효 총 자본 및 노동력:
```
K_t = (1/n) * Σ(κ_i * k_i_t)
L_t = (1/n) * Σ(λ_i * ℓ_i_t)
```
여기서 κ_i와 λ_i는 각각 자본 및 노동 생산성
생산 함수: Cobb-Douglas 함수 사용
```
Y_t = A_t * K_t^α * L_t^(1-α)
```

자본 및 노동 비용: 완전 경쟁 시장 가정

r_i_t = α * (Y_t/K_t) * κ_i
w_i_t = (1-α) * (Y_t/L_t) * λ_i

가구 부의:

a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t

RL 가구 에이전트

행동 공간: 각 시간 단계의 행동은 튜플(c_i_t, ℓ_i_t)
- c_i_t: 소비 비율, 범위(0.01, 0.99)
- ℓ_i_t: 노동 공급, 범위(0.01, 0.99)

관찰 공간:

x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)

보상 함수:
```
R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
```
여기서 b > 0은 소비와 여가 간의 균형을 조절
정책 학습: 각 RL 가구는 결정론적 정책을 학습
```
π_i: x_i_t → (c_i_t, ℓ_i_t)
```
기대 할인 보상의 합을 최대화하여:
```
R_i = E_π_i[Σ_t β^t * R_i_t]
```

기술적 혁신점

매개변수 공유: 표준 MARL 매개변수 공유 패러다임을 채택하며, 단일 신경망이 모든 에이전트를 나타내고 관찰의 개별 특성을 통해 다양한 행동 구현
독립 학습자: 각각 부분 정보 집합 x_i_t에만 접근하는 독립 학습자를 훈련하여 근사 최적 대응 정책 최적화
유연한 이질성: 자본 및 노동 생산성의 임의의 이질성 설정 지원
통합 프레임워크: 극한 경우에 GE 결과를 복현할 수 있으며, 일반적인 경우 ABM으로 사용 가능

실험 설정

실험 매개변수

매개변수	RBC	KS	일반
n (가구 수)	1	20	20
T (에피소드 길이)	500	500	500
κ_i (자본 생산성)	1	1	{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (노동 생산성)	1	1	{0.98, 1, 1.02}
α (산출 탄력성)	0.36	0.36	0.36
δ (자본 감가상각)	{1, 0.025}	0.025	0.025
β (할인 인수)	0.95	0.95	0.95

비교 방법

네 가지 RL 알고리즘으로 비교:

DDPG (Deep Deterministic Policy Gradient)
TD3 (Twin Delayed Deep Deterministic Policy Gradient)
SAC (Soft Actor Critic)
PPO (Proximal Policy Optimization)

구현 세부사항

PettingZoo 인터페이스를 사용하여 MARL 환경 개발
Stable-Baselines3의 RL 알고리즘 사용
단일 에이전트 환경 훈련 10^6 단계, 다중 에이전트 환경 에이전트당 10^5 단계 업데이트
매개변수 공유를 통해 샘플 효율성 및 확장성 향상

알고리즘 성능: SAC, TD3 및 DDPG가 수렴 속도에서 PPO를 크게 능가하며, SAC가 가장 안정적인 학습자
교과서 RBC 복현: 완전 감가상각(δ=1) 경우, RL 가구가 최적 정책을 학습하여 약 10^4 훈련 단계 후 최적값으로 수렴
전형적 RBC 복현: 부분 감가상각(δ=0.025) 경우, 학습된 최적 소비 및 노동 선택이 Dynare 소프트웨어 계산 결과와 일치
충격 반응 함수: 표준 충격 반응 함수를 성공적으로 복현하며, 전통적 방법 결과와 통계적으로 일치

2. 평균장 Krusell-Smith 극한

KS 운동 법칙: 완전 선형 관계(R² > 0.99)가 내생적으로 나타나며, 사전 가정 불필요
분포 특성: 수렴 후 지니 계수가 0.18로 증가하여 원래 KS 계산의 0.25에 근접
한계 소비 성향: 학습된 곡선이 높은 부의 경우 평탄하고 낮은 부의 경우 급격히 증가하여 원래 KS 논문의 핵심 결과와 일치

3. 더 큰 이질성 모델링

이질적 자본 수익률의 KS: 다양한 자본 생산성 도입을 통해 지니 계수가 0.33(경미한 이질성)과 0.61(현저한 이질성)에 도달 가능
이질적 RBC: 9개 에이전트의 3×3 격자 설정에서 다양한 생산성이 겹치지만 다른 부의 수준 초래
확장성: 수백 개의 에이전트(최대 529개)로 성공적으로 확장되며, SAC는 모든 규모에서 안정적인 높은 성능 유지

제거 실험

다양한 에이전트 수에서 다양한 RL 알고리즘의 성능 비교:

SAC는 모든 인구 규모에서 일관되게 높은 평가 보상 획득
PPO는 소규모 인구에서 성능이 낮지만 n 증가에 따라 개선
TD3 및 DDPG는 큰 n 경우에 불안정한 성능

실험 발견

수렴성: 고려된 모든 RL 알고리즘이 누적 보상을 최적화하는 정책을 성공적으로 학습
안정성: SAC가 가장 신뢰할 수 있는 학습자이며, 특히 다중에이전트 설정에서
확장성: 프레임워크가 수백 개의 이질적 가구로 확장 가능하며, 일반 하드웨어에서도 실현 가능
행동 창발: "손에서 입으로" 소비 전략 등의 행동이 내생적으로 창발하며, 휴리스틱 인코딩 불필요

결론 및 논의

주요 결론

MARL-BC 프레임워크가 심화 MARL을 RBC 환경과 성공적으로 통합
프레임워크가 고전적 교과서 RBC 결과 및 Krusell-Smith 평균장 모델 복현 가능
전통적 GE 방법이 달성하기 어려운 풍부한 에이전트 이질성 시뮬레이션 가능
ABM과 이질적 에이전트 GE 모델의 종합을 위한 단계 제공

제한점

계산 비용: 정확한 RL 에이전트 훈련에는 상당한 계산 비용 필요하며, 다중에이전트 훈련 실행에 수 시간 소요
하드웨어 의존성: 계산 부담을 크게 완화하기 위해 GPU 가속 필요
모델 복잡성: 전통적 방법에 비해 더 복잡한 훈련 및 조정 과정 필요

향후 방향

GPU 벡터화 구현: MARL 환경의 벡터화 스타일 구현으로 GPU 가속 완전 활용
특정 경제 문제 연구: 프레임워크를 경제 불평등, 노동 생산성 비대칭 변화 등 구체적 경제 문제 연구에 적용
AI 도구 영향: 직장에서 AI 도구 확산의 경제 및 금융 결과 연구

심층 평가

장점

방법의 혁신성:
- MARL을 고전적 거시경제 모델과 결합한 첫 번째 성공 사례
- ABM과 GE 모델 간의 다리 제공
- 극한 경우에 전통적 모델 결과를 정확히 복현
실험의 충분성:
- 세 가지 수준의 검증: 단일 에이전트 RBC, 평균장 KS, 일반 이질성
- 다양한 RL 알고리즘의 체계적 비교
- 개별 에이전트에서 수백 개 에이전트까지의 확장성 테스트
결과의 설득력:
- 고전적 모델의 핵심 지표 정량적 복현
- 통계적 유의성 검증(예: 충격 반응 함수)
- 전통적 방법이 달성하기 어려운 이질성 모델링 능력 입증
작성의 명확성:
- 명확한 프레임워크 설명 및 수학적 표현
- 직관적인 그래프를 통한 결과 표시
- 상세한 하이퍼매개변수 및 구현 세부사항

부족점

방법의 제한성:
- 매개변수 공유에 대한 의존이 에이전트 행동의 진정한 독립성을 제한할 수 있음
- 독립 학습자 방법이 진정한 균형 해에 도달하지 못할 수 있음
실험 설정의 결함:
- 상대적으로 제한된 에이전트 수(최대 529개)
- 다른 경제 모델링 방법과의 직접적 비교 부재
- 계산 시간 분석이 주로 CPU 기반이며 GPU 성능이 충분히 탐색되지 않음
분석의 부족:
- 이론적 수렴성 분석 부재
- 학습 동역학에 대한 이론적 이해 제한
- 매개변수 민감도 분석이 충분하지 않음

영향력

분야에 대한 기여:
- 거시경제 모델링을 위한 새로운 방법론 프레임워크 제공
- 컴퓨터 과학과 경제학 간의 학제 간 연구 촉진
- 복잡한 경제 시스템 모델링을 위한 새로운 방향 개척
실용적 가치:
- 오픈소스 코드로 재현성 및 확장성 향상
- 정책 분석을 위한 새로운 도구 제공
- 더 현실적인 이질성 가정 지원
재현성:
- 상세한 하이퍼매개변수 설정
- 오픈소스 코드 및 구현 세부사항
- 표준화된 실험 프로토콜

적용 시나리오

거시경제 정책 분석: 특히 에이전트 이질성을 고려해야 하는 시나리오
경제 불평등 연구: 이질적 생산성을 활용한 부의 분배 모델링
복잡한 경제 시스템 모델링: 전통적 GE 방법이 처리하기 어려운 고차원 이질성 문제
교육 및 연구 도구: 경제학 교육을 위한 직관적 모델링 프레임워크 제공

참고문헌

본 논문은 거시경제학, 강화학습, 다중에이전트 시스템 등 여러 분야의 중요한 연구를 포함하는 60편의 관련 문헌을 인용하여 학제 간 연구를 위한 견고한 이론적 기초를 제공한다.