2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

고정효과를 포함한 정적 패널 모형의 이중 기계학습

기본 정보

  • 논문 ID: 2312.08174
  • 제목: Double Machine Learning for Static Panel Models with Fixed Effects
  • 저자: Paul S. Clarke (에식스 대학교), Annalivia Polselli (에식스 대학교)
  • 분류: econ.EM cs.LG stat.ML
  • 발표 시간/학술지: The Econometrics Journal (2024년 12월 수락)
  • 논문 링크: https://arxiv.org/abs/2312.08174

초록

본 논문은 패널 데이터 분석을 위한 새로운 이중 기계학습(DML) 절차를 개발하였으며, 기계학습 알고리즘을 활용하여 공변량의 고차원 및 비선형 간섭 함수를 근사합니다. 새로운 절차는 선형 패널 모형의 상관 랜덤 효과, 집단 내, 일계 차분 추정량을 비선형 패널 모형으로 확장하며, 특히 고정효과와 명시되지 않은 비선형 혼동을 포함한 Robinson(1988)의 부분 선형 회귀 모형을 다룹니다. 시뮬레이션 연구는 다양한 기계학습 알고리즘을 사용한 이러한 절차들의 성능을 평가합니다. 저자들은 이러한 절차를 사용하여 영국 최저임금이 투표 행동에 미치는 영향을 재추정합니다. 결과는 고정효과 분포에 최소한의 제약을 부과하는 일계 차분 방법의 사용을 권장하며, 추정량의 최적 정확성을 보장하기 위해 앙상블 학습 전략을 채택할 것을 제안합니다.

연구 배경 및 동기

문제 정의

전통적인 패널 데이터 분석은 주로 선형 모형 가정에 의존하지만, 현실의 데이터 생성 과정은 종종 복잡한 비선형 특성을 가집니다. 기존의 이중 기계학습 방법은 주로 횡단면 데이터를 대상으로 하며, 패널 데이터 적용은 상대적으로 제한적이며, 특히 고정효과를 포함한 비선형 패널 모형 처리 측면에서 그러합니다.

연구의 중요성

  1. 방법론적 필요성: 패널 데이터는 실증 연구에서 광범위하게 사용되므로, 비선형 관계와 고차원 공변량을 처리할 수 있는 견고한 방법이 필요합니다
  2. 인과 추론: 시간 불변 혼동 인자가 존재하는 상황에서 인과 효과를 정확히 추정하는 것은 정책적 함의를 가집니다
  3. 기계학습 통합: 기계학습의 예측 능력을 전통적인 계량경제학의 인과 추론 프레임워크와 결합합니다

기존 방법의 한계

  1. 선형 가정: 전통적인 패널 데이터 방법은 선형 관계를 가정하여 모형 오설정을 초래할 수 있습니다
  2. 희소성 의존: 기존 DML 패널 방법(예: Klosin & Vilgalys, 2023; Semenova et al., 2023)은 고차원 희소 함수 가정에 과도하게 의존합니다
  3. 알고리즘 제한: 주로 LASSO 등 특정 알고리즘에 초점을 맞추어 일반성이 부족합니다

핵심 기여

  1. 방법론적 혁신: 상관 랜덤 효과(CRE), 집단 내(WG), 일계 차분(FD) 추정량을 비선형 설정으로 확장하는 세 가지 새로운 DML 절차 개발
  2. 기술적 일반성: 사전 희소성 가정에 의존하지 않으며, 다양한 기계학습 알고리즘(LASSO, CART, 랜덤 포레스트, 그래디언트 부스팅) 지원
  3. 계산 최적화: 패널 데이터의 순차 상관을 처리하기 위해 블록 k-폴드 교차 적합 방법 채택
  4. 실증 적용: 영국 최저임금 정책 효과의 재분석을 제공하여 방법의 실용성 검증

방법론 상세 설명

작업 정의

부분 선형 패널 회귀(PLPR) 모형에서 동질적 처리 효과 모수 θ₀ 추정:

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

여기서:

  • YitY_{it}: 결과 변수
  • DitD_{it}: 처리 변수(연속 또는 이진)
  • XitX_{it}: 통제 변수 벡터
  • αi\alpha_i^*: 개별 고정효과
  • g1()g_1(\cdot): 미지의 비선형 함수

모형 구조

1. 부분 결과 PLPR 모형(PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

여기서 l1l_1m1m_1은 학습해야 할 간섭 함수입니다.

2. 세 가지 고정효과 처리 방법

상관 랜덤 효과(CRE) 방법: Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

여기서 Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it}는 개별 평균입니다.

데이터 변환 방법:

  • 일계 차분(FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • 집단 내 변환(WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

변환된 모형: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

기술적 혁신점

  1. Neyman 직교 스코어 함수: 패널 데이터에 적용 가능한 직교 스코어 함수 구성: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. 블록 k-폴드 교차 적합: 전체 개별 시계열을 동일한 폴드에 할당하여 순차 상관 문제 회피
  3. 간섭 함수 학습 전략:
    • 근사 방법: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • 정확 방법: Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1}) 직접 학습
    • 혼합 방법: CRE와 변환 방법의 장점 결합

실험 설정

시뮬레이션 데이터 설계

세 가지 복잡도의 데이터 생성 과정(DGP) 생성:

  1. 선형 DGP: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. 비선형 평활 DGP: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. 비선형 불연속 DGP: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

실증 데이터

영국 가구 패널 조사(BHPS) 데이터 사용:

  • 표본: 9,922명의 근로 개인, 1991-2009년
  • 처리 변수: 최저임금 수급 여부
  • 결과 변수: 보수당 투표 여부
  • 통제 변수: 72개 기본 변수, 비선형 항 포함 후 1,476개로 확장

평가 지표

  • 편향: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • 평균제곱근오차: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • 표준오차 비율: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • 모형 RMSE: 간섭 함수 예측 정확도 측정

비교 방법

  • 기준 방법: 통상최소제곱법(OLS)
  • DML 알고리즘: LASSO, CART, 랜덤 포레스트(RF), 그래디언트 부스팅

실험 결과

시뮬레이션 결과

선형 DGP:

  • OLS 최고 성능, 예상대로
  • DML-LASSO 성능 OLS에 근접
  • 트리 방법 소표본에서 성능 저조

비선형 평활 DGP:

  • OLS 여전히 양호한 성능(함수가 대부분 영역에서 근사 선형)
  • DML 방법 개선 제한적

비선형 불연속 DGP:

  • DML-LASSO OLS를 현저히 능가
  • OLS 편향 0.993(참값 0.50)
  • DML-LASSO 편향 0.009, RMSE 0.014

주요 발견

  1. 방법 비교:
    • FD(정확) 방법 가장 견고, 고정효과 분포 제약 최소
    • CRE 방법 추가 Mundlak형 가정 필요
    • WG(근사) 방법 비선형 경우 성능 저조
  2. 알고리즘 성능:
    • LASSO 확장 사전에서 최고 성능
    • 트리 방법 초매개변수 조정 어려움, 비정규 표본 분포
    • 앙상블 학습 전략 필수

실증 적용 결과

영국 최저임금의 보수당 투표 영향:

방법OLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0.051***0.048**0.069*0.180-0.319
FD0.022*0.0210.0260.0180.024
WG0.051***0.046**0.048**0.040**0.048***

결과 시사점:

  • FD 방법 추정 가장 견고, 알고리즘 간 일관성 최고
  • CRE 방법에서 트리 방법 불안정한 성능
  • WG 방법 결과 두 방법 중간

관련 연구

기계학습 인과 추론

  1. 알고리즘 개발: Athey & Imbens(2016)의 인과 트리, Wager & Athey(2018)의 인과 포레스트
  2. DML 프레임워크: Chernozhukov et al.(2018)의 이중 기계학습 이론 기초
  3. 패널 적용: Chang(2020)의 차분의 차분, Semenova et al.(2023)의 동적 패널

고차원 패널 방법

  1. LASSO 적용: Belloni et al.(2016)의 사후 클러스터 LASSO
  2. 희소성 가정: Klosin & Vilgalys(2023)과 Semenova et al.(2023)의 희소성 의존 방법
  3. 고정효과 처리: Wooldridge & Zhu(2020)의 CRE 확장

결론 및 논의

주요 결론

  1. 방법 권장: FD(정확) 방법 사용 권장, 고정효과 분포에 최소 제약
  2. 알고리즘 전략: 다양한 알고리즘의 장점을 결합한 앙상블 학습 전략 채택 권장
  3. 실용적 가치: 불균형 패널에 적용 가능, 확장성 우수

한계

  1. 동질성 가정: 주로 동질적 처리 효과에 초점, 이질성 확장은 모수화 모델링 필요
  2. 트리 방법 문제: 트리 기반 방법 초매개변수 조정 어려움, 비정규 표본 분포 문제
  3. 계산 복잡도: 고차원 사전 및 교차 적합으로 계산 부담 증가

향후 방향

  1. 이질성 확장: 조건부 평균 처리 효과(CATE)가 아닌 평균 처리 효과(ATE)를 위한 방법 개발
  2. 동적 패널: 동적 패널 데이터 모형으로 확장
  3. 결측 데이터: 패널 데이터의 비무작위 결측 처리

심층 평가

장점

  1. 이론적 엄밀성: Neyman 직교성 이론에 기반하여 완전한 점근 이론 기초 제공
  2. 방법 일반성: 특정 희소성 가정에 의존하지 않으며, 다양한 기계학습 알고리즘 지원
  3. 실험 충분성: 포괄적인 시뮬레이션 연구 및 실제 데이터 적용 포함
  4. 계산 혁신: 블록 교차 적합이 패널 데이터 특유의 순차 상관 문제 효과적으로 처리

부족한 점

  1. 트리 방법 한계: 트리 기반 방법 분석 부족, 초매개변수 조정 전략 개선 필요
  2. 이질성 제한: 처리 효과 이질성 처리 상대적으로 단순, 더 유연한 프레임워크 필요
  3. 실증 범위: 실증 적용 단일 사례로 제한, 광범위한 검증 부족

영향력

  1. 학술적 기여: 패널 데이터 DML 적용의 중요한 공백 해소
  2. 실용적 가치: 실증 연구자에게 비선형 패널 데이터 처리의 효과적인 도구 제공
  3. 재현성: R 패키지(XTDML) 제공으로 방법 확산 용이

적용 분야

  1. 정책 평가: 시간 불변 혼동 통제가 필요한 정책 효과 평가에 적용
  2. 노동경제학: 교육 수익률, 임금 효과 등 장기 추적 연구
  3. 개발경제학: 개발 중재 조치의 장기 영향 평가
  4. 보건경제학: 의료 정책 및 중재의 종단 효과 분석

참고문헌

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

종합 평가: 이는 높은 수준의 계량경제학 방법론 논문으로, 이중 기계학습 프레임워크를 패널 데이터 설정으로 성공적으로 확장했습니다. 논문은 이론 발전, 방법 혁신, 실증 검증 측면에서 모두 우수한 성능을 보이며, 복잡한 패널 데이터 처리를 위한 중요한 도구를 제공합니다. 일부 기술적 세부사항에서 개선의 여지가 있지만, 해당 분야에 대한 기여는 상당합니다.