2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

Double Machine Learning per Modelli di Panel Statici con Effetti Fissi

Informazioni Fondamentali

  • ID Articolo: 2312.08174
  • Titolo: Double Machine Learning for Static Panel Models with Fixed Effects
  • Autori: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
  • Classificazione: econ.EM cs.LG stat.ML
  • Data di Pubblicazione/Conferenza: The Econometrics Journal (Accettato dicembre 2024)
  • Link Articolo: https://arxiv.org/abs/2312.08174

Riassunto

Questo articolo sviluppa nuove procedure di Double Machine Learning (DML) per l'analisi di dati panel, utilizzando algoritmi di machine learning per approssimare funzioni di disturbo ad alta dimensionalità e non lineari delle covariate. Le nuove procedure estendono i noti stimatori di effetti casuali correlati, within-group e differenze prime dai modelli panel lineari a modelli panel non lineari, in particolare il modello di regressione parzialmente lineare con effetti fissi e confondimento non specificato di Robinson (1988). Studi di simulazione valutano le prestazioni di queste procedure utilizzando diversi algoritmi di machine learning. Gli autori riesaminano l'effetto del salario minimo britannico sul comportamento di voto utilizzando queste procedure. I risultati suggeriscono l'utilizzo del metodo delle differenze prime poiché impone i minori vincoli sulla distribuzione degli effetti fissi, e l'adozione di strategie di ensemble learning per garantire l'accuratezza ottimale dello stimatore.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'analisi tradizionale di dati panel si basa principalmente su assunzioni di modelli lineari, ma i processi di generazione dei dati nel mondo reale spesso presentano caratteristiche non lineari complesse. I metodi DML esistenti sono principalmente orientati ai dati trasversali, con applicazioni relativamente limitate ai dati panel, in particolare nel trattamento di modelli panel non lineari con effetti fissi.

Importanza della Ricerca

  1. Esigenza Metodologica: I dati panel sono ampiamente utilizzati nella ricerca empirica, richiedendo metodi robusti in grado di gestire relazioni non lineari e covariate ad alta dimensionalità
  2. Inferenza Causale: La stima accurata degli effetti causali in presenza di fattori confondenti invarianti nel tempo ha importanti implicazioni politiche
  3. Integrazione del Machine Learning: Combinare la capacità predittiva del machine learning con il framework di inferenza causale dell'econometria tradizionale

Limitazioni dei Metodi Esistenti

  1. Assunzione di Linearità: I metodi tradizionali di dati panel assumono relazioni lineari, che possono portare a errori di specificazione del modello
  2. Dipendenza dalla Sparsità: I metodi DML panel esistenti (come Klosin & Vilgalys, 2023; Semenova et al., 2023) dipendono eccessivamente da assunzioni di funzioni sparse ad alta dimensionalità
  3. Limitazioni Algoritmiche: Focalizzati principalmente su algoritmi specifici come LASSO, mancano di generalità

Contributi Principali

  1. Innovazione Metodologica: Sviluppo di tre nuove procedure DML che estendono gli stimatori di effetti casuali correlati (CRE), within-group (WG) e differenze prime (FD) a contesti non lineari
  2. Generalità Tecnica: Non dipendente da assunzioni di sparsità preliminari, supporta molteplici algoritmi di machine learning (LASSO, CART, Random Forest, Gradient Boosting)
  3. Ottimizzazione Computazionale: Adozione del metodo di cross-fitting k-fold a blocchi per gestire l'autocorrelazione seriale nei dati panel
  4. Applicazione Empirica: Fornisce una rianalissi dell'effetto della politica del salario minimo britannico, verificando l'applicabilità pratica del metodo

Dettagli Metodologici

Definizione del Compito

Stima del parametro di effetto di trattamento omogeneo θ₀ nel modello di regressione panel parzialmente lineare (PLPR):

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

dove:

  • YitY_{it}: variabile di risultato
  • DitD_{it}: variabile di trattamento (continua o binaria)
  • XitX_{it}: vettore di variabili di controllo
  • αi\alpha_i^*: effetto fisso individuale
  • g1()g_1(\cdot): funzione non lineare sconosciuta

Architettura del Modello

1. Modello PLPR con Output Parziale (PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

dove l1l_1 e m1m_1 sono funzioni di disturbo da apprendere.

2. Tre Metodi di Trattamento degli Effetti Fissi

Metodo degli Effetti Casuali Correlati (CRE): Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

dove Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} è la media individuale.

Metodi di Trasformazione dei Dati:

  • Differenze Prime (FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • Within-Group (WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

Modello trasformato: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

Punti di Innovazione Tecnica

  1. Funzione di Punteggio Ortogonale di Neyman: Costruzione di una funzione di punteggio ortogonale applicabile ai dati panel: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. Cross-Fitting k-Fold a Blocchi: Assegnazione dell'intera serie temporale individuale allo stesso fold, evitando problemi di autocorrelazione seriale
  3. Strategie di Apprendimento delle Funzioni di Disturbo:
    • Metodo Approssimativo: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • Metodo Esatto: Apprendimento diretto di Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • Metodo Ibrido: Combinazione dei vantaggi di CRE e metodi di trasformazione

Configurazione Sperimentale

Progettazione dei Dati di Simulazione

Generazione di tre processi di generazione dei dati (DGP) di diversa complessità:

  1. DGP Lineare: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. DGP Non Lineare Liscio: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. DGP Non Lineare Discontinuo: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

Dati Empirici

Utilizzo dei dati del British Household Panel Survey (BHPS), includenti:

  • Campione: 9.922 individui occupati, 1991-2009
  • Variabile di trattamento: ricezione del salario minimo
  • Variabile di risultato: voto per il Partito Conservatore
  • Variabili di controllo: 72 variabili di base, estese a 1.476 dopo l'inclusione di termini non lineari

Metriche di Valutazione

  • Bias: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • Errore Quadratico Medio: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • Rapporto Errore Standard: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • RMSE del Modello: Misura della precisione predittiva delle funzioni di disturbo

Metodi di Confronto

  • Metodo di Base: Minimi Quadrati Ordinari (OLS)
  • Algoritmi DML: LASSO, CART, Random Forest (RF), Gradient Boosting

Risultati Sperimentali

Risultati di Simulazione

DGP Lineare:

  • OLS mostra le migliori prestazioni, come previsto
  • DML-LASSO ha prestazioni prossime a OLS
  • I metodi basati su alberi mostrano prestazioni inferiori con campioni piccoli

DGP Non Lineare Liscio:

  • OLS continua a mostrare buone prestazioni (la funzione è approssimativamente lineare nella maggior parte della regione)
  • I miglioramenti dei metodi DML sono limitati

DGP Non Lineare Discontinuo:

  • DML-LASSO è significativamente superiore a OLS
  • Il bias di OLS raggiunge 0.993 (valore vero 0.50)
  • Il bias di DML-LASSO è solo 0.009, con RMSE di 0.014

Risultati Chiave

  1. Confronto dei Metodi:
    • Il metodo FD (esatto) è il più robusto, con i minori vincoli sulla distribuzione degli effetti fissi
    • Il metodo CRE richiede assunzioni aggiuntive di tipo Mundlak
    • Il metodo WG (approssimativo) mostra prestazioni inferiori in casi non lineari
  2. Prestazioni degli Algoritmi:
    • LASSO mostra le migliori prestazioni con dizionari estesi
    • I metodi basati su alberi presentano difficoltà nell'ottimizzazione degli iperparametri, con distribuzioni di campionamento non normali
    • Le strategie di ensemble learning sono cruciali

Risultati dell'Applicazione Empirica

Effetto del salario minimo britannico sul voto per il Partito Conservatore:

MetodoOLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0.051***0.048**0.069*0.180-0.319
FD0.022*0.0210.0260.0180.024
WG0.051***0.046**0.048**0.040**0.048***

I risultati mostrano:

  • Il metodo FD fornisce stime più robuste, con la massima coerenza tra algoritmi diversi
  • Il metodo CRE mostra instabilità con metodi basati su alberi
  • Il metodo WG produce risultati intermedi tra i due

Lavori Correlati

Inferenza Causale nel Machine Learning

  1. Sviluppo Algoritmico: Alberi causali di Athey & Imbens (2016), Foreste causali di Wager & Athey (2018)
  2. Framework DML: Fondamenti teorici di Double Machine Learning di Chernozhukov et al. (2018)
  3. Applicazioni Panel: Differenze nelle differenze di Chang (2020), Panel dinamici di Semenova et al. (2023)

Metodi Panel ad Alta Dimensionalità

  1. Applicazioni LASSO: LASSO post-clustering di Belloni et al. (2016)
  2. Assunzioni di Sparsità: Metodi dipendenti dalla sparsità di Klosin & Vilgalys (2023) e Semenova et al. (2023)
  3. Trattamento degli Effetti Fissi: Estensioni CRE di Wooldridge & Zhu (2020)

Conclusioni e Discussione

Conclusioni Principali

  1. Raccomandazione Metodologica: Raccomandazione dell'utilizzo del metodo FD (esatto) poiché impone i minori vincoli sulla distribuzione degli effetti fissi
  2. Strategia Algoritmica: Suggerimento dell'adozione di strategie di ensemble learning, combinando i vantaggi di molteplici algoritmi
  3. Valore Pratico: Il metodo è applicabile a panel non bilanciati, con forte estensibilità

Limitazioni

  1. Assunzione di Omogeneità: Focalizzazione principale su effetti di trattamento omogenei, l'estensione all'eterogeneità richiede modellazione parametrica
  2. Problemi dei Metodi Basati su Alberi: I metodi basati su alberi presentano difficoltà nell'ottimizzazione degli iperparametri e distribuzioni di campionamento non normali
  3. Complessità Computazionale: I dizionari ad alta dimensionalità e il cross-fitting aumentano l'onere computazionale

Direzioni Future

  1. Estensione dell'Eterogeneità: Sviluppo di metodi orientati all'effetto medio di trattamento (ATE) piuttosto che all'effetto medio di trattamento condizionato (CATE)
  2. Panel Dinamici: Estensione a modelli di dati panel dinamici
  3. Dati Mancanti: Gestione della non-casualità della mancanza nei dati panel

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Basato sulla teoria dell'ortogonalità di Neyman, fornisce una base teorica asintotica completa
  2. Generalità Metodologica: Non dipendente da assunzioni di sparsità specifiche, supporta molteplici algoritmi di machine learning
  3. Esperimenti Completi: Include studi di simulazione completi e applicazioni su dati reali
  4. Innovazione Computazionale: Il cross-fitting a blocchi gestisce efficacemente l'autocorrelazione seriale specifica dei dati panel

Insufficienze

  1. Limitazioni dei Metodi Basati su Alberi: L'analisi dei metodi basati su alberi non è sufficientemente approfondita, le strategie di ottimizzazione degli iperparametri necessitano di miglioramenti
  2. Restrizioni sull'Eterogeneità: Il trattamento dell'eterogeneità degli effetti di trattamento è relativamente semplice, richiedendo un framework più flessibile
  3. Portata Empirica: Le applicazioni empiriche sono limitate a un singolo caso, mancano validazioni più ampie

Impatto

  1. Contributo Accademico: Colma un importante vuoto nell'applicazione del DML ai dati panel
  2. Valore Pratico: Fornisce ai ricercatori empirici strumenti efficaci per gestire dati panel non lineari
  3. Riproducibilità: Fornisce un pacchetto R (XTDML), facilitando la diffusione del metodo

Scenari di Applicabilità

  1. Valutazione Politica: Applicabile alla valutazione degli effetti politici che richiedono il controllo di fattori confondenti invarianti nel tempo
  2. Economia del Lavoro: Studi di follow-up a lungo termine come i rendimenti dell'istruzione e gli effetti salariali
  3. Economia dello Sviluppo: Valutazione dell'impatto a lungo termine degli interventi di sviluppo
  4. Economia della Sanità: Analisi longitudinale degli effetti delle politiche e degli interventi sanitari

Bibliografia

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Valutazione Complessiva: Questo è un articolo metodologico di econometria di alta qualità che estende con successo il framework di Double Machine Learning ai dati panel. L'articolo dimostra eccellenza nello sviluppo teorico, nell'innovazione metodologica e nella verifica empirica, fornendo strumenti importanti per il trattamento di dati panel complessi. Sebbene vi sia spazio per miglioramenti in alcuni dettagli tecnici, il contributo del lavoro al campo è significativo.