2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli

Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.

academic

Double Machine Learning per Modelli di Panel Statici con Effetti Fissi

Informazioni Fondamentali

ID Articolo: 2312.08174
Titolo: Double Machine Learning for Static Panel Models with Fixed Effects
Autori: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
Classificazione: econ.EM cs.LG stat.ML
Data di Pubblicazione/Conferenza: The Econometrics Journal (Accettato dicembre 2024)
Link Articolo: https://arxiv.org/abs/2312.08174

Riassunto

Questo articolo sviluppa nuove procedure di Double Machine Learning (DML) per l'analisi di dati panel, utilizzando algoritmi di machine learning per approssimare funzioni di disturbo ad alta dimensionalità e non lineari delle covariate. Le nuove procedure estendono i noti stimatori di effetti casuali correlati, within-group e differenze prime dai modelli panel lineari a modelli panel non lineari, in particolare il modello di regressione parzialmente lineare con effetti fissi e confondimento non specificato di Robinson (1988). Studi di simulazione valutano le prestazioni di queste procedure utilizzando diversi algoritmi di machine learning. Gli autori riesaminano l'effetto del salario minimo britannico sul comportamento di voto utilizzando queste procedure. I risultati suggeriscono l'utilizzo del metodo delle differenze prime poiché impone i minori vincoli sulla distribuzione degli effetti fissi, e l'adozione di strategie di ensemble learning per garantire l'accuratezza ottimale dello stimatore.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'analisi tradizionale di dati panel si basa principalmente su assunzioni di modelli lineari, ma i processi di generazione dei dati nel mondo reale spesso presentano caratteristiche non lineari complesse. I metodi DML esistenti sono principalmente orientati ai dati trasversali, con applicazioni relativamente limitate ai dati panel, in particolare nel trattamento di modelli panel non lineari con effetti fissi.

Importanza della Ricerca

Esigenza Metodologica: I dati panel sono ampiamente utilizzati nella ricerca empirica, richiedendo metodi robusti in grado di gestire relazioni non lineari e covariate ad alta dimensionalità
Inferenza Causale: La stima accurata degli effetti causali in presenza di fattori confondenti invarianti nel tempo ha importanti implicazioni politiche
Integrazione del Machine Learning: Combinare la capacità predittiva del machine learning con il framework di inferenza causale dell'econometria tradizionale

Limitazioni dei Metodi Esistenti

Assunzione di Linearità: I metodi tradizionali di dati panel assumono relazioni lineari, che possono portare a errori di specificazione del modello
Dipendenza dalla Sparsità: I metodi DML panel esistenti (come Klosin & Vilgalys, 2023; Semenova et al., 2023) dipendono eccessivamente da assunzioni di funzioni sparse ad alta dimensionalità
Limitazioni Algoritmiche: Focalizzati principalmente su algoritmi specifici come LASSO, mancano di generalità

Contributi Principali

Innovazione Metodologica: Sviluppo di tre nuove procedure DML che estendono gli stimatori di effetti casuali correlati (CRE), within-group (WG) e differenze prime (FD) a contesti non lineari
Generalità Tecnica: Non dipendente da assunzioni di sparsità preliminari, supporta molteplici algoritmi di machine learning (LASSO, CART, Random Forest, Gradient Boosting)
Ottimizzazione Computazionale: Adozione del metodo di cross-fitting k-fold a blocchi per gestire l'autocorrelazione seriale nei dati panel
Applicazione Empirica: Fornisce una rianalissi dell'effetto della politica del salario minimo britannico, verificando l'applicabilità pratica del metodo

Dettagli Metodologici

Definizione del Compito

Stima del parametro di effetto di trattamento omogeneo θ₀ nel modello di regressione panel parzialmente lineare (PLPR):

$Y_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}$

dove:

$Y_{it}$ : variabile di risultato
$D_{it}$ : variabile di trattamento (continua o binaria)
$X_{it}$ : vettore di variabili di controllo
$\alpha_i^*$ : effetto fisso individuale
$g_1(\cdot)$ : funzione non lineare sconosciuta

Architettura del Modello

1. Modello PLPR con Output Parziale (PO-PLPR)

$Y_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}$ $V_{it} = D_{it} - m_1(X_{it}) - \gamma_i$

dove $l_1$ e $m_1$ sono funzioni di disturbo da apprendere.

2. Tre Metodi di Trattamento degli Effetti Fissi

Metodo degli Effetti Casuali Correlati (CRE): $Y_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}$ $V_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i$

dove $\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it}$ è la media individuale.

Metodi di Trasformazione dei Dati:

Differenze Prime (FD): $Q(W_{it}) = W_{it} - W_{it-1}$
Within-Group (WG): $Q(W_{it}) = W_{it} - \bar{W}_i$

Modello trasformato: $Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})$

Punti di Innovazione Tecnica

Funzione di Punteggio Ortogonale di Neyman: Costruzione di una funzione di punteggio ortogonale applicabile ai dati panel: $\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i$
Cross-Fitting k-Fold a Blocchi: Assegnazione dell'intera serie temporale individuale allo stesso fold, evitando problemi di autocorrelazione seriale
Strategie di Apprendimento delle Funzioni di Disturbo:
- Metodo Approssimativo: $Q(l_1(X_{it})) \approx l_1(Q(X_{it}))$
- Metodo Esatto: Apprendimento diretto di $\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})$
- Metodo Ibrido: Combinazione dei vantaggi di CRE e metodi di trasformazione

Configurazione Sperimentale

Progettazione dei Dati di Simulazione

Generazione di tre processi di generazione dei dati (DGP) di diversa complessità:

DGP Lineare: $l_0(X_{it}) = aX_{it,1} + X_{it,3}$
DGP Non Lineare Liscio: $l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})$
DGP Non Lineare Discontinuo: $l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])$

Dati Empirici

Utilizzo dei dati del British Household Panel Survey (BHPS), includenti:

Campione: 9.922 individui occupati, 1991-2009
Variabile di trattamento: ricezione del salario minimo
Variabile di risultato: voto per il Partito Conservatore
Variabili di controllo: 72 variabili di base, estese a 1.476 dopo l'inclusione di termini non lineari

Metriche di Valutazione

Bias: $\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0$
Errore Quadratico Medio: $\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}$
Rapporto Errore Standard: $\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})$
RMSE del Modello: Misura della precisione predittiva delle funzioni di disturbo

Metodi di Confronto

Metodo di Base: Minimi Quadrati Ordinari (OLS)
Algoritmi DML: LASSO, CART, Random Forest (RF), Gradient Boosting

Risultati Sperimentali

Risultati di Simulazione

DGP Lineare:

OLS mostra le migliori prestazioni, come previsto
DML-LASSO ha prestazioni prossime a OLS
I metodi basati su alberi mostrano prestazioni inferiori con campioni piccoli

DGP Non Lineare Liscio:

OLS continua a mostrare buone prestazioni (la funzione è approssimativamente lineare nella maggior parte della regione)
I miglioramenti dei metodi DML sono limitati

DGP Non Lineare Discontinuo:

DML-LASSO è significativamente superiore a OLS
Il bias di OLS raggiunge 0.993 (valore vero 0.50)
Il bias di DML-LASSO è solo 0.009, con RMSE di 0.014

Risultati Chiave

Confronto dei Metodi:
- Il metodo FD (esatto) è il più robusto, con i minori vincoli sulla distribuzione degli effetti fissi
- Il metodo CRE richiede assunzioni aggiuntive di tipo Mundlak
- Il metodo WG (approssimativo) mostra prestazioni inferiori in casi non lineari
Prestazioni degli Algoritmi:
- LASSO mostra le migliori prestazioni con dizionari estesi
- I metodi basati su alberi presentano difficoltà nell'ottimizzazione degli iperparametri, con distribuzioni di campionamento non normali
- Le strategie di ensemble learning sono cruciali

Risultati dell'Applicazione Empirica

Effetto del salario minimo britannico sul voto per il Partito Conservatore:

Metodo	OLS	DML-LASSO	DML-CART	DML-RF	DML-Boosting
CRE	0.051***	0.048**	0.069*	0.180	-0.319
FD	0.022*	0.021	0.026	0.018	0.024
WG	0.051***	0.046**	0.048**	0.040**	0.048***

I risultati mostrano:

Il metodo FD fornisce stime più robuste, con la massima coerenza tra algoritmi diversi
Il metodo CRE mostra instabilità con metodi basati su alberi
Il metodo WG produce risultati intermedi tra i due

Lavori Correlati

Inferenza Causale nel Machine Learning

Sviluppo Algoritmico: Alberi causali di Athey & Imbens (2016), Foreste causali di Wager & Athey (2018)
Framework DML: Fondamenti teorici di Double Machine Learning di Chernozhukov et al. (2018)
Applicazioni Panel: Differenze nelle differenze di Chang (2020), Panel dinamici di Semenova et al. (2023)

Metodi Panel ad Alta Dimensionalità

Applicazioni LASSO: LASSO post-clustering di Belloni et al. (2016)
Assunzioni di Sparsità: Metodi dipendenti dalla sparsità di Klosin & Vilgalys (2023) e Semenova et al. (2023)
Trattamento degli Effetti Fissi: Estensioni CRE di Wooldridge & Zhu (2020)

Conclusioni e Discussione

Conclusioni Principali

Raccomandazione Metodologica: Raccomandazione dell'utilizzo del metodo FD (esatto) poiché impone i minori vincoli sulla distribuzione degli effetti fissi
Strategia Algoritmica: Suggerimento dell'adozione di strategie di ensemble learning, combinando i vantaggi di molteplici algoritmi
Valore Pratico: Il metodo è applicabile a panel non bilanciati, con forte estensibilità

Limitazioni

Assunzione di Omogeneità: Focalizzazione principale su effetti di trattamento omogenei, l'estensione all'eterogeneità richiede modellazione parametrica
Problemi dei Metodi Basati su Alberi: I metodi basati su alberi presentano difficoltà nell'ottimizzazione degli iperparametri e distribuzioni di campionamento non normali
Complessità Computazionale: I dizionari ad alta dimensionalità e il cross-fitting aumentano l'onere computazionale

Direzioni Future

Estensione dell'Eterogeneità: Sviluppo di metodi orientati all'effetto medio di trattamento (ATE) piuttosto che all'effetto medio di trattamento condizionato (CATE)
Panel Dinamici: Estensione a modelli di dati panel dinamici
Dati Mancanti: Gestione della non-casualità della mancanza nei dati panel

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Basato sulla teoria dell'ortogonalità di Neyman, fornisce una base teorica asintotica completa
Generalità Metodologica: Non dipendente da assunzioni di sparsità specifiche, supporta molteplici algoritmi di machine learning
Esperimenti Completi: Include studi di simulazione completi e applicazioni su dati reali
Innovazione Computazionale: Il cross-fitting a blocchi gestisce efficacemente l'autocorrelazione seriale specifica dei dati panel

Insufficienze

Limitazioni dei Metodi Basati su Alberi: L'analisi dei metodi basati su alberi non è sufficientemente approfondita, le strategie di ottimizzazione degli iperparametri necessitano di miglioramenti
Restrizioni sull'Eterogeneità: Il trattamento dell'eterogeneità degli effetti di trattamento è relativamente semplice, richiedendo un framework più flessibile
Portata Empirica: Le applicazioni empiriche sono limitate a un singolo caso, mancano validazioni più ampie

Impatto

Contributo Accademico: Colma un importante vuoto nell'applicazione del DML ai dati panel
Valore Pratico: Fornisce ai ricercatori empirici strumenti efficaci per gestire dati panel non lineari
Riproducibilità: Fornisce un pacchetto R (XTDML), facilitando la diffusione del metodo

Scenari di Applicabilità

Valutazione Politica: Applicabile alla valutazione degli effetti politici che richiedono il controllo di fattori confondenti invarianti nel tempo
Economia del Lavoro: Studi di follow-up a lungo termine come i rendimenti dell'istruzione e gli effetti salariali
Economia dello Sviluppo: Valutazione dell'impatto a lungo termine degli interventi di sviluppo
Economia della Sanità: Analisi longitudinale degli effetti delle politiche e degli interventi sanitari

Bibliografia

Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Valutazione Complessiva: Questo è un articolo metodologico di econometria di alta qualità che estende con successo il framework di Double Machine Learning ai dati panel. L'articolo dimostra eccellenza nello sviluppo teorico, nell'innovazione metodologica e nella verifica empirica, fornendo strumenti importanti per il trattamento di dati panel complessi. Sebbene vi sia spazio per miglioramenti in alcuni dettagli tecnici, il contributo del lavoro al campo è significativo.