2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli

Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.

academic

Double Machine Learning pour les Modèles de Panneaux Statiques avec Effets Fixes

Informations Fondamentales

ID de l'article: 2312.08174
Titre: Double Machine Learning for Static Panel Models with Fixed Effects
Auteurs: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
Classification: econ.EM cs.LG stat.ML
Date de publication/Conférence: The Econometrics Journal (accepté en décembre 2024)
Lien de l'article: https://arxiv.org/abs/2312.08174

Résumé

Cet article développe de nouvelles procédures de double machine learning (DML) pour l'analyse de données de panel, en exploitant les algorithmes d'apprentissage automatique pour approximer les fonctions de perturbation de haute dimension et non linéaires des covariables. Les nouvelles procédures étendent les estimateurs célèbres d'effets aléatoires corrélés, intra-groupes et de différences premières des modèles de panel linéaires aux modèles de panel non linéaires, en particulier le modèle de régression semi-linéaire avec effets fixes et confusion non linéaire non spécifiée de Robinson (1988). Les études de simulation évaluent les performances de ces procédures utilisant différents algorithmes d'apprentissage automatique. Les auteurs réestiment l'impact du salaire minimum britannique sur le comportement électoral en utilisant ces procédures. Les résultats recommandent l'utilisation de la méthode des différences premières, car elle impose le moins de contraintes sur la distribution des effets fixes, et adoptent une stratégie d'apprentissage d'ensemble pour assurer la précision optimale de l'estimateur.

Contexte et Motivation de la Recherche

Définition du Problème

L'analyse traditionnelle des données de panel repose principalement sur des hypothèses de modèles linéaires, mais les processus de génération de données réels présentent souvent des caractéristiques non linéaires complexes. Les méthodes DML existantes sont principalement orientées vers les données transversales, avec des applications relativement limitées aux données de panel, en particulier pour traiter les modèles de panel non linéaires avec effets fixes.

Importance de la Recherche

Besoin méthodologique: Les données de panel sont largement utilisées dans la recherche empirique et nécessitent des méthodes robustes capables de traiter les relations non linéaires et les covariables de haute dimension
Inférence causale: L'estimation précise des effets causaux en présence de facteurs de confusion invariants dans le temps a d'importantes implications politiques
Intégration du machine learning: Combiner la capacité prédictive du machine learning avec le cadre d'inférence causale de l'économétrie traditionnelle

Limitations des Méthodes Existantes

Hypothèse de linéarité: Les méthodes traditionnelles de données de panel supposent des relations linéaires, ce qui peut entraîner une mauvaise spécification du modèle
Dépendance à la parcimonie: Les méthodes DML existantes pour les panels (Klosin & Vilgalys, 2023; Semenova et al., 2023) dépendent excessivement d'hypothèses de fonctions parcimonieuses de haute dimension
Limitations algorithmiques: Accent principal sur des algorithmes spécifiques comme LASSO, manque de généralité

Contributions Principales

Innovation méthodologique: Développement de trois nouvelles procédures DML étendant les estimateurs d'effets aléatoires corrélés (CRE), intra-groupes (WG) et de différences premières (FD) au cadre non linéaire
Généralité technique: Indépendant des hypothèses de parcimonie préalables, supportant plusieurs algorithmes d'apprentissage automatique (LASSO, CART, forêts aléatoires, boosting par gradient)
Optimisation computationnelle: Adoption de la méthode de validation croisée k-fold par blocs pour traiter l'autocorrélation sérielle des données de panel
Application empirique: Fourniture d'une réanalyse de l'effet de la politique de salaire minimum britannique, validant l'applicabilité pratique de la méthode

Détails Méthodologiques

Définition de la Tâche

Estimation du paramètre d'effet de traitement homogène θ₀ dans le modèle de régression de panel semi-linéaire (PLPR):

$Y_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}$

où:

$Y_{it}$ : variable de résultat
$D_{it}$ : variable de traitement (continue ou binaire)
$X_{it}$ : vecteur de variables de contrôle
$\alpha_i^*$ : effet fixe individuel
$g_1(\cdot)$ : fonction non linéaire inconnue

Architecture du Modèle

1. Modèle PLPR avec Résultat Partiel (PO-PLPR)

$Y_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}$ $V_{it} = D_{it} - m_1(X_{it}) - \gamma_i$

où $l_1$ et $m_1$ sont les fonctions de perturbation à apprendre.

2. Trois Méthodes de Traitement des Effets Fixes

Méthode des Effets Aléatoires Corrélés (CRE): $Y_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}$ $V_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i$

où $\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it}$ est la moyenne individuelle.

Méthodes de Transformation de Données:

Différences Premières (FD): $Q(W_{it}) = W_{it} - W_{it-1}$
Intra-groupes (WG): $Q(W_{it}) = W_{it} - \bar{W}_i$

Modèle transformé: $Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})$

Points d'Innovation Technique

Fonction de Score Orthogonale de Neyman: Construction d'une fonction de score orthogonale applicable aux données de panel: $\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i$
Validation Croisée k-fold par Blocs: Allocation de l'ensemble de la série chronologique individuelle au même pli, évitant les problèmes d'autocorrélation sérielle
Stratégie d'Apprentissage des Fonctions de Perturbation:
- Méthode d'approximation: $Q(l_1(X_{it})) \approx l_1(Q(X_{it}))$
- Méthode exacte: Apprentissage direct de $\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})$
- Méthode mixte: Combinaison des avantages des approches CRE et transformation

Configuration Expérimentale

Conception des Données de Simulation

Génération de trois processus de génération de données (DGP) de complexité différente:

DGP Linéaire: $l_0(X_{it}) = aX_{it,1} + X_{it,3}$
DGP Non Linéaire Lisse: $l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})$
DGP Non Linéaire Discontinu: $l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])$

Données Empiriques

Utilisation des données de l'Enquête Britannique sur les Ménages (BHPS), incluant:

Échantillon: 9 922 individus actifs, 1991-2009
Variable de traitement: accès au salaire minimum
Variable de résultat: vote pour le Parti conservateur
Variables de contrôle: 72 variables de base, étendues à 1 476 après inclusion de termes non linéaires

Indicateurs d'Évaluation

Biais: $\text{Biais}(\hat{\theta}) = E[\hat{\theta}] - \theta_0$
Erreur Quadratique Moyenne: $\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}$
Ratio d'Erreur Standard: $\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})$
RMSE du Modèle: Mesure de la précision prédictive des fonctions de perturbation

Méthodes de Comparaison

Méthode de référence: Moindres carrés ordinaires (OLS)
Algorithmes DML: LASSO, CART, forêts aléatoires (RF), boosting par gradient

Résultats Expérimentaux

Résultats de Simulation

DGP Linéaire:

OLS affiche les meilleures performances, comme prévu
DML-LASSO fonctionne de manière comparable à OLS
Les méthodes arborescentes montrent des performances plus faibles sur petits échantillons

DGP Non Linéaire Lisse:

OLS continue de bien fonctionner (la fonction est approximativement linéaire dans la plupart des régions)
Les améliorations des méthodes DML sont limitées

DGP Non Linéaire Discontinu:

DML-LASSO surpasse significativement OLS
Le biais d'OLS atteint 0,993 (vraie valeur 0,50)
Le biais de DML-LASSO est seulement 0,009, RMSE de 0,014

Résultats Clés

Comparaison des Méthodes:
- La méthode FD (exacte) est la plus robuste, imposant le moins de contraintes sur la distribution des effets fixes
- La méthode CRE nécessite des hypothèses supplémentaires de type Mundlak
- La méthode WG (approximation) fonctionne moins bien dans les cas non linéaires
Performance des Algorithmes:
- LASSO fonctionne mieux avec dictionnaire étendu
- Les méthodes arborescentes présentent des difficultés d'ajustement d'hyperparamètres et des distributions d'échantillonnage non normales
- Les stratégies d'apprentissage d'ensemble sont essentielles

Résultats de l'Application Empirique

Impact du salaire minimum britannique sur le vote pour le Parti conservateur:

Méthode	OLS	DML-LASSO	DML-CART	DML-RF	DML-Boosting
CRE	0,051***	0,048**	0,069*	0,180	-0,319
FD	0,022*	0,021	0,026	0,018	0,024
WG	0,051***	0,046**	0,048**	0,040**	0,048***

Les résultats montrent:

La méthode FD produit les estimations les plus robustes, avec la plus grande cohérence entre algorithmes
Les méthodes arborescentes dans l'approche CRE montrent une instabilité
Les résultats de la méthode WG se situent entre les deux

Travaux Connexes

Inférence Causale par Machine Learning

Développement algorithmique: Arbres causaux d'Athey & Imbens (2016), forêts causales de Wager & Athey (2018)
Cadre DML: Fondations théoriques du double machine learning de Chernozhukov et al. (2018)
Applications aux panels: Différences de différences de Chang (2020), panels dynamiques de Semenova et al. (2023)

Méthodes de Panel de Haute Dimension

Application LASSO: LASSO post-clustering de Belloni et al. (2016)
Hypothèses de parcimonie: Méthodes dépendantes de la parcimonie de Klosin & Vilgalys (2023) et Semenova et al. (2023)
Traitement des effets fixes: Extension CRE de Wooldridge & Zhu (2020)

Conclusions et Discussion

Conclusions Principales

Recommandation méthodologique: Recommandation d'utiliser la méthode FD (exacte) car elle impose le moins de contraintes sur la distribution des effets fixes
Stratégie algorithmique: Recommandation d'adopter une stratégie d'apprentissage d'ensemble combinant les avantages de plusieurs algorithmes
Valeur pratique: La méthode s'applique aux panels déséquilibrés avec forte extensibilité

Limitations

Hypothèse d'homogénéité: Accent principal sur les effets de traitement homogènes, l'extension à l'hétérogénéité nécessite une modélisation paramétrée
Problèmes des méthodes arborescentes: Difficultés d'ajustement d'hyperparamètres et distributions d'échantillonnage non normales
Complexité computationnelle: Dictionnaires de haute dimension et validation croisée augmentent la charge computationnelle

Directions Futures

Extension à l'hétérogénéité: Développement de méthodes pour les effets de traitement moyens (ATE) plutôt que les effets de traitement moyens conditionnels (CATE)
Panels dynamiques: Extension aux modèles de données de panel dynamiques
Données manquantes: Traitement des données manquantes non aléatoires dans les données de panel

Évaluation Approfondie

Points Forts

Rigueur théorique: Basé sur la théorie de l'orthogonalité de Neyman, fournissant une base théorique asymptotique complète
Généralité méthodologique: Indépendant des hypothèses de parcimonie spécifiques, supportant plusieurs algorithmes d'apprentissage automatique
Expérimentation complète: Incluant des études de simulation exhaustives et des applications sur données réelles
Innovation computationnelle: La validation croisée par blocs traite efficacement l'autocorrélation sérielle spécifique aux données de panel

Insuffisances

Limitations des méthodes arborescentes: L'analyse des méthodes basées sur les arbres est insuffisamment approfondie, les stratégies d'ajustement d'hyperparamètres nécessitent des améliorations
Restrictions sur l'hétérogénéité: Le traitement de l'hétérogénéité des effets de traitement est relativement simple, nécessitant un cadre plus flexible
Portée empirique: Les applications empiriques se limitent à un seul cas, manquant de validation plus large

Impact

Contribution académique: Comble un vide important dans l'application du DML aux données de panel
Valeur pratique: Fournit aux chercheurs empiriques des outils efficaces pour traiter les données de panel non linéaires
Reproductibilité: Fourniture d'un package R (XTDML) facilitant la diffusion de la méthode

Scénarios d'Application

Évaluation de politiques: Applicable à l'évaluation des effets de politiques nécessitant le contrôle de facteurs de confusion invariants dans le temps
Économie du travail: Études de suivi à long terme telles que les rendements de l'éducation et les effets salariaux
Économie du développement: Évaluation des impacts à long terme des mesures d'intervention en développement
Économie de la santé: Analyse des effets longitudinaux des politiques et interventions sanitaires

Références

Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Évaluation Globale: Cet article est un travail méthodologique de haute qualité en économétrie qui étend avec succès le cadre du double machine learning aux données de panel. L'article démontre une excellence dans le développement théorique, l'innovation méthodologique et la validation empirique, fournissant des outils importants pour traiter les données de panel complexes. Bien que certains détails techniques puissent être améliorés, sa contribution au domaine est significative.