Double Machine Learning for Static Panel Models with Fixed Effects
Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic
Double Machine Learning pour les Modèles de Panneaux Statiques avec Effets Fixes
Cet article développe de nouvelles procédures de double machine learning (DML) pour l'analyse de données de panel, en exploitant les algorithmes d'apprentissage automatique pour approximer les fonctions de perturbation de haute dimension et non linéaires des covariables. Les nouvelles procédures étendent les estimateurs célèbres d'effets aléatoires corrélés, intra-groupes et de différences premières des modèles de panel linéaires aux modèles de panel non linéaires, en particulier le modèle de régression semi-linéaire avec effets fixes et confusion non linéaire non spécifiée de Robinson (1988). Les études de simulation évaluent les performances de ces procédures utilisant différents algorithmes d'apprentissage automatique. Les auteurs réestiment l'impact du salaire minimum britannique sur le comportement électoral en utilisant ces procédures. Les résultats recommandent l'utilisation de la méthode des différences premières, car elle impose le moins de contraintes sur la distribution des effets fixes, et adoptent une stratégie d'apprentissage d'ensemble pour assurer la précision optimale de l'estimateur.
L'analyse traditionnelle des données de panel repose principalement sur des hypothèses de modèles linéaires, mais les processus de génération de données réels présentent souvent des caractéristiques non linéaires complexes. Les méthodes DML existantes sont principalement orientées vers les données transversales, avec des applications relativement limitées aux données de panel, en particulier pour traiter les modèles de panel non linéaires avec effets fixes.
Besoin méthodologique: Les données de panel sont largement utilisées dans la recherche empirique et nécessitent des méthodes robustes capables de traiter les relations non linéaires et les covariables de haute dimension
Inférence causale: L'estimation précise des effets causaux en présence de facteurs de confusion invariants dans le temps a d'importantes implications politiques
Intégration du machine learning: Combiner la capacité prédictive du machine learning avec le cadre d'inférence causale de l'économétrie traditionnelle
Hypothèse de linéarité: Les méthodes traditionnelles de données de panel supposent des relations linéaires, ce qui peut entraîner une mauvaise spécification du modèle
Dépendance à la parcimonie: Les méthodes DML existantes pour les panels (Klosin & Vilgalys, 2023; Semenova et al., 2023) dépendent excessivement d'hypothèses de fonctions parcimonieuses de haute dimension
Limitations algorithmiques: Accent principal sur des algorithmes spécifiques comme LASSO, manque de généralité
Innovation méthodologique: Développement de trois nouvelles procédures DML étendant les estimateurs d'effets aléatoires corrélés (CRE), intra-groupes (WG) et de différences premières (FD) au cadre non linéaire
Généralité technique: Indépendant des hypothèses de parcimonie préalables, supportant plusieurs algorithmes d'apprentissage automatique (LASSO, CART, forêts aléatoires, boosting par gradient)
Optimisation computationnelle: Adoption de la méthode de validation croisée k-fold par blocs pour traiter l'autocorrélation sérielle des données de panel
Application empirique: Fourniture d'une réanalyse de l'effet de la politique de salaire minimum britannique, validant l'applicabilité pratique de la méthode
Fonction de Score Orthogonale de Neyman: Construction d'une fonction de score orthogonale applicable aux données de panel:
ψ⊥(Wi;θ0,η0)=Vi⊥Σ0−1(Xi)ri
Validation Croisée k-fold par Blocs: Allocation de l'ensemble de la série chronologique individuelle au même pli, évitant les problèmes d'autocorrélation sérielle
Stratégie d'Apprentissage des Fonctions de Perturbation:
Recommandation méthodologique: Recommandation d'utiliser la méthode FD (exacte) car elle impose le moins de contraintes sur la distribution des effets fixes
Stratégie algorithmique: Recommandation d'adopter une stratégie d'apprentissage d'ensemble combinant les avantages de plusieurs algorithmes
Valeur pratique: La méthode s'applique aux panels déséquilibrés avec forte extensibilité
Extension à l'hétérogénéité: Développement de méthodes pour les effets de traitement moyens (ATE) plutôt que les effets de traitement moyens conditionnels (CATE)
Panels dynamiques: Extension aux modèles de données de panel dynamiques
Données manquantes: Traitement des données manquantes non aléatoires dans les données de panel
Limitations des méthodes arborescentes: L'analyse des méthodes basées sur les arbres est insuffisamment approfondie, les stratégies d'ajustement d'hyperparamètres nécessitent des améliorations
Restrictions sur l'hétérogénéité: Le traitement de l'hétérogénéité des effets de traitement est relativement simple, nécessitant un cadre plus flexible
Portée empirique: Les applications empiriques se limitent à un seul cas, manquant de validation plus large
Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.
Évaluation Globale: Cet article est un travail méthodologique de haute qualité en économétrie qui étend avec succès le cadre du double machine learning aux données de panel. L'article démontre une excellence dans le développement théorique, l'innovation méthodologique et la validation empirique, fournissant des outils importants pour traiter les données de panel complexes. Bien que certains détails techniques puissent être améliorés, sa contribution au domaine est significative.