2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

Double Machine Learning pour les Modèles de Panneaux Statiques avec Effets Fixes

Informations Fondamentales

  • ID de l'article: 2312.08174
  • Titre: Double Machine Learning for Static Panel Models with Fixed Effects
  • Auteurs: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
  • Classification: econ.EM cs.LG stat.ML
  • Date de publication/Conférence: The Econometrics Journal (accepté en décembre 2024)
  • Lien de l'article: https://arxiv.org/abs/2312.08174

Résumé

Cet article développe de nouvelles procédures de double machine learning (DML) pour l'analyse de données de panel, en exploitant les algorithmes d'apprentissage automatique pour approximer les fonctions de perturbation de haute dimension et non linéaires des covariables. Les nouvelles procédures étendent les estimateurs célèbres d'effets aléatoires corrélés, intra-groupes et de différences premières des modèles de panel linéaires aux modèles de panel non linéaires, en particulier le modèle de régression semi-linéaire avec effets fixes et confusion non linéaire non spécifiée de Robinson (1988). Les études de simulation évaluent les performances de ces procédures utilisant différents algorithmes d'apprentissage automatique. Les auteurs réestiment l'impact du salaire minimum britannique sur le comportement électoral en utilisant ces procédures. Les résultats recommandent l'utilisation de la méthode des différences premières, car elle impose le moins de contraintes sur la distribution des effets fixes, et adoptent une stratégie d'apprentissage d'ensemble pour assurer la précision optimale de l'estimateur.

Contexte et Motivation de la Recherche

Définition du Problème

L'analyse traditionnelle des données de panel repose principalement sur des hypothèses de modèles linéaires, mais les processus de génération de données réels présentent souvent des caractéristiques non linéaires complexes. Les méthodes DML existantes sont principalement orientées vers les données transversales, avec des applications relativement limitées aux données de panel, en particulier pour traiter les modèles de panel non linéaires avec effets fixes.

Importance de la Recherche

  1. Besoin méthodologique: Les données de panel sont largement utilisées dans la recherche empirique et nécessitent des méthodes robustes capables de traiter les relations non linéaires et les covariables de haute dimension
  2. Inférence causale: L'estimation précise des effets causaux en présence de facteurs de confusion invariants dans le temps a d'importantes implications politiques
  3. Intégration du machine learning: Combiner la capacité prédictive du machine learning avec le cadre d'inférence causale de l'économétrie traditionnelle

Limitations des Méthodes Existantes

  1. Hypothèse de linéarité: Les méthodes traditionnelles de données de panel supposent des relations linéaires, ce qui peut entraîner une mauvaise spécification du modèle
  2. Dépendance à la parcimonie: Les méthodes DML existantes pour les panels (Klosin & Vilgalys, 2023; Semenova et al., 2023) dépendent excessivement d'hypothèses de fonctions parcimonieuses de haute dimension
  3. Limitations algorithmiques: Accent principal sur des algorithmes spécifiques comme LASSO, manque de généralité

Contributions Principales

  1. Innovation méthodologique: Développement de trois nouvelles procédures DML étendant les estimateurs d'effets aléatoires corrélés (CRE), intra-groupes (WG) et de différences premières (FD) au cadre non linéaire
  2. Généralité technique: Indépendant des hypothèses de parcimonie préalables, supportant plusieurs algorithmes d'apprentissage automatique (LASSO, CART, forêts aléatoires, boosting par gradient)
  3. Optimisation computationnelle: Adoption de la méthode de validation croisée k-fold par blocs pour traiter l'autocorrélation sérielle des données de panel
  4. Application empirique: Fourniture d'une réanalyse de l'effet de la politique de salaire minimum britannique, validant l'applicabilité pratique de la méthode

Détails Méthodologiques

Définition de la Tâche

Estimation du paramètre d'effet de traitement homogène θ₀ dans le modèle de régression de panel semi-linéaire (PLPR):

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

où:

  • YitY_{it}: variable de résultat
  • DitD_{it}: variable de traitement (continue ou binaire)
  • XitX_{it}: vecteur de variables de contrôle
  • αi\alpha_i^*: effet fixe individuel
  • g1()g_1(\cdot): fonction non linéaire inconnue

Architecture du Modèle

1. Modèle PLPR avec Résultat Partiel (PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

l1l_1 et m1m_1 sont les fonctions de perturbation à apprendre.

2. Trois Méthodes de Traitement des Effets Fixes

Méthode des Effets Aléatoires Corrélés (CRE): Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} est la moyenne individuelle.

Méthodes de Transformation de Données:

  • Différences Premières (FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • Intra-groupes (WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

Modèle transformé: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

Points d'Innovation Technique

  1. Fonction de Score Orthogonale de Neyman: Construction d'une fonction de score orthogonale applicable aux données de panel: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. Validation Croisée k-fold par Blocs: Allocation de l'ensemble de la série chronologique individuelle au même pli, évitant les problèmes d'autocorrélation sérielle
  3. Stratégie d'Apprentissage des Fonctions de Perturbation:
    • Méthode d'approximation: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • Méthode exacte: Apprentissage direct de Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • Méthode mixte: Combinaison des avantages des approches CRE et transformation

Configuration Expérimentale

Conception des Données de Simulation

Génération de trois processus de génération de données (DGP) de complexité différente:

  1. DGP Linéaire: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. DGP Non Linéaire Lisse: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. DGP Non Linéaire Discontinu: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

Données Empiriques

Utilisation des données de l'Enquête Britannique sur les Ménages (BHPS), incluant:

  • Échantillon: 9 922 individus actifs, 1991-2009
  • Variable de traitement: accès au salaire minimum
  • Variable de résultat: vote pour le Parti conservateur
  • Variables de contrôle: 72 variables de base, étendues à 1 476 après inclusion de termes non linéaires

Indicateurs d'Évaluation

  • Biais: Biais(θ^)=E[θ^]θ0\text{Biais}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • Erreur Quadratique Moyenne: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • Ratio d'Erreur Standard: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • RMSE du Modèle: Mesure de la précision prédictive des fonctions de perturbation

Méthodes de Comparaison

  • Méthode de référence: Moindres carrés ordinaires (OLS)
  • Algorithmes DML: LASSO, CART, forêts aléatoires (RF), boosting par gradient

Résultats Expérimentaux

Résultats de Simulation

DGP Linéaire:

  • OLS affiche les meilleures performances, comme prévu
  • DML-LASSO fonctionne de manière comparable à OLS
  • Les méthodes arborescentes montrent des performances plus faibles sur petits échantillons

DGP Non Linéaire Lisse:

  • OLS continue de bien fonctionner (la fonction est approximativement linéaire dans la plupart des régions)
  • Les améliorations des méthodes DML sont limitées

DGP Non Linéaire Discontinu:

  • DML-LASSO surpasse significativement OLS
  • Le biais d'OLS atteint 0,993 (vraie valeur 0,50)
  • Le biais de DML-LASSO est seulement 0,009, RMSE de 0,014

Résultats Clés

  1. Comparaison des Méthodes:
    • La méthode FD (exacte) est la plus robuste, imposant le moins de contraintes sur la distribution des effets fixes
    • La méthode CRE nécessite des hypothèses supplémentaires de type Mundlak
    • La méthode WG (approximation) fonctionne moins bien dans les cas non linéaires
  2. Performance des Algorithmes:
    • LASSO fonctionne mieux avec dictionnaire étendu
    • Les méthodes arborescentes présentent des difficultés d'ajustement d'hyperparamètres et des distributions d'échantillonnage non normales
    • Les stratégies d'apprentissage d'ensemble sont essentielles

Résultats de l'Application Empirique

Impact du salaire minimum britannique sur le vote pour le Parti conservateur:

MéthodeOLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0,051***0,048**0,069*0,180-0,319
FD0,022*0,0210,0260,0180,024
WG0,051***0,046**0,048**0,040**0,048***

Les résultats montrent:

  • La méthode FD produit les estimations les plus robustes, avec la plus grande cohérence entre algorithmes
  • Les méthodes arborescentes dans l'approche CRE montrent une instabilité
  • Les résultats de la méthode WG se situent entre les deux

Travaux Connexes

Inférence Causale par Machine Learning

  1. Développement algorithmique: Arbres causaux d'Athey & Imbens (2016), forêts causales de Wager & Athey (2018)
  2. Cadre DML: Fondations théoriques du double machine learning de Chernozhukov et al. (2018)
  3. Applications aux panels: Différences de différences de Chang (2020), panels dynamiques de Semenova et al. (2023)

Méthodes de Panel de Haute Dimension

  1. Application LASSO: LASSO post-clustering de Belloni et al. (2016)
  2. Hypothèses de parcimonie: Méthodes dépendantes de la parcimonie de Klosin & Vilgalys (2023) et Semenova et al. (2023)
  3. Traitement des effets fixes: Extension CRE de Wooldridge & Zhu (2020)

Conclusions et Discussion

Conclusions Principales

  1. Recommandation méthodologique: Recommandation d'utiliser la méthode FD (exacte) car elle impose le moins de contraintes sur la distribution des effets fixes
  2. Stratégie algorithmique: Recommandation d'adopter une stratégie d'apprentissage d'ensemble combinant les avantages de plusieurs algorithmes
  3. Valeur pratique: La méthode s'applique aux panels déséquilibrés avec forte extensibilité

Limitations

  1. Hypothèse d'homogénéité: Accent principal sur les effets de traitement homogènes, l'extension à l'hétérogénéité nécessite une modélisation paramétrée
  2. Problèmes des méthodes arborescentes: Difficultés d'ajustement d'hyperparamètres et distributions d'échantillonnage non normales
  3. Complexité computationnelle: Dictionnaires de haute dimension et validation croisée augmentent la charge computationnelle

Directions Futures

  1. Extension à l'hétérogénéité: Développement de méthodes pour les effets de traitement moyens (ATE) plutôt que les effets de traitement moyens conditionnels (CATE)
  2. Panels dynamiques: Extension aux modèles de données de panel dynamiques
  3. Données manquantes: Traitement des données manquantes non aléatoires dans les données de panel

Évaluation Approfondie

Points Forts

  1. Rigueur théorique: Basé sur la théorie de l'orthogonalité de Neyman, fournissant une base théorique asymptotique complète
  2. Généralité méthodologique: Indépendant des hypothèses de parcimonie spécifiques, supportant plusieurs algorithmes d'apprentissage automatique
  3. Expérimentation complète: Incluant des études de simulation exhaustives et des applications sur données réelles
  4. Innovation computationnelle: La validation croisée par blocs traite efficacement l'autocorrélation sérielle spécifique aux données de panel

Insuffisances

  1. Limitations des méthodes arborescentes: L'analyse des méthodes basées sur les arbres est insuffisamment approfondie, les stratégies d'ajustement d'hyperparamètres nécessitent des améliorations
  2. Restrictions sur l'hétérogénéité: Le traitement de l'hétérogénéité des effets de traitement est relativement simple, nécessitant un cadre plus flexible
  3. Portée empirique: Les applications empiriques se limitent à un seul cas, manquant de validation plus large

Impact

  1. Contribution académique: Comble un vide important dans l'application du DML aux données de panel
  2. Valeur pratique: Fournit aux chercheurs empiriques des outils efficaces pour traiter les données de panel non linéaires
  3. Reproductibilité: Fourniture d'un package R (XTDML) facilitant la diffusion de la méthode

Scénarios d'Application

  1. Évaluation de politiques: Applicable à l'évaluation des effets de politiques nécessitant le contrôle de facteurs de confusion invariants dans le temps
  2. Économie du travail: Études de suivi à long terme telles que les rendements de l'éducation et les effets salariaux
  3. Économie du développement: Évaluation des impacts à long terme des mesures d'intervention en développement
  4. Économie de la santé: Analyse des effets longitudinaux des politiques et interventions sanitaires

Références

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Évaluation Globale: Cet article est un travail méthodologique de haute qualité en économétrie qui étend avec succès le cadre du double machine learning aux données de panel. L'article démontre une excellence dans le développement théorique, l'innovation méthodologique et la validation empirique, fournissant des outils importants pour traiter les données de panel complexes. Bien que certains détails techniques puissent être améliorés, sa contribution au domaine est significative.