Double Machine Learning for Static Panel Models with Fixed Effects
Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic
Doppeltes Maschinelles Lernen für statische Panelmodelle mit festen Effekten
Dieses Papier entwickelt neuartige Verfahren des doppelten maschinellen Lernens (DML) für die Paneldatenanalyse, wobei Algorithmen des maschinellen Lernens zur Approximation hochdimensionaler und nichtlinearer Störfunktionen von Kovariaten verwendet werden. Die neuen Verfahren erweitern die bekannten Schätzer für korrelierte Zufallseffekte, Within-Group und Differenzen erster Ordnung von linearen Panelmodellen auf nichtlineare Panelmodelle, insbesondere auf das semilineare Regressionsmodell mit festen Effekten und unspezifizierter nichtlinearer Konfundierung nach Robinson (1988). Simulationsstudien bewerten die Leistung dieser Verfahren unter Verwendung verschiedener Algorithmen des maschinellen Lernens. Die Autoren verwenden diese Verfahren zur Neubewertung der Auswirkungen des britischen Mindestlohns auf das Wahlverhalten. Die Ergebnisse empfehlen die Verwendung der Methode der Differenzen erster Ordnung, da sie die geringsten Einschränkungen für die Verteilung der festen Effekte auferlegt, und die Anwendung von Ensemble-Learning-Strategien zur Gewährleistung optimaler Schätzergenauigkeit.
Die traditionelle Paneldatenanalyse stützt sich hauptsächlich auf lineare Modellannahmen, aber die tatsächlichen Datenerzeugungsprozesse weisen häufig komplexe nichtlineare Merkmale auf. Bestehende DML-Methoden konzentrieren sich hauptsächlich auf Querschnittsdaten, und ihre Anwendung auf Paneldaten ist relativ begrenzt, insbesondere bei der Behandlung nichtlinearer Panelmodelle mit festen Effekten.
Methodologischer Bedarf: Paneldaten werden in der empirischen Forschung häufig verwendet und erfordern robuste Methoden, die nichtlineare Beziehungen und hochdimensionale Kovariaten verarbeiten können
Kausale Inferenz: Die genaue Schätzung kausaler Effekte in Gegenwart zeitinvarianter Confunder hat wichtige politische Implikationen
Integration maschinellen Lernens: Kombination der Vorhersagekraft des maschinellen Lernens mit dem kausalen Inferenzrahmen der traditionellen Ökonometrie
Methodologische Innovation: Entwicklung von drei neuen DML-Verfahren, die Schätzer für korrelierte Zufallseffekte (CRE), Within-Group (WG) und Differenzen erster Ordnung (FD) auf nichtlineare Einstellungen erweitern
Technische Allgemeingültigkeit: Unabhängig von vorherigen Sparsitätsannahmen, unterstützt mehrere Algorithmen des maschinellen Lernens (LASSO, CART, Zufallswälder, Gradient Boosting)
Rechnerische Optimierung: Anwendung von Block-k-fold Cross-Fitting zur Behandlung von Serienkorrelation in Paneldaten
Empirische Anwendung: Neubewertung der Auswirkungen der britischen Mindestlohnpolitik zur Validierung der Praktikabilität der Methode
Heterogenitätserweiterung: Entwicklung von Methoden für durchschnittliche Behandlungseffekte (ATE) statt bedingter durchschnittlicher Behandlungseffekte (CATE)
Dynamische Panele: Erweiterung auf dynamische Panelmodelle
Fehlende Daten: Behandlung von nicht-zufälligen Ausfällen in Paneldaten
Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.
Gesamtbewertung: Dies ist ein hochqualitatives ökonometrisches Methodenpapier, das das DML-Framework erfolgreich auf Paneldateneinstellungen erweitert. Das Papier zeigt hervorragende Leistungen in theoretischer Entwicklung, methodischer Innovation und empirischer Validierung und bietet wichtige Werkzeuge zur Behandlung komplexer Paneldaten. Obwohl in einigen technischen Details Verbesserungsspielraum besteht, ist sein Beitrag zum Feld erheblich.