2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

Doppeltes Maschinelles Lernen für statische Panelmodelle mit festen Effekten

Grundlegende Informationen

  • Papier-ID: 2312.08174
  • Titel: Double Machine Learning for Static Panel Models with Fixed Effects
  • Autoren: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
  • Klassifizierung: econ.EM cs.LG stat.ML
  • Veröffentlichungszeit/Konferenz: The Econometrics Journal (Dezember 2024 akzeptiert)
  • Papierlink: https://arxiv.org/abs/2312.08174

Zusammenfassung

Dieses Papier entwickelt neuartige Verfahren des doppelten maschinellen Lernens (DML) für die Paneldatenanalyse, wobei Algorithmen des maschinellen Lernens zur Approximation hochdimensionaler und nichtlinearer Störfunktionen von Kovariaten verwendet werden. Die neuen Verfahren erweitern die bekannten Schätzer für korrelierte Zufallseffekte, Within-Group und Differenzen erster Ordnung von linearen Panelmodellen auf nichtlineare Panelmodelle, insbesondere auf das semilineare Regressionsmodell mit festen Effekten und unspezifizierter nichtlinearer Konfundierung nach Robinson (1988). Simulationsstudien bewerten die Leistung dieser Verfahren unter Verwendung verschiedener Algorithmen des maschinellen Lernens. Die Autoren verwenden diese Verfahren zur Neubewertung der Auswirkungen des britischen Mindestlohns auf das Wahlverhalten. Die Ergebnisse empfehlen die Verwendung der Methode der Differenzen erster Ordnung, da sie die geringsten Einschränkungen für die Verteilung der festen Effekte auferlegt, und die Anwendung von Ensemble-Learning-Strategien zur Gewährleistung optimaler Schätzergenauigkeit.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Paneldatenanalyse stützt sich hauptsächlich auf lineare Modellannahmen, aber die tatsächlichen Datenerzeugungsprozesse weisen häufig komplexe nichtlineare Merkmale auf. Bestehende DML-Methoden konzentrieren sich hauptsächlich auf Querschnittsdaten, und ihre Anwendung auf Paneldaten ist relativ begrenzt, insbesondere bei der Behandlung nichtlinearer Panelmodelle mit festen Effekten.

Forschungsbedeutung

  1. Methodologischer Bedarf: Paneldaten werden in der empirischen Forschung häufig verwendet und erfordern robuste Methoden, die nichtlineare Beziehungen und hochdimensionale Kovariaten verarbeiten können
  2. Kausale Inferenz: Die genaue Schätzung kausaler Effekte in Gegenwart zeitinvarianter Confunder hat wichtige politische Implikationen
  3. Integration maschinellen Lernens: Kombination der Vorhersagekraft des maschinellen Lernens mit dem kausalen Inferenzrahmen der traditionellen Ökonometrie

Einschränkungen bestehender Methoden

  1. Linearitätsannahme: Traditionelle Panelverfahren setzen lineare Beziehungen voraus, was zu Modellfehlspezifikationen führen kann
  2. Sparsitätsabhängigkeit: Bestehende DML-Panelmethoden (z.B. Klosin & Vilgalys, 2023; Semenova et al., 2023) sind übermäßig abhängig von hochdimensionalen Sparsitätsannahmen
  3. Algorithmusbeschränkungen: Konzentration auf spezifische Algorithmen wie LASSO, mangelnde Allgemeingültigkeit

Kernbeiträge

  1. Methodologische Innovation: Entwicklung von drei neuen DML-Verfahren, die Schätzer für korrelierte Zufallseffekte (CRE), Within-Group (WG) und Differenzen erster Ordnung (FD) auf nichtlineare Einstellungen erweitern
  2. Technische Allgemeingültigkeit: Unabhängig von vorherigen Sparsitätsannahmen, unterstützt mehrere Algorithmen des maschinellen Lernens (LASSO, CART, Zufallswälder, Gradient Boosting)
  3. Rechnerische Optimierung: Anwendung von Block-k-fold Cross-Fitting zur Behandlung von Serienkorrelation in Paneldaten
  4. Empirische Anwendung: Neubewertung der Auswirkungen der britischen Mindestlohnpolitik zur Validierung der Praktikabilität der Methode

Methodische Details

Aufgabendefinition

Schätzung des homogenen Behandlungseffektparameters θ₀ im semilinearen Panelregressionsmodell (PLPR):

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

wobei:

  • YitY_{it}: Ergebnisvariable
  • DitD_{it}: Behandlungsvariable (kontinuierlich oder binär)
  • XitX_{it}: Vektor von Kontrollvariablen
  • αi\alpha_i^*: individuelle feste Effekte
  • g1()g_1(\cdot): unbekannte nichtlineare Funktion

Modellarchitektur

1. Partielles Output-PLPR-Modell (PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

wobei l1l_1 und m1m_1 zu lernende Störfunktionen sind.

2. Drei Methoden zur Behandlung fester Effekte

Korrelierte Zufallseffekte (CRE) Methode: Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

wobei Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} der individuelle Mittelwert ist.

Datentransformationsmethoden:

  • Differenzen erster Ordnung (FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • Within-Group (WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

Transformiertes Modell: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

Technische Innovationen

  1. Neyman-orthogonale Bewertungsfunktion: Konstruktion einer orthogonalen Bewertungsfunktion für Paneldaten: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. Block-k-fold Cross-Fitting: Zuweisung ganzer individueller Zeitreihen zu derselben Falte zur Vermeidung von Serienkorrelationsproblemen
  3. Lernstrategie für Störfunktionen:
    • Approximationsmethode: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • Exakte Methode: Direktes Lernen von Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • Hybridmethode: Kombination der Vorteile von CRE und Transformationsmethoden

Experimentelle Einrichtung

Simulationsdatendesign

Erzeugung von drei Datenerzeugungsprozessen (DGP) unterschiedlicher Komplexität:

  1. Linearer DGP: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. Nichtlinearer glatter DGP: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. Nichtlinearer diskontinuierlicher DGP: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

Empirische Daten

Verwendung der British Household Panel Survey (BHPS) Daten mit:

  • Stichprobe: 9.922 erwerbstätige Personen, 1991-2009
  • Behandlungsvariable: Erhalt des Mindestlohns
  • Ergebnisvariable: Wahl der Konservativen Partei
  • Kontrollvariablen: 72 Basisvariablen, erweitert auf 1.476 mit nichtlinearen Termen

Bewertungsmetriken

  • Verzerrung: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • Wurzelmittlerer quadratischer Fehler: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • Standardfehlerverhältnis: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • Modell-RMSE: Messung der Vorhersagegenauigkeit der Störfunktion

Vergleichsmethoden

  • Baseline-Methode: Gewöhnliche kleinste Quadrate (OLS)
  • DML-Algorithmen: LASSO, CART, Zufallswälder (RF), Gradient Boosting

Experimentelle Ergebnisse

Simulationsergebnisse

Linearer DGP:

  • OLS zeigt beste Leistung, wie erwartet
  • DML-LASSO-Leistung ähnlich OLS
  • Baummethoden zeigen schwächere Leistung bei kleinen Stichproben

Nichtlinearer glatter DGP:

  • OLS zeigt weiterhin gute Leistung (Funktion ist in den meisten Bereichen näherungsweise linear)
  • Begrenzte Verbesserung durch DML-Methoden

Nichtlinearer diskontinuierlicher DGP:

  • DML-LASSO deutlich überlegen gegenüber OLS
  • OLS-Verzerrung bis zu 0,993 (wahrer Wert 0,50)
  • DML-LASSO-Verzerrung nur 0,009, RMSE 0,014

Wichtigste Erkenntnisse

  1. Methodenvergleich:
    • FD (exakte) Methode am robustesten, minimale Einschränkungen für Verteilung fester Effekte
    • CRE-Methode erfordert zusätzliche Mundlak-ähnliche Annahmen
    • WG (Approximations-)Methode zeigt schwächere Leistung in nichtlinearen Fällen
  2. Algorithmusleistung:
    • LASSO mit erweitertem Wörterbuch zeigt beste Leistung
    • Baummethoden haben Schwierigkeiten bei Hyperparameter-Optimierung, nicht-normale Stichprobenverteilung
    • Ensemble-Learning-Strategie ist entscheidend

Empirische Anwendungsergebnisse

Auswirkung des britischen Mindestlohns auf die Wahl der Konservativen Partei:

MethodeOLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0,051***0,048**0,069*0,180-0,319
FD0,022*0,0210,0260,0180,024
WG0,051***0,046**0,048**0,040**0,048***

Ergebnisse zeigen:

  • FD-Methode am robustesten, höchste Konsistenz zwischen Algorithmen
  • Baummethoden in CRE-Methode instabil
  • WG-Methode zeigt Ergebnisse zwischen beiden Extremen

Verwandte Arbeiten

Maschinelles Lernen für kausale Inferenz

  1. Algorithmusentwicklung: Athey & Imbens (2016) Kausalbaum, Wager & Athey (2018) Kausalwald
  2. DML-Rahmen: Chernozhukov et al. (2018) theoretische Grundlagen des doppelten maschinellen Lernens
  3. Panelandwendungen: Chang (2020) Differenzen von Differenzen, Semenova et al. (2023) dynamische Panele

Hochdimensionale Panelmethoden

  1. LASSO-Anwendung: Belloni et al. (2016) Post-Clustering LASSO
  2. Sparsitätsannahmen: Klosin & Vilgalys (2023) und Semenova et al. (2023) sparsitätsabhängige Methoden
  3. Behandlung fester Effekte: Wooldridge & Zhu (2020) CRE-Erweiterungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodenempfehlung: Empfehlung der FD (exakten) Methode aufgrund minimaler Einschränkungen für die Verteilung fester Effekte
  2. Algorithmische Strategie: Empfehlung von Ensemble-Learning-Strategien zur Kombination von Algorithmusvorzügen
  3. Praktischer Wert: Methode anwendbar auf unausgeglichene Panele mit starker Erweiterbarkeit

Einschränkungen

  1. Homogenitätsannahme: Konzentration auf homogene Behandlungseffekte, Heterogenitätserweiterung erfordert parametrische Modellierung
  2. Baummethodenprobleme: Baummethoden haben Schwierigkeiten bei Hyperparameter-Optimierung und nicht-normale Stichprobenverteilung
  3. Rechenkomplexität: Hochdimensionales Wörterbuch und Cross-Fitting erhöhen Rechenlast

Zukünftige Richtungen

  1. Heterogenitätserweiterung: Entwicklung von Methoden für durchschnittliche Behandlungseffekte (ATE) statt bedingter durchschnittlicher Behandlungseffekte (CATE)
  2. Dynamische Panele: Erweiterung auf dynamische Panelmodelle
  3. Fehlende Daten: Behandlung von nicht-zufälligen Ausfällen in Paneldaten

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Basierend auf Neyman-Orthogonalitätstheorie mit vollständiger asymptotischer Grundlage
  2. Methodische Allgemeingültigkeit: Unabhängig von spezifischen Sparsitätsannahmen, unterstützt mehrere Algorithmen
  3. Umfassende Experimente: Vollständige Simulationsstudien und praktische Datenanwendungen
  4. Rechnerische Innovation: Block-Cross-Fitting behandelt effektiv Serienkorrelation in Paneldaten

Schwächen

  1. Baummethodenlimitierungen: Unzureichende Analyse von Baummethoden, Hyperparameter-Optimierungsstrategien verbesserungsbedürftig
  2. Heterogenitätsbeschränkungen: Relativ einfache Behandlung von Behandlungseffektheterogenität, flexiblerer Rahmen erforderlich
  3. Empirischer Umfang: Empirische Anwendung auf einzelnen Fall beschränkt, breitere Validierung erforderlich

Auswirkungen

  1. Akademischer Beitrag: Füllt wichtige Lücke in DML-Anwendung auf Paneldaten
  2. Praktischer Wert: Bietet empirischen Forschern effektive Werkzeuge zur Behandlung nichtlinearer Paneldaten
  3. Reproduzierbarkeit: R-Paket (XTDML) bereitgestellt zur Förderung der Methodenverbreitung

Anwendungsszenarien

  1. Politikbewertung: Geeignet für Politikeffektbewertung mit Kontrolle zeitinvarianter Confunder
  2. Arbeitsökonomie: Bildungsrenditen, Lohneffekte und andere Langzeitstudien
  3. Entwicklungsökonomie: Langzeitauswirkungen von Entwicklungsinterventionen
  4. Gesundheitsökonomie: Längsschnittanalyse von Gesundheitspolitik und Interventionen

Literaturverzeichnis

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Gesamtbewertung: Dies ist ein hochqualitatives ökonometrisches Methodenpapier, das das DML-Framework erfolgreich auf Paneldateneinstellungen erweitert. Das Papier zeigt hervorragende Leistungen in theoretischer Entwicklung, methodischer Innovation und empirischer Validierung und bietet wichtige Werkzeuge zur Behandlung komplexer Paneldaten. Obwohl in einigen technischen Details Verbesserungsspielraum besteht, ist sein Beitrag zum Feld erheblich.