2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

Aprendizaje Automático Doble para Modelos de Panel Estático con Efectos Fijos

Información Básica

  • ID del Artículo: 2312.08174
  • Título: Double Machine Learning for Static Panel Models with Fixed Effects
  • Autores: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
  • Clasificación: econ.EM cs.LG stat.ML
  • Fecha de Publicación/Conferencia: The Econometrics Journal (Aceptado en diciembre de 2024)
  • Enlace del Artículo: https://arxiv.org/abs/2312.08174

Resumen

Este artículo desarrolla procedimientos novedosos de aprendizaje automático doble (DML) para análisis de datos de panel, utilizando algoritmos de aprendizaje automático para aproximar funciones de confusión de alta dimensionalidad y no lineales de covariables. Los nuevos procedimientos extienden los estimadores renombrados de efectos aleatorios correlacionados, intra-grupo y de primeras diferencias de modelos de panel lineales a modelos de panel no lineales, particularmente el modelo de regresión parcialmente lineal con efectos fijos y confusión no especificada de Robinson (1988). Estudios de simulación evalúan el desempeño de estos procedimientos utilizando diferentes algoritmos de aprendizaje automático. Los autores reestiman el impacto del salario mínimo del Reino Unido en el comportamiento electoral utilizando estos procedimientos. Los resultados sugieren utilizar el método de primeras diferencias, ya que impone las restricciones mínimas sobre la distribución de efectos fijos y adopta estrategias de aprendizaje conjunto para garantizar la precisión óptima del estimador.

Antecedentes y Motivación de la Investigación

Definición del Problema

El análisis tradicional de datos de panel se basa principalmente en supuestos de modelos lineales, pero los procesos de generación de datos en la realidad a menudo presentan características no lineales complejas. Los métodos DML existentes se orientan principalmente a datos transversales, con aplicaciones relativamente limitadas a datos de panel, particularmente en el manejo de modelos de panel no lineales con efectos fijos.

Importancia de la Investigación

  1. Necesidad Metodológica: Los datos de panel se utilizan ampliamente en investigación empírica, requiriendo métodos robustos que puedan manejar relaciones no lineales y covariables de alta dimensionalidad
  2. Inferencia Causal: La estimación precisa de efectos causales en presencia de factores de confusión invariantes en el tiempo tiene importantes implicaciones políticas
  3. Integración del Aprendizaje Automático: Combinar la capacidad predictiva del aprendizaje automático con el marco de inferencia causal de la econometría tradicional

Limitaciones de Métodos Existentes

  1. Supuesto de Linealidad: Los métodos tradicionales de datos de panel asumen relaciones lineales, lo que puede conducir a especificación errónea del modelo
  2. Dependencia de Escasez: Los métodos DML de panel existentes (como Klosin & Vilgalys, 2023; Semenova et al., 2023) dependen excesivamente de supuestos de funciones de alta dimensionalidad escasas
  3. Limitaciones de Algoritmos: Se enfoca principalmente en algoritmos específicos como LASSO, careciendo de generalidad

Contribuciones Principales

  1. Innovación Metodológica: Desarrollo de tres nuevos procedimientos DML que extienden los estimadores de efectos aleatorios correlacionados (CRE), intra-grupo (WG) y de primeras diferencias (FD) a configuraciones no lineales
  2. Generalidad Técnica: No depende de supuestos previos de escasez, soporta múltiples algoritmos de aprendizaje automático (LASSO, CART, bosques aleatorios, impulso de gradiente)
  3. Optimización Computacional: Adopta método de validación cruzada k-fold por bloques para manejar la autocorrelación serial en datos de panel
  4. Aplicación Empírica: Proporciona reanálisis del efecto de la política de salario mínimo del Reino Unido, verificando la practicidad del método

Explicación Detallada del Método

Definición de la Tarea

Estimación del parámetro de efecto de tratamiento homogéneo θ₀ en el modelo de regresión de panel parcialmente lineal (PLPR):

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

Donde:

  • YitY_{it}: Variable de resultado
  • DitD_{it}: Variable de tratamiento (continua o binaria)
  • XitX_{it}: Vector de variables de control
  • αi\alpha_i^*: Efecto fijo individual
  • g1()g_1(\cdot): Función no lineal desconocida

Arquitectura del Modelo

1. Modelo PLPR de Salida Parcial (PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

Donde l1l_1 y m1m_1 son funciones de confusión que necesitan aprenderse.

2. Tres Métodos de Tratamiento de Efectos Fijos

Método de Efectos Aleatorios Correlacionados (CRE): Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

Donde Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} es la media individual.

Métodos de Transformación de Datos:

  • Primeras Diferencias (FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • Transformación Intra-grupo (WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

Modelo transformado: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

Puntos de Innovación Técnica

  1. Función de Puntuación Ortogonal de Neyman: Construcción de función de puntuación ortogonal aplicable a datos de panel: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. Validación Cruzada k-fold por Bloques: Asignación de series de tiempo completas de individuos al mismo pliegue, evitando problemas de autocorrelación serial
  3. Estrategia de Aprendizaje de Funciones de Confusión:
    • Método de Aproximación: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • Método Exacto: Aprendizaje directo de Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • Método Híbrido: Combinación de ventajas de métodos CRE y de transformación

Configuración Experimental

Diseño de Datos de Simulación

Generación de tres procesos de generación de datos (DGP) de complejidad diferente:

  1. DGP Lineal: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. DGP No Lineal Suave: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. DGP No Lineal Discontinuo: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

Datos Empíricos

Utilización de datos de la Encuesta de Hogares del Panel Británico (BHPS), incluyendo:

  • Muestra: 9,922 individuos trabajadores, 1991-2009
  • Variable de tratamiento: Recepción de salario mínimo
  • Variable de resultado: Voto por el Partido Conservador
  • Variables de control: 72 variables base, expandidas a 1,476 incluyendo términos no lineales

Métricas de Evaluación

  • Sesgo: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • Error Cuadrático Medio: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • Razón de Error Estándar: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • RMSE del Modelo: Medida de precisión predictiva de funciones de confusión

Métodos de Comparación

  • Método Base: Mínimos Cuadrados Ordinarios (OLS)
  • Algoritmos DML: LASSO, CART, Bosques Aleatorios (RF), Impulso de Gradiente

Resultados Experimentales

Resultados de Simulación

DGP Lineal:

  • OLS muestra el mejor desempeño, como se esperaba
  • DML-LASSO tiene desempeño cercano a OLS
  • Métodos basados en árboles muestran desempeño deficiente en muestras pequeñas

DGP No Lineal Suave:

  • OLS sigue mostrando buen desempeño (función aproximadamente lineal en la mayoría de regiones)
  • Mejora limitada de métodos DML

DGP No Lineal Discontinuo:

  • DML-LASSO significativamente superior a OLS
  • Sesgo de OLS alcanza 0.993 (valor verdadero 0.50)
  • Sesgo de DML-LASSO solo 0.009, RMSE de 0.014

Hallazgos Clave

  1. Comparación de Métodos:
    • Método FD (exacto) más robusto, con restricciones mínimas sobre distribución de efectos fijos
    • Método CRE requiere supuestos adicionales tipo Mundlak
    • Método WG (aproximación) muestra desempeño deficiente en casos no lineales
  2. Desempeño de Algoritmos:
    • LASSO muestra mejor desempeño con diccionarios expandidos
    • Métodos basados en árboles presentan dificultades en ajuste de hiperparámetros, distribución de muestreo no normal
    • Estrategia de aprendizaje conjunto es crítica

Resultados de Aplicación Empírica

Impacto del salario mínimo del Reino Unido en voto por el Partido Conservador:

MétodoOLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0.051***0.048**0.069*0.180-0.319
FD0.022*0.0210.0260.0180.024
WG0.051***0.046**0.048**0.040**0.048***

Los resultados muestran:

  • Método FD más robusto, mayor consistencia entre algoritmos
  • Métodos basados en árboles en CRE muestran inestabilidad
  • Resultados de WG intermedios entre ambos

Trabajo Relacionado

Inferencia Causal de Aprendizaje Automático

  1. Desarrollo de Algoritmos: Árboles causales de Athey & Imbens (2016), Bosques Causales de Wager & Athey (2018)
  2. Marco DML: Fundamentos teóricos de aprendizaje automático doble de Chernozhukov et al. (2018)
  3. Aplicaciones de Panel: Diferencias en diferencias de Chang (2020), Panel dinámico de Semenova et al. (2023)

Métodos de Panel de Alta Dimensionalidad

  1. Aplicación LASSO: LASSO post-agrupamiento de Belloni et al. (2016)
  2. Supuestos de Escasez: Métodos dependientes de escasez de Klosin & Vilgalys (2023) y Semenova et al. (2023)
  3. Tratamiento de Efectos Fijos: Extensión CRE de Wooldridge & Zhu (2020)

Conclusiones y Discusión

Conclusiones Principales

  1. Recomendación de Método: Recomendación de uso del método FD (exacto) por imponer restricciones mínimas sobre distribución de efectos fijos
  2. Estrategia de Algoritmo: Sugerencia de adoptar estrategia de aprendizaje conjunto, combinando ventajas de múltiples algoritmos
  3. Valor Práctico: Método aplicable a paneles desbalanceados, con fuerte extensibilidad

Limitaciones

  1. Supuesto de Homogeneidad: Enfoque principal en efectos de tratamiento homogéneo, extensión de heterogeneidad requiere modelado parametrizado
  2. Problemas de Métodos Basados en Árboles: Métodos basados en árboles presentan dificultades en ajuste de hiperparámetros y distribución de muestreo no normal
  3. Complejidad Computacional: Diccionario de alta dimensionalidad y validación cruzada aumentan carga computacional

Direcciones Futuras

  1. Extensión de Heterogeneidad: Desarrollo de métodos enfocados en efectos promedio de tratamiento (ATE) en lugar de efectos promedio condicionales de tratamiento (CATE)
  2. Panel Dinámico: Extensión a modelos de datos de panel dinámico
  3. Datos Faltantes: Manejo de problemas de datos faltantes no aleatorios en datos de panel

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Basado en teoría de ortogonalidad de Neyman, proporciona fundamentos teóricos asintóticos completos
  2. Generalidad de Método: No depende de supuestos específicos de escasez, soporta múltiples algoritmos de aprendizaje automático
  3. Experimentación Completa: Incluye estudios de simulación exhaustivos y aplicación a datos reales
  4. Innovación Computacional: Validación cruzada por bloques maneja efectivamente problemas de autocorrelación serial específicos de datos de panel

Insuficiencias

  1. Limitaciones de Métodos Basados en Árboles: Análisis insuficiente de métodos basados en árboles, estrategias de ajuste de hiperparámetros requieren mejora
  2. Restricción de Heterogeneidad: Tratamiento relativamente simple de heterogeneidad de efectos de tratamiento, requiere marco más flexible
  3. Alcance Empírico: Aplicación empírica limitada a caso único, carece de validación más amplia

Impacto

  1. Contribución Académica: Llena brecha importante en aplicación de DML a datos de panel
  2. Valor Práctico: Proporciona herramienta efectiva para investigadores empíricos en manejo de datos de panel no lineales
  3. Reproducibilidad: Proporciona paquete R (XTDML), facilitando difusión de método

Escenarios de Aplicación

  1. Evaluación de Políticas: Aplicable a evaluación de efectos de políticas requiriendo control de confusión invariante en el tiempo
  2. Economía Laboral: Estudios de seguimiento a largo plazo como retornos educativos, efectos salariales
  3. Economía del Desarrollo: Evaluación de impacto a largo plazo de medidas de intervención en desarrollo
  4. Economía de la Salud: Análisis longitudinal de efectos de políticas médicas e intervenciones

Referencias

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Evaluación General: Este es un artículo de metodología econométrica de alta calidad que extiende exitosamente el marco de aprendizaje automático doble a configuraciones de datos de panel. El artículo demuestra excelencia en desarrollo teórico, innovación metodológica y verificación empírica, proporcionando herramientas importantes para el manejo de datos de panel complejos. Aunque hay espacio para mejora en ciertos detalles técnicos, su contribución al campo es significativa.