2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli

Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.

academic

Aprendizaje Automático Doble para Modelos de Panel Estático con Efectos Fijos

Información Básica

ID del Artículo: 2312.08174
Título: Double Machine Learning for Static Panel Models with Fixed Effects
Autores: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
Clasificación: econ.EM cs.LG stat.ML
Fecha de Publicación/Conferencia: The Econometrics Journal (Aceptado en diciembre de 2024)
Enlace del Artículo: https://arxiv.org/abs/2312.08174

Resumen

Este artículo desarrolla procedimientos novedosos de aprendizaje automático doble (DML) para análisis de datos de panel, utilizando algoritmos de aprendizaje automático para aproximar funciones de confusión de alta dimensionalidad y no lineales de covariables. Los nuevos procedimientos extienden los estimadores renombrados de efectos aleatorios correlacionados, intra-grupo y de primeras diferencias de modelos de panel lineales a modelos de panel no lineales, particularmente el modelo de regresión parcialmente lineal con efectos fijos y confusión no especificada de Robinson (1988). Estudios de simulación evalúan el desempeño de estos procedimientos utilizando diferentes algoritmos de aprendizaje automático. Los autores reestiman el impacto del salario mínimo del Reino Unido en el comportamiento electoral utilizando estos procedimientos. Los resultados sugieren utilizar el método de primeras diferencias, ya que impone las restricciones mínimas sobre la distribución de efectos fijos y adopta estrategias de aprendizaje conjunto para garantizar la precisión óptima del estimador.

Antecedentes y Motivación de la Investigación

Definición del Problema

El análisis tradicional de datos de panel se basa principalmente en supuestos de modelos lineales, pero los procesos de generación de datos en la realidad a menudo presentan características no lineales complejas. Los métodos DML existentes se orientan principalmente a datos transversales, con aplicaciones relativamente limitadas a datos de panel, particularmente en el manejo de modelos de panel no lineales con efectos fijos.

Importancia de la Investigación

Necesidad Metodológica: Los datos de panel se utilizan ampliamente en investigación empírica, requiriendo métodos robustos que puedan manejar relaciones no lineales y covariables de alta dimensionalidad
Inferencia Causal: La estimación precisa de efectos causales en presencia de factores de confusión invariantes en el tiempo tiene importantes implicaciones políticas
Integración del Aprendizaje Automático: Combinar la capacidad predictiva del aprendizaje automático con el marco de inferencia causal de la econometría tradicional

Limitaciones de Métodos Existentes

Supuesto de Linealidad: Los métodos tradicionales de datos de panel asumen relaciones lineales, lo que puede conducir a especificación errónea del modelo
Dependencia de Escasez: Los métodos DML de panel existentes (como Klosin & Vilgalys, 2023; Semenova et al., 2023) dependen excesivamente de supuestos de funciones de alta dimensionalidad escasas
Limitaciones de Algoritmos: Se enfoca principalmente en algoritmos específicos como LASSO, careciendo de generalidad

Contribuciones Principales

Innovación Metodológica: Desarrollo de tres nuevos procedimientos DML que extienden los estimadores de efectos aleatorios correlacionados (CRE), intra-grupo (WG) y de primeras diferencias (FD) a configuraciones no lineales
Generalidad Técnica: No depende de supuestos previos de escasez, soporta múltiples algoritmos de aprendizaje automático (LASSO, CART, bosques aleatorios, impulso de gradiente)
Optimización Computacional: Adopta método de validación cruzada k-fold por bloques para manejar la autocorrelación serial en datos de panel
Aplicación Empírica: Proporciona reanálisis del efecto de la política de salario mínimo del Reino Unido, verificando la practicidad del método

Explicación Detallada del Método

Definición de la Tarea

Estimación del parámetro de efecto de tratamiento homogéneo θ₀ en el modelo de regresión de panel parcialmente lineal (PLPR):

$Y_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}$

Donde:

$Y_{it}$ : Variable de resultado
$D_{it}$ : Variable de tratamiento (continua o binaria)
$X_{it}$ : Vector de variables de control
$\alpha_i^*$ : Efecto fijo individual
$g_1(\cdot)$ : Función no lineal desconocida

Arquitectura del Modelo

1. Modelo PLPR de Salida Parcial (PO-PLPR)

$Y_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}$ $V_{it} = D_{it} - m_1(X_{it}) - \gamma_i$

Donde $l_1$ y $m_1$ son funciones de confusión que necesitan aprenderse.

2. Tres Métodos de Tratamiento de Efectos Fijos

Método de Efectos Aleatorios Correlacionados (CRE): $Y_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}$ $V_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i$

Donde $\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it}$ es la media individual.

Métodos de Transformación de Datos:

Primeras Diferencias (FD): $Q(W_{it}) = W_{it} - W_{it-1}$
Transformación Intra-grupo (WG): $Q(W_{it}) = W_{it} - \bar{W}_i$

Modelo transformado: $Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})$

Puntos de Innovación Técnica

Función de Puntuación Ortogonal de Neyman: Construcción de función de puntuación ortogonal aplicable a datos de panel: $\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i$
Validación Cruzada k-fold por Bloques: Asignación de series de tiempo completas de individuos al mismo pliegue, evitando problemas de autocorrelación serial
Estrategia de Aprendizaje de Funciones de Confusión:
- Método de Aproximación: $Q(l_1(X_{it})) \approx l_1(Q(X_{it}))$
- Método Exacto: Aprendizaje directo de $\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})$
- Método Híbrido: Combinación de ventajas de métodos CRE y de transformación

Configuración Experimental

Diseño de Datos de Simulación

Generación de tres procesos de generación de datos (DGP) de complejidad diferente:

DGP Lineal: $l_0(X_{it}) = aX_{it,1} + X_{it,3}$
DGP No Lineal Suave: $l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})$
DGP No Lineal Discontinuo: $l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])$

Datos Empíricos

Utilización de datos de la Encuesta de Hogares del Panel Británico (BHPS), incluyendo:

Muestra: 9,922 individuos trabajadores, 1991-2009
Variable de tratamiento: Recepción de salario mínimo
Variable de resultado: Voto por el Partido Conservador
Variables de control: 72 variables base, expandidas a 1,476 incluyendo términos no lineales

Métricas de Evaluación

Sesgo: $\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0$
Error Cuadrático Medio: $\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}$
Razón de Error Estándar: $\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})$
RMSE del Modelo: Medida de precisión predictiva de funciones de confusión

Métodos de Comparación

Método Base: Mínimos Cuadrados Ordinarios (OLS)
Algoritmos DML: LASSO, CART, Bosques Aleatorios (RF), Impulso de Gradiente

Resultados Experimentales

Resultados de Simulación

DGP Lineal:

OLS muestra el mejor desempeño, como se esperaba
DML-LASSO tiene desempeño cercano a OLS
Métodos basados en árboles muestran desempeño deficiente en muestras pequeñas

DGP No Lineal Suave:

OLS sigue mostrando buen desempeño (función aproximadamente lineal en la mayoría de regiones)
Mejora limitada de métodos DML

DGP No Lineal Discontinuo:

DML-LASSO significativamente superior a OLS
Sesgo de OLS alcanza 0.993 (valor verdadero 0.50)
Sesgo de DML-LASSO solo 0.009, RMSE de 0.014

Hallazgos Clave

Comparación de Métodos:
- Método FD (exacto) más robusto, con restricciones mínimas sobre distribución de efectos fijos
- Método CRE requiere supuestos adicionales tipo Mundlak
- Método WG (aproximación) muestra desempeño deficiente en casos no lineales
Desempeño de Algoritmos:
- LASSO muestra mejor desempeño con diccionarios expandidos
- Métodos basados en árboles presentan dificultades en ajuste de hiperparámetros, distribución de muestreo no normal
- Estrategia de aprendizaje conjunto es crítica

Resultados de Aplicación Empírica

Impacto del salario mínimo del Reino Unido en voto por el Partido Conservador:

Método	OLS	DML-LASSO	DML-CART	DML-RF	DML-Boosting
CRE	0.051***	0.048**	0.069*	0.180	-0.319
FD	0.022*	0.021	0.026	0.018	0.024
WG	0.051***	0.046**	0.048**	0.040**	0.048***

Los resultados muestran:

Método FD más robusto, mayor consistencia entre algoritmos
Métodos basados en árboles en CRE muestran inestabilidad
Resultados de WG intermedios entre ambos

Trabajo Relacionado

Inferencia Causal de Aprendizaje Automático

Desarrollo de Algoritmos: Árboles causales de Athey & Imbens (2016), Bosques Causales de Wager & Athey (2018)
Marco DML: Fundamentos teóricos de aprendizaje automático doble de Chernozhukov et al. (2018)
Aplicaciones de Panel: Diferencias en diferencias de Chang (2020), Panel dinámico de Semenova et al. (2023)

Métodos de Panel de Alta Dimensionalidad

Aplicación LASSO: LASSO post-agrupamiento de Belloni et al. (2016)
Supuestos de Escasez: Métodos dependientes de escasez de Klosin & Vilgalys (2023) y Semenova et al. (2023)
Tratamiento de Efectos Fijos: Extensión CRE de Wooldridge & Zhu (2020)

Conclusiones y Discusión

Conclusiones Principales

Recomendación de Método: Recomendación de uso del método FD (exacto) por imponer restricciones mínimas sobre distribución de efectos fijos
Estrategia de Algoritmo: Sugerencia de adoptar estrategia de aprendizaje conjunto, combinando ventajas de múltiples algoritmos
Valor Práctico: Método aplicable a paneles desbalanceados, con fuerte extensibilidad

Limitaciones

Supuesto de Homogeneidad: Enfoque principal en efectos de tratamiento homogéneo, extensión de heterogeneidad requiere modelado parametrizado
Problemas de Métodos Basados en Árboles: Métodos basados en árboles presentan dificultades en ajuste de hiperparámetros y distribución de muestreo no normal
Complejidad Computacional: Diccionario de alta dimensionalidad y validación cruzada aumentan carga computacional

Direcciones Futuras

Extensión de Heterogeneidad: Desarrollo de métodos enfocados en efectos promedio de tratamiento (ATE) en lugar de efectos promedio condicionales de tratamiento (CATE)
Panel Dinámico: Extensión a modelos de datos de panel dinámico
Datos Faltantes: Manejo de problemas de datos faltantes no aleatorios en datos de panel

Evaluación Profunda

Fortalezas

Rigor Teórico: Basado en teoría de ortogonalidad de Neyman, proporciona fundamentos teóricos asintóticos completos
Generalidad de Método: No depende de supuestos específicos de escasez, soporta múltiples algoritmos de aprendizaje automático
Experimentación Completa: Incluye estudios de simulación exhaustivos y aplicación a datos reales
Innovación Computacional: Validación cruzada por bloques maneja efectivamente problemas de autocorrelación serial específicos de datos de panel

Insuficiencias

Limitaciones de Métodos Basados en Árboles: Análisis insuficiente de métodos basados en árboles, estrategias de ajuste de hiperparámetros requieren mejora
Restricción de Heterogeneidad: Tratamiento relativamente simple de heterogeneidad de efectos de tratamiento, requiere marco más flexible
Alcance Empírico: Aplicación empírica limitada a caso único, carece de validación más amplia

Impacto

Contribución Académica: Llena brecha importante en aplicación de DML a datos de panel
Valor Práctico: Proporciona herramienta efectiva para investigadores empíricos en manejo de datos de panel no lineales
Reproducibilidad: Proporciona paquete R (XTDML), facilitando difusión de método

Escenarios de Aplicación

Evaluación de Políticas: Aplicable a evaluación de efectos de políticas requiriendo control de confusión invariante en el tiempo
Economía Laboral: Estudios de seguimiento a largo plazo como retornos educativos, efectos salariales
Economía del Desarrollo: Evaluación de impacto a largo plazo de medidas de intervención en desarrollo
Economía de la Salud: Análisis longitudinal de efectos de políticas médicas e intervenciones

Referencias

Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Evaluación General: Este es un artículo de metodología econométrica de alta calidad que extiende exitosamente el marco de aprendizaje automático doble a configuraciones de datos de panel. El artículo demuestra excelencia en desarrollo teórico, innovación metodológica y verificación empírica, proporcionando herramientas importantes para el manejo de datos de panel complejos. Aunque hay espacio para mejora en ciertos detalles técnicos, su contribución al campo es significativa.