2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

Double Machine Learning for Static Panel Models with Fixed Effects

基本信息

  • 论文ID: 2312.08174
  • 标题: Double Machine Learning for Static Panel Models with Fixed Effects
  • 作者: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
  • 分类: econ.EM cs.LG stat.ML
  • 发表时间/会议: The Econometrics Journal (2024年12月接收)
  • 论文链接: https://arxiv.org/abs/2312.08174

摘要

本文开发了新颖的双机器学习(DML)程序用于面板数据分析,利用机器学习算法来近似协变量的高维和非线性干扰函数。新程序将著名的相关随机效应、组内和一阶差分估计器从线性面板模型扩展到非线性面板模型,特别是Robinson(1988)的带固定效应和未指定非线性混淆的部分线性回归模型。仿真研究评估了使用不同机器学习算法的这些程序的性能。作者使用这些程序重新估计了英国最低工资对投票行为的影响。结果建议使用一阶差分方法,因为它对固定效应分布施加最少约束,并采用集成学习策略以确保估计器的最优准确性。

研究背景与动机

问题定义

传统的面板数据分析主要依赖于线性模型假设,但现实中的数据生成过程往往具有复杂的非线性特征。现有的双机器学习方法主要针对横截面数据,对面板数据的应用相对有限,特别是在处理固定效应的非线性面板模型方面。

研究重要性

  1. 方法论需求: 面板数据在实证研究中广泛使用,需要能够处理非线性关系和高维协变量的稳健方法
  2. 因果推断: 在存在时不变混淆因子的情况下,准确估计因果效应具有重要的政策含义
  3. 机器学习整合: 将机器学习的预测能力与传统计量经济学的因果推断框架相结合

现有方法局限性

  1. 线性假设: 传统面板数据方法假设线性关系,可能导致模型错误设定
  2. 稀疏性依赖: 现有DML面板方法(如Klosin & Vilgalys, 2023; Semenova et al., 2023)过度依赖高维稀疏函数假设
  3. 算法限制: 主要关注LASSO等特定算法,缺乏通用性

核心贡献

  1. 方法论创新: 开发了三种新的DML程序,将相关随机效应(CRE)、组内(WG)和一阶差分(FD)估计器扩展到非线性设定
  2. 技术通用性: 不依赖于事先的稀疏性假设,支持多种机器学习算法(LASSO、CART、随机森林、梯度提升)
  3. 计算优化: 采用块k折交叉拟合方法处理面板数据的序列相关性
  4. 实证应用: 提供了英国最低工资政策效应的重新分析,验证方法的实用性

方法详解

任务定义

估计部分线性面板回归(PLPR)模型中的同质处理效应参数θ₀:

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

其中:

  • YitY_{it}: 结果变量
  • DitD_{it}: 处理变量(连续或二元)
  • XitX_{it}: 控制变量向量
  • αi\alpha_i^*: 个体固定效应
  • g1()g_1(\cdot): 未知非线性函数

模型架构

1. 部分输出PLPR模型(PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

其中l1l_1m1m_1是需要学习的干扰函数。

2. 三种固定效应处理方法

相关随机效应(CRE)方法: Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

其中Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it}是个体均值。

数据变换方法:

  • 一阶差分(FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • 组内变换(WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

变换后的模型: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

技术创新点

  1. Neyman正交评分函数: 构建了适用于面板数据的正交评分函数: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. 块k折交叉拟合: 将整个个体时间序列分配到同一折中,避免序列相关问题
  3. 干扰函数学习策略:
    • 近似方法: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • 精确方法: 直接学习Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • 混合方法: 结合CRE和变换方法的优势

实验设置

仿真数据设计

生成三种不同复杂度的数据生成过程(DGP):

  1. 线性DGP: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. 非线性平滑DGP: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. 非线性不连续DGP: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

实证数据

使用英国家庭面板调查(BHPS)数据,包含:

  • 样本:9,922个工作个体,1991-2009年
  • 处理变量:是否获得最低工资
  • 结果变量:是否投票给保守党
  • 控制变量:72个基础变量,扩展到包含非线性项后达到1,476个

评价指标

  • 偏差: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • 均方根误差: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • 标准误差比率: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • 模型RMSE: 衡量干扰函数预测精度

对比方法

  • 基准方法: 普通最小二乘法(OLS)
  • DML算法: LASSO、CART、随机森林(RF)、梯度提升

实验结果

仿真结果

线性DGP:

  • OLS表现最佳,符合预期
  • DML-LASSO性能接近OLS
  • 树方法在小样本下表现较差

非线性平滑DGP:

  • OLS仍然表现良好(函数在大部分区域近似线性)
  • DML方法改善有限

非线性不连续DGP:

  • DML-LASSO显著优于OLS
  • OLS偏差高达0.993(真值0.50)
  • DML-LASSO偏差仅0.009,RMSE为0.014

关键发现

  1. 方法比较:
    • FD(精确)方法最稳健,对固定效应分布约束最少
    • CRE方法需要额外的Mundlak型假设
    • WG(近似)方法在非线性情况下表现较差
  2. 算法性能:
    • LASSO在扩展字典下表现最佳
    • 树方法存在超参数调优困难,采样分布非正态
    • 集成学习策略至关重要

实证应用结果

英国最低工资对保守党投票的影响:

方法OLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0.051***0.048**0.069*0.180-0.319
FD0.022*0.0210.0260.0180.024
WG0.051***0.046**0.048**0.040**0.048***

结果显示:

  • FD方法估计最稳健,不同算法间一致性最高
  • CRE方法中树方法表现不稳定
  • WG方法结果介于两者之间

相关工作

机器学习因果推断

  1. 算法开发: Athey & Imbens(2016)的因果树,Wager & Athey(2018)的因果森林
  2. DML框架: Chernozhukov et al.(2018)的双机器学习理论基础
  3. 面板应用: Chang(2020)的差分中的差分,Semenova et al.(2023)的动态面板

高维面板方法

  1. LASSO应用: Belloni et al.(2016)的后聚类LASSO
  2. 稀疏假设: Klosin & Vilgalys(2023)和Semenova et al.(2023)的稀疏性依赖方法
  3. 固定效应处理: Wooldridge & Zhu(2020)的CRE扩展

结论与讨论

主要结论

  1. 方法推荐: 推荐使用FD(精确)方法,因其对固定效应分布约束最少
  2. 算法策略: 建议采用集成学习策略,结合多种算法优势
  3. 实用价值: 方法适用于不平衡面板,扩展性强

局限性

  1. 同质性假设: 主要关注同质处理效应,异质性扩展需要参数化建模
  2. 树方法问题: 树基方法存在超参数调优困难和非正态采样分布问题
  3. 计算复杂度: 高维字典和交叉拟合增加计算负担

未来方向

  1. 异质性扩展: 开发针对平均处理效应(ATE)而非条件平均处理效应(CATE)的方法
  2. 动态面板: 扩展到动态面板数据模型
  3. 缺失数据: 处理面板数据中的非随机缺失问题

深度评价

优点

  1. 理论严谨: 基于Neyman正交性理论,提供了完整的渐近理论基础
  2. 方法通用: 不依赖特定的稀疏性假设,支持多种机器学习算法
  3. 实验充分: 包含全面的仿真研究和实际数据应用
  4. 计算创新: 块交叉拟合有效处理面板数据特有的序列相关问题

不足

  1. 树方法局限: 对树基方法的分析不够深入,超参数调优策略有待改进
  2. 异质性限制: 对处理效应异质性的处理相对简单,需要更灵活的框架
  3. 实证范围: 实证应用仅限于单一案例,缺乏更广泛的验证

影响力

  1. 学术贡献: 填补了DML在面板数据应用的重要空白
  2. 实用价值: 为实证研究者提供了处理非线性面板数据的有效工具
  3. 可复现性: 提供了R包(XTDML),便于方法推广应用

适用场景

  1. 政策评估: 适用于需要控制时不变混淆的政策效应评估
  2. 劳动经济学: 教育回报、工资效应等长期跟踪研究
  3. 发展经济学: 发展干预措施的长期影响评估
  4. 健康经济学: 医疗政策和干预的纵向效应分析

参考文献

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

总体评价: 这是一篇高质量的计量经济学方法论文文,成功地将双机器学习框架扩展到面板数据设定。论文在理论发展、方法创新和实证验证方面都表现出色,为处理复杂面板数据提供了重要的工具。尽管在某些技术细节上还有改进空间,但其对领域的贡献是显著的。