Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
论文ID : 2312.08174标题 : Double Machine Learning for Static Panel Models with Fixed Effects作者 : Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)分类 : econ.EM cs.LG stat.ML发表时间/会议 : The Econometrics Journal (2024年12月接收)论文链接 : https://arxiv.org/abs/2312.08174 本文开发了新颖的双机器学习(DML)程序用于面板数据分析,利用机器学习算法来近似协变量的高维和非线性干扰函数。新程序将著名的相关随机效应、组内和一阶差分估计器从线性面板模型扩展到非线性面板模型,特别是Robinson(1988)的带固定效应和未指定非线性混淆的部分线性回归模型。仿真研究评估了使用不同机器学习算法的这些程序的性能。作者使用这些程序重新估计了英国最低工资对投票行为的影响。结果建议使用一阶差分方法,因为它对固定效应分布施加最少约束,并采用集成学习策略以确保估计器的最优准确性。
传统的面板数据分析主要依赖于线性模型假设,但现实中的数据生成过程往往具有复杂的非线性特征。现有的双机器学习方法主要针对横截面数据,对面板数据的应用相对有限,特别是在处理固定效应的非线性面板模型方面。
方法论需求 : 面板数据在实证研究中广泛使用,需要能够处理非线性关系和高维协变量的稳健方法因果推断 : 在存在时不变混淆因子的情况下,准确估计因果效应具有重要的政策含义机器学习整合 : 将机器学习的预测能力与传统计量经济学的因果推断框架相结合线性假设 : 传统面板数据方法假设线性关系,可能导致模型错误设定稀疏性依赖 : 现有DML面板方法(如Klosin & Vilgalys, 2023; Semenova et al., 2023)过度依赖高维稀疏函数假设算法限制 : 主要关注LASSO等特定算法,缺乏通用性方法论创新 : 开发了三种新的DML程序,将相关随机效应(CRE)、组内(WG)和一阶差分(FD)估计器扩展到非线性设定技术通用性 : 不依赖于事先的稀疏性假设,支持多种机器学习算法(LASSO、CART、随机森林、梯度提升)计算优化 : 采用块k折交叉拟合方法处理面板数据的序列相关性实证应用 : 提供了英国最低工资政策效应的重新分析,验证方法的实用性估计部分线性面板回归(PLPR)模型中的同质处理效应参数θ₀:
Y i t = D i t θ 0 + g 1 ( X i t ) + α i ∗ + U i t Y_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it} Y i t = D i t θ 0 + g 1 ( X i t ) + α i ∗ + U i t
其中:
Y i t Y_{it} Y i t : 结果变量D i t D_{it} D i t : 处理变量(连续或二元)X i t X_{it} X i t : 控制变量向量α i ∗ \alpha_i^* α i ∗ : 个体固定效应g 1 ( ⋅ ) g_1(\cdot) g 1 ( ⋅ ) : 未知非线性函数Y i t = V i t θ 0 + l 1 ( X i t ) + α i + U i t Y_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it} Y i t = V i t θ 0 + l 1 ( X i t ) + α i + U i t V i t = D i t − m 1 ( X i t ) − γ i V_{it} = D_{it} - m_1(X_{it}) - \gamma_i V i t = D i t − m 1 ( X i t ) − γ i
其中l 1 l_1 l 1 和m 1 m_1 m 1 是需要学习的干扰函数。
相关随机效应(CRE)方法 :
Y i t = V i t θ 0 + l ~ 1 ( X i t , X ˉ i ) + a i + U i t Y_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it} Y i t = V i t θ 0 + l ~ 1 ( X i t , X ˉ i ) + a i + U i t V i t = D i t − m ~ 1 ( X i t , X ˉ i ) − c i V_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i V i t = D i t − m ~ 1 ( X i t , X ˉ i ) − c i
其中X ˉ i = T − 1 ∑ t = 1 T X i t \bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} X ˉ i = T − 1 ∑ t = 1 T X i t 是个体均值。
数据变换方法 :
一阶差分(FD) : Q ( W i t ) = W i t − W i t − 1 Q(W_{it}) = W_{it} - W_{it-1} Q ( W i t ) = W i t − W i t − 1 组内变换(WG) : Q ( W i t ) = W i t − W ˉ i Q(W_{it}) = W_{it} - \bar{W}_i Q ( W i t ) = W i t − W ˉ i 变换后的模型:
Q ( Y i t ) = Q ( V i t ) θ 0 + Q ( l 1 ( X i t ) ) + Q ( U i t ) Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it}) Q ( Y i t ) = Q ( V i t ) θ 0 + Q ( l 1 ( X i t )) + Q ( U i t )
Neyman正交评分函数 : 构建了适用于面板数据的正交评分函数:
ψ ⊥ ( W i ; θ 0 , η 0 ) = V i ⊥ Σ 0 − 1 ( X i ) r i \psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i ψ ⊥ ( W i ; θ 0 , η 0 ) = V i ⊥ Σ 0 − 1 ( X i ) r i 块k折交叉拟合 : 将整个个体时间序列分配到同一折中,避免序列相关问题干扰函数学习策略 :近似方法 : Q ( l 1 ( X i t ) ) ≈ l 1 ( Q ( X i t ) ) Q(l_1(X_{it})) \approx l_1(Q(X_{it})) Q ( l 1 ( X i t )) ≈ l 1 ( Q ( X i t )) 精确方法 : 直接学习Δ l 1 ( X i t − 1 , X i t ) = l 1 ( X i t ) − l 1 ( X i t − 1 ) \Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1}) Δ l 1 ( X i t − 1 , X i t ) = l 1 ( X i t ) − l 1 ( X i t − 1 ) 混合方法 : 结合CRE和变换方法的优势生成三种不同复杂度的数据生成过程(DGP):
线性DGP : l 0 ( X i t ) = a X i t , 1 + X i t , 3 l_0(X_{it}) = aX_{it,1} + X_{it,3} l 0 ( X i t ) = a X i t , 1 + X i t , 3 非线性平滑DGP : l 0 ( X i t ) = exp ( X i t , 1 ) 1 + exp ( X i t , 1 ) + a cos ( X i t , 3 ) l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3}) l 0 ( X i t ) = 1 + e x p ( X i t , 1 ) e x p ( X i t , 1 ) + a cos ( X i t , 3 ) 非线性不连续DGP : l 0 ( X i t ) = b ( X i t , 1 ⋅ X i t , 3 ) + a ( X i t , 3 ⋅ 1 [ X i t , 3 > 0 ] ) l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0]) l 0 ( X i t ) = b ( X i t , 1 ⋅ X i t , 3 ) + a ( X i t , 3 ⋅ 1 [ X i t , 3 > 0 ]) 使用英国家庭面板调查(BHPS)数据,包含:
样本:9,922个工作个体,1991-2009年 处理变量:是否获得最低工资 结果变量:是否投票给保守党 控制变量:72个基础变量,扩展到包含非线性项后达到1,476个 偏差 : Bias ( θ ^ ) = E [ θ ^ ] − θ 0 \text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0 Bias ( θ ^ ) = E [ θ ^ ] − θ 0 均方根误差 : RMSE ( θ ^ ) = E [ ( θ ^ − θ 0 ) 2 ] \text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]} RMSE ( θ ^ ) = E [( θ ^ − θ 0 ) 2 ] 标准误差比率 : SE ( θ ^ ) / SD ( θ ^ ) \text{SE}(\hat{\theta})/\text{SD}(\hat{\theta}) SE ( θ ^ ) / SD ( θ ^ ) 模型RMSE : 衡量干扰函数预测精度基准方法 : 普通最小二乘法(OLS)DML算法 : LASSO、CART、随机森林(RF)、梯度提升线性DGP :
OLS表现最佳,符合预期 DML-LASSO性能接近OLS 树方法在小样本下表现较差 非线性平滑DGP :
OLS仍然表现良好(函数在大部分区域近似线性) DML方法改善有限 非线性不连续DGP :
DML-LASSO显著优于OLS OLS偏差高达0.993(真值0.50) DML-LASSO偏差仅0.009,RMSE为0.014 方法比较 :FD(精确)方法最稳健,对固定效应分布约束最少 CRE方法需要额外的Mundlak型假设 WG(近似)方法在非线性情况下表现较差 算法性能 :LASSO在扩展字典下表现最佳 树方法存在超参数调优困难,采样分布非正态 集成学习策略至关重要 英国最低工资对保守党投票的影响:
方法 OLS DML-LASSO DML-CART DML-RF DML-Boosting CRE 0.051*** 0.048** 0.069* 0.180 -0.319 FD 0.022* 0.021 0.026 0.018 0.024 WG 0.051*** 0.046** 0.048** 0.040** 0.048***
结果显示:
FD方法估计最稳健,不同算法间一致性最高 CRE方法中树方法表现不稳定 WG方法结果介于两者之间 算法开发 : Athey & Imbens(2016)的因果树,Wager & Athey(2018)的因果森林DML框架 : Chernozhukov et al.(2018)的双机器学习理论基础面板应用 : Chang(2020)的差分中的差分,Semenova et al.(2023)的动态面板LASSO应用 : Belloni et al.(2016)的后聚类LASSO稀疏假设 : Klosin & Vilgalys(2023)和Semenova et al.(2023)的稀疏性依赖方法固定效应处理 : Wooldridge & Zhu(2020)的CRE扩展方法推荐 : 推荐使用FD(精确)方法,因其对固定效应分布约束最少算法策略 : 建议采用集成学习策略,结合多种算法优势实用价值 : 方法适用于不平衡面板,扩展性强同质性假设 : 主要关注同质处理效应,异质性扩展需要参数化建模树方法问题 : 树基方法存在超参数调优困难和非正态采样分布问题计算复杂度 : 高维字典和交叉拟合增加计算负担异质性扩展 : 开发针对平均处理效应(ATE)而非条件平均处理效应(CATE)的方法动态面板 : 扩展到动态面板数据模型缺失数据 : 处理面板数据中的非随机缺失问题理论严谨 : 基于Neyman正交性理论,提供了完整的渐近理论基础方法通用 : 不依赖特定的稀疏性假设,支持多种机器学习算法实验充分 : 包含全面的仿真研究和实际数据应用计算创新 : 块交叉拟合有效处理面板数据特有的序列相关问题树方法局限 : 对树基方法的分析不够深入,超参数调优策略有待改进异质性限制 : 对处理效应异质性的处理相对简单,需要更灵活的框架实证范围 : 实证应用仅限于单一案例,缺乏更广泛的验证学术贡献 : 填补了DML在面板数据应用的重要空白实用价值 : 为实证研究者提供了处理非线性面板数据的有效工具可复现性 : 提供了R包(XTDML),便于方法推广应用政策评估 : 适用于需要控制时不变混淆的政策效应评估劳动经济学 : 教育回报、工资效应等长期跟踪研究发展经济学 : 发展干预措施的长期影响评估健康经济学 : 医疗政策和干预的纵向效应分析Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics. 总体评价 : 这是一篇高质量的计量经济学方法论文文,成功地将双机器学习框架扩展到面板数据设定。论文在理论发展、方法创新和实证验证方面都表现出色,为处理复杂面板数据提供了重要的工具。尽管在某些技术细节上还有改进空间,但其对领域的贡献是显著的。