Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
論文ID : 2312.08174タイトル : Double Machine Learning for Static Panel Models with Fixed Effects著者 : Paul S. Clarke (エセックス大学)、Annalivia Polselli (エセックス大学)分類 : econ.EM cs.LG stat.ML発表時期/学会 : The Econometrics Journal (2024年12月受理)論文リンク : https://arxiv.org/abs/2312.08174 本論文は、パネルデータ分析のための新規な二重機械学習(DML)手法を開発した。機械学習アルゴリズムを活用して、共変量の高次元かつ非線形な撹乱関数を近似する。新規手法は、相関ランダム効果推定量、群内推定量、および一階差分推定量という著名な推定量を線形パネルモデルから非線形パネルモデルへ拡張する。特に、固定効果と未指定の非線形混淆を持つRobinson(1988)の部分線形回帰モデルを対象とする。シミュレーション研究により、異なる機械学習アルゴリズムを用いたこれらの手法の性能を評価した。著者らは、これらの手法を用いて英国の最低賃金が投票行動に与える影響を再推定した。結果は、固定効果分布に対して最小限の制約を課す一階差分手法の使用を推奨し、推定量の最適な精度を確保するために集合学習戦略を採用することを提案している。
従来のパネルデータ分析は主に線形モデルの仮定に依存しているが、現実のデータ生成過程はしばしば複雑な非線形特性を持つ。既存の二重機械学習手法は主に横断面データを対象としており、パネルデータへの応用は相対的に限定的であり、特に固定効果を持つ非線形パネルモデルの処理において顕著である。
方法論的必要性 : パネルデータは実証研究で広く使用されており、非線形関係と高次元共変量を処理できる堅牢な手法が必要である因果推論 : 時間不変の混淆因子が存在する場合、因果効果の正確な推定は重要な政策的含意を持つ機械学習の統合 : 機械学習の予測能力と従来の計量経済学の因果推論フレームワークを組み合わせる線形性の仮定 : 従来のパネルデータ手法は線形関係を仮定しており、モデルの誤設定につながる可能性があるスパース性への依存 : 既存のDMLパネル手法(Klosin & Vilgalys, 2023; Semenova et al., 2023など)は高次元スパース関数の仮定に過度に依存しているアルゴリズムの制限 : 主にLASSOなどの特定のアルゴリズムに焦点を当てており、汎用性に欠ける方法論的革新 : 相関ランダム効果(CRE)、群内(WG)、および一階差分(FD)推定量を非線形設定に拡張する3つの新規DML手法を開発した技術的汎用性 : 事前のスパース性仮定に依存せず、複数の機械学習アルゴリズム(LASSO、CART、ランダムフォレスト、勾配ブースティング)をサポートする計算最適化 : ブロックk折交差検証法を採用してパネルデータの系列相関に対処する実証的応用 : 英国の最低賃金政策効果の再分析を提供し、手法の実用性を検証する部分線形パネル回帰(PLPR)モデルにおける同質処理効果パラメータθ₀を推定する:
Y i t = D i t θ 0 + g 1 ( X i t ) + α i ∗ + U i t Y_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it} Y i t = D i t θ 0 + g 1 ( X i t ) + α i ∗ + U i t
ここで:
Y i t Y_{it} Y i t : 結果変数D i t D_{it} D i t : 処理変数(連続または二値)X i t X_{it} X i t : 制御変数ベクトルα i ∗ \alpha_i^* α i ∗ : 個体固定効果g 1 ( ⋅ ) g_1(\cdot) g 1 ( ⋅ ) : 未知の非線形関数Y i t = V i t θ 0 + l 1 ( X i t ) + α i + U i t Y_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it} Y i t = V i t θ 0 + l 1 ( X i t ) + α i + U i t V i t = D i t − m 1 ( X i t ) − γ i V_{it} = D_{it} - m_1(X_{it}) - \gamma_i V i t = D i t − m 1 ( X i t ) − γ i
ここでl 1 l_1 l 1 とm 1 m_1 m 1 は学習すべき撹乱関数である。
相関ランダム効果(CRE)法 :
Y i t = V i t θ 0 + l ~ 1 ( X i t , X ˉ i ) + a i + U i t Y_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it} Y i t = V i t θ 0 + l ~ 1 ( X i t , X ˉ i ) + a i + U i t V i t = D i t − m ~ 1 ( X i t , X ˉ i ) − c i V_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i V i t = D i t − m ~ 1 ( X i t , X ˉ i ) − c i
ここでX ˉ i = T − 1 ∑ t = 1 T X i t \bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} X ˉ i = T − 1 ∑ t = 1 T X i t は個体平均である。
データ変換法 :
一階差分(FD) : Q ( W i t ) = W i t − W i t − 1 Q(W_{it}) = W_{it} - W_{it-1} Q ( W i t ) = W i t − W i t − 1 群内変換(WG) : Q ( W i t ) = W i t − W ˉ i Q(W_{it}) = W_{it} - \bar{W}_i Q ( W i t ) = W i t − W ˉ i 変換後のモデル:
Q ( Y i t ) = Q ( V i t ) θ 0 + Q ( l 1 ( X i t ) ) + Q ( U i t ) Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it}) Q ( Y i t ) = Q ( V i t ) θ 0 + Q ( l 1 ( X i t )) + Q ( U i t )
Neyman直交スコア関数 : パネルデータに適用可能な直交スコア関数を構築した:
ψ ⊥ ( W i ; θ 0 , η 0 ) = V i ⊥ Σ 0 − 1 ( X i ) r i \psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i ψ ⊥ ( W i ; θ 0 , η 0 ) = V i ⊥ Σ 0 − 1 ( X i ) r i ブロックk折交差検証 : 個体の全時系列を同じ折に割り当て、系列相関の問題を回避する撹乱関数学習戦略 :近似法 : Q ( l 1 ( X i t ) ) ≈ l 1 ( Q ( X i t ) ) Q(l_1(X_{it})) \approx l_1(Q(X_{it})) Q ( l 1 ( X i t )) ≈ l 1 ( Q ( X i t )) 正確法 : Δ l 1 ( X i t − 1 , X i t ) = l 1 ( X i t ) − l 1 ( X i t − 1 ) \Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1}) Δ l 1 ( X i t − 1 , X i t ) = l 1 ( X i t ) − l 1 ( X i t − 1 ) を直接学習混合法 : CREと変換法の利点を結合異なる複雑度の3つのデータ生成過程(DGP)を生成:
線形DGP : l 0 ( X i t ) = a X i t , 1 + X i t , 3 l_0(X_{it}) = aX_{it,1} + X_{it,3} l 0 ( X i t ) = a X i t , 1 + X i t , 3 非線形平滑DGP : l 0 ( X i t ) = exp ( X i t , 1 ) 1 + exp ( X i t , 1 ) + a cos ( X i t , 3 ) l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3}) l 0 ( X i t ) = 1 + e x p ( X i t , 1 ) e x p ( X i t , 1 ) + a cos ( X i t , 3 ) 非線形不連続DGP : l 0 ( X i t ) = b ( X i t , 1 ⋅ X i t , 3 ) + a ( X i t , 3 ⋅ 1 [ X i t , 3 > 0 ] ) l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0]) l 0 ( X i t ) = b ( X i t , 1 ⋅ X i t , 3 ) + a ( X i t , 3 ⋅ 1 [ X i t , 3 > 0 ]) 英国家計パネル調査(BHPS)データを使用:
サンプル: 9,922人の就業者、1991-2009年 処理変数: 最低賃金を受け取ったかどうか 結果変数: 保守党に投票したかどうか 制御変数: 72個の基本変数、非線形項を含めると1,476個に拡張 偏差 : Bias ( θ ^ ) = E [ θ ^ ] − θ 0 \text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0 Bias ( θ ^ ) = E [ θ ^ ] − θ 0 二乗平均平方根誤差 : RMSE ( θ ^ ) = E [ ( θ ^ − θ 0 ) 2 ] \text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]} RMSE ( θ ^ ) = E [( θ ^ − θ 0 ) 2 ] 標準誤差比 : SE ( θ ^ ) / SD ( θ ^ ) \text{SE}(\hat{\theta})/\text{SD}(\hat{\theta}) SE ( θ ^ ) / SD ( θ ^ ) モデルRMSE : 撹乱関数の予測精度を測定ベースライン法 : 通常最小二乗法(OLS)DMLアルゴリズム : LASSO、CART、ランダムフォレスト(RF)、勾配ブースティング線形DGP :
OLSが最良の性能を示し、予想通り DML-LASSOの性能はOLSに近い 樹木法は小標本で性能が低い 非線形平滑DGP :
OLSは依然として良好な性能を示す(関数がほとんどの領域で近似線形) DML法の改善は限定的 非線形不連続DGP :
DML-LASSOはOLSを大幅に上回る OLSの偏差は0.993(真値0.50)に達する DML-LASSOの偏差はわずか0.009、RMSEは0.014 手法の比較 :FD(正確)法が最も堅牢で、固定効果分布に対する制約が最小 CRE法は追加のMundlak型仮定を必要とする WG(近似)法は非線形の場合に性能が低い アルゴリズムの性能 :拡張辞書下ではLASSOが最良の性能を示す 樹木法はハイパーパラメータ調整の困難さと非正規標本分布を持つ 集合学習戦略が重要 英国の最低賃金が保守党投票に与える影響:
手法 OLS DML-LASSO DML-CART DML-RF DML-Boosting CRE 0.051*** 0.048** 0.069* 0.180 -0.319 FD 0.022* 0.021 0.026 0.018 0.024 WG 0.051*** 0.046** 0.048** 0.040** 0.048***
結果は以下を示す:
FD法の推定が最も堅牢で、アルゴリズム間の一貫性が最高 CRE法では樹木法の性能が不安定 WG法の結果は両者の中間 アルゴリズム開発 : Athey & Imbens(2016)の因果樹、Wager & Athey(2018)の因果森林DMLフレームワーク : Chernozhukov et al.(2018)の二重機械学習理論基礎パネル応用 : Chang(2020)の差分の差分、Semenova et al.(2023)の動的パネルLASSO応用 : Belloni et al.(2016)の事後クラスタリングLASOスパース性仮定 : Klosin & Vilgalys(2023)およびSemenova et al.(2023)のスパース性依存法固定効果処理 : Wooldridge & Zhu(2020)のCRE拡張手法の推奨 : FD(正確)法の使用を推奨する。固定効果分布に対する制約が最小だからであるアルゴリズム戦略 : 複数のアルゴリズムの利点を結合する集合学習戦略の採用を提案する実用的価値 : 手法は不均衡パネルに適用可能で、拡張性が高い同質性仮定 : 主に同質処理効果に焦点を当てており、異質性の拡張はパラメトリックモデリングが必要樹木法の問題 : 樹木ベース手法はハイパーパラメータ調整の困難さと非正規標本分布を持つ計算複雑性 : 高次元辞書と交差検証が計算負担を増加させる異質性拡張 : 条件付き平均処理効果(CATE)ではなく平均処理効果(ATE)を対象とした手法の開発動的パネル : 動的パネルデータモデルへの拡張欠損データ : パネルデータの非ランダム欠損の処理理論的厳密性 : Neyman直交性理論に基づき、完全な漸近理論基礎を提供する手法の汎用性 : 特定のスパース性仮定に依存せず、複数の機械学習アルゴリズムをサポートする実験の充実 : 包括的なシミュレーション研究と実データ応用を含む計算的革新 : ブロック交差検証はパネルデータ固有の系列相関に効果的に対処する樹木法の限界 : 樹木ベース手法の分析が不十分で、ハイパーパラメータ調整戦略の改善が必要異質性の制限 : 処理効果の異質性への対応は相対的に単純で、より柔軟なフレームワークが必要実証範囲 : 実証応用は単一事例に限定され、より広範な検証が必要学術的貢献 : パネルデータへのDML応用の重要な空白を埋める実用的価値 : 実証研究者に非線形パネルデータを処理するための効果的なツールを提供する再現可能性 : R パッケージ(XTDML)を提供し、手法の普及を促進する政策評価 : 時間不変の混淆を制御する必要がある政策効果評価に適用可能労働経済学 : 教育収益率、賃金効果などの長期追跡研究開発経済学 : 開発介入措置の長期的影響評価医療経済学 : 医療政策と介入の縦断的効果分析Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics. 総合評価 : これは高品質な計量経済学方法論文であり、二重機械学習フレームワークをパネルデータ設定に成功裏に拡張している。論文は理論発展、方法的革新、実証検証のすべての側面で優れた性能を示しており、複雑なパネルデータを処理するための重要なツールを提供している。技術的詳細の改善の余地はあるが、当該分野への貢献は顕著である。