Double Machine Learning for Static Panel Models with Fixed Effects
Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic
التعلم الآلي المزدوج لنماذج اللوحات الثابتة مع التأثيرات الثابتة
تطور هذه الورقة إجراءات جديدة للتعلم الآلي المزدوج (DML) لتحليل بيانات اللوحات، مستفيدة من خوارزميات التعلم الآلي لتقريب دوال التشويش عالية الأبعاد وغير الخطية للمتغيرات المشروطة. تمتد الإجراءات الجديدة إلى نماذج اللوحات غير الخطية من مقدرات التأثيرات العشوائية المترابطة الشهيرة والمقدرات داخل المجموعة والفروقات من الدرجة الأولى من نماذج اللوحات الخطية، خاصة نموذج الانحدار شبه الخطي مع التأثيرات الثابتة والخلط غير المحدد من Robinson (1988). تقيّم دراسات المحاكاة أداء هذه الإجراءات باستخدام خوارزميات تعلم آلي مختلفة. يعيد المؤلفون تقدير تأثير الحد الأدنى للأجور في المملكة المتحدة على السلوك الانتخابي. تشير النتائج إلى استخدام طريقة الفروقات من الدرجة الأولى، لأنها تفرض أقل قيود على توزيع التأثيرات الثابتة، وتعتمد استراتيجيات التعلم المجمع لضمان الدقة المثلى للمقدر.
يعتمد تحليل بيانات اللوحات التقليدي بشكل أساسي على افتراضات النماذج الخطية، لكن عمليات توليد البيانات الفعلية غالباً ما تتميز بخصائص غير خطية معقدة. تركز طرق التعلم الآلي المزدوج الموجودة بشكل أساسي على البيانات المقطعية، وتطبيقاتها على بيانات اللوحات محدودة نسبياً، خاصة في التعامل مع النماذج غير الخطية للوحات مع التأثيرات الثابتة.
الحاجة المنهجية: تُستخدم بيانات اللوحات على نطاق واسع في البحث التطبيقي، مما يتطلب طرقاً قوية قادرة على التعامل مع العلاقات غير الخطية والمتغيرات المشروطة عالية الأبعاد
الاستدلال السببي: في وجود عوامل خلط ثابتة عبر الزمن، يكون تقدير التأثيرات السببية بدقة ذا أهمية سياسية كبيرة
دمج التعلم الآلي: دمج القدرات التنبؤية للتعلم الآلي مع إطار الاستدلال السببي التقليدي في الاقتصاد القياسي
الافتراضات الخطية: تفترض طرق بيانات اللوحات التقليدية علاقات خطية، مما قد يؤدي إلى تحديد خاطئ للنموذج
الاعتماد على الندرة: تعتمد طرق DML الموجودة للوحات (مثل Klosin & Vilgalys, 2023؛ Semenova et al., 2023) بشكل مفرط على افتراضات الدوال عالية الأبعاد والنادرة
قيود الخوارزمية: تركز بشكل أساسي على خوارزميات محددة مثل LASSO، مما يفتقر إلى العمومية
الابتكار المنهجي: تطوير ثلاث إجراءات DML جديدة تمتد مقدرات التأثيرات العشوائية المترابطة (CRE) والمقدرات داخل المجموعة (WG) والفروقات من الدرجة الأولى (FD) إلى الإعدادات غير الخطية
عمومية تقنية: لا تعتمد على افتراضات الندرة المسبقة، وتدعم خوارزميات تعلم آلي متعددة (LASSO، CART، الغابات العشوائية، تعزيز التدرج)
التحسين الحسابي: استخدام طريقة الطي المتقاطع على مستوى الكتل للتعامل مع الارتباط التسلسلي في بيانات اللوحات
التطبيق التجريبي: إعادة تحليل تأثيرات سياسة الحد الأدنى للأجور في المملكة المتحدة، مما يتحقق من فائدة الطريقة
Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.
التقييم الإجمالي: هذه ورقة عالية الجودة في منهجية الاقتصاد القياسي، تنجح في توسيع إطار التعلم الآلي المزدوج إلى إعدادات بيانات اللوحات. تظهر الورقة أداءً ممتازاً في التطوير النظري والابتكار المنهجي والتحقق التجريبي. على الرغم من وجود مجال للتحسين في بعض التفاصيل التقنية، فإن مساهمتها للمجال كبيرة وذات أهمية.