2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

التعلم الآلي المزدوج لنماذج اللوحات الثابتة مع التأثيرات الثابتة

المعلومات الأساسية

  • معرّف الورقة: 2312.08174
  • العنوان: Double Machine Learning for Static Panel Models with Fixed Effects
  • المؤلفون: Paul S. Clarke (جامعة Essex)، Annalivia Polselli (جامعة Essex)
  • التصنيف: econ.EM cs.LG stat.ML
  • وقت النشر/المؤتمر: مجلة الاقتصاد القياسي (قُبلت في ديسمبر 2024)
  • رابط الورقة: https://arxiv.org/abs/2312.08174

الملخص

تطور هذه الورقة إجراءات جديدة للتعلم الآلي المزدوج (DML) لتحليل بيانات اللوحات، مستفيدة من خوارزميات التعلم الآلي لتقريب دوال التشويش عالية الأبعاد وغير الخطية للمتغيرات المشروطة. تمتد الإجراءات الجديدة إلى نماذج اللوحات غير الخطية من مقدرات التأثيرات العشوائية المترابطة الشهيرة والمقدرات داخل المجموعة والفروقات من الدرجة الأولى من نماذج اللوحات الخطية، خاصة نموذج الانحدار شبه الخطي مع التأثيرات الثابتة والخلط غير المحدد من Robinson (1988). تقيّم دراسات المحاكاة أداء هذه الإجراءات باستخدام خوارزميات تعلم آلي مختلفة. يعيد المؤلفون تقدير تأثير الحد الأدنى للأجور في المملكة المتحدة على السلوك الانتخابي. تشير النتائج إلى استخدام طريقة الفروقات من الدرجة الأولى، لأنها تفرض أقل قيود على توزيع التأثيرات الثابتة، وتعتمد استراتيجيات التعلم المجمع لضمان الدقة المثلى للمقدر.

السياق البحثي والدافع

تعريف المشكلة

يعتمد تحليل بيانات اللوحات التقليدي بشكل أساسي على افتراضات النماذج الخطية، لكن عمليات توليد البيانات الفعلية غالباً ما تتميز بخصائص غير خطية معقدة. تركز طرق التعلم الآلي المزدوج الموجودة بشكل أساسي على البيانات المقطعية، وتطبيقاتها على بيانات اللوحات محدودة نسبياً، خاصة في التعامل مع النماذج غير الخطية للوحات مع التأثيرات الثابتة.

أهمية البحث

  1. الحاجة المنهجية: تُستخدم بيانات اللوحات على نطاق واسع في البحث التطبيقي، مما يتطلب طرقاً قوية قادرة على التعامل مع العلاقات غير الخطية والمتغيرات المشروطة عالية الأبعاد
  2. الاستدلال السببي: في وجود عوامل خلط ثابتة عبر الزمن، يكون تقدير التأثيرات السببية بدقة ذا أهمية سياسية كبيرة
  3. دمج التعلم الآلي: دمج القدرات التنبؤية للتعلم الآلي مع إطار الاستدلال السببي التقليدي في الاقتصاد القياسي

قيود الطرق الموجودة

  1. الافتراضات الخطية: تفترض طرق بيانات اللوحات التقليدية علاقات خطية، مما قد يؤدي إلى تحديد خاطئ للنموذج
  2. الاعتماد على الندرة: تعتمد طرق DML الموجودة للوحات (مثل Klosin & Vilgalys, 2023؛ Semenova et al., 2023) بشكل مفرط على افتراضات الدوال عالية الأبعاد والنادرة
  3. قيود الخوارزمية: تركز بشكل أساسي على خوارزميات محددة مثل LASSO، مما يفتقر إلى العمومية

المساهمات الأساسية

  1. الابتكار المنهجي: تطوير ثلاث إجراءات DML جديدة تمتد مقدرات التأثيرات العشوائية المترابطة (CRE) والمقدرات داخل المجموعة (WG) والفروقات من الدرجة الأولى (FD) إلى الإعدادات غير الخطية
  2. عمومية تقنية: لا تعتمد على افتراضات الندرة المسبقة، وتدعم خوارزميات تعلم آلي متعددة (LASSO، CART، الغابات العشوائية، تعزيز التدرج)
  3. التحسين الحسابي: استخدام طريقة الطي المتقاطع على مستوى الكتل للتعامل مع الارتباط التسلسلي في بيانات اللوحات
  4. التطبيق التجريبي: إعادة تحليل تأثيرات سياسة الحد الأدنى للأجور في المملكة المتحدة، مما يتحقق من فائدة الطريقة

شرح الطريقة

تعريف المهمة

تقدير معامل التأثير العلاجي المتجانس θ₀ في نموذج الانحدار شبه الخطي للوحات (PLPR):

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

حيث:

  • YitY_{it}: متغير النتيجة
  • DitD_{it}: متغير العلاج (مستمر أو ثنائي)
  • XitX_{it}: متجه المتغيرات المراقبة
  • αi\alpha_i^*: التأثير الثابت الفردي
  • g1()g_1(\cdot): دالة غير خطية مجهولة

معمارية النموذج

1. نموذج PLPR للمخرجات الجزئية (PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

حيث l1l_1 و m1m_1 هما دوال التشويش التي يجب تعلمها.

2. ثلاث طرق لمعالجة التأثيرات الثابتة

طريقة التأثيرات العشوائية المترابطة (CRE): Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

حيث Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} هو المتوسط الفردي.

طرق تحويل البيانات:

  • الفروقات من الدرجة الأولى (FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • التحويل داخل المجموعة (WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

النموذج المحول: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

نقاط الابتكار التقني

  1. دالة النقاط المتعامدة لـ Neyman: بناء دالة نقاط متعامدة مناسبة لبيانات اللوحات: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. الطي المتقاطع على مستوى الكتل: تخصيص سلسلة زمنية فردية كاملة لطية واحدة، مما يتجنب مشاكل الارتباط التسلسلي
  3. استراتيجية تعلم دوال التشويش:
    • الطريقة التقريبية: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • الطريقة الدقيقة: تعلم مباشر لـ Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • الطريقة المختلطة: دمج مزايا طرق CRE والتحويل

إعداد التجارب

تصميم بيانات المحاكاة

توليد ثلاث عمليات توليد بيانات (DGP) بدرجات تعقيد مختلفة:

  1. DGP خطي: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. DGP غير خطي سلس: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. DGP غير خطي غير متصل: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

البيانات التجريبية

استخدام بيانات المسح الأسري البريطاني (BHPS):

  • العينة: 9,922 فرد عامل، 1991-2009
  • متغير العلاج: الحصول على الحد الأدنى للأجور
  • متغير النتيجة: التصويت للحزب المحافظ
  • المتغيرات المراقبة: 72 متغير أساسي، يصل إلى 1,476 متغير بعد إضافة الحدود غير الخطية

مؤشرات التقييم

  • الانحياز: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • جذر متوسط الخطأ التربيعي: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • نسبة الخطأ المعياري: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • RMSE للنموذج: قياس دقة التنبؤ لدوال التشويش

الطرق المقارنة

  • الطريقة الأساسية: المربعات الصغرى العادية (OLS)
  • خوارزميات DML: LASSO، CART، الغابات العشوائية (RF)، تعزيز التدرج

نتائج التجارب

نتائج المحاكاة

DGP الخطي:

  • يظهر OLS أفضل أداء، كما هو متوقع
  • أداء DML-LASSO قريبة من OLS
  • تظهر طرق الأشجار أداء أضعف في العينات الصغيرة

DGP غير الخطي السلس:

  • لا يزال OLS يظهر أداء جيدة (الدالة تقريبية خطية في معظم المناطق)
  • تحسن محدود من طرق DML

DGP غير الخطي غير المتصل:

  • يتفوق DML-LASSO بشكل كبير على OLS
  • انحياز OLS يصل إلى 0.993 (القيمة الحقيقية 0.50)
  • انحياز DML-LASSO فقط 0.009، RMSE 0.014

النتائج الرئيسية

  1. مقارنة الطرق:
    • طريقة FD (الدقيقة) الأكثر قوة، مع أقل قيود على توزيع التأثيرات الثابتة
    • تتطلب طريقة CRE افتراضات إضافية من نوع Mundlak
    • تظهر طريقة WG (التقريبية) أداء أضعف في الحالات غير الخطية
  2. أداء الخوارزمية:
    • يظهر LASSO أفضل أداء مع القاموس الموسع
    • تواجه طرق الأشجار صعوبات في ضبط المعاملات الفائقة، مع توزيع عينات غير طبيعي
    • استراتيجيات التعلم المجمع حاسمة

نتائج التطبيق التجريبي

تأثير الحد الأدنى للأجور في المملكة المتحدة على التصويت للحزب المحافظ:

الطريقةOLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0.051***0.048**0.069*0.180-0.319
FD0.022*0.0210.0260.0180.024
WG0.051***0.046**0.048**0.040**0.048***

تشير النتائج إلى:

  • طريقة FD الأكثر قوة في التقدير، مع أعلى اتساق بين الخوارزميات المختلفة
  • عدم استقرار طرق الأشجار في طريقة CRE
  • نتائج طريقة WG بين الطريقتين الأخريين

الأعمال ذات الصلة

الاستدلال السببي للتعلم الآلي

  1. تطوير الخوارزميات: أشجار السببية لـ Athey & Imbens (2016)، غابات السببية لـ Wager & Athey (2018)
  2. إطار DML: الأساس النظري للتعلم الآلي المزدوج لـ Chernozhukov et al. (2018)
  3. تطبيقات اللوحات: الفروقات في الفروقات لـ Chang (2020)، اللوحات الديناميكية لـ Semenova et al. (2023)

طرق اللوحات عالية الأبعاد

  1. تطبيقات LASSO: LASSO بعد التجميع لـ Belloni et al. (2016)
  2. افتراضات الندرة: طرق الاعتماد على الندرة لـ Klosin & Vilgalys (2023) و Semenova et al. (2023)
  3. معالجة التأثيرات الثابتة: توسيع CRE لـ Wooldridge & Zhu (2020)

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. توصية الطريقة: يُوصى باستخدام طريقة FD (الدقيقة)، لأنها تفرض أقل قيود على توزيع التأثيرات الثابتة
  2. استراتيجية الخوارزمية: يُنصح باستخدام استراتيجيات التعلم المجمع، مما يجمع مزايا خوارزميات متعددة
  3. القيمة العملية: الطريقة قابلة للتطبيق على اللوحات غير المتوازنة، مع قابلية توسع قوية

القيود

  1. افتراض التجانس: التركيز الأساسي على التأثيرات العلاجية المتجانسة، يتطلب توسيع الخصائص المتغايرة نمذجة معاملية
  2. مشاكل طرق الأشجار: تواجه طرق الأشجار صعوبات في ضبط المعاملات الفائقة وتوزيع عينات غير طبيعي
  3. التعقيد الحسابي: يزيد القاموس عالي الأبعاد والطي المتقاطع من العبء الحسابي

الاتجاهات المستقبلية

  1. توسيع الخصائص المتغايرة: تطوير طرق موجهة نحو متوسط التأثير العلاجي (ATE) وليس متوسط التأثير العلاجي المشروط (CATE)
  2. اللوحات الديناميكية: التوسيع إلى نماذج بيانات اللوحات الديناميكية
  3. البيانات الناقصة: التعامل مع مشاكل النقص غير العشوائي في بيانات اللوحات

التقييم المتعمق

المزايا

  1. الصرامة النظرية: بناءً على نظرية Neyman المتعامدة، توفير أساس نظري تقاربي كامل
  2. عمومية الطريقة: لا تعتمد على افتراضات ندرة محددة، تدعم خوارزميات تعلم آلي متعددة
  3. التجارب الشاملة: تتضمن دراسات محاكاة شاملة وتطبيقات بيانات فعلية
  4. الابتكار الحسابي: يعالج الطي المتقاطع على مستوى الكتل بفعالية الارتباط التسلسلي الخاص ببيانات اللوحات

أوجه القصور

  1. قيود طرق الأشجار: التحليل غير الكافي لطرق الأشجار، استراتيجيات ضبط المعاملات الفائقة تحتاج إلى تحسين
  2. قيود الخصائص المتغايرة: معالجة نسبية بسيطة لخصائص التأثير العلاجي المتغايرة، يتطلب إطار عمل أكثر مرونة
  3. نطاق تجريبي: التطبيق التجريبي محدود بحالة واحدة فقط، يفتقر إلى التحقق الأوسع

التأثير

  1. المساهمة الأكاديمية: ملء فجوة مهمة في تطبيق DML على بيانات اللوحات
  2. القيمة العملية: توفير أداة فعالة للباحثين التطبيقيين للتعامل مع بيانات اللوحات غير الخطية
  3. إمكانية التكرار: توفير حزمة R (XTDML)، مما يسهل نشر الطريقة

السيناريوهات المناسبة

  1. تقييم السياسات: مناسبة لتقييم تأثيرات السياسات التي تتطلب التحكم في عوامل الخلط الثابتة عبر الزمن
  2. اقتصاديات العمل: دراسات العائد على التعليم وتأثيرات الأجور والدراسات الطويلة الأجل
  3. اقتصاديات التنمية: تقييم التأثيرات طويلة الأجل لتدخلات التنمية
  4. اقتصاديات الصحة: تحليل التأثيرات الطولية لسياسات الرعاية الصحية والتدخلات

المراجع

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

التقييم الإجمالي: هذه ورقة عالية الجودة في منهجية الاقتصاد القياسي، تنجح في توسيع إطار التعلم الآلي المزدوج إلى إعدادات بيانات اللوحات. تظهر الورقة أداءً ممتازاً في التطوير النظري والابتكار المنهجي والتحقق التجريبي. على الرغم من وجود مجال للتحسين في بعض التفاصيل التقنية، فإن مساهمتها للمجال كبيرة وذات أهمية.