2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic

التعريف الجزئي للمعاملات على المستوى الفردي باستخدام البيانات الإجمالية في نموذج غير معياري

المعلومات الأساسية

  • معرّف الورقة: 2403.07236
  • العنوان: التعريف الجزئي للمعاملات على المستوى الفردي باستخدام البيانات الإجمالية في نموذج غير معياري
  • المؤلفة: سارة مون (معهد ماساتشوستس للتكنولوجيا)
  • التصنيف: econ.EM stat.ME
  • تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2403.07236

الملخص

تطور هذه الورقة منهجية للتعريف الجزئي بالتوليفات الخطية لنتائج المتوسط الشرطي عندما يتمكن الباحثون من الحصول على بيانات إجمالية فقط. بخلاف الأدبيات الموجودة، يسمح المؤلف فقط بالتوزيع الهامشي للمتغيرات المستقلة وليس التوزيع المشترك في نموذج البيانات الإجمالية. يتم الحصول على الحدود من خلال حل برنامج تحسين ويمكن بسهولة استيعاب قيود إضافية على شكل متعدد الأوجه. تقدم الورقة تطبيقاً تجريبياً للطريقة على بيانات الاختبارات الموحدة في رود آيلاند.

السياق البحثي والدافع

المشكلة الأساسية

يعالج هذا البحث مشكلة الاستدلال البيئي: كيفية استنتاج معاملات المستوى الفردي عندما يتمكن الباحثون من ملاحظة البيانات الإجمالية فقط. بشكل محدد، عندما يكون من الممكن ملاحظة فقط:

  • متوسط النتائج داخل كل مجموعة EYi|Gi = g
  • التوزيع الهامشي لكل متغير مستقل داخل المجموعة PXℓi = xk,ℓ|Gi = g
  • الحجم النسبي للمجموعات PGi = g

كيفية تعريف التوليفات الخطية للمتوسط الشرطي على المستوى الفردي EYi|Xi = xk؟

أهمية المشكلة

  1. قيود توفر البيانات: في الواقع، غالباً ما يكون من الممكن الحصول على التوزيعات الهامشية فقط وليس التوزيعات المشتركة لأسباب تتعلق بحماية الخصوصية
  2. احتياجات صنع السياسات: الحاجة إلى فهم التأثيرات السببية على المستوى الفردي لصياغة سياسات فعالة
  3. المغالطة البيئية: قد تختلف العلاقات على المستوى الإجمالي بشكل كبير عن العلاقات على المستوى الفردي

قيود الطرق الموجودة

تفترض الأدبيات الموجودة (مثل Cross و Manski 2002، Cho و Manski 2008) عادة أنه يمكن ملاحظة التوزيع المشترك للمتغيرات المستقلة، وهذا غالباً ما يكون غير واقعي في الممارسة العملية. التطبيق المباشر للطرق الموجودة ينتج عنه حدود غير محكمة.

المساهمات الأساسية

  1. الابتكار المنهجي: اقتراح طريقة تعريف جزئي تعتمد فقط على التوزيعات الهامشية، وهي أكثر توافقاً مع توفر البيانات الفعلي
  2. الضمانات النظرية: إثبات الحدود المحكمة للحدود المُنشأة (sharpness)
  3. الإطار الحسابي: تحويل مشكلة التعريف إلى مشكلة تحسين ثنائية المستوى، مما يسهل التنفيذ الحسابي
  4. إجراء الاستدلال: توفير طريقة فعالة لبناء فترات الثقة، تتطلب معلومات هامشية فقط
  5. التطبيق التجريبي: عرض عملية الطريقة على بيانات التعليم

شرح الطريقة

تعريف المهمة

المدخلات:

  • متوسط النتائج لكل مجموعة: EYi|Gi = g
  • التوزيع الهامشي للمتغيرات المستقلة لكل مجموعة: PXℓi = xk,ℓ|Gi = g
  • حجم المجموعة: PGi = g

المخرجات:

  • مجموعة التعريف للتوليفات الخطية للمتوسط الشرطي: ∑K k=1 λkEYi|Xi = xk

القيود:

  • Yi ∈ yℓ, yu (دعم محدود)
  • Xi, Gi متغيرات عشوائية منفصلة
  • ملاحظة الهامشي فقط وليس التوزيع المشترك

معمارية النموذج

1. معادلات القيد الأساسية

تعتمد الطريقة على ثلاث معادلات قيد أساسية:

اتساق الهامشي-المشترك:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

تحليل التوقع داخل المجموعة:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

التجميع عبر المجموعات:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. بناء مجموعة التعريف

تعريف مجموعة التعريف لتوزيع المتغيرات المستقلة:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

مجموعة التعريف للمعاملات:

D = {∑K k=1 λkdk | ∃(p,c,d) تحقق القيود}

3. صيغة التحسين ثنائية المستوى

القضية 1: مجموعة التعريف D = L,U، حيث:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

يتم الحصول على الحد الأعلى U من خلال مشكلة supremum المقابلة.

نقاط الابتكار التقني

  1. الحدود المحكمة: مقارنة بالتطبيق المباشر لطريقة Cross-Manski، تنتج هذه الطريقة حدوداً أكثر محكمة
  2. الجدوى الحسابية: المشكلة الداخلية هي برمجة خطية، والمشكلة الخارجية يتم حلها من خلال البحث الشبكي
  3. القابلية للتوسع: يسهل إضافة قيود متعددة الأوجه إضافية
  4. تتطلب معلومات هامشية فقط: لا تتطلب عملية الاستدلال معلومات التوزيع المشترك

إعداد التجارب

مجموعات البيانات

  1. البيانات المحاكاة: ثلاث دراسات محاكاة بإعدادات مختلفة
    • نتائج ثنائية Yi ∈ {0,1}
    • ثلاثة متغيرات مستقلة ثنائية Xi = (X1i, X2i, X3i)
    • خمس مجموعات Gi ∈ {1,...,5}
    • نموذج توليد البيانات: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
  2. البيانات التجريبية: بيانات الاختبارات الموحدة في رود آيلاند (RICAS)
    • طلاب الصفوف 3-8 في ربيع 2019
    • معدلات النجاح في اختبارات اللغة الإنجليزية والرياضيات
    • المتغيرات المستقلة: العرق (whitei)، الحالة الاقتصادية (econi)، حالة متعلم اللغة الإنجليزية (ELLi)
    • 5 مقاطعات كمجموعات

مؤشرات التقييم

  • عرض مجموعة التعريف
  • معدل تغطية فترة الثقة
  • النسبة النسبية لعرض الحد المقدر إلى مجموعة التعريف الحقيقية
  • النسبة النسبية لعرض فترة الثقة إلى مجموعة التعريف

طرق المقارنة

  • طريقة الأساس بدون قيود إضافية
  • التطبيق المباشر لطريقة Cross-Manski (2002)
  • الطريقة مع إضافة قيود الرتابة
  • الطريقة باستخدام بيانات المجموعات الفرعية

تفاصيل التنفيذ

  • بناء فترات ثقة بنسبة 90%
  • تصحيح Bonferroni لمعالجة الاختبارات المتعددة
  • البحث الشبكي متعدد نقاط البداية للتحسين غير المحدب
  • فترة Clopper-Pearson للمتغيرات الثنائية

نتائج التجارب

النتائج الرئيسية

1. نتائج المحاكاة

  • معدل التغطية: معدل تغطية فترة الثقة 90% لجميع المعاملات يساوي 1 (محافظ لكن فعال)
  • التحكم في العرض: متوسط عرض فترة الثقة لا يتجاوز عرض مجموعة التعريف بأكثر من 3%
  • دقة التقدير: متوسط عرض الحد المقدر مطابق بشكل أساسي لعرض مجموعة التعريف

2. العوامل التي تدفع ثراء معلومات الحدود

الاكتشاف الرئيسي: عندما تقترب الاحتمالات الهامشية PXℓi = xk,ℓ|Gi = g من 1، تكون الحدود أكثر ثراءً بالمعلومات. السبب هو أن نطاق القيم الممكنة للاحتمالية المشتركة PXi = xk|Gi = g يكون أصغر في هذه الحالة.

3. مقارنة طريقة Cross-Manski

تنتج طريقة هذه الورقة حدوداً تكون بدقة مضمنة في حدود طريقة Cross-Manski، مما يؤكد مزايا الحدود المحكمة.

نتائج التطبيق التجريبي

1. بيانات الاختبارات في رود آيلاند

الفجوة في معدل النجاح في الرياضيات بين البيض وغير البيض:

  • بدون قيود: حدود واسعة جداً، معلومات قليلة تقريباً
  • قيود الرتابة: تضييق جزئي للحدود لبعض المعاملات
  • بيانات المجموعات الفرعية: تحسين كبير للحدود
  • بيانات المجموعات الفرعية + الرتابة: أضيق حدود، مثل الفجوة للطلاب الذين يعانون من صعوبات اقتصادية لكنهم ليسوا متعلمي لغة إنجليزية تقدر بـ -26%, 52%

نتائج اختبار اللغة الإنجليزية متشابهة، حيث تقدر فجوة معدل النجاح بين البيض وغير البيض للطلاب الذين يعانون من صعوبات اقتصادية وليسوا متعلمي لغة إنجليزية بـ -30%, 64%.

2. تأثير القيود

  • قيود الرتابة: بناءً على افتراضات الترتيب المعقول بناءً على الحالة الاقتصادية والقدرة على اللغة الإنجليزية
  • بيانات المجموعات الفرعية: توفير معلومات إضافية، تضييق كبير للحدود
  • قيود التجانس: افتراض عدم وجود اختلافات بين المقاطعات، النتيجة مجموعة فارغة، مما يشير إلى عدم توافق هذا الافتراض مع البيانات

تجارب الاستبدال

تم التحقق من خلال ثلاث إعدادات محاكاة مختلفة:

  1. تأثير درجة تطرف التوزيع الهامشي على عرض الحدود
  2. تأثير تمثيل البيانات على دقة التعريف للمجموعات الفرعية المحددة
  3. قوة الطريقة في عمليات توليد البيانات المختلفة

الأعمال ذات الصلة

أدبيات الاستدلال البيئي

  • الأعمال الكلاسيكية: Robinson (1950)، Duncan و Davis (1953)، Theil (1954)
  • التطورات الحديثة: Cross و Manski (2002)، Cho و Manski (2008)
  • دمج البيانات: Fan وآخرون (2014، 2016)، Buchinsky وآخرون (2022)

تحديد موضع مساهمة هذه الورقة

  1. نموذج البيانات: أول معالجة منهجية للحالة التي تتوفر فيها التوزيعات الهامشية فقط
  2. المنهجية: توفير إطار حسابي للحدود المحكمة
  3. نظرية الاستدلال: تطوير إجراء استدلال يتطلب معلومات هامشية فقط

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. يمكن إجراء تعريف جزئي ذي مغزى للمعاملات على المستوى الفردي بناءً على التوزيعات الهامشية فقط
  2. يوفر إطار التحسين ثنائي المستوى حلاً قابلاً للتطبيق حسابياً
  3. يمكن للقيود الإضافية على الشكل ومعلومات المجموعات الفرعية أن تحسن بشكل كبير من دقة التعريف
  4. تعرض الطريقة قيمة عملية في بيانات التعليم الفعلية

القيود

  1. التعقيد الحسابي: عندما يكون عدد المتغيرات المستقلة أو المجموعات كبيراً، يكون العبء الحسابي ثقيلاً
  2. المحافظة: يؤدي تصحيح Bonferroni إلى فترات ثقة متحفظة
  3. متطلبات التقسيم: تقتصر الطريقة على المتغيرات المستقلة المنفصلة
  4. عرض الحدود: في بعض الحالات، قد تكون الحدود لا تزال واسعة نسبياً

الاتجاهات المستقبلية

  1. التوسع إلى حالة المتغيرات المستقلة المستمرة
  2. تطوير خوارزميات حسابية أكثر كفاءة
  3. استكشاف طرق استدلال أقل محافظة
  4. النظر في معاملات مرجحة تعتمد على البيانات

التقييم المتعمق

المزايا

  1. الصرامة النظرية: توفير نظرية تعريف كاملة وإثبات الحدود المحكمة
  2. القوة العملية: حل مشكلة مهمة في تحليل البيانات الفعلي
  3. الابتكار المنهجي: أول معالجة منهجية لمشكلة التعريف تحت قيود التوزيع الهامشي
  4. الجدوى الحسابية: توفير خطة خوارزمية محددة للتنفيذ
  5. التحقق التجريبي: التحقق من فعالية الطريقة من خلال البيانات المحاكاة والفعلية

أوجه القصور

  1. كفاءة الحساب: قد تواجه تحديات حسابية للمشاكل الكبيرة
  2. قيود الافتراضات: تتطلب افتراضات الدعم المحدود والانفصالية
  3. محافظة الاستدلال: بناء فترة الثقة محافظ نسبياً
  4. نطاق التطبيق: ينطبق بشكل أساسي على البيانات الإجمالية للمقطع العرضي

التأثير

  1. المساهمة الأكاديمية: توفير توسع نظري مهم لأدبيات الاستدلال البيئي
  2. القيمة العملية: توفير أداة تحليل مفيدة لصانعي السياسات
  3. الأهمية المنهجية: عرض إمكانات طرق التحسين في التعريف الجزئي
  4. قابلية التكرار: توفير وصف خوارزمي مفصل وتفاصيل التنفيذ

السيناريوهات المعمول بها

  1. البحث التعليمي: تحليل الاختلافات في نتائج التعليم بين المجموعات المختلفة
  2. السياسة العامة: تقييم التأثيرات غير المتجانسة للسياسة على مجموعات سكانية مختلفة
  3. الصحة العامة: تحليل الفوارق الصحية بناءً على البيانات الإجمالية
  4. العلوم الاجتماعية: أي سيناريو يتطلب استنتاج السلوك الفردي من البيانات الإجمالية

المراجع

  • Cross, P. J. و C. F. Manski (2002). الانحدارات، القصيرة والطويلة. Econometrica 70(1)، 357–368.
  • Cho, W. K. T. و C. F. Manski (2008). الاستدلال على المستوى المتقاطع/البيئي. دليل أكسفورد للمنهجية السياسية.
  • Robinson, W. S. (1950). الارتباطات البيئية وسلوك الأفراد. المراجعة الاجتماعية الأمريكية 15(3)، 351–357.

تقدم هذه الورقة مساهمة مهمة في مجال الاستدلال البيئي، خاصة في التعامل مع قيود البيانات الفعلية. على الرغم من وجود بعض القيود الحسابية والافتراضية، فإن صرامتها النظرية وقيمتها العملية تجعلها تقدماً مهماً في هذا المجال.