2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic

التعلم المحلي لاختيار المتغيرات المساعدة في تقدير التأثير السببي غير البارامتري مع المتغيرات الكامنة

المعلومات الأساسية

  • معرّف الورقة: 2411.16315
  • العنوان: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
  • المؤلفون: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
  • التصنيف: cs.LG math.ST stat.ML stat.TH
  • المؤتمر: المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية (NeurIPS 2025)
  • رابط الورقة: https://arxiv.org/abs/2411.16315

الملخص

يعتبر تقدير التأثير السببي من البيانات غير التجريبية مسألة أساسية في العديد من المجالات العلمية. يتمثل المكون الرئيسي لهذه المهمة في اختيار مجموعة مناسبة من المتغيرات المساعدة لإجراء التعديل على الخلط لتجنب الانحياز. تفترض طرق اختيار المتغيرات المساعدة الموجودة عادة عدم وجود متغيرات كامنة، وتعتمد على تعلم البنية الشبكية العالمية بين المتغيرات. ومع ذلك، عندما يكون التركيز الأساسي على تقدير تأثير متغير المعالجة على متغير النتيجة، قد يكون تحديد البنية العالمية غير ضروري وغير فعال. لمعالجة هذا القيد، تقترح هذه الورقة طريقة تعلم محلية جديدة لاختيار المتغيرات المساعدة في تقدير التأثير السببي غير البارامتري في وجود المتغيرات الكامنة. تستفيد الطريقة من العلاقات الاستقلالية والاعتمادية القابلة للاختبار بين المتغيرات المرصودة لتحديد مجموعة التعديل الفعالة للعلاقة السببية المستهدفة، مما يضمن الاكتمال والصحة في ظل الافتراضات المعيارية.

الخلفية البحثية والدافع

تعريف المشكلة

تتمثل المشكلة الأساسية التي يسعى هذا البحث إلى حلها في: كيفية اختيار مجموعة متغيرات مساعدة بكفاءة في وجود متغيرات كامنة لتقدير التأثير السببي المحدد لمتغير المعالجة X على متغير النتيجة Y.

أهمية المشكلة

  1. التطبيق الواسع: يعتبر تقدير التأثير السببي حاسماً في علم الأوبئة والعلوم الاجتماعية والاقتصاد والذكاء الاصطناعي
  2. الحاجة العملية: في التطبيقات الفعلية، غالباً ما يكون من الصعب تنفيذ التجارب العشوائية المضبوطة المثالية
  3. التحكم في الانحياز: يؤدي الاختيار غير الصحيح للمتغيرات المساعدة إلى تقديرات متحيزة للتأثير السببي

قيود الطرق الموجودة

  1. تعلم البنية العالمية: تتطلب الطرق الموجودة مثل IDA و LV-IDA تعلم بنية الرسم البياني السببي الكاملة، مما يؤدي إلى تعقيد حسابي عالي
  2. إهمال المتغيرات الكامنة: تفترض العديد من الطرق عدم وجود متغيرات خلط كامنة، وهو غير واقعي في التطبيقات العملية
  3. عدم اكتمال الطرق المحلية: على الرغم من أن طرقاً مثل CEELS تتمتع بكفاءة أعلى، إلا أنها قد تفقد مجموعات تعديل فعالة

الدافع البحثي

تنطلق هذه الورقة من الرغبة في تطوير طريقة اختيار متغيرات مساعدة تحافظ على مزايا الكفاءة في التعلم المحلي، وتضمن في الوقت ذاته الاكتمال والصحة، خاصة في السيناريوهات المعقدة التي تتضمن متغيرات كامنة.

المساهمات الأساسية

  1. اقتراح خوارزمية LSAS: تصميم خوارزمية اختيار متغيرات مساعدة محلية بالكامل، تستفيد من العلاقات الاستقلالية والاعتمادية القابلة للاختبار، وتسمح بوجود متغيرات كامنة
  2. الضمانات النظرية: إثبات اكتمال وصحة الخوارزمية المقترحة في ظل الافتراضات المعيارية، مما يمكنها من تحديد مجموعات التعديل الفعالة للعلاقة السببية المستهدفة
  3. تحسين الكفاءة: تقليل التعقيد الحسابي بشكل كبير مقارنة بالطرق العالمية، حيث ينخفض التعقيد الزمني من O(t×2^t) إلى O(|MB(X)|-1)×2^|MB(Y)|-1+n
  4. التحقق التجريبي: التحقق من فعالية الخوارزمية على البيانات الاصطناعية والحقيقية

شرح الطريقة

تعريف المهمة

المدخلات: مجموعة بيانات مرصودة D، تتضمن متغير المعالجة X ومتغير النتيجة Y ومجموعة المتغيرات المساعدة O المخرجات:

  • السيناريو S1: قيمة تقدير التأثير السببي لـ X على Y وهي θ
  • السيناريو S2: تحديد أن X ليس له تأثير سببي على Y (θ=0)
  • السيناريو S3: عدم القدرة على تحديد ما إذا كان هناك تأثير سببي (θ=∅)

القيود:

  • Y ليست سلفاً سببياً لـ X
  • O مجموعة متغيرات معالجة مسبقة (لا يكون X و Y أسلافاً سببيين لأي متغير في O)

الأساس النظري الأساسي

تعريف AMB

تم تعريف مجموعة التعديل داخل بطانية ماركوف AMB(X,Y):

  • Z ⊆ MB(Y) \ {X}
  • Z ∩ Forb(X,Y) = ∅
  • Z يحجب جميع المسارات غير السببية من X إلى Y

النظريات الرئيسية

النظرية 1 (وجود AMB): توجد مجموعة جزئية من O تعمل كمجموعة تعديل لـ (X,Y) إذا وفقط إذا توجدت مجموعة جزئية من MB(Y){X} تعمل كمجموعة تعديل.

النظرية 2 (القاعدة R1): بالنسبة لـ Z ⊆ MB(Y){X}، إذا كانت هناك S ∈ MB(X){Y} تحقق:

  • S ⊥̸⊥ Y | Z (الشرط i)
  • S ⊥⊥ Y | Z∪{X} (الشرط ii)

فإن Z هي AMB(X,Y)، و X له تأثير سببي على Y.

النظرية 3 (القاعدة R2): إذا كانت هناك Z ⊆ MB(Y){X} و S ∈ MB(X){Y} تحقق أحد الشروط التالية:

  • X ⊥⊥ Y | Z (الشرط i)
  • S ⊥̸⊥ X | Z و S ⊥⊥ Y | Z (الشرط ii)

فإن X ليس له تأثير سببي على Y.

خطوات خوارزمية LSAS

الخوارزمية 1: البحث المحلي عن مجموعات التعديل (LSAS)
المدخلات: مجموعة بيانات مرصودة D، متغير المعالجة X، متغير النتيجة Y
1: MB(X), MB(Y) ← اكتشاف بطانية ماركوف(X,Y,D)
2: Θ ← ∅ // تهيئة تقدير التأثير السببي
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S و Z يحققان القاعدة R1 then
5:     تقدير التأثير السببي لـ X على Y وهو θ، Θ ← θ // سيناريو S1
6:   end if
7:   if S و Z يحققان القاعدة R2 then
8:     return Θ ← 0 // لا يوجد تأثير سببي، سيناريو S2
9:   end if
10: end for
المخرجات: التأثير السببي المقدر Θ // إذا كان ∅ فهو سيناريو S3

نقاط الابتكار التقني

  1. استخدام بطانية ماركوف المحلية: تتطلب فقط معلومات بطانية ماركوف لـ X و Y، مما يتجنب تعلم الرسم البياني العالمي
  2. التعرف المدفوع بالقواعد: التعرف المباشر على العلاقات السببية من اختبارات الاستقلالية الشرطية من خلال القواعد R1 و R2
  3. معالجة المتغيرات الكامنة: معالجة متغيرات الخلط الكامنة في إطار عمل MAG
  4. ضمان الاكتمال: الإثبات النظري لاكتمال الطريقة، وعدم فقدان مجموعات التعديل القابلة للتحديد

إعداد التجارب

مجموعات البيانات

  1. البيانات الاصطناعية:
    • الرسوم البيانية العشوائية: نموذج Erdős-Rényi بـ G(n,d)، عدد العقد 20-50، متوسط الدرجة 3-9
    • البنى المحددة: بنى DAG بناءً على الشكل 3(a) والشكل 4(a)
    • الشبكات المرجعية: INSURANCE (27 عقدة)، MILDEW (35 عقدة)، WIN95PTS (76 عقدة)، ANDES (223 عقدة)
  2. البيانات الحقيقية: مجموعة بيانات Cattaneo2، تتضمن 4642 سجل ولادة أحادية من ولاية بنسلفانيا

مؤشرات التقييم

  • الخطأ النسبي (RE): |(القيمة المقدرة - القيمة الحقيقية)/ القيمة الحقيقية| × 100%
  • عدد الاختبارات (nTest): عدد اختبارات الاستقلالية الشرطية التي تنفذها الخوارزمية

طرق المقارنة

  • LV-IDA: طريقة تعلم الرسم البياني العالمي بناءً على خوارزمية RFCI
  • EHS: طريقة البحث العالمي بافتراض المعالجة المسبقة
  • CEELS: طريقة البحث المحلي بافتراض المعالجة المسبقة
  • LDP: طريقة البحث المحلي التي تخفف افتراض المعالجة المسبقة

تفاصيل التنفيذ

  • حجم العينة: 1K، 5K، 10K، 15K
  • نموذج سببي خطي غاوسي، أوزان الحافة مأخوذة من Uniform0.5,1.5
  • مستوى الدلالة لاختبار الاستقلالية الشرطية: 0.01
  • الحد الأقصى لحجم مجموعة الشروط: 3-7 (حسب تعقيد الشبكة)

نتائج التجارب

النتائج الرئيسية

تجارب البنية المحددة

على بنى MAG المقابلة للشكل 3(b) والشكل 4(b):

  • الخطأ النسبي: يتفوق LSAS بشكل كبير على الطرق الأخرى في جميع أحجام العينات
  • كفاءة الاختبار: يكون nTest لـ LSAS أقل بكثير من LV-IDA و EHS
  • مزايا الاكتمال: لا تستطيع CEELS و LDP، بسبب عدم اكتمالها، العثور على مجموعات تعديل فعالة في بعض البنى

تجارب الشبكات المرجعية

على شبكات MILDEW و WIN95PTS:

  • يحقق LSAS أداءً أمثل في جميع مؤشرات التقييم وأحجام العينات تقريباً
  • حتى عند انتهاك افتراض المعالجة المسبقة، يظل LSAS متفوقاً على الطرق الأخرى
  • لا تستطيع EHS إكمال التشغيل على الشبكات الكبيرة بسبب وقت التشغيل الطويل

التحقق من البيانات الحقيقية

في دراسة تأثير التدخين أثناء الحمل على وزن الولادة على مجموعة بيانات Cattaneo2:

  • تقع تقديرات التأثير لـ LSAS و EHS ضمن النطاق المرجعي -250g, -200g
  • يتطلب LSAS فقط 158 اختبار استقلالية شرطية، بينما يتطلب CEELS 1284 و LDP 266
  • يتحقق من فعالية الطريقة في التطبيقات العملية

تجارب الاستئصال

تتحقق الورقة من قوة الطريقة من خلال تجارب بكثافات شبكة مختلفة:

  • مع زيادة كثافة الرسم البياني، تنخفض أداء جميع الطرق، لكن LSAS يحافظ على ميزة واضحة
  • في شبكة G(40,9)، على الرغم من أن nTest لـ LDP أقل، إلا أن RE لـ LSAS أفضل بشكل كبير

تحليل وقت التشغيل

يُظهر LSAS أداء وقت تشغيل أمثل في معظم الشبكات وأحجام العينات، والاستثناء الوحيد هو شبكة WIN95PTS بحجم عينة كبير (15K) حيث يكون LDP أسرع، لكن دقة LSAS أفضل بشكل كبير.

الأعمال ذات الصلة

طرق الرسم البياني السببي المعروف

  • معايير التعديل الكلاسيكية: معيار الباب الخلفي، معيار الباب الخلفي المعمم
  • مجموعات التعديل الأمثل: البحث عن مجموعات التعديل ذات التباين المقارب الأصغر

طرق الرسم البياني السببي غير المعروف

  • التعلم العالمي: سلسلة طرق IDA، تتطلب تعلم CPDAG/PAG الكامل
  • التعلم المحلي: طرق CovSel و EHS وغيرها، لكن معظمها يفترض عدم وجود متغيرات كامنة
  • معالجة المتغيرات الكامنة: طرق LV-IDA و CE-SAT وغيرها، لكن التعقيد الحسابي مرتفع

مزايا هذه الورقة

مقارنة بالأعمال الموجودة، تحقق طريقة هذه الورقة توحيداً بين كفاءة التعلم المحلي واكتمال الطرق العالمية، خاصة في معالجة المتغيرات الكامنة.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. اقتراح أول خوارزمية لاختيار متغيرات مساعدة تحافظ على المحلية وتضمن الاكتمال في وجود المتغيرات الكامنة
  2. إثبات نظري لصحة واكتمال الطريقة
  3. التحقق التجريبي من المزايا الكبيرة للطريقة من حيث الكفاءة والدقة

القيود

  1. افتراض المعالجة المسبقة: لا تزال تعتمد على افتراض المعالجة المسبقة، على الرغم من أداء جيدة في بعض حالات الانتهاك
  2. تحديد الأحفاد: لا يمكن تحديد أحفاد متغير المعالجة محلياً دون استعادة الرسم البياني الكامل
  3. اختبار الاستقلالية الشرطية: تعتمد على اختبارات استقلالية شرطية دقيقة، قد تكون هناك أخطاء في العينات المحدودة

الاتجاهات المستقبلية

  1. تخفيف الافتراضات: تطوير طرق لا تعتمد على افتراض المعالجة المسبقة
  2. دمج المعرفة الخلفية: الاستفادة من المعرفة المجالية لمساعدة التعرف السببي
  3. بيانات البيئات المتعددة: الاستفادة من بيانات البيئات المتعددة لتحسين القدرة على التعرف السببي
  4. تحديد الأحفاد: دراسة طرق التعرف المحلي على أحفاد متغير المعالجة

التقييم المتعمق

المزايا

  1. المساهمة النظرية: توفير إطار عمل نظري شامل، إثبات جدوى الطرق المحلية
  2. القيمة العملية: تقليل كبير في التعقيد الحسابي، مما يجعل التطبيقات واسعة النطاق ممكنة
  3. التجارب الشاملة: التحقق الشامل على أنواع بيانات متعددة
  4. الكتابة الواضحة: هيكل الورقة واضح، الشرح النظري صارم

أوجه القصور

  1. قيود الافتراضات: قد لا يكون افتراض المعالجة المسبقة مستوفى في بعض سيناريوهات التطبيق
  2. الاعتماد على الاختبار: تعتمد أداء الطريقة بدرجة كبيرة على دقة اختبار الاستقلالية الشرطية
  3. قابلية التوسع: لا تزال قابلية التوسع للشبكات الكبيرة جداً بحاجة إلى التحقق

التأثير

  1. القيمة الأكاديمية: توفير إطار عمل نظري وطريقة جديدة لمجال الاستدلال السببي
  2. الأهمية العملية: توفير حل فعال لاختيار المتغيرات المساعدة في تطبيقات تقدير التأثير السببي
  3. قابلية إعادة الإنتاج: الكود مفتوح المصدر، إعدادات التجارب مفصلة، قابلية جيدة للإعادة

السيناريوهات المناسبة

تناسب هذه الطريقة بشكل خاص السيناريوهات التالية:

  • تقدير التأثير السببي للبيانات المرصودة واسعة النطاق
  • الأنظمة المعقدة ذات المتغيرات الخلط الكامنة
  • التطبيقات في الوقت الفعلي التي تتطلب كفاءة حسابية
  • تصاميم البحث حيث يكون جمع المتغيرات المعالجة مسبقاً نسبياً كاملاً

المراجع

تستشهد الورقة بالأدبيات المهمة في مجال الاستدلال السببي، بما في ذلك الأعمال الكلاسيكية لـ Pearl، وخوارزمية PC لـ Spirtes وآخرين، والطرق المحلية الحديثة، مما يعكس فهماً شاملاً وعميقاً للأعمال ذات الصلة.