2025-11-18T15:28:13.400087

Local Causal Discovery for Statistically Efficient Causal Inference

Schubert, Claassen, Magliacane

Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.

academic

الاكتشاف السببي المحلي للاستدلال السببي الفعال إحصائياً

المعلومات الأساسية

معرّف الورقة: 2510.14582
العنوان: Local Causal Discovery for Statistically Efficient Causal Inference
المؤلفون: Mátyás Schubert (جامعة أمستردام)، Tom Claassen (جامعة رادبود نيميغن)، Sara Magliacane (جامعة أمستردام)
التصنيف: stat.ML cs.AI cs.LG
تاريخ النشر: 16 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.14582v1

الملخص

تستطيع طرق الاكتشاف السببي تحديد مجموعات التعديل الفعالة لتقدير التأثير السببي بين زوج من المتغيرات المستهدفة، حتى عندما تكون الرسم البياني السببي الأساسي غير معروف. تركز طرق الاكتشاف السببي العام على تعلم الرسم البياني السببي الكامل، وبالتالي يمكنها استرجاع مجموعات التعديل المثلى (أي تلك التي تتمتع بأقل تباين مقارب)، لكنها تصبح حسابياً غير قابلة للتطبيق بسرعة مع نمو عدد المتغيرات. توفر طرق الاكتشاف السببي المحلي بديلاً أكثر قابلية للتوسع من خلال التركيز على الحي المحلي للمتغيرات المستهدفة، لكنها تقتصر على مجموعات تعديل دون المستوى الأمثل إحصائياً. في هذا العمل، يقترح المؤلفون اكتشاف التعديل الأمثل المحلي (LOAD)، وهي طريقة اكتشاف سببي موثوقة وكاملة تجمع بين الكفاءة الحسابية للطرق المحلية والأمثلية الإحصائية للطرق العامة.

الخلفية البحثية والدافع

تعريف المشكلة

في الاستدلال السببي، يعتبر تقدير التأثير السببي بين متغيرين مهمة أساسية. عندما يكون الرسم البياني السببي الأساسي غير معروف، يلزم استخدام طرق الاكتشاف السببي لتحديد مجموعات التعديل الفعالة لتقدير التأثير السببي. تواجه الطرق الموجودة مقايضة أساسية:

معضلة الطرق العامة: طرق الاكتشاف السببي العام (مثل خوارزمية PC) قادرة على تعلم الرسم البياني السببي الكامل واسترجاع مجموعات التعديل المثلى، لكن التعقيد الحسابي ينمو بشكل أسي مع عدد المتغيرات، مما يجعلها غير قابلة للتطبيق في المشاكل الكبيرة.
قيود الطرق المحلية: طرق الاكتشاف السببي المحلية (مثل MB-by-MB و LDECC) تتمتع بكفاءة حسابية عالية، لكنها تستطيع فقط استرجاع مجموعات تعديل دون المستوى الأمثل، مما يؤدي إلى تباين مقارب أعلى في تقدير التأثير السببي.

الدافع البحثي

اكتشف المؤلفون أن الطرق المحلية الموجودة تعاني من المشاكل التالية:

خوارزمية LocalPC غير موثوقة بما يكفي في تحديد المتغيرات المجاورة، وقد تحدد بشكل خاطئ الأزواج غير المجاورة كمجاورة
خوارزمية LDECC غير كاملة، وقد تفشل في توجيه جميع الحواف القابلة للتوجيه في بعض الحالات
خوارزمية LDP قد تبلغ بشكل خاطئ عن عدم قابلية التأثير للتحديد في بعض الحالات التي يكون فيها التأثير قابلاً للتحديد وصفره

لذلك، هناك حاجة إلى طريقة جديدة تحافظ على الكفاءة الحسابية للطرق المحلية وتحقق الأمثلية الإحصائية للطرق العامة.

المساهمات الأساسية

تطوير طريقة لتحديد قابلية تحديد التأثير السببي بناءً على المعلومات المحلية: اقتراح شروط ضرورية وكافية لتحديد ما إذا كان التأثير السببي قابلاً للتحديد باستخدام المعلومات المحلية فقط.
اقتراح خوارزمية LOAD: طريقة موثوقة وكاملة لتحديد مجموعات التعديل المثلى باستخدام المعلومات المحلية حول المتغيرات فقط.
تقييم تجريبي شامل: تقييم LOAD على البيانات الاصطناعية والحقيقية، مما يثبت أنها تستطيع استرجاع مجموعات تعديل عالية الجودة بتكلفة حسابية منخفضة.
ضمانات نظرية: إثبات الموثوقية والاكتمال لخوارزمية LOAD في تحديد قابلية تحديد التأثير السببي والعثور على مجموعات التعديل المثلى.

شرح الطريقة

تعريف المهمة

بالنظر إلى زوج من المتغيرات المستهدفة X و Y، الهدف هو:

تحديد العلاقة السببية بين X و Y (سلف صريح، سلف محتمل، أو سلف محدد غير موجود)
الحكم على ما إذا كان التأثير السببي قابلاً للتحديد
إذا كان قابلاً للتحديد، العثور على مجموعة التعديل المثلى؛ وإلا، إرجاع مجموعة تعديل الوالد الصحيحة محلياً

بنية خوارزمية LOAD

تنقسم خوارزمية LOAD إلى 5 خطوات رئيسية:

الخطوة 1: تحديد العلاقة السببية بين المتغيرات المستهدفة

استخدام خوارزمية LocalRelate (الخوارزمية 1)، من خلال النظريات التالية:

علاقة السلف الصريح (النظرية 4.1): لأي عقدتين مختلفتين X و Y في CPDAG G، X ∈ ExplAn_G(Y) إذا وفقط إذا كان X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
علاقة السلف المحدد غير الموجود (النظرية 4.2): X هو سلف محدد غير موجود لـ Y إذا وفقط إذا كان X ⊥⊥ Y | Pa_G(X)

الخطوة 2: اختبار قابلية تحديد التأثير السببي

اقتراح اختبار تكيفي بناءً على المعلومات المحلية:

اللمة 4.3: لأي X ∈ PossAn_G(Y) في CPDAG G، يكون G متكيفاً بالنسبة إلى (X,Y) إذا وفقط إذا:

∀V ∈ Sib_G(X) : V ⊥⊥ Y | Pa_G(V) ∪ {X}

يمكن الكشف عن هذا الشرط بكفاءة من خلال خوارزمية LocalAmenTest (الخوارزمية 2).

الخطوات 3-5: بناء مجموعة التعديل المثلى

إذا كان التأثير السببي قابلاً للتحديد، تقوم LOAD ببناء مجموعة التعديل المثلى من خلال الخطوات التالية:

العثور على الأحفاد الصريحين: تحديد جميع الأحفاد الصريحين لـ T
تحديد عقد الوساطة: العثور على العقد التي تكون في نفس الوقت أحفاد صريحة لـ T وأسلاف صريحة لـ O

بناء مجموعة التعديل المثلى:

Oset_G(T,O) = Pa_G(Cn_G(T,O)) \ (Cn_G(T,O) ∪ {T})

نقاط الابتكار التقنية

اختبار التكيف المحلي: أول اقتراح لشروط ضرورية وكافية لاختبار التكيف باستخدام المعلومات المحلية فقط، مما يتجنب الحاجة إلى فحص جميع المسارات الموجهة المحتملة.
آلية التخزين المؤقت: خوارزمية MB-by-MB المحسّنة تستخدم التخزين المؤقت لإعادة استخدام الحبال الماركوفية والبنى المحلية المحددة في التشغيلات السابقة، مما يحسن بشكل كبير من الكفاءة الحسابية.
الاكتمال النظري: إثبات أن LOAD موثوقة وكاملة في تحديد العلاقات السببية وقابلية التحديد ومجموعات التعديل المثلى.

إعداد التجارب

مجموعات البيانات

البيانات الاصطناعية:
- استخدام رسوم بيانية عشوائية من نوع Erdős–Rényi
- عدد المتغيرات: 100-1000
- الدرجة المتوقعة: d=2، الحد الأقصى للدرجة: dmax=10
- عدد العينات: nD=10000
الشبكات الحقيقية:
- شبكة MAGIC-NIAB: 44 عقدة، متوسط درجة 3
- شبكة ANDES: 223 عقدة، متوسط درجة 3.03

مؤشرات التقييم

الكفاءة الحسابية: عدد اختبارات الاستقلال الشرطي
جودة مجموعة التعديل: درجة F1 لمجموعة التعديل المثلى
جودة تقدير التأثير السببي: مسافة التدخل (intervention distance)

طرق المقارنة

الطرق العامة: PC و MARVEL و SNAP(∞)
الطرق المحلية: MB-by-MB+ و LDECC+ و LDP+ (النسخ الموسعة)

تفاصيل التنفيذ

مستوى الأهمية: α = 0.01
ثلاثة أنواع من اختبارات الاستقلال الشرطي: d-separation الموحي، اختبار Fisher-Z، اختبار G²
تشغيل 100 مرة لكل إعداد، مع حذف أفضل وأسوأ 5 نتائج

نتائج التجارب

النتائج الرئيسية

الكفاءة الحسابية

يكون عدد اختبارات الاستقلال الشرطي في LOAD أقل باستمرار من الطرق العامة، وأعلى قليلاً من الطرق المحلية:

عند 1000 عقدة، تتطلب LOAD 9.43×10³ اختبار، بينما يتطلب PC 542.52×10³
مقارنة بـ 5.64×10³ اختبار لـ MB-by-MB+، فإن التكلفة الإضافية لـ LOAD معقولة

جودة مجموعة التعديل (درجة F1)

إعداد Oracle: تحقق LOAD درجة F1 مثالية = 1.0، مماثلة للطرق العامة
اختبار Fisher-Z: تتفوق LOAD على جميع طرق الأساس في جميع أعداد العقد، بدرجات F1 حوالي 0.91-0.95
اختبار G²: تحقق LOAD أداء ثانوي، لكنها لا تزال الطريقة الثانية الأفضل

مسافة التدخل

تحقق LOAD أقل مسافة تدخل في معظم الإعدادات:

إعداد Oracle: 0.003 (مماثل لـ PC و SNAP)
اختبار Fisher-Z: 0.014-0.026 (الأفضل)
اختبار G²: 0.022-0.036 (الثاني الأفضل، متفوقة فقط على PC)

نتائج البيانات الحقيقية

على شبكة MAGIC-NIAB:

تحقق LOAD أفضل درجة F1 (0.62)
تحقق أقل مسافة تدخل (0.007)
عدد اختبارات الاستقلال الشرطي (4.35×10³) بين الطرق المحلية والعامة

تجارب الاستئصال

العلاقة المعروفة بين العلاج والنتيجة: عند توفير المعرفة الخلفية، تتفوق LOAD* على PC في البيانات الثنائية
أزواج الأهداف القابلة للتحديد: في الإعدادات التي تضمن قابلية تحديد التأثير السببي، تبقى أنماط النتائج متسقة
حساسية المعاملات: تظهر LOAD قوة في مواجهة أعداد عينات مختلفة ودرجات متوقعة

الأعمال ذات الصلة

طرق الاكتشاف السببي العام

خوارزمية PC: طريقة كلاسيكية قائمة على القيود، لكن بتعقيد حسابي عالي
MARVEL: طريقة تكرارية، لا تزال يصعب توسيع نطاقها إلى مئات المتغيرات
SNAP: تحديد تدريجي وإزالة الأسلاف المحددين غير الموجودين، لكن لا تزال تتطلب اكتشاف سببي على جميع الأسلاف المحتملين

طرق الاكتشاف السببي المحلي

MB-by-MB: اكتشاف متسلسل للحبال الماركوفية، لكن محدود بمجموعات تعديل دون المستوى الأمثل
LDECC: فحص collider فعال، لكن يعاني من مشاكل الموثوقية والاكتمال
LDP: تعلم مجموعات التعديل من خلال التقسيم، لكن قد تكون دون المستوى الأمثل وتحتوي على افتراضات محدودة

مزايا هذه الورقة

LOAD هي أول طريقة تحقق الأهداف التالية في نفس الوقت:

استخدام المعلومات المحلية فقط
استرجاع مجموعات التعديل المثلى
توفير ضمانات نظرية (الموثوقية والاكتمال)

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تجمع LOAD بنجاح بين الكفاءة الحسابية للطرق المحلية والأمثلية الإحصائية للطرق العامة
يوفر اختبار التكيف المحلي المقترح طريقة فعالة للحكم على قابلية تحديد التأثير السببي
على أنواع بيانات وهياكل شبكة متنوعة، تظهر LOAD أداء متفوقة

القيود

افتراض الكفاية السببية: تفترض النسخة الحالية عدم وجود عوامل خلط كامنة أو انحياز الاختيار
الاختناق الحسابي في الشبكات الكبيرة: في الرسوم البيانية الكبيرة جداً، قد يصبح البحث عن الحبال الماركوفية اختناقاً حسابياً
أداء البيانات الثنائية: الأداء محدودة عند استخدام اختبار G² على البيانات الثنائية

الاتجاهات المستقبلية

التوسع إلى إعدادات السببية غير الكافية: التعامل مع حالات وجود عوامل خلط كامنة
تحسين اكتشاف الحبال الماركوفية: تحسين إضافي للكفاءة الحسابية في الشبكات الكبيرة
تحسين الأداء في العينات المحدودة: خاصة الأداء على البيانات الثنائية

التقييم المتعمق

المزايا

مساهمة نظرية كبيرة: أول اقتراح لاختبار التكيف بناءً على المعلومات المحلية فقط، ذو قيمة نظرية مهمة
قوة عملية: تحقيق الأمثلية الإحصائية مع الحفاظ على الكفاءة الحسابية، حل المشكلة الرئيسية في التطبيقات العملية
تجارب شاملة: تغطي أنواع بيانات وأحجام شبكات ومؤشرات تقييم متعددة، النتائج مقنعة
اكتمال الخوارزمية: توفير ضمانات نظرية للموثوقية والاكتمال، تصميم الخوارزمية صارم

أوجه القصور

قيود الافتراضات: قد لا يتم استيفاء افتراض الكفاية السببية في التطبيقات العملية
مشاكل القابلية للتوسع: على الرغم من أنها أفضل من الطرق العامة، لا تزال هناك تحديات حسابية في الشبكات الكبيرة جداً
أداء العينات المحدودة: الأداء غير مستقرة بما يكفي في بعض إعدادات العينات المحدودة

التأثير

القيمة الأكاديمية: توفير إطار نظري جديد وأفكار تصميم خوارزمية لمجال الاكتشاف السببي
القيمة العملية: ذات أهمية كبيرة في التطبيقات العملية التي تتطلب تقدير التأثير السببي
قابلية إعادة الإنتاج: توفير وصف خوارزمي مفصل وإعدادات تجريبية، مما يسهل إعادة الإنتاج والتوسع

السيناريوهات المناسبة

الاستدلال السببي بالحجم المتوسط: مهام تقدير التأثير السببي مع متغيرات تتراوح من مئات إلى آلاف
الموارد الحسابية المحدودة: سيناريوهات تتطلب موازنة بين الكفاءة الحسابية والأداء الإحصائي
بيئات السببية الكافية: الدراسات الرصدية بدون عوامل خلط مهمة كامنة

المراجع

تستشهد الورقة بالأدبيات المهمة في مجال الاستدلال السببي، بما في ذلك:

Pearl (2009): Causality - الكتاب المدرسي الكلاسيكي للاستدلال السببي
Spirtes et al. (2000): العمل الأساسي للاكتشاف السببي القائم على القيود
Henckel et al. (2022): المعايير الرسومية لمجموعات التعديل المثلى
Perković et al. (2015): تعريف وخصائص التكيف

التقييم الشامل: هذه ورقة عالية الجودة في مجال الاستدلال السببي، بمساهمات مهمة على المستويات النظرية والعملية. تحل خوارزمية LOAD بذكاء مشكلة المقايضة بين الكفاءة الحسابية والأمثلية الإحصائية في الاكتشاف السببي، وتتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة.