Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic
التعلم المحلي لاختيار المتغيرات المساعدة في تقدير التأثير السببي غير البارامتري مع المتغيرات الكامنة
يعتبر تقدير التأثير السببي من البيانات غير التجريبية مسألة أساسية في العديد من المجالات العلمية. يتمثل المكون الرئيسي لهذه المهمة في اختيار مجموعة مناسبة من المتغيرات المساعدة لإجراء التعديل على الخلط لتجنب الانحياز. تفترض طرق اختيار المتغيرات المساعدة الموجودة عادة عدم وجود متغيرات كامنة، وتعتمد على تعلم البنية الشبكية العالمية بين المتغيرات. ومع ذلك، عندما يكون التركيز الأساسي على تقدير تأثير متغير المعالجة على متغير النتيجة، قد يكون تحديد البنية العالمية غير ضروري وغير فعال. لمعالجة هذا القيد، تقترح هذه الورقة طريقة تعلم محلية جديدة لاختيار المتغيرات المساعدة في تقدير التأثير السببي غير البارامتري في وجود المتغيرات الكامنة. تستفيد الطريقة من العلاقات الاستقلالية والاعتمادية القابلة للاختبار بين المتغيرات المرصودة لتحديد مجموعة التعديل الفعالة للعلاقة السببية المستهدفة، مما يضمن الاكتمال والصحة في ظل الافتراضات المعيارية.
تتمثل المشكلة الأساسية التي يسعى هذا البحث إلى حلها في: كيفية اختيار مجموعة متغيرات مساعدة بكفاءة في وجود متغيرات كامنة لتقدير التأثير السببي المحدد لمتغير المعالجة X على متغير النتيجة Y.
تنطلق هذه الورقة من الرغبة في تطوير طريقة اختيار متغيرات مساعدة تحافظ على مزايا الكفاءة في التعلم المحلي، وتضمن في الوقت ذاته الاكتمال والصحة، خاصة في السيناريوهات المعقدة التي تتضمن متغيرات كامنة.
اقتراح خوارزمية LSAS: تصميم خوارزمية اختيار متغيرات مساعدة محلية بالكامل، تستفيد من العلاقات الاستقلالية والاعتمادية القابلة للاختبار، وتسمح بوجود متغيرات كامنة
الضمانات النظرية: إثبات اكتمال وصحة الخوارزمية المقترحة في ظل الافتراضات المعيارية، مما يمكنها من تحديد مجموعات التعديل الفعالة للعلاقة السببية المستهدفة
تحسين الكفاءة: تقليل التعقيد الحسابي بشكل كبير مقارنة بالطرق العالمية، حيث ينخفض التعقيد الزمني من O(t×2^t) إلى O(|MB(X)|-1)×2^|MB(Y)|-1+n
التحقق التجريبي: التحقق من فعالية الخوارزمية على البيانات الاصطناعية والحقيقية
الخوارزمية 1: البحث المحلي عن مجموعات التعديل (LSAS)
المدخلات: مجموعة بيانات مرصودة D، متغير المعالجة X، متغير النتيجة Y
1: MB(X), MB(Y) ← اكتشاف بطانية ماركوف(X,Y,D)
2: Θ ← ∅ // تهيئة تقدير التأثير السببي
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4: if S و Z يحققان القاعدة R1 then
5: تقدير التأثير السببي لـ X على Y وهو θ، Θ ← θ // سيناريو S1
6: end if
7: if S و Z يحققان القاعدة R2 then
8: return Θ ← 0 // لا يوجد تأثير سببي، سيناريو S2
9: end if
10: end for
المخرجات: التأثير السببي المقدر Θ // إذا كان ∅ فهو سيناريو S3
يُظهر LSAS أداء وقت تشغيل أمثل في معظم الشبكات وأحجام العينات، والاستثناء الوحيد هو شبكة WIN95PTS بحجم عينة كبير (15K) حيث يكون LDP أسرع، لكن دقة LSAS أفضل بشكل كبير.
تستشهد الورقة بالأدبيات المهمة في مجال الاستدلال السببي، بما في ذلك الأعمال الكلاسيكية لـ Pearl، وخوارزمية PC لـ Spirtes وآخرين، والطرق المحلية الحديثة، مما يعكس فهماً شاملاً وعميقاً للأعمال ذات الصلة.