Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic
गैर-पैरामीट्रिक कारणात्मक प्रभाव अनुमान में सहसंबंध चयन के लिए स्थानीय शिक्षण
गैर-प्रायोगिक डेटा से कारणात्मक प्रभाव का अनुमान लगाना कई वैज्ञानिक क्षेत्रों में एक मौलिक समस्या है। इस कार्य का एक महत्वपूर्ण घटक पूर्वाग्रह से बचने के लिए मिश्रण समायोजन के लिए उपयुक्त सहसंबंध का समुच्चय चुनना है। मौजूदा सहसंबंध चयन विधियां आमतौर पर लुप्त चर की अनुपस्थिति मानती हैं और चर के बीच वैश्विक नेटवर्क संरचना सीखने पर निर्भर करती हैं। हालांकि, जब हम मुख्य रूप से उपचार चर पर परिणाम चर के प्रभाव का अनुमान लगाने पर ध्यान केंद्रित करते हैं, तो वैश्विक संरचना की पहचान करना अनावश्यक और अक्षम हो सकता है। इस सीमा को संबोधित करने के लिए, यह पेपर लुप्त चर की उपस्थिति में गैर-पैरामीट्रिक कारणात्मक प्रभाव अनुमान में सहसंबंध चयन के लिए एक नई स्थानीय शिक्षण विधि प्रस्तावित करता है। यह विधि अवलोकन योग्य चर के बीच परीक्षणीय स्वतंत्रता और निर्भरता संबंधों का उपयोग करके लक्ष्य कारणात्मक संबंध के लिए वैध समायोजन समुच्चय की पहचान करती है, मानक मान्यताओं के तहत पूर्णता और सत्यता सुनिश्चित करती है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: लुप्त चर की उपस्थिति में, विशिष्ट उपचार चर X के परिणाम चर Y पर कारणात्मक प्रभाव का अनुमान लगाने के लिए सहसंबंध का समुच्चय कुशलतापूर्वक कैसे चुनें।
इस पेपर का प्रारंभिक बिंदु एक ऐसी विधि विकसित करना है जो स्थानीय शिक्षण की दक्षता लाभ को बनाए रखे और पूर्णता और सत्यता सुनिश्चित करे, विशेष रूप से लुप्त चर की जटिल परिस्थितियों में।
LSAS एल्गोरिदम प्रस्तावित करना: परीक्षणीय स्वतंत्रता और निर्भरता संबंधों का उपयोग करके एक पूर्णतः स्थानीय सहसंबंध चयन एल्गोरिदम डिज़ाइन किया गया, जो लुप्त चर की अनुमति देता है
सैद्धांतिक गारंटी: मानक मान्यताओं के तहत प्रस्तावित एल्गोरिदम की पूर्णता और सत्यता को सिद्ध किया गया, जो लक्ष्य कारणात्मक संबंध के वैध समायोजन समुच्चय की पहचान कर सकता है
दक्षता में सुधार: वैश्विक विधियों की तुलना में कम्प्यूटेशनल जटिलता में उल्लेखनीय कमी, समय जटिलता O(t×2^t) से O(|MB(X)|-1)×2^|MB(Y)|-1+n तक कम हुई
प्रायोगिक सत्यापन: सिंथेटिक और वास्तविक डेटा पर एल्गोरिदम की प्रभावशीलता को सत्यापित किया गया
प्रमेय 1 (AMB अस्तित्व): O का एक उपसमुच्चय (X,Y) के लिए समायोजन समुच्चय के रूप में मौजूद है यदि और केवल यदि MB(Y){X} का एक उपसमुच्चय समायोजन समुच्चय के रूप में मौजूद है।
प्रमेय 2 (नियम R1): Z ⊆ MB(Y){X} के लिए, यदि S ∈ MB(X){Y} मौजूद है जो संतुष्ट करता है:
S ⊥̸⊥ Y | Z (शर्त i)
S ⊥⊥ Y | Z∪{X} (शर्त ii)
तो Z, AMB(X,Y) है, और X के Y पर कारणात्मक प्रभाव है।
प्रमेय 3 (नियम R2): यदि Z ⊆ MB(Y){X} और S ∈ MB(X){Y} मौजूद हैं जो निम्नलिखित में से किसी को संतुष्ट करते हैं:
एल्गोरिदम 1: स्थानीय खोज समायोजन समुच्चय (LSAS)
इनपुट: अवलोकन डेटा समुच्चय D, उपचार चर X, परिणाम चर Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // कारणात्मक प्रभाव अनुमान को प्रारंभ करें
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4: if S और Z नियम R1 को संतुष्ट करते हैं then
5: X के Y पर कारणात्मक प्रभाव का अनुमान लगाएं θ, Θ ← θ // S1 परिदृश्य
6: end if
7: if S और Z नियम R2 को संतुष्ट करते हैं then
8: return Θ ← 0 // कोई कारणात्मक प्रभाव नहीं, S2 परिदृश्य
9: end if
10: end for
आउटपुट: अनुमानित कारणात्मक प्रभाव Θ // यदि ∅ है तो S3 परिदृश्य
LSAS अधिकांश नेटवर्क और नमूना आकारों में सर्वोत्तम चलने का समय प्रदर्शन दिखाता है, एकमात्र अपवाद WIN95PTS नेटवर्क है जहां बड़े नमूना आकार (15K) पर LDP तेज है, लेकिन LSAS की सटीकता काफी अधिक है।
मौजूदा कार्य की तुलना में, यह विधि स्थानीय शिक्षण की दक्षता और वैश्विक विधि की पूर्णता का एकीकरण प्राप्त करती है, विशेष रूप से लुप्त चर को संभालने में स्पष्ट लाभ है।
पेपर कारणात्मक अनुमान क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें Pearl के शास्त्रीय कार्य, Spirtes आदि के PC एल्गोरिदम, और हाल की स्थानीय शिक्षण विधियां शामिल हैं, जो संबंधित कार्य की व्यापक समझ और गहन समझ को दर्शाता है।