2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.

Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.

academic

गैर-पैरामीट्रिक कारणात्मक प्रभाव अनुमान में सहसंबंध चयन के लिए स्थानीय शिक्षण

मूल जानकारी

पेपर ID: 2411.16315
शीर्षक: गैर-पैरामीट्रिक कारणात्मक प्रभाव अनुमान में सहसंबंध चयन के लिए स्थानीय शिक्षण (लुप्त चर के साथ)
लेखक: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
वर्गीकरण: cs.LG math.ST stat.ML stat.TH
प्रकाशन सम्मेलन: तंत्रिका सूचना प्रसंस्करण प्रणाली पर 39वां सम्मेलन (NeurIPS 2025)
पेपर लिंक: https://arxiv.org/abs/2411.16315

सारांश

गैर-प्रायोगिक डेटा से कारणात्मक प्रभाव का अनुमान लगाना कई वैज्ञानिक क्षेत्रों में एक मौलिक समस्या है। इस कार्य का एक महत्वपूर्ण घटक पूर्वाग्रह से बचने के लिए मिश्रण समायोजन के लिए उपयुक्त सहसंबंध का समुच्चय चुनना है। मौजूदा सहसंबंध चयन विधियां आमतौर पर लुप्त चर की अनुपस्थिति मानती हैं और चर के बीच वैश्विक नेटवर्क संरचना सीखने पर निर्भर करती हैं। हालांकि, जब हम मुख्य रूप से उपचार चर पर परिणाम चर के प्रभाव का अनुमान लगाने पर ध्यान केंद्रित करते हैं, तो वैश्विक संरचना की पहचान करना अनावश्यक और अक्षम हो सकता है। इस सीमा को संबोधित करने के लिए, यह पेपर लुप्त चर की उपस्थिति में गैर-पैरामीट्रिक कारणात्मक प्रभाव अनुमान में सहसंबंध चयन के लिए एक नई स्थानीय शिक्षण विधि प्रस्तावित करता है। यह विधि अवलोकन योग्य चर के बीच परीक्षणीय स्वतंत्रता और निर्भरता संबंधों का उपयोग करके लक्ष्य कारणात्मक संबंध के लिए वैध समायोजन समुच्चय की पहचान करती है, मानक मान्यताओं के तहत पूर्णता और सत्यता सुनिश्चित करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: लुप्त चर की उपस्थिति में, विशिष्ट उपचार चर X के परिणाम चर Y पर कारणात्मक प्रभाव का अनुमान लगाने के लिए सहसंबंध का समुच्चय कुशलतापूर्वक कैसे चुनें।

समस्या की महत्ता

व्यापक प्रयोज्यता: कारणात्मक प्रभाव अनुमान महामारी विज्ञान, सामाजिक विज्ञान, अर्थशास्त्र और कृत्रिम बुद्धिमत्ता जैसे क्षेत्रों में महत्वपूर्ण है
व्यावहारिक आवश्यकता: व्यावहारिक अनुप्रयोगों में, आदर्श यादृच्छिकृत नियंत्रित परीक्षण अक्सर कार्यान्वयन के लिए कठिन होते हैं
पूर्वाग्रह नियंत्रण: गलत सहसंबंध चयन कारणात्मक प्रभाव अनुमान में पूर्वाग्रह की ओर ले जाता है

मौजूदा विधियों की सीमाएं

वैश्विक संरचना शिक्षण: IDA, LV-IDA जैसी मौजूदा विधियों को पूर्ण कारणात्मक ग्राफ संरचना सीखने की आवश्यकता है, जिसकी कम्प्यूटेशनल जटिलता अधिक है
लुप्त चर की उपेक्षा: कई विधियां लुप्त मिश्रण चर की अनुपस्थिति मानती हैं, जो व्यावहारिक अनुप्रयोगों में अवास्तविक है
स्थानीय विधि की अपूर्णता: CEELS जैसी विधियां दक्षता में अधिक हैं, लेकिन वैध समायोजन समुच्चय को छोड़ सकती हैं

अनुसंधान प्रेरणा

इस पेपर का प्रारंभिक बिंदु एक ऐसी विधि विकसित करना है जो स्थानीय शिक्षण की दक्षता लाभ को बनाए रखे और पूर्णता और सत्यता सुनिश्चित करे, विशेष रूप से लुप्त चर की जटिल परिस्थितियों में।

मूल योगदान

LSAS एल्गोरिदम प्रस्तावित करना: परीक्षणीय स्वतंत्रता और निर्भरता संबंधों का उपयोग करके एक पूर्णतः स्थानीय सहसंबंध चयन एल्गोरिदम डिज़ाइन किया गया, जो लुप्त चर की अनुमति देता है
सैद्धांतिक गारंटी: मानक मान्यताओं के तहत प्रस्तावित एल्गोरिदम की पूर्णता और सत्यता को सिद्ध किया गया, जो लक्ष्य कारणात्मक संबंध के वैध समायोजन समुच्चय की पहचान कर सकता है
दक्षता में सुधार: वैश्विक विधियों की तुलना में कम्प्यूटेशनल जटिलता में उल्लेखनीय कमी, समय जटिलता O(t×2^t) से O(|MB(X)|-1)×2^|MB(Y)|-1+n तक कम हुई
प्रायोगिक सत्यापन: सिंथेटिक और वास्तविक डेटा पर एल्गोरिदम की प्रभावशीलता को सत्यापित किया गया

विधि विवरण

कार्य परिभाषा

इनपुट: अवलोकन डेटा समुच्चय D, जिसमें उपचार चर X, परिणाम चर Y और सहसंबंध समुच्चय O शामिल है आउटपुट:

परिदृश्य S1: X के Y पर कारणात्मक प्रभाव का अनुमानित मान θ
परिदृश्य S2: X के Y पर कोई कारणात्मक प्रभाव नहीं है (θ=0) यह निर्धारित करना
परिदृश्य S3: यह निर्धारित नहीं किया जा सकता कि कारणात्मक प्रभाव मौजूद है या नहीं (θ=∅)

बाधाएं:

Y, X का कारणात्मक पूर्वज नहीं है
O पूर्व-प्रसंस्करण चर समुच्चय है (X और Y, O में किसी भी चर के कारणात्मक पूर्वज नहीं हैं)

मूल सैद्धांतिक आधार

AMB परिभाषा

Markov कंबल के भीतर समायोजन समुच्चय AMB(X,Y) को परिभाषित किया गया:

Z ⊆ MB(Y) \ {X}
Z ∩ Forb(X,Y) = ∅
Z, X से Y तक के सभी गैर-कारणात्मक पथों को अवरुद्ध करता है

मुख्य प्रमेय

प्रमेय 1 (AMB अस्तित्व): O का एक उपसमुच्चय (X,Y) के लिए समायोजन समुच्चय के रूप में मौजूद है यदि और केवल यदि MB(Y){X} का एक उपसमुच्चय समायोजन समुच्चय के रूप में मौजूद है।

प्रमेय 2 (नियम R1): Z ⊆ MB(Y){X} के लिए, यदि S ∈ MB(X){Y} मौजूद है जो संतुष्ट करता है:

S ⊥̸⊥ Y | Z (शर्त i)
S ⊥⊥ Y | Z∪{X} (शर्त ii)

तो Z, AMB(X,Y) है, और X के Y पर कारणात्मक प्रभाव है।

प्रमेय 3 (नियम R2): यदि Z ⊆ MB(Y){X} और S ∈ MB(X){Y} मौजूद हैं जो निम्नलिखित में से किसी को संतुष्ट करते हैं:

X ⊥⊥ Y | Z (शर्त i)
S ⊥̸⊥ X | Z और S ⊥⊥ Y | Z (शर्त ii)

तो X के Y पर कोई कारणात्मक प्रभाव नहीं है।

LSAS एल्गोरिदम प्रवाह

एल्गोरिदम 1: स्थानीय खोज समायोजन समुच्चय (LSAS)
इनपुट: अवलोकन डेटा समुच्चय D, उपचार चर X, परिणाम चर Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // कारणात्मक प्रभाव अनुमान को प्रारंभ करें
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S और Z नियम R1 को संतुष्ट करते हैं then
5:     X के Y पर कारणात्मक प्रभाव का अनुमान लगाएं θ, Θ ← θ // S1 परिदृश्य
6:   end if
7:   if S और Z नियम R2 को संतुष्ट करते हैं then
8:     return Θ ← 0 // कोई कारणात्मक प्रभाव नहीं, S2 परिदृश्य
9:   end if
10: end for
आउटपुट: अनुमानित कारणात्मक प्रभाव Θ // यदि ∅ है तो S3 परिदृश्य

तकनीकी नवाचार बिंदु

स्थानीय Markov कंबल उपयोग: केवल X और Y की Markov कंबल जानकारी की आवश्यकता है, वैश्विक ग्राफ शिक्षण से बचा जाता है
नियम-संचालित पहचान: R1 और R2 नियमों के माध्यम से सीधे सशर्त स्वतंत्रता परीक्षणों से कारणात्मक संबंध की पहचान करता है
लुप्त चर हैंडलिंग: MAG ढांचे के तहत लुप्त मिश्रण चर को संभालता है
पूर्णता गारंटी: सिद्ध किया गया कि विधि पूर्ण है, कोई पहचानने योग्य समायोजन समुच्चय नहीं छोड़ेगा

प्रायोगिक सेटअप

डेटा समुच्चय

सिंथेटिक डेटा:
- यादृच्छिक ग्राफ: Erdős-Rényi मॉडल G(n,d), नोड संख्या 20-50, औसत डिग्री 3-9
- विशिष्ट संरचना: ग्राफ 3(a) और ग्राफ 4(a) के आधार पर DAG संरचना
- बेंचमार्क नेटवर्क: INSURANCE(27 नोड), MILDEW(35 नोड), WIN95PTS(76 नोड), ANDES(223 नोड)
वास्तविक डेटा: Cattaneo2 डेटा समुच्चय, जिसमें पेंसिल्वेनिया राज्य के 4642 एकल जन्म रिकॉर्ड शामिल हैं

मूल्यांकन मेट्रिक्स

सापेक्ष त्रुटि (RE): |（अनुमानित मान-वास्तविक मान）/वास्तविक मान| × 100%
परीक्षण संख्या (nTest): एल्गोरिदम द्वारा निष्पादित सशर्त स्वतंत्रता परीक्षणों की संख्या

तुलनात्मक विधियां

LV-IDA: RFCI एल्गोरिदम पर आधारित वैश्विक ग्राफ शिक्षण विधि
EHS: वैश्विक खोज की पूर्व-प्रसंस्करण मान्यता विधि
CEELS: स्थानीय खोज की पूर्व-प्रसंस्करण मान्यता विधि
LDP: पूर्व-प्रसंस्करण मान्यता को शिथिल करने वाली स्थानीय खोज विधि

कार्यान्वयन विवरण

नमूना आकार: 1K, 5K, 10K, 15K
रैखिक गाऊसी कारणात्मक मॉडल, किनारे के वजन Uniform0.5,1.5 से नमूने लिए गए
सशर्त स्वतंत्रता परीक्षण महत्व स्तर: 0.01
सशर्त समुच्चय अधिकतम आकार: 3-7 (नेटवर्क जटिलता के अनुसार)

प्रायोगिक परिणाम

मुख्य परिणाम

विशिष्ट संरचना प्रयोग

ग्राफ 3(b) और ग्राफ 4(b) के अनुरूप MAG संरचना पर:

सापेक्ष त्रुटि: LSAS सभी नमूना आकारों में अन्य विधियों से काफी बेहतर है
परीक्षण दक्षता: LSAS का nTest LV-IDA और EHS से बहुत कम है
पूर्णता लाभ: CEELS और LDP अपूर्णता के कारण, कुछ संरचनाओं पर वैध समायोजन समुच्चय नहीं पा सकते

बेंचमार्क नेटवर्क प्रयोग

MILDEW और WIN95PTS नेटवर्क पर:

LSAS लगभग सभी मूल्यांकन मेट्रिक्स और नमूना आकारों में सर्वोत्तम प्रदर्शन करता है
पूर्व-प्रसंस्करण मान्यता का उल्लंघन करने की स्थिति में भी, LSAS अन्य विधियों से बेहतर है
EHS चलने के समय की अधिकता के कारण बड़े नेटवर्क पर पूरा नहीं हो सकता

वास्तविक डेटा सत्यापन

Cattaneo2 डेटा समुच्चय पर गर्भावस्था के दौरान धूम्रपान के शिशु जन्म वजन पर प्रभाव का अध्ययन:

LSAS और EHS दोनों के प्रभाव अनुमान बेंचमार्क अंतराल -250g, -200g के भीतर आते हैं
LSAS को केवल 158 सशर्त स्वतंत्रता परीक्षणों की आवश्यकता है, जबकि CEELS को 1284 और LDP को 266 की आवश्यकता है
वास्तविक अनुप्रयोगों में विधि की प्रभावशीलता को सत्यापित किया

विलोपन प्रयोग

पेपर विभिन्न नेटवर्क घनत्व के प्रयोगों के माध्यम से विधि की मजबूती को सत्यापित करता है:

ग्राफ घनत्व बढ़ने के साथ, सभी विधियों का प्रदर्शन कम होता है, लेकिन LSAS स्पष्ट लाभ बनाए रखता है
G(40,9) नेटवर्क में, हालांकि LDP का nTest कम है, LSAS की RE काफी बेहतर है

चलने का समय विश्लेषण

LSAS अधिकांश नेटवर्क और नमूना आकारों में सर्वोत्तम चलने का समय प्रदर्शन दिखाता है, एकमात्र अपवाद WIN95PTS नेटवर्क है जहां बड़े नमूना आकार (15K) पर LDP तेज है, लेकिन LSAS की सटीकता काफी अधिक है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

लुप्त चर की उपस्थिति में पहली बार स्थानीयता को बनाए रखते हुए पूर्णता सुनिश्चित करने वाली सहसंबंध चयन एल्गोरिदम प्रस्तावित की गई
सैद्धांतिक रूप से विधि की सत्यता और पूर्णता को सिद्ध किया गया
दक्षता और सटीकता दोनों में विधि के महत्वपूर्ण लाभों को प्रायोगिक रूप से सत्यापित किया गया

सीमाएं

पूर्व-प्रसंस्करण मान्यता: अभी भी पूर्व-प्रसंस्करण मान्यता पर निर्भर है, हालांकि कुछ उल्लंघन स्थितियों में अच्छा प्रदर्शन करता है
वंशज पहचान: पूर्ण ग्राफ को पुनः प्राप्त किए बिना उपचार चर के वंशजों की स्थानीय पहचान नहीं कर सकता
सशर्त स्वतंत्रता परीक्षण: सटीक सशर्त स्वतंत्रता परीक्षण पर निर्भर है, सीमित नमूने में त्रुटि हो सकती है

भविष्य की दिशाएं

मान्यताओं को शिथिल करना: पूर्व-प्रसंस्करण मान्यता पर निर्भर न करने वाली विधियां विकसित करना
पृष्ठभूमि ज्ञान एकीकरण: कारणात्मक पहचान में सहायता के लिए डोमेन ज्ञान का उपयोग करना
बहु-पर्यावरण डेटा: कारणात्मक पहचान क्षमता बढ़ाने के लिए बहु-पर्यावरण डेटा का उपयोग करना
वंशज पहचान: उपचार चर के वंशजों की स्थानीय पहचान की विधि का अनुसंधान करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक योगदान: एक पूर्ण सैद्धांतिक ढांचा प्रदान करता है, स्थानीय विधि की व्यवहार्यता को सिद्ध करता है
व्यावहारिक मूल्य: कम्प्यूटेशनल जटिलता में उल्लेखनीय कमी, बड़े पैमाने पर अनुप्रयोग को संभव बनाता है
पर्याप्त प्रयोग: कई डेटा प्रकारों पर व्यापक सत्यापन
स्पष्ट लेखन: पेपर संरचना स्पष्ट है, सैद्धांतिक विवरण कठोर है

कमियां

मान्यता सीमा: पूर्व-प्रसंस्करण मान्यता कुछ अनुप्रयोग परिदृश्यों में संतुष्ट नहीं हो सकती
परीक्षण निर्भरता: विधि का प्रदर्शन बहुत हद तक सशर्त स्वतंत्रता परीक्षण की सटीकता पर निर्भर है
विस्तारशीलता: अति-बड़े नेटवर्क के लिए विस्तारशीलता को अभी भी सत्यापन की आवश्यकता है

प्रभाव

शैक्षणिक मूल्य: कारणात्मक अनुमान क्षेत्र के लिए नई सैद्धांतिक और विधि ढांचा प्रदान करता है
व्यावहारिक महत्व: वास्तविक अनुप्रयोगों में सहसंबंध चयन के लिए कुशल समाधान प्रदान करता है
पुनरुत्पादनीयता: कोड सार्वजनिक है, प्रयोग सेटअप विस्तृत है, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

यह विधि विशेष रूप से निम्नलिखित परिदृश्यों के लिए उपयुक्त है:

बड़े पैमाने पर अवलोकन डेटा का कारणात्मक प्रभाव अनुमान
लुप्त मिश्रण चर वाली जटिल प्रणालियां
कम्प्यूटेशनल दक्षता की आवश्यकता वाले वास्तविक समय अनुप्रयोग
पूर्व-प्रसंस्करण चर संग्रह अपेक्षाकृत पूर्ण अनुसंधान डिज़ाइन

संदर्भ

पेपर कारणात्मक अनुमान क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें Pearl के शास्त्रीय कार्य, Spirtes आदि के PC एल्गोरिदम, और हाल की स्थानीय शिक्षण विधियां शामिल हैं, जो संबंधित कार्य की व्यापक समझ और गहन समझ को दर्शाता है।