We present a new method for causal discovery in linear structural vector autoregressive models. We adapt an idea designed for independent observations to the case of time series while retaining its favorable properties, i.e., explicit error control for false causal discovery, at least asymptotically. We apply our method to several real-world bivariate time series datasets and discuss its findings which mostly agree with common understanding. The arrow of time in a model can be interpreted as background knowledge on possible causal mechanisms. Hence, our ideas could be extended to incorporating different background knowledge, even for independent observations.
- पेपर ID: 2403.03778
- शीर्षक: संरचनात्मक सदिश स्वप्रतिगमन मॉडल में पूर्वज प्रतिगमन
- लेखक: क्रिस्टोफ शुल्थीस, मार्कस उल्मर, पीटर बुहलमैन (ETH ज्यूरिख)
- वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
- प्रकाशन समय: 3 जनवरी 2025 (arXiv संस्करण)
- पेपर लिंक: https://arxiv.org/abs/2403.03778
यह पेपर रैखिक संरचनात्मक सदिश स्वप्रतिगमन मॉडल में कारणात्मक खोज के लिए एक नई विधि प्रस्तावित करता है। लेखकों ने मूलतः स्वतंत्र अवलोकनों के लिए डिज़ाइन की गई पूर्वज प्रतिगमन विधि को समय श्रृंखला स्थिति तक विस्तारित किया है, साथ ही इसके अनुकूल गुणों को बनाए रखा है, अर्थात् झूठी कारणात्मक खोज पर स्पष्ट त्रुटि नियंत्रण (कम से कम स्पर्शोन्मुख अर्थ में)। यह विधि कई वास्तविक दुनिया के द्विचर समय श्रृंखला डेटासेट पर लागू की गई है, परिणाम अधिकांशतः सामान्य ज्ञान की समझ के अनुरूप हैं। समय तीर को संभावित कारणात्मक तंत्र के पृष्ठभूमि ज्ञान के रूप में व्याख्यायित किया जा सकता है, इसलिए यह विचार विभिन्न पृष्ठभूमि ज्ञान को संयोजित करने तक विस्तारित हो सकता है, यहां तक कि स्वतंत्र अवलोकनों पर भी लागू हो सकता है।
- समाधान की जाने वाली समस्या: वास्तविक दुनिया के डेटासेट में आमतौर पर समय संरचना होती है, जो कारणात्मक खोज में व्यापक रूप से उपयोग की जाने वाली स्वतंत्र समान वितरण धारणा का उल्लंघन करती है। यह पेपर संरचनात्मक सदिश स्वप्रतिगमन (SVAR) मॉडल में कारणात्मक खोज समस्या को हल करने का लक्ष्य रखता है।
- समस्या की महत्ता: समय श्रृंखला डेटा व्यावहारिक अनुप्रयोगों में बहुत सामान्य है, लेकिन पारंपरिक कारणात्मक खोज विधियां मुख्य रूप से स्वतंत्र अवलोकनों के लिए डिज़ाइन की गई हैं। समय निर्भरता अनुमान कठिनाइयां लाती है, लेकिन एक लाभ भी प्रदान करती है - भविष्यसूचक चर पहले के समय बिंदुओं पर अन्य चर को कारणात्मक रूप से प्रभावित नहीं कर सकते।
- मौजूदा विधियों की सीमाएं:
- LiNGAM जैसी पारंपरिक विधियां मुख्य रूप से स्वतंत्र अवलोकनों के लिए हैं
- समय श्रृंखला में कारणात्मक खोज पर स्पष्ट त्रुटि नियंत्रण की कमी
- मौजूदा SVAR विस्तार विधियों में सैद्धांतिक गारंटियों की कमी
- अनुसंधान प्रेरणा: शुल्थीस और बुहलमैन (2023) की पूर्वज प्रतिगमन विधि को बहुचर समय श्रृंखला तक विस्तारित करना, समय निर्भरता को संभालते हुए इसकी स्पर्शोन्मुख गारंटियों को बनाए रखना।
- विधि विस्तार: पूर्वज प्रतिगमन को स्वतंत्र अवलोकनों से रैखिक SVAR मॉडल तक विस्तारित करना, तात्कालिक और विलंबित कारणात्मक संबंधों को संभालना
- त्रुटि नियंत्रण: स्पर्शोन्मुख प्रकार I त्रुटि गारंटी प्रदान करना, झूठी कारणात्मक खोज पर स्पष्ट नियंत्रण प्राप्त करना
- समायोजन समुच्चय चयन: विभिन्न समय विलंबों के लिए त्रुटि नियंत्रण प्राप्त करने के लिए सही समायोजन समुच्चय कैसे चुनें यह दिखाना
- नेटवर्क अनुमान: तात्कालिक प्रभाव ग्राफ और सारांश समय ग्राफ बनाने के लिए एल्गोरिदम प्रस्तावित करना
- अनुभवजन्य सत्यापन: वास्तविक दुनिया के डेटासेट पर विधि की प्रभावशीलता का सत्यापन
बहुचर समय श्रृंखला xt,j (t = 1,...,T; j = 1,...,d) दिया गया है, लक्ष्य चर के बीच कारणात्मक पूर्वज संबंधों की पहचान करना है, जिसमें तात्कालिक प्रभाव (τ=0) और विलंबित प्रभाव (τ>0) शामिल हैं।
SVAR मॉडल:
xt=∑τ=0pBτxt−τ+ϵt
जहां:
- B0 तात्कालिक प्रभावों के अनुरूप है, जिसे चक्रीय संरचना मान लिया जाता है
- Bτ (τ>0) विलंबित प्रभाव मैट्रिक्स हैं
- ϵt स्वतंत्र नवाचार पद हैं
समतुल्य रूप:
xt=∑τ=1pB~τxt−τ+ξt
पूर्वज प्रतिगमन मुख्य विचार:
अरैखिक फलन f(·) के लिए, न्यूनतम वर्ग प्रतिगमन का उपयोग करना:
f(ξt,jτ) बनाम ξt−τ
जहां ξt,jτ और ξt−τ पहले के समय बिंदु के योगदान को प्रक्षेपित करने के बाद के अवशेष हैं।
मुख्य प्रमेय 1: k ∉ AN_τ(j) के लिए (k, j का τ विलंबित पूर्वज नहीं है):
βkf,j,τ=E[zt−τ,kf(ξt,jτ)]/E[zt−τ,k2]=0
- अवशेष निर्माण: पहले के समय बिंदुओं के प्रभाव को हटाने के लिए प्रक्षेपण के माध्यम से, संकेत-से-शोर अनुपात में सुधार
- विलंब समायोजन: विभिन्न विलंबों τ के लिए उपयुक्त समायोजन समुच्चय का निर्माण
- स्पर्शोन्मुख सिद्धांत: निकट-आवधिक निर्भरता के आधार पर स्पर्शोन्मुख सामान्यता की स्थापना
- नेटवर्क अनुमान: पूर्वज संबंधों का पुनरावर्ती निर्माण, चक्र पहचान को संभालना
सिमुलेशन डेटा:
- चर संख्या: d = 6, 10, 50
- SVAR क्रम: p = 1
- नमूना आकार: 10² से 10⁶
- त्रुटि वितरण: t₇, समान, लाप्लास, सामान्य वितरण का मिश्रण
- किनारे भार: समान वितरण, संकेत-से-शोर अनुपात नियंत्रण
वास्तविक डेटा:
- ओल्ड फेथफुल गीजर: प्रतीक्षा समय बनाम विस्फोट अवधि (299 अवलोकन)
- गैस भट्टी: इनपुट गैस दर बनाम आउटपुट CO₂ सांद्रता (296 अवलोकन)
- डेयरी मूल्य: मक्खन बनाम चेडर पनीर मूल्य (522 अवलोकन)
- पारिवारिक-वार त्रुटि दर (FWER): झूठी खोज की पारिवारिक त्रुटि दर
- शक्ति: वास्तविक कारणात्मक संबंधों की पहचान दर
- p-मान: स्पर्शोन्मुख सामान्य वितरण के आधार पर परिकल्पना परीक्षण
- LiNGAM एल्गोरिदम (Hyvärinen et al., 2010)
- विभिन्न नमूना आकार और छिपे हुए चर सेटिंग्स के तहत प्रदर्शन तुलना
- अरैखिक फलन: f(x) = sign(x)|x|³
- बहुलता सुधार: Bonferroni-Holm विधि
- महत्व स्तर: α = 0.05
सिमुलेशन प्रयोग:
- गैर-पूर्वज चर के लिए, औसत निरपेक्ष z-सांख्यिकी सैद्धांतिक शून्य परिकल्पना वितरण माध्य के करीब
- सभी नमूना आकारों पर प्रकार I त्रुटि नियंत्रित है
- नमूना आकार बढ़ने के साथ पहचान शक्ति में वृद्धि
- विलंबित पूर्वज की पहचान तात्कालिक पूर्वज की तुलना में आसान है (मजबूत संकेत)
नेटवर्क अनुमान:
- तात्कालिक प्रभाव ग्राफ और सारांश समय ग्राफ दोनों पूर्वज-गैर-पूर्वज पृथक्करण में अच्छा प्रदर्शन करते हैं
- पुनरावर्ती निर्माण अकेले खोजने में कठिन प्रभावों की पहचान में मदद करता है
- बड़े नमूनों पर लगभग पूर्ण प्रदर्शन
छिपे हुए चर प्रभाव:
- धारणा का उल्लंघन करने पर पूर्वनिर्धारित त्रुटि नियंत्रण स्तर खो जाता है
- लेकिन पूर्वज और गैर-पूर्वज के बीच प्रभाव आकार पृथक्करण को बनाए रखता है
- p-मान क्रमबद्धता अभी भी वास्तविक पूर्वज को इंगित कर सकती है
विभिन्न पूर्वज प्रकार:
- प्रत्यक्ष विलंबित प्रभाव (B~4,k=0): सबसे मजबूत संकेत
- तात्कालिक पूर्वज: मध्यम संकेत
- तात्कालिक प्रभाव के माध्यम से मध्यस्थता वाले विलंबित पूर्वज: सबसे कमजोर संकेत
ओल्ड फेथफुल गीजर:
- मूल डेटा: कोई महत्वपूर्ण तात्कालिक प्रभाव नहीं पाया गया
- समय समायोजन के बाद: विस्फोट अवधि → प्रतीक्षा समय का तात्कालिक प्रभाव पाया गया (p=5×10⁻⁴)
- क्षेत्र ज्ञान के अनुरूप
गैस भट्टी:
- कोई तात्कालिक प्रभाव नहीं
- इनपुट गैस दर → आउटपुट CO₂ सांद्रता का विलंबित प्रभाव पाया गया (p=4×10⁻²⁰)
डेयरी मूल्य:
- मक्खन → चेडर पनीर का विलंबित प्रभाव पाया गया (p=5×10⁻¹⁵)
- कोई विपरीत प्रभाव नहीं पाया गया, छिपे हुए मिश्रण को बाहर करता है
- विधि सीमित नमूनों के तहत अच्छा प्रदर्शन करती है
- समय संरचना द्वारा प्रदान किया गया पूर्व ज्ञान कारणात्मक अनुमान में सहायता करता है
- पुनरावर्ती निर्माण नेटवर्क अनुमान प्रदर्शन में काफी सुधार करता है
- मॉडल धारणा उल्लंघन के लिए कुछ दृढ़ता है
- LiNGAM श्रृंखला: Shimizu et al. (2006) की रैखिक गैर-गॉसियन चक्रीय मॉडल और इसके समय श्रृंखला विस्तार
- संरचनात्मक कारणात्मक मॉडल: Peters et al. (2013) के प्रतिबंधित संरचनात्मक समीकरण मॉडल
- पूर्वज प्रतिगमन: Schultheiss & Bühlmann (2023) की स्वतंत्र अवलोकन विधि
- पूर्वज प्रतिगमन को समय श्रृंखला सेटिंग तक विस्तारित करता है
- पहचान क्षमता में LiNGAM के SVAR विस्तार के समान, लेकिन त्रुटि नियंत्रण प्रदान करता है
- पारंपरिक विधियों की तुलना में, कम्प्यूटेशनल दक्षता अधिक है
- बनाम LiNGAM: व्याख्यायोग्य त्रुटि नियंत्रण प्रदान करता है, लेकिन शक्ति थोड़ी कम है
- बनाम पारंपरिक विधियां: समय संरचना का उपयोग करता है, कुछ पहचान समस्याओं से बचता है
- बनाम अन्य SVAR विधियां: मजबूत सैद्धांतिक गारंटियां, सरल कार्यान्वयन
- पूर्वज प्रतिगमन को SVAR मॉडल तक सफलतापूर्वक विस्तारित किया
- स्पर्शोन्मुख प्रकार I त्रुटि नियंत्रण के अच्छे गुणों को बनाए रखा
- सिमुलेशन और वास्तविक डेटा पर विधि की प्रभावशीलता का सत्यापन किया
- समय श्रृंखला कारणात्मक खोज के लिए नया सैद्धांतिक ढांचा प्रदान किया
- मॉडल धारणाएं: रैखिक संबंध और स्वतंत्र नवाचार पद की आवश्यकता
- तात्कालिक चक्रीयता: तात्कालिक प्रभाव चक्रीय मान लिया जाता है, संभवतः अवास्तविक
- गॉसियन शोर: आसन्न चर के गॉसियन शोर के प्रति संवेदनशील
- छिपे हुए चर: अनुपलब्ध चर होने पर त्रुटि नियंत्रण खो जाता है
- पृष्ठभूमि ज्ञान एकीकरण: अधिक सामान्य पृष्ठभूमि ज्ञान सेटिंग तक विस्तार
- अरैखिक विस्तार: अरैखिक कारणात्मक संबंधों को संभालना
- उच्च-आयामी अनुकूलन: उच्च-आयामी समय श्रृंखला की कम्प्यूटेशनल दक्षता में सुधार
- दृढ़ता वृद्धि: मॉडल धारणा उल्लंघन के लिए दृढ़ विधियां
- सैद्धांतिक कठोरता: पूर्ण स्पर्शोन्मुख सैद्धांतिक विश्लेषण और प्रमाण प्रदान करता है
- विधि नवाचार: कारणात्मक अनुमान के लिए समय संरचना का चतुराई से उपयोग
- व्यावहारिक शक्ति: गणना सरल, कार्यान्वयन में आसान
- पर्याप्त सत्यापन: सिमुलेशन और वास्तविक डेटा सत्यापन व्यापक
- स्पष्ट लेखन: तर्क स्पष्ट, गणितीय अभिव्यक्ति सटीक
- कठोर धारणाएं: रैखिकता और स्वतंत्रता धारणाएं प्रयोज्यता को सीमित करती हैं
- शक्ति समस्या: कुछ परिस्थितियों में LiNGAM की तुलना में कम शक्ति
- सीमित वास्तविक डेटा: केवल द्विचर समय श्रृंखला पर सत्यापन
- उच्च-आयामी चुनौती: बड़े नेटवर्क के लिए बहुलता सुधार बहुत रूढ़िवादी
- सैद्धांतिक योगदान: समय श्रृंखला कारणात्मक खोज के लिए नया सैद्धांतिक ढांचा
- पद्धति मूल्य: पूर्वज प्रतिगमन का महत्वपूर्ण विस्तार
- व्यावहारिक मूल्य: वास्तविक समय श्रृंखला विश्लेषण के लिए उपकरण प्रदान करता है
- पुनरुत्पादनीयता: कोड सार्वजनिक, परिणाम पुनरुत्पादनीय
- आर्थिक समय श्रृंखला: मैक्रो-आर्थिक चर के बीच कारणात्मक संबंध विश्लेषण
- जैव-चिकित्सा: शारीरिक संकेतों के बीच कारणात्मक अनुमान
- इंजीनियरिंग प्रणाली: नियंत्रण प्रणाली में कारणात्मक संबंध पहचान
- सामाजिक विज्ञान: सामाजिक घटनाओं का गतिशील कारणात्मक विश्लेषण
- Schultheiss, C. and Bühlmann, P. (2023). रैखिक संरचनात्मक समीकरण मॉडल में पूर्वज प्रतिगमन। Biometrika, 110(4):1117–1124.
- Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., and Jordan, M. (2006). कारणात्मक खोज के लिए एक रैखिक गैर-गॉसियन चक्रीय मॉडल। Journal of Machine Learning Research, 7(10).
- Peters, J., Janzing, D., and Schölkopf, B. (2013). प्रतिबंधित संरचनात्मक समीकरण मॉडल का उपयोग करके समय श्रृंखला पर कारणात्मक अनुमान। Advances in neural information processing systems, 26.
- Hyvärinen, A., Zhang, K., Shimizu, S., and Hoyer, P. O. (2010). गैर-गॉसियनता का उपयोग करके संरचनात्मक सदिश स्वप्रतिगमन मॉडल का अनुमान। Journal of Machine Learning Research, 11(5).
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता की पद्धति संबंधी पेपर है, जिसमें सैद्धांतिक और व्यावहारिक स्तर पर महत्वपूर्ण योगदान हैं। लेखकों ने एक महत्वपूर्ण कारणात्मक खोज विधि को समय श्रृंखला सेटिंग तक सफलतापूर्वक विस्तारित किया है, मूल विधि के अच्छे गुणों को बनाए रखते हुए। कुछ सीमाओं के बावजूद, यह समय श्रृंखला कारणात्मक अनुमान क्षेत्र के लिए मूल्यवान उपकरण और सैद्धांतिक आधार प्रदान करता है।