2025-11-24T14:22:17.661777

Robust Causal Discovery in Real-World Time Series with Power-Laws

Tusoni, Masi, Coletta et al.

Exploring causal relationships in stochastic time series is a challenging yet crucial task with a vast range of applications, including finance, economics, neuroscience, and climate science. Many algorithms for Causal Discovery (CD) have been proposed, but they often exhibit a high sensitivity to noise, resulting in misleading causal inferences when applied to real data. In this paper, we observe that the frequency spectra of typical real-world time series follow a power-law distribution, notably due to an inherent self-organizing behavior. Leveraging this insight, we build a robust CD method based on the extraction of power -law spectral features that amplify genuine causal signals. Our method consistently outperforms state-of-the-art alternatives on both synthetic benchmarks and real-world datasets with known causal structures, demonstrating its robustness and practical relevance.

academic

वास्तविक-विश्व समय श्रृंखला में शक्ति-नियम के साथ मजबूत कारण खोज

मूल जानकारी

पेपर ID: 2507.12257
शीर्षक: Robust Causal Discovery in Real-World Time Series with Power-Laws
लेखक: Matteo Tusoni, Giuseppe Masi, Andrea Coletta, Aldo Glielmo, Viviana Arrigoni, Novella Bartolini
वर्गीकरण: cs.LG physics.data-an stat.ML stat.OT
प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2507.12257

सारांश

स्टोकेस्टिक समय श्रृंखला में कारण संबंधों की खोज एक चुनौतीपूर्ण किंतु महत्वपूर्ण कार्य है, जिसका वित्त, अर्थशास्त्र, तंत्रिका विज्ञान और जलवायु विज्ञान जैसे क्षेत्रों में व्यापक अनुप्रयोग है। हालांकि कई कारण खोज (CD) एल्गोरिदम प्रस्तावित किए गए हैं, लेकिन वे अक्सर शोर के प्रति अत्यधिक संवेदनशील होते हैं और वास्तविक डेटा पर लागू होने पर भ्रामक कारण अनुमान उत्पन्न करते हैं। यह पेपर देखता है कि विशिष्ट वास्तविक-विश्व समय श्रृंखला का आवृत्ति स्पेक्ट्रम शक्ति-नियम वितरण का पालन करता है, जो मुख्य रूप से इसके अंतर्निहित स्व-संगठित व्यवहार के कारण है। इस अंतर्दृष्टि के आधार पर, हम शक्ति-नियम स्पेक्ट्रल विशेषता निष्कर्षण पर आधारित एक मजबूत कारण खोज विधि का निर्माण करते हैं, जो वास्तविक कारण संकेतों को बढ़ा सकता है। हमारी विधि संश्लेषित बेंचमार्क और ज्ञात कारण संरचना वाले वास्तविक-विश्व डेटासेट पर लगातार अत्याधुनिक विकल्पों से बेहतर प्रदर्शन करती है, जो इसकी मजबूती और व्यावहारिक प्रासंगिकता को प्रदर्शित करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान समय श्रृंखला डेटा में कारण खोज की समस्या को हल करने के लिए समर्पित है, अर्थात् प्रेक्षित डेटा से चर के बीच कारण संबंधों की पहचान करना। पारंपरिक कारण खोज विधियां, विशेष रूप से Granger कारण पर आधारित विधियां, वास्तविक-विश्व जटिल डेटा का सामना करते समय निम्नलिखित सीमाएं प्रदर्शित करती हैं:

शोर संवेदनशीलता: पारंपरिक विधियां गैर-गाऊसी शोर, गैर-स्थिरता और गैर-रैखिक व्यवधान के प्रति अत्यधिक संवेदनशील हैं
धारणा सीमाएं: शोर स्थिरता और एकल विशेषता पैमाने जैसी कठोर धारणाओं पर निर्भर करते हैं
झूठे संबंध का पता लगना: शोर सहसंबंध को कारण संबंध के रूप में गलत तरीके से पहचानने की प्रवृत्ति

अनुसंधान प्रेरणा

लेखकों ने देखा कि वास्तविक-विश्व प्रणालियां सार्वभौमिक रूप से शक्ति-नियम आवृत्ति स्पेक्ट्रम विशेषताएं प्रदर्शित करती हैं, जो निम्नलिखित से उत्पन्न होती हैं:

कई परस्पर क्रिया करने वाली इकाइयों का स्व-संगठित व्यवहार
बाहरी समन्वयक की कमी के कारण पैमाने की अपरिवर्तनीयता
प्रणाली की फ्रैक्टल विशेषताएं और दीर्घ-श्रेणी के समय सहसंबंध

इस अवलोकन के आधार पर, यह पेपर अधिक मजबूत कारण खोज के लिए शक्ति-नियम स्पेक्ट्रल विशेषताओं का उपयोग करने का प्रस्ताव देता है।

मुख्य योगदान

PLaCy ढांचा प्रस्तावित करना: शक्ति-नियम स्पेक्ट्रल विशेषताओं पर आधारित एक नई कारण खोज विधि
सैद्धांतिक गारंटियां: आवृत्ति डोमेन परिवर्तन के तहत कारण ग्राफ संरचना की अपरिवर्तनीयता को प्रमाणित करना (प्रमेय 1)
प्रायोगिक सत्यापन: संश्लेषित और वास्तविक डेटासेट पर व्यापक मूल्यांकन, उच्च मजबूती प्रदर्शित करना
विधि सार्वभौमिकता: अन्य कारण खोज एल्गोरिदम पर स्पेक्ट्रल पूर्व-प्रसंस्करण के सुधार प्रभाव को प्रदर्शित करना

विधि विवरण

कार्य परिभाषा

बहुभिन्न समय श्रृंखला $x \in \mathbb{R}^{L \times d}$ दी गई है, लक्ष्य निर्देशित ग्राफ $G = (V, E)$ का अनुमान लगाना है, जहां:

$V = \{1, 2, ..., d\}$ प्रणाली चर का प्रतिनिधित्व करता है
$E \subseteq V \times V$ कारण किनारों का समुच्चय दर्शाता है
निर्देशित किनारा $(i,j)$ मौजूद है यदि और केवल यदि $x_i$ , $x_j$ का कारण कारण है

मॉडल आर्किटेक्चर

1. स्लाइडिंग विंडो विभाजन

प्रत्येक समय श्रृंखला को लंबाई $l$ की अतिव्यापी विंडो में विभाजित करें, चरण आकार $s$ के साथ: $w_i^k = (x_i(k \cdot s), ..., x_i(k \cdot s + l - 1))$

2. स्पेक्ट्रल विशेषता निष्कर्षण

प्रत्येक विंडो पर असतत फूरियर रूपांतरण लागू करें: $\phi(k) = \sum_{t=0}^{L-1} x(t) e^{-i2\pi k t/L}$

स्पेक्ट्रल परिमाण की गणना करें: $A(f_k) = |\phi(k)|$

3. शक्ति-नियम फिटिंग

लॉग-लॉग स्पेस में रैखिक मॉडल को फिट करें: $\log A(f) = a - \lambda \log f$

जहां $a$ अवरोधन पैरामीटर है, $\lambda > 0$ स्पेक्ट्रल घातांक है।

4. कारण विश्लेषण

निकाली गई स्पेक्ट्रल पैरामीटर समय श्रृंखला $(a_i, \lambda_i)$ पर बहुभिन्न Granger कारण परीक्षण लागू करें, $(\lambda_i, a_i)$ की $\lambda_j$ के लिए भविष्यसूचक क्षमता का मूल्यांकन करें।

एल्गोरिदम प्रवाह (PLaCy)

इनपुट: समय श्रृंखला x = (x₁, ..., xₐ), विंडो आकार l, चरण आकार s
आउटपुट: कारण ग्राफ G

1. प्रत्येक xᵢ को ⌊(L-l)/s⌋+1 स्लाइडिंग विंडो wᵢᵏ में विभाजित करें
2. for each i ∈ {1, ..., d} do
3.   for each k ∈ {0, ..., ⌊(L-l)/s⌋} do
4.     wᵢᵏ पर DFT लागू करें φᵢᵏ प्राप्त करने के लिए
5.     समीकरण(2) की फिटिंग के माध्यम से (aᵢᵏ, λᵢᵏ) प्राप्त करें
6.   (aᵢᵏ, λᵢᵏ) को जोड़ें समय श्रृंखला (aᵢ, λᵢ) प्राप्त करने के लिए
7. for each i,j ∈ {1, ..., d}, i ≠ j do
8.   Gᵢ,ⱼ ← Granger कारण परीक्षण, (aᵢ,λᵢ) को कारण के रूप में, λⱼ को परिणाम के रूप में
9. return G

तकनीकी नवाचार बिंदु

आवृत्ति डोमेन कारण खोज: पहली बार शक्ति-नियम स्पेक्ट्रल विशेषताओं का व्यवस्थित रूप से कारण अनुमान के लिए उपयोग
अनुकूलनीय विंडो चयन: p-मान मानदंड के माध्यम से स्वचालित रूप से इष्टतम विंडो लंबाई का चयन
शोर मजबूती: स्पेक्ट्रल फिटिंग एक प्राकृतिक शोर हटाने के चरण के रूप में कार्य करता है, गैर-गाऊसी उतार-चढ़ाव के लिए मजबूती में सुधार
सैद्धांतिक आधार: स्पेक्ट्रल परिवर्तन के तहत कारण ग्राफ अपरिवर्तनीयता का सैद्धांतिक प्रमाण प्रदान करता है

प्रायोगिक सेटअप

डेटासेट

संश्लेषित डेटासेट

सामान्यीकृत Ornstein-Uhlenbeck प्रक्रिया के आधार पर चार परिदृश्य उत्पन्न करें: $x(t+\Delta t) = x(t) + \frac{\Delta t}{\tau_c}(\mu - x(t)) + (\sigma_b \epsilon_b(t) + \sigma_g^a \epsilon_g^a(t) + \sigma_g^m \epsilon_g^m(t) \cdot x(t))\sqrt{\Delta t}$

OU( $\sigma_g^m = 0$ ): गुणक शोर के बिना संतुलन अवस्था
OU( $\sigma_g^m > 0$ ): गुणक शोर के साथ संतुलन अवस्था
ÔU( $\sigma_g^m = 0$ ): गुणक शोर के बिना गैर-संतुलन अवस्था
ÔU( $\sigma_g^m > 0$ ): गुणक शोर के साथ गैर-संतुलन अवस्था

वास्तविक डेटासेट

Rivers डेटासेट: जर्मनी के दक्षिणी भाग में तीन जलविज्ञान स्टेशनों के नदी जल स्तर और वर्षा डेटा
AirQuality डेटासेट: चीन के कई शहरों के PM2.5 प्रदूषण निगरानी डेटा

मूल्यांकन मेट्रिक्स

F1 स्कोर: कारण संबंध पहचान के समग्र प्रदर्शन को मापता है
सच्ची नकारात्मक दर (TNR): झूठे संबंधों को बाहर करने की एल्गोरिदम की क्षमता का मूल्यांकन करता है

तुलना विधियां

पारंपरिक विधियां: Granger Causality, PCMCI, PCMCIΩ
अनुकूलित विधियां: DYNOTEARS, RCV-VarLiNGAM
गहन शिक्षा: Rhino
गैर-रैखिक विधियां: CCM-Filtering
आवृत्ति डोमेन विधियां: BCGeweke, DTF, GewekeNP

कार्यान्वयन विवरण

स्लाइडिंग विंडो लंबाई: $l = 50$ (p-मान मानदंड द्वारा चयनित)
चरण आकार: $s = 1$
विलंब पद: 10
सांख्यिकीय महत्व सीमा: $p = 0.05$

प्रायोगिक परिणाम

मुख्य परिणाम

संश्लेषित डेटासेट पर प्रदर्शन (N=5, $\sigma_g^a = 1.0$ ):

डेटासेट	PLaCy F1	सर्वश्रेष्ठ आधार F1	PLaCy TNR	सर्वश्रेष्ठ आधार TNR
OU( $\sigma_g^m = 0$ )	0.77±0.17	0.61±0.18	0.94±0.05	0.99±0.02
OU( $\sigma_g^m > 0$ )	0.80±0.17	0.79±0.11	0.94±0.06	0.98±0.03
ÔU( $\sigma_g^m = 0$ )	0.70±0.17	0.58±0.18	0.88±0.09	0.99±0.02
ÔU( $\sigma_g^m > 0$ )	0.80±0.17	0.71±0.13	0.93±0.07	0.98±0.03

वास्तविक डेटासेट परिणाम:

डेटासेट	PLaCy F1	PLaCy TNR	सर्वश्रेष्ठ आधार F1	सर्वश्रेष्ठ आधार TNR
Rivers	0.51±0.10	0.75±0.13	0.47±0.07	0.74±0.05
AirQuality	0.45±0.04	0.66±0.07	0.44±0.01	0.95±0.02

मुख्य निष्कर्ष

गुणक शोर मजबूती: PLaCy गुणक शोर वाले परिदृश्यों में विशेष रूप से उत्कृष्ट प्रदर्शन करता है
गैर-संतुलन अवस्था अनुकूलन: गैर-संतुलन प्रारंभिक स्थितियों के तहत भी अच्छा प्रदर्शन बनाए रखता है
आवृत्ति डोमेन विधि लाभ: समय डोमेन विधियों की तुलना में, आवृत्ति डोमेन विश्लेषण बेहतर शोर प्रतिरोध प्रदर्शित करता है
सार्वभौमिक सुधार: PCMCI जैसी विधियों पर स्पेक्ट्रल पूर्व-प्रसंस्करण लागू करने से प्रदर्शन में महत्वपूर्ण सुधार हो सकता है

विलोपन प्रयोग

विंडो लंबाई और चरण आकार विश्लेषण से पता चलता है:

चरण आकार 1 पर सर्वोत्तम प्रदर्शन, अल्पकालीन कारण निर्भरता को पकड़ सकता है
विंडो लंबाई p-मान मानदंड द्वारा अनुकूलनीय चयन सर्वोत्तम परिणाम देता है
बहुत छोटी या बहुत लंबी विंडो दोनों प्रदर्शन को कम करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

PLaCy शक्ति-नियम स्पेक्ट्रल विशेषताओं का उपयोग करके अधिक मजबूत कारण खोज प्राप्त करता है
विधि संश्लेषित और वास्तविक डेटा दोनों पर उच्च प्रदर्शन प्रदर्शित करती है
आवृत्ति डोमेन विश्लेषण समय श्रृंखला कारण खोज के लिए एक नया दृष्टिकोण प्रदान करता है

सीमाएं

स्पेक्ट्रल परिवर्तन धीमी प्रणालियां: स्पेक्ट्रल पैरामीटर परिवर्तन बहुत धीमी प्रणालियों के लिए सीमित प्रभाव
छोटी समय श्रृंखला: स्थिर स्पेक्ट्रल अनुमान के लिए पर्याप्त लंबी श्रृंखला की आवश्यकता
कम्प्यूटेशनल जटिलता: सरल विधियों की तुलना में अतिरिक्त स्पेक्ट्रल विश्लेषण ओवरहेड

भविष्य की दिशाएं

गैर-VAR कारण खोज विधियों तक विस्तार
स्पेक्ट्रल घनत्व के सांख्यिकीय पैरामीटर का गहन अध्ययन
संभावित मिश्रण कारकों के प्रभाव को संभालना
अधिक कुशल ऑनलाइन कारण खोज एल्गोरिदम विकसित करना

गहन मूल्यांकन

शक्तियां

उच्च नवाचार: पहली बार शक्ति-नियम स्पेक्ट्रल विशेषताओं को कारण खोज के लिए व्यवस्थित रूप से उपयोग करना
ठोस सिद्धांत: कठोर सैद्धांतिक विश्लेषण और प्रमाण प्रदान करता है
व्यापक प्रयोग: कई संश्लेषित परिदृश्य और वास्तविक अनुप्रयोग शामिल करता है
उच्च व्यावहारिक मूल्य: शोर वातावरण में महत्वपूर्ण लाभ प्रदर्शित करता है

कमियां

अनुप्रयोग सीमा: मुख्य रूप से शक्ति-नियम स्पेक्ट्रल विशेषताओं वाली प्रणालियों के लिए उपयुक्त
पैरामीटर चयन: विंडो लंबाई जैसे पैरामीटर के चयन के लिए अनुभव की आवश्यकता
कम्प्यूटेशनल दक्षता: सरल विधियों की तुलना में अधिक कम्प्यूटेशनल ओवरहेड

प्रभाव

शैक्षणिक योगदान: समय श्रृंखला कारण खोज के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: वित्त, जलवायु आदि शक्ति-नियम विशेषताओं वाले क्षेत्रों में व्यापक अनुप्रयोग संभावना
पुनरुत्पादनीयता: पूर्ण एल्गोरिदम विवरण और ओपन-सोर्स कोड प्रदान करता है

लागू परिदृश्य

वित्तीय बाजार डेटा विश्लेषण
जलवायु प्रणाली मॉडलिंग
तंत्रिका विज्ञान अनुसंधान
सामाजिक नेटवर्क विश्लेषण
कोई भी स्व-संगठित विशेषताओं वाली जटिल प्रणाली

संदर्भ

पेपर में कारण खोज, समय श्रृंखला विश्लेषण, जटिल प्रणालियों सहित कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हुए 51 संबंधित संदर्भ उद्धृत किए गए हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह समय श्रृंखला कारण खोज क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो एक नवीन विधि प्रस्तावित करता है। वास्तविक-विश्व प्रणालियों की शक्ति-नियम स्पेक्ट्रल विशेषताओं का चतुराई से उपयोग करके, यह कारण खोज की मजबूती को सफलतापूर्वक बढ़ाता है। सैद्धांतिक विश्लेषण कठोर है, प्रयोग डिजाइन तर्कसंगत है, और परिणाम विश्वसनीय हैं। यह कार्य जटिल प्रणालियों में कारण अनुमान के लिए नए उपकरण और दृष्टिकोण प्रदान करता है।