2025-11-24T14:22:17.661777

Robust Causal Discovery in Real-World Time Series with Power-Laws

Tusoni, Masi, Coletta et al.

Exploring causal relationships in stochastic time series is a challenging yet crucial task with a vast range of applications, including finance, economics, neuroscience, and climate science. Many algorithms for Causal Discovery (CD) have been proposed, but they often exhibit a high sensitivity to noise, resulting in misleading causal inferences when applied to real data. In this paper, we observe that the frequency spectra of typical real-world time series follow a power-law distribution, notably due to an inherent self-organizing behavior. Leveraging this insight, we build a robust CD method based on the extraction of power -law spectral features that amplify genuine causal signals. Our method consistently outperforms state-of-the-art alternatives on both synthetic benchmarks and real-world datasets with known causal structures, demonstrating its robustness and practical relevance.

academic

اكتشاف العلاقات السببية القوي في سلاسل زمنية حقيقية مع قوانين القوة

المعلومات الأساسية

معرّف الورقة: 2507.12257
العنوان: Robust Causal Discovery in Real-World Time Series with Power-Laws
المؤلفون: Matteo Tusoni, Giuseppe Masi, Andrea Coletta, Aldo Glielmo, Viviana Arrigoni, Novella Bartolini
التصنيف: cs.LG physics.data-an stat.ML stat.OT
تاريخ النشر: 12 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2507.12257

الملخص

يعتبر استكشاف العلاقات السببية في السلاسل الزمنية العشوائية مهمة صعبة لكن حاسمة الأهمية، مع تطبيقات واسعة في المجالات المالية والاقتصادية وعلم الأعصاب وعلوم المناخ. على الرغم من اقتراح العديد من خوارزميات اكتشاف العلاقات السببية (CD)، إلا أنها غالباً ما تكون حساسة جداً للضوضاء، مما يؤدي إلى استدلالات سببية مضللة عند تطبيقها على البيانات الحقيقية. تلاحظ هذه الورقة أن الطيف الترددي للسلاسل الزمنية الحقيقية النموذجية يتبع توزيع قانون القوة، وهذا يرجع بشكل أساسي إلى السلوك المنظم ذاتياً الكامن فيها. بناءً على هذه الملاحظة، نقدم طريقة قوية لاكتشاف العلاقات السببية تعتمد على استخراج الميزات الطيفية لقانون القوة، والتي تعمل على تضخيم إشارات السببية الحقيقية. تتفوق طريقتنا باستمرار على أفضل الطرق البديلة على المعايير الاصطناعية وعلى مجموعات البيانات الحقيقية ذات الهياكل السببية المعروفة، مما يوضح قوتها والصلة العملية لها.

السياق البحثي والدافع

تعريف المشكلة

يسعى هذا البحث إلى حل مشكلة اكتشاف العلاقات السببية في بيانات السلاسل الزمنية، أي تحديد العلاقات السببية بين المتغيرات من البيانات المرصودة. تظهر طرق اكتشاف العلاقات السببية التقليدية، خاصة تلك القائمة على السببية من نوع Granger، القيود التالية عند التعامل مع البيانات المعقدة في العالم الحقيقي:

حساسية الضوضاء: الطرق التقليدية حساسة جداً للضوضاء غير الغاوسية واللاثباتية والاضطرابات غير الخطية
قيود الافتراضات: تعتمد على افتراضات صارمة مثل ثبات الضوضاء ومقياس ميزة واحد
كشف العلاقات الزائفة: تميل إلى الخلط بين الارتباطات الضوضائية والعلاقات السببية

دافع البحث

لاحظ المؤلفون أن الأنظمة الحقيقية تظهر بشكل عام خصائص طيفية لقانون القوة، والتي تنشأ من:

السلوك المنظم ذاتياً للوحدات المتفاعلة المتعددة
عدم التغيير في الحجم الناجم عن غياب منسق خارجي
الخصائص الكسيرية والارتباطات الزمنية طويلة المدى للنظام

بناءً على هذه الملاحظة، تقترح هذه الورقة الاستفادة من ميزات الطيف لقانون القوة لاكتشاف علاقات سببية أكثر قوة.

المساهمات الأساسية

اقتراح إطار عمل PLaCy: طريقة جديدة لاكتشاف العلاقات السببية تعتمد على ميزات الطيف لقانون القوة
ضمانات نظرية: إثبات عدم التغيير في هيكل الرسم البياني السببي تحت التحويلات في المجال الترددي (النظرية 1)
التحقق التجريبي: تقييم شامل على مجموعات البيانات الاصطناعية والحقيقية، مما يوضح القوة المتفوقة
عمومية الطريقة: توضيح تحسن المعالجة الطيفية المسبقة على خوارزميات اكتشاف العلاقات السببية الأخرى

شرح الطريقة

تعريف المهمة

بالنظر إلى سلسلة زمنية متعددة المتغيرات $x \in \mathbb{R}^{L \times d}$ ، الهدف هو استنتاج رسم بياني موجه $G = (V, E)$ ، حيث:

$V = \{1, 2, ..., d\}$ يمثل متغيرات النظام
$E \subseteq V \times V$ يمثل مجموعة الحواف السببية
توجد حافة موجهة $(i,j)$ إذا وفقط إذا كان $x_i$ سبباً سببياً لـ $x_j$

معمارية النموذج

1. تقسيم النافذة المنزلقة

تقسيم كل سلسلة زمنية إلى نوافذ متداخلة بطول $l$ مع خطوة $s$ : $w_i^k = (x_i(k \cdot s), ..., x_i(k \cdot s + l - 1))$

2. استخراج الميزات الطيفية

تطبيق تحويل فورييه المنفصل على كل نافذة: $\phi(k) = \sum_{t=0}^{L-1} x(t) e^{-i2\pi k t/L}$

حساب سعة الطيف: $A(f_k) = |\phi(k)|$

3. ملاءمة قانون القوة

ملاءمة نموذج خطي في الفضاء اللوغاريتمي-اللوغاريتمي: $\log A(f) = a - \lambda \log f$

حيث $a$ هو معامل التقاطع و $\lambda > 0$ هو الأس الطيفي.

4. التحليل السببي

تطبيق اختبار Granger السببي متعدد المتغيرات على سلاسل معاملات الطيف المستخرجة $(a_i, \lambda_i)$ ، وتقييم القدرة التنبؤية لـ $(\lambda_i, a_i)$ على $\lambda_j$ .

تدفق الخوارزمية (PLaCy)

الإدخال: سلسلة زمنية x = (x₁, ..., xₐ)، حجم النافذة l، الخطوة s
الإخراج: الرسم البياني السببي G

1. تقسيم كل xᵢ إلى ⌊(L-l)/s⌋+1 نافذة منزلقة wᵢᵏ
2. for each i ∈ {1, ..., d} do
3.   for each k ∈ {0, ..., ⌊(L-l)/s⌋} do
4.     تطبيق DFT على wᵢᵏ للحصول على φᵢᵏ
5.     الحصول على (aᵢᵏ, λᵢᵏ) من خلال ملاءمة المعادلة (2)
6.   ربط (aᵢᵏ, λᵢᵏ) للحصول على سلسلة زمنية (aᵢ, λᵢ)
7. for each i,j ∈ {1, ..., d}, i ≠ j do
8.   Gᵢ,ⱼ ← اختبار Granger السببي، مع (aᵢ,λᵢ) كسبب و λⱼ كنتيجة
9. return G

نقاط الابتكار التقني

اكتشاف العلاقات السببية في المجال الترددي: أول استخدام منهجي لميزات الطيف لقانون القوة للاستدلال السببي
اختيار النافذة التكيفي: اختيار تلقائي لطول النافذة الأمثل من خلال معيار القيمة الاحتمالية
قوة مقاومة الضوضاء: ملاءمة الطيف بمثابة خطوة إزالة ضوضاء طبيعية، مما يحسن المقاومة للتقلبات غير الغاوسية
الأساس النظري: توفير إثبات نظري لعدم التغيير في الرسم البياني السببي تحت التحويل الطيفي

إعداد التجارب

مجموعات البيانات

مجموعات البيانات الاصطناعية

بناءً على عملية Ornstein-Uhlenbeck المعممة، يتم إنشاء أربع سيناريوهات: $x(t+\Delta t) = x(t) + \frac{\Delta t}{\tau_c}(\mu - x(t)) + (\sigma_b \epsilon_b(t) + \sigma_g^a \epsilon_g^a(t) + \sigma_g^m \epsilon_g^m(t) \cdot x(t))\sqrt{\Delta t}$

OU( $\sigma_g^m = 0$ ): حالة توازن بدون ضوضاء ضربية
OU( $\sigma_g^m > 0$ ): حالة توازن مع ضوضاء ضربية
ÔU( $\sigma_g^m = 0$ ): حالة عدم توازن بدون ضوضاء ضربية
ÔU( $\sigma_g^m > 0$ ): حالة عدم توازن مع ضوضاء ضربية

مجموعات البيانات الحقيقية

مجموعة بيانات الأنهار: بيانات مستويات المياه والهطول من ثلاث محطات هيدرولوجية في جنوب ألمانيا
مجموعة بيانات جودة الهواء: بيانات مراقبة تلوث PM2.5 من عدة مدن صينية

مؤشرات التقييم

درجة F1: قياس الأداء الإجمالية لتحديد العلاقات السببية
معدل النتائج السلبية الحقيقية (TNR): تقييم قدرة الخوارزمية على استبعاد الارتباطات الزائفة

طرق المقارنة

الطرق التقليدية: Granger Causality, PCMCI, PCMCIΩ
الطرق المحسنة: DYNOTEARS, RCV-VarLiNGAM
التعلم العميق: Rhino
الطرق غير الخطية: CCM-Filtering
الطرق في المجال الترددي: BCGeweke, DTF, GewekeNP

تفاصيل التنفيذ

طول النافذة المنزلقة: $l = 50$ (تم اختياره من خلال معيار القيمة الاحتمالية)
الخطوة: $s = 1$
حدود التأخير: 10
عتبة الدلالة الإحصائية: $p = 0.05$

نتائج التجارب

النتائج الرئيسية

الأداء على مجموعات البيانات الاصطناعية (N=5, $\sigma_g^a = 1.0$ ):

مجموعة البيانات	F1 لـ PLaCy	أفضل F1 للخط الأساسي	TNR لـ PLaCy	أفضل TNR للخط الأساسي
OU( $\sigma_g^m = 0$ )	0.77±0.17	0.61±0.18	0.94±0.05	0.99±0.02
OU( $\sigma_g^m > 0$ )	0.80±0.17	0.79±0.11	0.94±0.06	0.98±0.03
ÔU( $\sigma_g^m = 0$ )	0.70±0.17	0.58±0.18	0.88±0.09	0.99±0.02
ÔU( $\sigma_g^m > 0$ )	0.80±0.17	0.71±0.13	0.93±0.07	0.98±0.03

نتائج مجموعات البيانات الحقيقية:

مجموعة البيانات	F1 لـ PLaCy	TNR لـ PLaCy	أفضل F1 للخط الأساسي	أفضل TNR للخط الأساسي
Rivers	0.51±0.10	0.75±0.13	0.47±0.07	0.74±0.05
AirQuality	0.45±0.04	0.66±0.07	0.44±0.01	0.95±0.02

الاكتشافات الرئيسية

قوة مقاومة الضوضاء الضربية: يظهر PLaCy أداءً استثنائياً في السيناريوهات التي تحتوي على ضوضاء ضربية
التكيف مع حالات عدم التوازن: يحافظ على أداء جيدة حتى في ظروف التهيئة غير المتوازنة
مزايا طرق المجال الترددي: يظهر التحليل الترددي مقاومة أفضل للضوضاء مقارنة بطرق المجال الزمني
تحسن العمومية: يمكن تطبيق المعالجة الطيفية المسبقة على طرق مثل PCMCI لتحسين الأداء بشكل كبير

تجارب الاستئصال

يظهر تحليل طول النافذة والخطوة:

تحقق الخطوة 1 أفضل أداء، مما يسمح بالتقاط التبعيات السببية قصيرة المدى
اختيار طول النافذة التكيفي من خلال معيار القيمة الاحتمالية يحقق أفضل النتائج
النوافذ القصيرة جداً أو الطويلة جداً تقلل الأداء

الأعمال ذات الصلة

اكتشاف العلاقات السببية التقليدي

سببية Granger: الطريقة الكلاسيكية القائمة على نماذج VAR
الطرق المقيدة: خوارزمية PC وامتداداتها الزمنية PCMCI
طرق التحسين: طرق التحسين المستمر مثل DYNOTEARS

تحليل السببية في المجال الترددي

تحليل Geweke: العمل الرائد في سببية Granger في المجال الترددي
طريقة DTF: التحليل الاتجاهي القائم على دالة النقل
الطرق غير البارامترية: الاستدلال المباشر للسببية من الطيف الترددي التجريبي

طرق التعلم العميق

Rhino: طريقة الشبكة العصبية للتعامل مع الضوضاء ذات التبعيات التاريخية
تعلم التمثيل السببي: اكتشاف العلاقات السببية المدمج مع التعلم العميق

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحقق PLaCy اكتشاف علاقات سببية أكثر قوة من خلال الاستفادة من ميزات الطيف لقانون القوة
تظهر الطريقة أداءً متفوقاً على كل من البيانات الاصطناعية والحقيقية
يوفر التحليل الترددي منظوراً جديداً لاكتشاف العلاقات السببية في السلاسل الزمنية

القيود

الأنظمة ذات التغيرات الطيفية البطيئة: فعالية محدودة للأنظمة التي تتغير معاملات الطيف فيها ببطء شديد
السلاسل الزمنية القصيرة: تتطلب سلاسل طويلة بما يكفي لتقدير طيفي مستقر
التعقيد الحسابي: تكاليف حسابية إضافية مقارنة بالطرق البسيطة

الاتجاهات المستقبلية

التوسع إلى طرق اكتشاف العلاقات السببية غير VAR
البحث المتعمق في المعاملات الإحصائية للكثافة الطيفية
التعامل مع تأثير العوامل المربكة المحتملة
تطوير خوارزميات اكتشاف علاقات سببية عبر الإنترنت أكثر كفاءة

التقييم المتعمق

المزايا

ابتكار قوي: أول استخدام منهجي لميزات الطيف لقانون القوة لاكتشاف العلاقات السببية
أساس نظري متين: يوفر تحليلاً نظرياً صارماً وإثباتات
تجارب شاملة: تغطي سيناريوهات اصطناعية متعددة وتطبيقات حقيقية
قيمة عملية عالية: يظهر مزايا كبيرة في بيئات الضوضاء

أوجه القصور

نطاق التطبيق: ينطبق بشكل أساسي على الأنظمة ذات خصائص الطيف لقانون القوة
اختيار المعاملات: يتطلب اختيار معاملات مثل طول النافذة خبرة
الكفاءة الحسابية: تكاليف حسابية أعلى مقارنة بالطرق البسيطة

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لاكتشاف العلاقات السببية في السلاسل الزمنية
القيمة العملية: آفاق تطبيق واسعة في المجالات التي تتمتع بخصائص قانون القوة مثل المالية والمناخ
قابلية إعادة الإنتاج: توفير وصف خوارزمي كامل وكود مفتوح المصدر

السيناريوهات المطبقة

تحليل بيانات الأسواق المالية
نمذجة الأنظمة المناخية
البحث في علم الأعصاب
تحليل الشبكات الاجتماعية
أي نظام معقد يتمتع بخصائص التنظيم الذاتي

المراجع

تستشهد الورقة بـ 51 مرجعاً ذا صلة، تغطي اكتشاف العلاقات السببية وتحليل السلاسل الزمنية والأنظمة المعقدة وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقدم طريقة مبتكرة في مجال اكتشاف العلاقات السببية في السلاسل الزمنية. من خلال الاستفادة الذكية من خصائص الطيف لقانون القوة في الأنظمة الحقيقية، تحقق نجاحاً في تحسين قوة اكتشاف العلاقات السببية. التحليل النظري صارم، وتصميم التجارب معقول، والنتائج مقنعة. يوفر هذا العمل أدوات ومنظوراً جديداً للاستدلال السببي في الأنظمة المعقدة.