2025-11-24T14:22:17.661777

Robust Causal Discovery in Real-World Time Series with Power-Laws

Tusoni, Masi, Coletta et al.

Exploring causal relationships in stochastic time series is a challenging yet crucial task with a vast range of applications, including finance, economics, neuroscience, and climate science. Many algorithms for Causal Discovery (CD) have been proposed, but they often exhibit a high sensitivity to noise, resulting in misleading causal inferences when applied to real data. In this paper, we observe that the frequency spectra of typical real-world time series follow a power-law distribution, notably due to an inherent self-organizing behavior. Leveraging this insight, we build a robust CD method based on the extraction of power -law spectral features that amplify genuine causal signals. Our method consistently outperforms state-of-the-art alternatives on both synthetic benchmarks and real-world datasets with known causal structures, demonstrating its robustness and practical relevance.

academic

Надёжное причинно-следственное обнаружение в реальных временных рядах со степенными законами

Основная информация

ID статьи: 2507.12257
Название: Robust Causal Discovery in Real-World Time Series with Power-Laws
Авторы: Matteo Tusoni, Giuseppe Masi, Andrea Coletta, Aldo Glielmo, Viviana Arrigoni, Novella Bartolini
Классификация: cs.LG physics.data-an stat.ML stat.OT
Дата публикации: 12 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2507.12257

Аннотация

Исследование причинно-следственных связей в стохастических временных рядах является сложной, но критически важной задачей с широким применением в финансах, экономике, нейронауке и климатологии. Несмотря на множество предложенных алгоритмов причинного обнаружения (CD), они часто высокочувствительны к шуму и при применении к реальным данным приводят к ошибочным причинным выводам. В данной работе показано, что спектры типичных реальных временных рядов подчиняются степенному распределению, что главным образом обусловлено их внутренней самоорганизацией. На основе этого наблюдения разработан надёжный метод причинного обнаружения, основанный на извлечении спектральных признаков со степенным законом, способный усилить истинные причинные сигналы. Предложенный метод последовательно превосходит современные альтернативные подходы на синтетических эталонах и реальных наборах данных с известной причинной структурой, демонстрируя его надёжность и практическую значимость.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение задачи причинного обнаружения в данных временных рядов, то есть на выявление причинно-следственных связей между переменными на основе наблюдаемых данных. Традиционные методы причинного обнаружения, в частности методы, основанные на причинности Грейнджера, демонстрируют следующие ограничения при работе со сложными реальными данными:

Чувствительность к шуму: традиционные методы высокочувствительны к негауссовому шуму, нестационарности и нелинейным возмущениям
Ограничения предположений: зависимость от строгих предположений о стационарности шума и единственности характерного масштаба
Обнаружение ложных связей: склонность к ошибочной интерпретации корреляций шума как причинных связей

Исследовательская мотивация

Авторы наблюдают, что реальные системы повсеместно демонстрируют спектральные характеристики со степенным законом, вытекающие из:

Самоорганизованного поведения множественных взаимодействующих единиц
Масштабной инвариантности, вызванной отсутствием внешних координаторов
Фрактальных свойств системы и долгосрочных временных корреляций

На основе этого наблюдения в статье предлагается использование спектральных признаков со степенным законом для более надёжного причинного обнаружения.

Основные вклады

Предложение фреймворка PLaCy: новый метод причинного обнаружения, основанный на спектральных признаках со степенным законом
Теоретические гарантии: доказательство инвариантности структуры причинного графа при частотной области трансформации (Теорема 1)
Экспериментальная верификация: комплексная оценка на синтетических и реальных наборах данных, демонстрирующая превосходную надёжность
Универсальность метода: демонстрация улучшающего эффекта спектральной предварительной обработки для других алгоритмов причинного обнаружения

Подробное описание метода

Определение задачи

Учитывая многомерный временной ряд $x \in \mathbb{R}^{L \times d}$ , целью является вывод ориентированного графа $G = (V, E)$ , где:

$V = \{1, 2, ..., d\}$ представляет переменные системы
$E \subseteq V \times V$ представляет набор причинных рёбер
Ориентированное ребро $(i,j)$ существует тогда и только тогда, когда $x_i$ является причинной причиной $x_j$

Архитектура модели

1. Разделение скользящим окном

Каждый временной ряд разделяется на перекрывающиеся окна длины $l$ с шагом $s$ : $w_i^k = (x_i(k \cdot s), ..., x_i(k \cdot s + l - 1))$

2. Извлечение спектральных признаков

Дискретное преобразование Фурье применяется к каждому окну: $\phi(k) = \sum_{t=0}^{L-1} x(t) e^{-i2\pi k t/L}$

Вычисление спектральной амплитуды: $A(f_k) = |\phi(k)|$

3. Аппроксимация степенного закона

Линейная модель аппроксимируется в логарифмическом пространстве: $\log A(f) = a - \lambda \log f$

где $a$ — параметр пересечения, $\lambda > 0$ — спектральный показатель.

4. Причинный анализ

Многомерный тест причинности Грейнджера применяется к извлечённым временным рядам спектральных параметров $(a_i, \lambda_i)$ , оценивая предсказательную способность $(\lambda_i, a_i)$ для $\lambda_j$ .

Алгоритм (PLaCy)

Вход: временной ряд x = (x₁, ..., xₐ), размер окна l, шаг s
Выход: причинный граф G

1. Разделить каждый xᵢ на ⌊(L-l)/s⌋+1 скользящих окон wᵢᵏ
2. for each i ∈ {1, ..., d} do
3.   for each k ∈ {0, ..., ⌊(L-l)/s⌋} do
4.     Применить DFT к wᵢᵏ, получить φᵢᵏ
5.     Получить (aᵢᵏ, λᵢᵏ) через аппроксимацию уравнения (2)
6.   Объединить (aᵢᵏ, λᵢᵏ) в временной ряд (aᵢ, λᵢ)
7. for each i,j ∈ {1, ..., d}, i ≠ j do
8.   Gᵢ,ⱼ ← тест причинности Грейнджера с (aᵢ,λᵢ) как причина, λⱼ как результат
9. return G

Технические инновации

Причинное обнаружение в частотной области: первое систематическое использование спектральных признаков со степенным законом для причинного вывода
Адаптивный выбор окна: автоматический выбор оптимальной длины окна через критерий p-значения
Надёжность к шуму: спектральная аппроксимация как естественный шаг шумоподавления, повышающий надёжность к негауссовым колебаниям
Теоретическая основа: теоретическое доказательство инвариантности причинного графа при спектральной трансформации

Экспериментальная установка

Наборы данных

Синтетические наборы данных

Четыре сценария, основанные на обобщённом процессе Орнштейна-Уленбека: $x(t+\Delta t) = x(t) + \frac{\Delta t}{\tau_c}(\mu - x(t)) + (\sigma_b \epsilon_b(t) + \sigma_g^a \epsilon_g^a(t) + \sigma_g^m \epsilon_g^m(t) \cdot x(t))\sqrt{\Delta t}$

OU( $\sigma_g^m = 0$ ): равновесное состояние без мультипликативного шума
OU( $\sigma_g^m > 0$ ): равновесное состояние с мультипликативным шумом
ÔU( $\sigma_g^m = 0$ ): неравновесное состояние без мультипликативного шума
ÔU( $\sigma_g^m > 0$ ): неравновесное состояние с мультипликативным шумом

Реальные наборы данных

Набор данных Rivers: данные об уровне воды и осадках на трёх гидрологических станциях в южной Германии
Набор данных AirQuality: данные мониторинга загрязнения PM2.5 в нескольких китайских городах

Метрики оценки

F1-оценка: измерение общей производительности идентификации причинных связей
Истинный отрицательный коэффициент (TNR): оценка способности алгоритма исключать ложные ассоциации

Методы сравнения

Традиционные методы: Granger Causality, PCMCI, PCMCIΩ
Оптимизационные методы: DYNOTEARS, RCV-VarLiNGAM
Глубокое обучение: Rhino
Нелинейные методы: CCM-Filtering
Методы частотной области: BCGeweke, DTF, GewekeNP

Детали реализации

Длина скользящего окна: $l = 50$ (выбирается через критерий p-значения)
Шаг: $s = 1$
Лаговые члены: 10
Порог статистической значимости: $p = 0.05$

Результаты экспериментов

Основные результаты

Производительность на синтетических наборах данных (N=5, $\sigma_g^a = 1.0$ ):

Набор данных	PLaCy F1	Лучший базовый F1	PLaCy TNR	Лучший базовый TNR
OU( $\sigma_g^m = 0$ )	0.77±0.17	0.61±0.18	0.94±0.05	0.99±0.02
OU( $\sigma_g^m > 0$ )	0.80±0.17	0.79±0.11	0.94±0.06	0.98±0.03
ÔU( $\sigma_g^m = 0$ )	0.70±0.17	0.58±0.18	0.88±0.09	0.99±0.02
ÔU( $\sigma_g^m > 0$ )	0.80±0.17	0.71±0.13	0.93±0.07	0.98±0.03

Результаты на реальных наборах данных:

Набор данных	PLaCy F1	PLaCy TNR	Лучший базовый F1	Лучший базовый TNR
Rivers	0.51±0.10	0.75±0.13	0.47±0.07	0.74±0.05
AirQuality	0.45±0.04	0.66±0.07	0.44±0.01	0.95±0.02

Ключевые выводы

Надёжность к мультипликативному шуму: PLaCy особенно выделяется в сценариях с мультипликативным шумом
Адаптивность к неравновесным состояниям: сохранение хорошей производительности при неравновесных начальных условиях
Преимущества методов частотной области: частотный анализ демонстрирует лучшую устойчивость к шуму по сравнению с методами временной области
Универсальное улучшение: применение спектральной предварительной обработки к методам PCMCI и другим может значительно повысить производительность

Абляционные исследования

Анализ длины окна и шага показывает:

Оптимальная производительность достигается при шаге 1, что позволяет захватить краткосрочные причинные зависимости
Адаптивный выбор длины окна через критерий p-значения даёт наилучшие результаты
Слишком короткие или слишком длинные окна снижают производительность

Связанные работы

Традиционное причинное обнаружение

Причинность Грейнджера: классический метод, основанный на моделях VAR
Методы ограничений: алгоритм PC и его расширение для временных рядов PCMCI
Методы оптимизации: DYNOTEARS и другие методы непрерывной оптимизации

Причинный анализ в частотной области

Разложение Geweke: пионерская работа по причинности Грейнджера в частотной области
Метод DTF: анализ направленности, основанный на передаточных функциях
Непараметрические методы: прямая оценка причинности из эмпирического спектра мощности

Методы глубокого обучения

Rhino: нейросетевой метод для обработки шума с историческими зависимостями
Причинное представительное обучение: причинное обнаружение с интеграцией глубокого обучения

Заключение и обсуждение

Основные выводы

PLaCy достигает более надёжного причинного обнаружения благодаря использованию спектральных признаков со степенным законом
Метод демонстрирует превосходную производительность как на синтетических, так и на реальных данных
Анализ в частотной области предоставляет новую перспективу для причинного обнаружения во временных рядах

Ограничения

Системы с медленно меняющимся спектром: ограниченная эффективность для систем со слабо меняющимися спектральными параметрами
Короткие временные ряды: требуется достаточно длинный ряд для стабильной спектральной оценки
Вычислительная сложность: дополнительные затраты на спектральный анализ по сравнению с простыми методами

Направления будущих исследований

Расширение на методы причинного обнаружения, не основанные на VAR
Глубокое исследование статистических параметров спектральной плотности
Обработка влияния потенциальных смешивающих факторов
Разработка более эффективных алгоритмов причинного обнаружения в реальном времени

Глубокая оценка

Преимущества

Высокая инновационность: первое систематическое использование спектральных признаков со степенным законом для причинного обнаружения
Прочная теоретическая база: строгий теоретический анализ и доказательства
Комплексные эксперименты: охват множества синтетических сценариев и реальных приложений
Высокая практическая ценность: значительные преимущества в шумной среде

Недостатки

Область применения: в основном применимо к системам со спектральными характеристиками степенного закона
Выбор параметров: выбор параметров, таких как длина окна, требует опыта
Вычислительная эффективность: большие вычислительные затраты по сравнению с простыми методами

Влияние

Академический вклад: предоставляет новое направление исследований для причинного обнаружения во временных рядах
Практическая ценность: широкие перспективы применения в финансах, климатологии и других областях со степенными характеристиками
Воспроизводимость: полное описание алгоритма и открытый исходный код

Сценарии применения

Анализ данных финансовых рынков
Моделирование климатических систем
Исследования в нейронауке
Анализ социальных сетей
Любые сложные системы с самоорганизованными характеристиками

Библиография

Статья цитирует 51 соответствующий источник, охватывающий важные работы в области причинного обнаружения, анализа временных рядов и сложных систем, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: это высококачественная исследовательская статья, предлагающая инновационный метод в области причинного обнаружения во временных рядах. Благодаря умелому использованию спектральных характеристик со степенным законом, присущих реальным системам, успешно повышена надёжность причинного обнаружения. Теоретический анализ строг, экспериментальный дизайн обоснован, результаты убедительны. Данная работа предоставляет новые инструменты и перспективы для причинного вывода в сложных системах.