2025-11-24T14:22:17.661777

Robust Causal Discovery in Real-World Time Series with Power-Laws

Tusoni, Masi, Coletta et al.
Exploring causal relationships in stochastic time series is a challenging yet crucial task with a vast range of applications, including finance, economics, neuroscience, and climate science. Many algorithms for Causal Discovery (CD) have been proposed, but they often exhibit a high sensitivity to noise, resulting in misleading causal inferences when applied to real data. In this paper, we observe that the frequency spectra of typical real-world time series follow a power-law distribution, notably due to an inherent self-organizing behavior. Leveraging this insight, we build a robust CD method based on the extraction of power -law spectral features that amplify genuine causal signals. Our method consistently outperforms state-of-the-art alternatives on both synthetic benchmarks and real-world datasets with known causal structures, demonstrating its robustness and practical relevance.
academic

Robust Causal Discovery in Real-World Time Series with Power-Laws

基本信息

  • 论文ID: 2507.12257
  • 标题: Robust Causal Discovery in Real-World Time Series with Power-Laws
  • 作者: Matteo Tusoni, Giuseppe Masi, Andrea Coletta, Aldo Glielmo, Viviana Arrigoni, Novella Bartolini
  • 分类: cs.LG physics.data-an stat.ML stat.OT
  • 发表时间: 2025年10月12日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2507.12257

摘要

探索随机时间序列中的因果关系是一项具有挑战性但至关重要的任务,在金融、经济、神经科学和气候科学等领域有着广泛的应用。尽管已有许多因果发现(CD)算法被提出,但它们往往对噪声高度敏感,在应用于真实数据时容易产生误导性的因果推断。本文观察到典型真实世界时间序列的频谱遵循幂律分布,这主要由于其固有的自组织行为。基于这一洞察,我们构建了一种基于幂律谱特征提取的鲁棒因果发现方法,该方法能够放大真实的因果信号。我们的方法在合成基准和具有已知因果结构的真实世界数据集上始终优于最先进的替代方法,展现了其鲁棒性和实用相关性。

研究背景与动机

问题定义

本研究致力于解决时间序列数据中的因果发现问题,即从观测数据中识别变量间的因果关系。传统的因果发现方法,特别是基于Granger因果的方法,在面对真实世界的复杂数据时表现出以下局限性:

  1. 噪声敏感性:传统方法对非高斯噪声、非平稳性和非线性扰动高度敏感
  2. 假设限制:依赖于噪声平稳性和单一特征尺度等严格假设
  3. 虚假关系检测:容易将噪声相关性误认为因果关系

研究动机

作者观察到真实世界系统普遍展现出幂律频谱特性,这源于:

  • 多个相互作用单元的自组织行为
  • 缺乏外部协调器导致的尺度不变性
  • 系统的分形特性和长程时间相关性

基于这一观察,本文提出利用幂律谱特征进行更鲁棒的因果发现。

核心贡献

  1. 提出PLaCy框架:一种新颖的基于幂律谱特征的因果发现方法
  2. 理论保证:证明了频域变换下因果图结构的不变性(定理1)
  3. 实验验证:在合成和真实数据集上全面评估,展现出优越的鲁棒性
  4. 方法通用性:展示了谱预处理对其他因果发现算法的改进效果

方法详解

任务定义

给定多变量时间序列 xRL×dx \in \mathbb{R}^{L \times d},目标是推断有向图 G=(V,E)G = (V, E),其中:

  • V={1,2,...,d}V = \{1, 2, ..., d\} 表示系统变量
  • EV×VE \subseteq V \times V 表示因果边集合
  • 有向边 (i,j)(i,j) 存在当且仅当 xix_ixjx_j 的因果原因

模型架构

1. 滑动窗口分割

将每个时间序列分割为长度为 ll 的重叠窗口,步长为 sswik=(xi(ks),...,xi(ks+l1))w_i^k = (x_i(k \cdot s), ..., x_i(k \cdot s + l - 1))

2. 谱特征提取

对每个窗口应用离散傅里叶变换: ϕ(k)=t=0L1x(t)ei2πkt/L\phi(k) = \sum_{t=0}^{L-1} x(t) e^{-i2\pi k t/L}

计算谱幅度:A(fk)=ϕ(k)A(f_k) = |\phi(k)|

3. 幂律拟合

在对数-对数空间中拟合线性模型: logA(f)=aλlogf\log A(f) = a - \lambda \log f

其中 aa 是截距参数,λ>0\lambda > 0 是谱指数。

4. 因果分析

对提取的谱参数时间序列 (ai,λi)(a_i, \lambda_i) 应用多变量Granger因果测试,评估 (λi,ai)(\lambda_i, a_i)λj\lambda_j 的预测能力。

算法流程 (PLaCy)

输入: 时间序列 x = (x₁, ..., xₐ),窗口大小 l,步长 s
输出: 因果图 G

1. 将每个 xᵢ 分割为 ⌊(L-l)/s⌋+1 个滑动窗口 wᵢᵏ
2. for each i ∈ {1, ..., d} do
3.   for each k ∈ {0, ..., ⌊(L-l)/s⌋} do
4.     对 wᵢᵏ 应用 DFT 得到 φᵢᵏ
5.     通过方程(2)的拟合得到 (aᵢᵏ, λᵢᵏ)
6.   连接 (aᵢᵏ, λᵢᵏ) 得到时间序列 (aᵢ, λᵢ)
7. for each i,j ∈ {1, ..., d}, i ≠ j do
8.   Gᵢ,ⱼ ← Granger因果测试,以(aᵢ,λᵢ)为原因,λⱼ为结果
9. return G

技术创新点

  1. 频域因果发现:首次系统性地利用幂律谱特征进行因果推断
  2. 自适应窗口选择:通过p值准则自动选择最优窗口长度
  3. 噪声鲁棒性:谱拟合作为天然的去噪步骤,提高对非高斯波动的鲁棒性
  4. 理论基础:提供了谱变换下因果图不变性的理论证明

实验设置

数据集

合成数据集

基于广义Ornstein-Uhlenbeck过程生成四种场景: x(t+Δt)=x(t)+Δtτc(μx(t))+(σbϵb(t)+σgaϵga(t)+σgmϵgm(t)x(t))Δtx(t+\Delta t) = x(t) + \frac{\Delta t}{\tau_c}(\mu - x(t)) + (\sigma_b \epsilon_b(t) + \sigma_g^a \epsilon_g^a(t) + \sigma_g^m \epsilon_g^m(t) \cdot x(t))\sqrt{\Delta t}

  • OU(σgm=0\sigma_g^m = 0): 无乘性噪声的平衡态
  • OU(σgm>0\sigma_g^m > 0): 有乘性噪声的平衡态
  • ÔU(σgm=0\sigma_g^m = 0): 无乘性噪声的非平衡态
  • ÔU(σgm>0\sigma_g^m > 0): 有乘性噪声的非平衡态

真实数据集

  1. Rivers数据集:德国南部三个水文站的河流水位和降水数据
  2. AirQuality数据集:中国多个城市的PM2.5污染监测数据

评价指标

  • F1分数:衡量因果关系识别的整体性能
  • 真负率(TNR):评估算法排除虚假关联的能力

对比方法

  • 传统方法:Granger Causality, PCMCI, PCMCIΩ
  • 优化方法:DYNOTEARS, RCV-VarLiNGAM
  • 深度学习:Rhino
  • 非线性方法:CCM-Filtering
  • 频域方法:BCGeweke, DTF, GewekeNP

实现细节

  • 滑动窗口长度:l=50l = 50(通过p值准则选择)
  • 步长:s=1s = 1
  • 滞后项:10个
  • 统计显著性阈值:p=0.05p = 0.05

实验结果

主要结果

在合成数据集上的表现(N=5, σga=1.0\sigma_g^a = 1.0):

数据集PLaCy F1最佳基线 F1PLaCy TNR最佳基线 TNR
OU(σgm=0\sigma_g^m = 0)0.77±0.170.61±0.180.94±0.050.99±0.02
OU(σgm>0\sigma_g^m > 0)0.80±0.170.79±0.110.94±0.060.98±0.03
ÔU(σgm=0\sigma_g^m = 0)0.70±0.170.58±0.180.88±0.090.99±0.02
ÔU(σgm>0\sigma_g^m > 0)0.80±0.170.71±0.130.93±0.070.98±0.03

真实数据集结果:

数据集PLaCy F1PLaCy TNR最佳基线 F1最佳基线 TNR
Rivers0.51±0.100.75±0.130.47±0.070.74±0.05
AirQuality0.45±0.040.66±0.070.44±0.010.95±0.02

关键发现

  1. 乘性噪声鲁棒性:PLaCy在存在乘性噪声的场景下表现尤为突出
  2. 非平衡态适应性:在非平衡初始化条件下仍保持良好性能
  3. 频域方法优势:相比时域方法,频域分析展现出更好的噪声抗性
  4. 通用性改进:将谱预处理应用于PCMCI等方法可显著提升性能

消融实验

窗口长度和步长分析显示:

  • 步长为1时性能最优,能捕获短程因果依赖
  • 窗口长度通过p值准则自适应选择效果最佳
  • 过短或过长的窗口都会降低性能

相关工作

传统因果发现

  • Granger Causality:基于VAR模型的经典方法
  • 约束方法:PC算法及其时序扩展PCMCI
  • 优化方法:DYNOTEARS等连续优化方法

频域因果分析

  • Geweke分解:频域Granger因果的开创性工作
  • DTF方法:基于传递函数的方向性分析
  • 非参数方法:直接从经验功率谱估计因果性

深度学习方法

  • Rhino:处理历史依赖噪声的神经网络方法
  • 因果表示学习:结合深度学习的因果发现

结论与讨论

主要结论

  1. PLaCy通过利用幂律谱特征实现了更鲁棒的因果发现
  2. 方法在合成和真实数据上均展现出优越性能
  3. 频域分析为时间序列因果发现提供了新的视角

局限性

  1. 谱变化缓慢的系统:对于谱参数变化很慢的系统效果有限
  2. 短时间序列:需要足够长的序列进行稳定的谱估计
  3. 计算复杂度:相比简单方法有额外的谱分析开销

未来方向

  1. 扩展到非VAR因果发现方法
  2. 深入研究谱密度的统计参数
  3. 处理潜在混杂因子的影响
  4. 开发更高效的在线因果发现算法

深度评价

优点

  1. 创新性强:首次系统性地将幂律谱特征用于因果发现
  2. 理论扎实:提供了严格的理论分析和证明
  3. 实验全面:涵盖多种合成场景和真实应用
  4. 实用价值高:在噪声环境下表现出显著优势

不足

  1. 适用范围:主要适用于具有幂律谱特性的系统
  2. 参数选择:窗口长度等参数的选择需要经验
  3. 计算效率:相比简单方法计算开销较大

影响力

  1. 学术贡献:为时间序列因果发现提供了新的研究方向
  2. 实用价值:在金融、气候等具有幂律特性的领域有广泛应用前景
  3. 可复现性:提供了完整的算法描述和开源代码

适用场景

  • 金融市场数据分析
  • 气候系统建模
  • 神经科学研究
  • 社会网络分析
  • 任何具有自组织特性的复杂系统

参考文献

论文引用了51篇相关文献,涵盖了因果发现、时间序列分析、复杂系统等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的研究论文,在时间序列因果发现领域提出了创新性的方法。通过巧妙地利用真实世界系统的幂律谱特性,成功提升了因果发现的鲁棒性。理论分析严谨,实验设计合理,结果令人信服。该工作为复杂系统中的因果推断提供了新的工具和视角。