2025-11-18T03:28:13.707066

Ancestor regression in structural vector autoregressive models

Schultheiss, Ulmer, Bühlmann
We present a new method for causal discovery in linear structural vector autoregressive models. We adapt an idea designed for independent observations to the case of time series while retaining its favorable properties, i.e., explicit error control for false causal discovery, at least asymptotically. We apply our method to several real-world bivariate time series datasets and discuss its findings which mostly agree with common understanding. The arrow of time in a model can be interpreted as background knowledge on possible causal mechanisms. Hence, our ideas could be extended to incorporating different background knowledge, even for independent observations.
academic

Ancestor regression in structural vector autoregressive models

基本信息

  • 论文ID: 2403.03778
  • 标题: Ancestor regression in structural vector autoregressive models
  • 作者: Christoph Schultheiss, Markus Ulmer, Peter Bühlmann (ETH Zürich)
  • 分类: stat.ME (Statistics - Methodology)
  • 发表时间: 2025年1月3日 (arXiv版本)
  • 论文链接: https://arxiv.org/abs/2403.03778

摘要

本文提出了一种在线性结构向量自回归模型中进行因果发现的新方法。作者将原本为独立观测设计的ancestor regression方法扩展到时间序列情况,同时保持其有利特性,即对虚假因果发现的显式误差控制(至少在渐近意义下)。该方法应用于多个真实世界的二元时间序列数据集,结果大多与常识理解一致。时间箭头可以被解释为可能因果机制的背景知识,因此该思路可以扩展到结合不同的背景知识,甚至适用于独立观测。

研究背景与动机

  1. 要解决的问题:现实世界数据集通常具有时间结构,违反了因果发现中广泛使用的独立同分布假设。本文旨在解决结构向量自回归(SVAR)模型中的因果发现问题。
  2. 问题重要性:时间序列数据在实际应用中非常普遍,但传统的因果发现方法主要针对独立观测设计。时间依赖性虽然带来估计困难,但也提供了优势——预测变量不能因果影响表示较早时间点的其他变量。
  3. 现有方法局限性
    • 传统方法如LiNGAM主要针对独立观测
    • 缺乏对时间序列中因果发现的显式误差控制
    • 现有SVAR扩展方法缺乏理论保证
  4. 研究动机:将Schultheiss和Bühlmann (2023)的ancestor regression方法扩展到多元时间序列,保持其渐近保证的同时处理时间依赖性。

核心贡献

  1. 方法扩展:将ancestor regression从独立观测扩展到线性SVAR模型,处理瞬时和滞后因果关系
  2. 误差控制:提供渐近I型误差保证,实现对虚假因果发现的显式控制
  3. 调整集选择:展示如何为不同时间滞后选择正确的调整集以获得误差控制
  4. 网络推断:提出构建瞬时效应图和汇总时间图的算法
  5. 实证验证:在真实世界数据集上验证方法的有效性

方法详解

任务定义

给定多元时间序列 xt,jx_{t,j} (t = 1,...,T; j = 1,...,d),目标是识别变量间的因果祖先关系,包括瞬时效应(τ=0)和滞后效应(τ>0)。

模型架构

SVAR模型xt=τ=0pBτxtτ+ϵtx_t = \sum_{\tau=0}^p B_\tau x_{t-\tau} + \epsilon_t

其中:

  • B0B_0对应瞬时效应,假设为无环结构
  • BτB_\tau (τ>0)为滞后效应矩阵
  • ϵt\epsilon_t为独立创新项

等价形式xt=τ=1pB~τxtτ+ξtx_t = \sum_{\tau=1}^p \tilde{B}_\tau x_{t-\tau} + \xi_t

核心算法

Ancestor Regression核心思想: 对于非线性函数f(·),使用最小二乘回归: f(ξt,jτ) versus ξtτf(\xi^{\tau}_{t,j}) \text{ versus } \xi_{t-\tau}

其中ξt,jτ\xi^{\tau}_{t,j}ξtτ\xi_{t-\tau}是投影出较早时间点贡献后的残差。

关键定理1:对于k ∉ AN_τ(j)(k不是j的τ滞后祖先),有: βkf,j,τ=E[ztτ,kf(ξt,jτ)]/E[ztτ,k2]=0\beta^{f,j,\tau}_k = E[z_{t-\tau,k}f(\xi^{\tau}_{t,j})]/E[z^2_{t-\tau,k}] = 0

技术创新点

  1. 残差构造:通过投影去除较早时间点的影响,提高信噪比
  2. 滞后调整:针对不同滞后τ构造适当的调整集
  3. 渐近理论:建立在近周期依赖性基础上的渐近正态性
  4. 网络推断:递归构造祖先关系,处理循环检测

实验设置

数据集

仿真数据

  • 变量数:d = 6, 10, 50
  • SVAR阶数:p = 1
  • 样本量:10² 到 10⁶
  • 误差分布:t₇、均匀、Laplace、正态分布的混合
  • 边权重:均匀分布,控制信噪比

真实数据

  1. Old Faithful间歇泉:等待时间vs喷发持续时间(299观测)
  2. 燃气炉:输入气体速率vs输出CO₂浓度(296观测)
  3. 乳制品价格:黄油vs切达奶酪价格(522观测)

评价指标

  • Family-wise error rate (FWER):虚假发现的家族错误率
  • Power:真实因果关系的检测率
  • p值:基于渐近正态分布的假设检验

对比方法

  • LiNGAM算法(Hyvärinen et al., 2010)
  • 不同样本量和隐变量设置下的性能对比

实现细节

  • 非线性函数:f(x) = sign(x)|x|³
  • 多重性校正:Bonferroni-Holm方法
  • 显著性水平:α = 0.05

实验结果

主要结果

仿真实验

  • 对于非祖先变量,平均绝对z统计量接近理论零假设分布均值
  • I型错误在所有样本量下都得到控制
  • 检测功效随样本量增加而提升
  • 滞后祖先的检测比瞬时祖先更容易(信号更强)

网络推断

  • 瞬时效应图和汇总时间图都实现了良好的祖先-非祖先分离
  • 递归构造帮助检测难以单独发现的效应
  • 大样本下几乎完美的性能

消融实验

隐变量影响

  • 违反假设时失去预定水平的错误控制
  • 但仍保持祖先与非祖先间的效应大小分离
  • p值排序仍能指示真实祖先

不同祖先类型

  • 直接滞后效应(B~4,k0\tilde{B}_{4,k} \neq 0):最强信号
  • 瞬时祖先:中等信号
  • 通过瞬时效应介导的滞后祖先:最弱信号

案例分析

Old Faithful间歇泉

  • 原始数据:未检测到显著瞬时效应
  • 时间调整后:检测到喷发持续时间→等待时间的瞬时效应(p=5×10⁻⁴)
  • 符合领域知识

燃气炉

  • 无瞬时效应
  • 检测到输入气体速率→输出CO₂浓度的滞后效应(p=4×10⁻²⁰)

乳制品价格

  • 检测到黄油→切达奶酪的滞后效应(p=5×10⁻¹⁵)
  • 未发现反向效应,排除隐混杂假设

实验发现

  1. 方法在有限样本下表现良好
  2. 时间结构提供的先验知识有助于因果推断
  3. 递归构造显著提高网络推断性能
  4. 对模型假设违反具有一定鲁棒性

相关工作

主要研究方向

  1. LiNGAM系列:Shimizu et al. (2006)的线性非高斯无环模型及其时间序列扩展
  2. 结构因果模型:Peters et al. (2013)的受限结构方程模型
  3. Ancestor regression:Schultheiss & Bühlmann (2023)的独立观测方法

本文与相关工作的关系

  • 扩展了ancestor regression到时间序列设置
  • 与LiNGAM的SVAR扩展在识别能力上类似,但提供误差控制
  • 相比传统方法,计算效率更高

优势对比

  • vs LiNGAM:提供可解释的误差控制,但功效略低
  • vs 传统方法:利用时间结构,避免某些识别性问题
  • vs 其他SVAR方法:理论保证更强,实现更简单

结论与讨论

主要结论

  1. 成功将ancestor regression扩展到SVAR模型
  2. 保持了渐近I型误差控制的优良特性
  3. 在仿真和真实数据上验证了方法有效性
  4. 为时间序列因果发现提供了新的理论框架

局限性

  1. 模型假设:要求线性关系和独立创新项
  2. 瞬时无环性:假设瞬时效应无环,可能不现实
  3. 高斯噪声:对相邻变量的高斯噪声敏感
  4. 隐变量:存在未观测变量时失去误差控制

未来方向

  1. 背景知识整合:扩展到更一般的背景知识设置
  2. 非线性扩展:处理非线性因果关系
  3. 高维优化:改进高维时间序列的计算效率
  4. 鲁棒性增强:对模型假设违反的鲁棒方法

深度评价

优点

  1. 理论严谨:提供完整的渐近理论分析和证明
  2. 方法创新:巧妙利用时间结构进行因果推断
  3. 实用性强:计算简单,易于实现
  4. 验证充分:仿真和真实数据验证全面
  5. 写作清晰:逻辑清晰,数学表述准确

不足

  1. 假设严格:线性和独立性假设限制了适用范围
  2. 功效问题:某些情况下功效低于LiNGAM
  3. 真实数据有限:仅在二元时间序列上验证
  4. 高维挑战:大规模网络的多重性校正过于保守

影响力

  1. 理论贡献:为时间序列因果发现提供新理论框架
  2. 方法学价值:ancestor regression的重要扩展
  3. 实用价值:为实际时间序列分析提供工具
  4. 可复现性:代码公开,结果可重现

适用场景

  1. 经济时间序列:宏观经济变量间因果关系分析
  2. 生物医学:生理信号间的因果推断
  3. 工程系统:控制系统中的因果关系识别
  4. 社会科学:社会现象的动态因果分析

参考文献

  1. Schultheiss, C. and Bühlmann, P. (2023). Ancestor regression in linear structural equation models. Biometrika, 110(4):1117–1124.
  2. Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., and Jordan, M. (2006). A linear non-gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(10).
  3. Peters, J., Janzing, D., and Schölkopf, B. (2013). Causal inference on time series using restricted structural equation models. Advances in neural information processing systems, 26.
  4. Hyvärinen, A., Zhang, K., Shimizu, S., and Hoyer, P. O. (2010). Estimation of a structural vector autoregression model using non-gaussianity. Journal of Machine Learning Research, 11(5).

总体评价:这是一篇高质量的方法学论文,在理论和实践层面都有重要贡献。作者成功地将一个重要的因果发现方法扩展到时间序列设置,保持了原方法的优良特性。尽管存在一些局限性,但为时间序列因果推断领域提供了有价值的工具和理论基础。