2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

基本信息

  • 论文ID: 2510.14044
  • 标题: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
  • 作者: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
  • 分类: stat.ME (Statistics - Methodology)
  • 发表时间: October 17, 2025
  • 论文链接: https://arxiv.org/abs/2510.14044

摘要

多主体向量自回归(multi-VAR)模型通过将个体稀疏VAR转移矩阵分解为共同共享路径和主体特异性路径,捕获主体间的异质性网络Granger因果关系。尽管该模型已被应用于表征主体间隐藏的共享和独特路径,并在心理学和神经科学中展现出优于常用方法的性能,但其使用加权中位数识别共同效应的方式存在统计效率问题,因为共同路径和独特路径的收敛率由最不稀疏的主体和所有主体中最小的样本量决定。本文基于通信高效数据集成框架,提出了multi-VAR模型的新可识别性条件,实现了针对每个主体稀疏水平和样本量的定制化收敛率。此外,还开发了假设检验框架来评估个体路径的零性和同质性,使用基于个体去偏估计器构建的Wald型检验统计量,并可通过该框架导出共同路径显著性检验。

研究背景与动机

问题定义

本研究要解决的核心问题是多主体高维稀疏向量自回归建模中的统计效率和推断问题。具体包括:

  1. 统计效率问题:现有multi-VAR模型使用加权中位数识别共同效应,导致收敛率受限于最不稀疏主体和最小样本量,无法充分利用各主体的异质性特征。
  2. 推断框架缺失:缺乏针对多主体VAR模型的正式假设检验框架,无法评估个体路径的显著性、零性和同质性。

研究重要性

该问题在以下领域具有重要意义:

  • 神经科学:分析多个被试的脑网络连接模式,识别共同和个体特异的神经连接
  • 心理学:理解个体差异和共同心理过程
  • 基因组学:分析基因调控网络的共同和个体特异模式
  • 金融学:建模金融时间序列的系统性和个体风险

现有方法局限性

原始multi-VAR方法存在以下问题:

  1. 收敛率次优:∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k),受最不稀疏主体限制
  2. 计算效率低:需要堆叠所有主体方程求解大规模优化问题
  3. 缺乏推断工具:无法进行统计检验和不确定性量化

核心贡献

  1. 提出新的可识别性条件:基于通信高效数据集成框架,避免了加权中位数方法的统计效率问题
  2. 实现个体化收敛率:收敛率现在依赖于各主体自身的稀疏水平和样本量,而非全局最差情况
  3. 构建完整推断框架:开发了三类假设检验:零性检验、同质性检验和显著性检验
  4. 理论保证:提供了估计器的收敛率和检验统计量的渐近分布理论
  5. 计算效率提升:采用分别估计再聚合的策略,显著降低计算复杂度

方法详解

任务定义

给定K个主体的d维时间序列{X_t^(k)},每个主体有T_k个时间点,目标是:

  1. 估计共同路径 α^(0):所有主体共享的VAR转移矩阵参数
  2. 估计独特路径 α^(k):第k个主体特有的参数
  3. 满足分解关系:β^(k) = α^(0) + α^(k),其中β^(k)是第k个主体的完整参数向量

模型架构

1. VAR模型设定

每个主体遵循VAR(p)模型:

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

其中ε_t^(k) ~ N(0, Σ_ε^(k)),Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. 估计流程

步骤1:个体估计 对每个主体k和每个变量i,使用Lasso回归:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

步骤2:去偏估计 计算去偏估计器:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

其中Θ̂^(k)是Hessian矩阵的近似逆,通过节点回归计算。

步骤3:稳健聚合 使用重新下降损失函数识别共同路径:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

步骤4:稀疏化 应用硬阈值或软阈值恢复稀疏性:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

技术创新点

  1. 稳健M估计器:将共同效应识别视为测量污染问题,使用重新下降损失函数处理离群值
  2. 个体化阈值:δₖ ~ √(log q/Nₖ),δ₀ ~ √(log q/(KN_)),充分利用各主体的样本信息
  3. 通信高效框架:避免全局优化,每个主体可独立计算后聚合

实验设置

数据集

仿真数据

  • 参数设置:K ∈ {10,15},d ∈ {10,20},平均样本长度T ∈ {50,200}
  • 异质性水平:(s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)},分别对应高、中、低异质性
  • 总稀疏度:固定为6%
  • 重复次数:每种设置重复50次

真实数据

  • 数据源:Human Connectome Project (HCP)情感处理任务fMRI数据
  • 被试:12名女性,年龄22-30岁
  • 脑区划分:Schaefer2018 400-parcel atlas,映射到17个功能网络
  • 样本长度:平均Tₖ = 165个时间点

评价指标

估计性能

  • RMSE:∥α̂ - α∥₂/∥α∥₂
  • 敏感性:正确识别非零参数的比例
  • 特异性:正确识别零参数的比例

推断性能

  • FDR:假发现率
  • Power:统计功效
  • 计算时间:相对于基准方法的加速比

对比方法

  • multi-VAR:原始多主体VAR模型
  • multi-VAR(A):带自适应Lasso惩罚的multi-VAR

实验结果

主要结果

估计性能

  1. 低维情况(d=10):提出方法在RMSE上优于现有方法
  2. 高维情况(d=20):随样本量增加,性能差距缩小
  3. 敏感性和特异性:与自适应multi-VAR相当,表明个体化阈值起到类似自适应权重的作用

计算效率

提出方法在计算时间上显著优于基准方法:

  • d=10, T=50:加速比约2-3倍
  • d=20, T=200:加速比可达60-100倍

收敛率改进

理论分析表明,提出方法实现了个体化收敛率:

  • 共同路径:∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
  • 独特路径:∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

推断结果

假设检验性能

  1. 零性检验:FDR在0.0-0.6之间,功效0.5-1.0
  2. 同质性检验:FDR在0.0-0.6之间,功效0.4-1.0
  3. 显著性检验:FDR始终为0,功效0.25-1.0

检验性能随样本量增加而改善,对维度变化稳健。

真实数据应用

脑网络发现

  1. 共同连接:识别出所有被试共享的情感处理相关脑网络连接
  2. 个体差异:相比基准方法,提出方法识别出更稀疏但更具解释性的连接模式
  3. 生物学意义:发现的连接符合已知的情感处理神经机制

关键发现

  • 腹侧注意网络A与默认模式网络B的双向连接
  • 额顶叶网络A到边缘系统B的连接
  • 边缘系统内部的A到B连接

相关工作

多主体时间序列建模

  1. 多类VAR模型(Wilms et al., 2018):使用融合Lasso鼓励主体间相似性
  2. 非重叠支撑模型(Skripnikov & Michailidis, 2019):通过非凸惩罚区分共同和独特成分
  3. 联合VAR模型(Manomaisaowapak & Songsiri, 2022):使用组Lasso识别共同成分

高维时间序列

  • 稀疏VAR建模:Lasso类方法在高维设定下的应用
  • 去偏估计:高维回归中的统计推断理论
  • 稳健估计:处理异质性数据的M估计器方法

本文优势

相比现有方法,本文首次提供了:

  1. 理论保证的个体化收敛率
  2. 完整的统计推断框架
  3. 通信高效的计算策略

结论与讨论

主要结论

  1. 方法有效性:新的可识别性条件显著改善了multi-VAR模型的统计效率
  2. 理论贡献:建立了个体化收敛率理论,突破了现有方法的全局限制
  3. 实用价值:推断框架填补了多主体高维时间序列建模的重要空白
  4. 应用前景:在神经科学等领域展现出良好的应用潜力

局限性

  1. 分布假设:目前限于高斯创新,扩展到重尾分布仍是挑战
  2. 参数调节:交叉验证中的参数网格选择缺乏标准化准则
  3. 高阶滞后:扩展到VAR(p)模型时的结构化惩罚设计有待完善

未来方向

  1. 分布扩展:处理亚指数分布等更一般的创新分布
  2. 聚类扩展:结合部分共享路径的聚类分解
  3. 结构化建模:针对高阶滞后的重叠组稀疏方法

深度评价

优点

  1. 理论严谨性:提供了完整的收敛率分析和渐近分布理论
  2. 方法创新性:巧妙结合稳健估计和通信高效框架
  3. 实验全面性:涵盖多种异质性场景和真实数据验证
  4. 实用价值高:解决了该领域的重要理论和实践问题

不足

  1. 计算复杂性:三层交叉验证的参数选择计算成本较高
  2. 假设条件:Assumption 2.2中的技术条件较为严格
  3. 扩展性:方法向更复杂模型结构的扩展性有待验证

影响力

  1. 学术贡献:为多主体高维时间序列分析提供了新的理论框架
  2. 应用价值:在神经科学、心理学等领域具有广泛应用前景
  3. 可复现性:提供了完整的R包实现,便于研究复现

适用场景

  • 多主体脑网络分析
  • 个体差异研究
  • 异质性时间序列建模
  • 需要统计推断的高维VAR应用

参考文献

论文引用了丰富的相关文献,涵盖高维统计、时间序列分析、稳健估计等多个领域的重要工作,为研究提供了坚实的理论基础。