2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras

The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.

academic

다중 피험자 고차원 희소 벡터 자기회귀 모델의 결합 모델링 및 추론

기본 정보

논문 ID: 2510.14044
제목: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
저자: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
분류: stat.ME (통계학 - 방법론)
발표 시간: 2025년 10월 17일
논문 링크: https://arxiv.org/abs/2510.14044

초록

다중 피험자 벡터 자기회귀(multi-VAR) 모델은 개별 희소 VAR 전이 행렬을 공통 공유 경로와 피험자 특이적 경로로 분해하여 피험자 간의 이질적 네트워크 Granger 인과관계를 포착한다. 이 모델이 피험자 간 숨겨진 공유 및 고유 경로를 특성화하고 심리학 및 신경과학에서 일반적인 방법보다 우수한 성능을 보였음에도 불구하고, 가중 중앙값을 사용하여 공통 효과를 식별하는 방식은 통계적 효율성 문제를 가지고 있다. 공통 경로와 고유 경로의 수렴률이 가장 희소하지 않은 피험자와 모든 피험자 중 최소 표본 크기에 의해 결정되기 때문이다. 본 논문은 통신 효율적 데이터 통합 프레임워크를 기반으로 multi-VAR 모델의 새로운 식별 가능성 조건을 제시하여 각 피험자의 희소 수준과 표본 크기에 맞춘 수렴률을 달성한다. 또한 개별 경로의 영성(nullity)과 동질성을 평가하기 위한 가설 검정 프레임워크를 개발하였으며, 개별 비편향 추정기를 기반으로 구성된 Wald형 검정 통계량을 사용하고, 이 프레임워크를 통해 공통 경로 유의성 검정을 도출할 수 있다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 다중 피험자 고차원 희소 벡터 자기회귀 모델링에서의 통계적 효율성 및 추론 문제이다. 구체적으로는:

통계적 효율성 문제: 기존 multi-VAR 모델은 가중 중앙값을 사용하여 공통 효과를 식별하므로, 수렴률이 가장 희소하지 않은 피험자와 최소 표본 크기에 의해 제한되어 각 피험자의 이질적 특성을 충분히 활용할 수 없다.
추론 프레임워크 부재: 다중 피험자 VAR 모델에 대한 공식적인 가설 검정 프레임워크가 부족하여 개별 경로의 유의성, 영성 및 동질성을 평가할 수 없다.

연구의 중요성

이 문제는 다음 분야에서 중요한 의미를 가진다:

신경과학: 여러 피험자의 뇌 네트워크 연결 패턴 분석, 공통 및 피험자 특이적 신경 연결 식별
심리학: 개인차 및 공통 심리 과정의 이해
유전체학: 유전자 조절 네트워크의 공통 및 피험자 특이적 패턴 분석
금융학: 금융 시계열의 체계적 및 개별 위험 모델링

기존 방법의 한계

원래의 multi-VAR 방법은 다음과 같은 문제점을 가지고 있다:

차선의 수렴률: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), 가장 희소하지 않은 피험자에 의해 제한됨
낮은 계산 효율성: 모든 피험자 방정식을 쌓아서 대규모 최적화 문제를 풀어야 함
추론 도구 부재: 통계 검정 및 불확실성 정량화 수행 불가

핵심 기여

새로운 식별 가능성 조건 제시: 통신 효율적 데이터 통합 프레임워크를 기반으로 가중 중앙값 방법의 통계적 효율성 문제 해결
개별화된 수렴률 달성: 수렴률이 이제 전역 최악의 경우가 아닌 각 피험자 자신의 희소 수준과 표본 크기에 의존
완전한 추론 프레임워크 구축: 영성 검정, 동질성 검정, 유의성 검정의 세 가지 가설 검정 개발
이론적 보장: 추정기의 수렴률 및 검정 통계량의 점근 분포 이론 제공
계산 효율성 향상: 개별 추정 후 집계 전략 채택으로 계산 복잡도 대폭 감소

방법론 상세 설명

작업 정의

K개 피험자의 d차원 시계열 {X_t^(k)}가 주어졌을 때, 각 피험자는 T_k개의 시점을 가지며, 목표는:

공통 경로 추정 α^(0): 모든 피험자가 공유하는 VAR 전이 행렬 매개변수
고유 경로 추정 α^(k): k번째 피험자 특유의 매개변수
분해 관계 만족: β^(k) = α^(0) + α^(k), 여기서 β^(k)는 k번째 피험자의 완전한 매개변수 벡터

모델 아키텍처

1. VAR 모델 설정

각 피험자는 VAR(p) 모델을 따른다:

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

여기서 ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. 추정 절차

단계 1: 개별 추정 각 피험자 k와 각 변수 i에 대해 Lasso 회귀 사용:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

단계 2: 비편향 추정 비편향 추정기 계산:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

여기서 Θ̂^(k)는 Hessian 행렬의 근사 역행렬이며, 노드 회귀를 통해 계산된다.

단계 3: 견고한 집계 재내림차순 손실 함수를 사용하여 공통 경로 식별:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

단계 4: 희소화 경질 임계값 또는 연질 임계값 적용하여 희소성 복원:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

기술적 혁신점

견고한 M-추정기: 공통 효과 식별을 측정 오염 문제로 간주하고 재내림차순 손실 함수를 사용하여 이상치 처리
개별화된 임계값: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), 각 피험자의 표본 정보를 충분히 활용
통신 효율적 프레임워크: 전역 최적화 회피, 각 피험자는 독립적으로 계산 후 집계 가능

매개변수 설정: K ∈ {10,15}, d ∈ {10,20}, 평균 표본 길이 T ∈ {50,200}
이질성 수준: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, 각각 높음, 중간, 낮음 이질성에 해당
전체 희소도: 6%로 고정
반복 횟수: 각 설정마다 50회 반복