Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic
Modellazione congiunta e inferenza di modelli vettoriali autoregressivi ad alta dimensionalità sparsi multi-soggetto
Titolo: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Autori: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
I modelli vettoriali autoregressivi multi-soggetto (multi-VAR) catturano l'eterogeneità delle relazioni di causalità di Granger tra soggetti decomponendo le matrici di transizione VAR sparse individuali in percorsi comuni condivisi e percorsi specifici del soggetto. Sebbene questo modello sia stato applicato per caratterizzare percorsi nascosti comuni e unici tra soggetti, mostrando prestazioni superiori ai metodi comunemente utilizzati in psicologia e neuroscienze, il suo utilizzo della mediana ponderata per identificare gli effetti comuni presenta problemi di efficienza statistica, poiché i tassi di convergenza dei percorsi comuni e unici sono determinati dal soggetto meno sparso e dalla dimensione campionaria minima tra tutti i soggetti. Questo articolo propone nuove condizioni di identificabilità per il modello multi-VAR basate su un framework di integrazione dati efficienti in termini di comunicazione, realizzando tassi di convergenza personalizzati per il livello di sparsità e la dimensione campionaria di ciascun soggetto. Inoltre, sviluppa un framework di verifica di ipotesi per valutare la nullità e l'omogeneità dei percorsi individuali, utilizzando statistiche di test di tipo Wald costruite su stimatori deviati individuali, da cui possono essere derivate verifiche di significatività dei percorsi comuni.
Il problema centrale affrontato da questa ricerca riguarda l'efficienza statistica e l'inferenza nella modellazione vettoriale autoregressiva sparsa ad alta dimensionalità multi-soggetto. Nello specifico:
Problema di Efficienza Statistica: Il modello multi-VAR esistente utilizza la mediana ponderata per identificare gli effetti comuni, determinando tassi di convergenza limitati dal soggetto meno sparso e dalla dimensione campionaria minima, senza sfruttare pienamente le caratteristiche eterogenee di ciascun soggetto.
Assenza di Framework Inferenziale: Manca un framework formale di verifica di ipotesi per modelli VAR multi-soggetto, impedendo la valutazione della significatività, nullità e omogeneità dei percorsi individuali.
Questo problema riveste importanza significativa nei seguenti ambiti:
Neuroscienze: Analisi dei modelli di connettività della rete cerebrale in più soggetti, identificazione di connessioni neurali comuni e specifiche del soggetto
Psicologia: Comprensione delle differenze individuali e dei processi psicologici comuni
Genomica: Analisi dei modelli comuni e specifici del soggetto nelle reti di regolazione genica
Finanza: Modellazione delle serie temporali finanziarie con rischi sistematici e individuali
Proposizione di Nuove Condizioni di Identificabilità: Basate su un framework di integrazione dati efficienti in termini di comunicazione, evitando i problemi di efficienza statistica del metodo della mediana ponderata
Realizzazione di Tassi di Convergenza Personalizzati: I tassi di convergenza dipendono ora dal livello di sparsità e dalla dimensione campionaria di ciascun soggetto, piuttosto che dal caso peggiore globale
Costruzione di un Framework Inferenziale Completo: Sviluppo di tre classi di verifiche di ipotesi: verifica di nullità, verifica di omogeneità e verifica di significatività
Garanzie Teoriche: Fornitura di tassi di convergenza dello stimatore e teoria della distribuzione asintotica delle statistiche di test
Miglioramento dell'Efficienza Computazionale: Adozione di una strategia di stima separata e successiva aggregazione, riducendo significativamente la complessità computazionale
Stimatore M Robusto: Identificazione dell'effetto comune come problema di contaminazione di misurazioni, utilizzo della funzione di perdita ridiscesa per gestire i valori anomali
Soglie Personalizzate: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), sfruttamento completo delle informazioni campionarie di ciascun soggetto
Framework Efficienti in Termini di Comunicazione: Evitamento dell'ottimizzazione globale, ogni soggetto può calcolare indipendentemente e successivamente aggregare
L'articolo cita una ricca bibliografia di lavori correlati, coprendo molteplici ambiti come la statistica ad alta dimensionalità, l'analisi di serie temporali e la stima robusta, fornendo una solida base teorica per la ricerca.