2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic

Modellazione congiunta e inferenza di modelli vettoriali autoregressivi ad alta dimensionalità sparsi multi-soggetto

Informazioni Fondamentali

  • ID Articolo: 2510.14044
  • Titolo: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
  • Autori: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
  • Classificazione: stat.ME (Statistica - Metodologia)
  • Data di Pubblicazione: 17 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.14044

Riassunto

I modelli vettoriali autoregressivi multi-soggetto (multi-VAR) catturano l'eterogeneità delle relazioni di causalità di Granger tra soggetti decomponendo le matrici di transizione VAR sparse individuali in percorsi comuni condivisi e percorsi specifici del soggetto. Sebbene questo modello sia stato applicato per caratterizzare percorsi nascosti comuni e unici tra soggetti, mostrando prestazioni superiori ai metodi comunemente utilizzati in psicologia e neuroscienze, il suo utilizzo della mediana ponderata per identificare gli effetti comuni presenta problemi di efficienza statistica, poiché i tassi di convergenza dei percorsi comuni e unici sono determinati dal soggetto meno sparso e dalla dimensione campionaria minima tra tutti i soggetti. Questo articolo propone nuove condizioni di identificabilità per il modello multi-VAR basate su un framework di integrazione dati efficienti in termini di comunicazione, realizzando tassi di convergenza personalizzati per il livello di sparsità e la dimensione campionaria di ciascun soggetto. Inoltre, sviluppa un framework di verifica di ipotesi per valutare la nullità e l'omogeneità dei percorsi individuali, utilizzando statistiche di test di tipo Wald costruite su stimatori deviati individuali, da cui possono essere derivate verifiche di significatività dei percorsi comuni.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca riguarda l'efficienza statistica e l'inferenza nella modellazione vettoriale autoregressiva sparsa ad alta dimensionalità multi-soggetto. Nello specifico:

  1. Problema di Efficienza Statistica: Il modello multi-VAR esistente utilizza la mediana ponderata per identificare gli effetti comuni, determinando tassi di convergenza limitati dal soggetto meno sparso e dalla dimensione campionaria minima, senza sfruttare pienamente le caratteristiche eterogenee di ciascun soggetto.
  2. Assenza di Framework Inferenziale: Manca un framework formale di verifica di ipotesi per modelli VAR multi-soggetto, impedendo la valutazione della significatività, nullità e omogeneità dei percorsi individuali.

Importanza della Ricerca

Questo problema riveste importanza significativa nei seguenti ambiti:

  • Neuroscienze: Analisi dei modelli di connettività della rete cerebrale in più soggetti, identificazione di connessioni neurali comuni e specifiche del soggetto
  • Psicologia: Comprensione delle differenze individuali e dei processi psicologici comuni
  • Genomica: Analisi dei modelli comuni e specifici del soggetto nelle reti di regolazione genica
  • Finanza: Modellazione delle serie temporali finanziarie con rischi sistematici e individuali

Limitazioni dei Metodi Esistenti

Il metodo multi-VAR originale presenta i seguenti problemi:

  1. Tasso di Convergenza Subottimale: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), limitato dal soggetto meno sparso
  2. Bassa Efficienza Computazionale: Richiede l'impilamento di tutte le equazioni dei soggetti per risolvere problemi di ottimizzazione su larga scala
  3. Assenza di Strumenti Inferenziali: Impossibilità di condurre verifiche statistiche e quantificazione dell'incertezza

Contributi Fondamentali

  1. Proposizione di Nuove Condizioni di Identificabilità: Basate su un framework di integrazione dati efficienti in termini di comunicazione, evitando i problemi di efficienza statistica del metodo della mediana ponderata
  2. Realizzazione di Tassi di Convergenza Personalizzati: I tassi di convergenza dipendono ora dal livello di sparsità e dalla dimensione campionaria di ciascun soggetto, piuttosto che dal caso peggiore globale
  3. Costruzione di un Framework Inferenziale Completo: Sviluppo di tre classi di verifiche di ipotesi: verifica di nullità, verifica di omogeneità e verifica di significatività
  4. Garanzie Teoriche: Fornitura di tassi di convergenza dello stimatore e teoria della distribuzione asintotica delle statistiche di test
  5. Miglioramento dell'Efficienza Computazionale: Adozione di una strategia di stima separata e successiva aggregazione, riducendo significativamente la complessità computazionale

Dettagli Metodologici

Definizione del Compito

Dati K soggetti con serie temporali d-dimensionali {X_t^(k)}, con T_k punti temporali per ciascun soggetto, l'obiettivo è:

  1. Stima del Percorso Comune α^(0): Parametri della matrice di transizione VAR condivisi da tutti i soggetti
  2. Stima del Percorso Unico α^(k): Parametri specifici del k-esimo soggetto
  3. Soddisfacimento della Relazione di Decomposizione: β^(k) = α^(0) + α^(k), dove β^(k) è il vettore di parametri completo del k-esimo soggetto

Architettura del Modello

1. Specifica del Modello VAR

Ogni soggetto segue un modello VAR(p):

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

dove ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. Procedura di Stima

Fase 1: Stima Individuale Per ogni soggetto k e ogni variabile i, utilizzo della regressione Lasso:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

Fase 2: Stima Deviata Calcolo dello stimatore deviato:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

dove Θ̂^(k) è l'inversa approssimata della matrice Hessiana, calcolata mediante regressione nodale.

Fase 3: Aggregazione Robusta Utilizzo della funzione di perdita ridiscesa per identificare il percorso comune:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

Fase 4: Sparsificazione Applicazione di soglia dura o morbida per recuperare la sparsità:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

Punti di Innovazione Tecnica

  1. Stimatore M Robusto: Identificazione dell'effetto comune come problema di contaminazione di misurazioni, utilizzo della funzione di perdita ridiscesa per gestire i valori anomali
  2. Soglie Personalizzate: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), sfruttamento completo delle informazioni campionarie di ciascun soggetto
  3. Framework Efficienti in Termini di Comunicazione: Evitamento dell'ottimizzazione globale, ogni soggetto può calcolare indipendentemente e successivamente aggregare

Configurazione Sperimentale

Dataset

Dati Simulati

  • Impostazioni Parametriche: K ∈ {10,15}, d ∈ {10,20}, lunghezza campionaria media T ∈ {50,200}
  • Livelli di Eterogeneità: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, corrispondenti rispettivamente a eterogeneità alta, media e bassa
  • Sparsità Totale: Fissa al 6%
  • Numero di Ripetizioni: 50 per ogni configurazione

Dati Reali

  • Fonte Dati: Dati fMRI del compito di elaborazione emotiva del Human Connectome Project (HCP)
  • Soggetti: 12 donne, età 22-30 anni
  • Parcellazione Cerebrale: Atlante Schaefer2018 400-parcel, mappato a 17 reti funzionali
  • Lunghezza Campionaria: Media Tₖ = 165 punti temporali

Metriche di Valutazione

Prestazioni di Stima

  • RMSE: ∥α̂ - α∥₂/∥α∥₂
  • Sensibilità: Proporzione di parametri non nulli correttamente identificati
  • Specificità: Proporzione di parametri nulli correttamente identificati

Prestazioni Inferenziali

  • FDR: Tasso di scoperta falsa
  • Potenza: Potenza statistica
  • Tempo Computazionale: Rapporto di accelerazione rispetto al metodo di riferimento

Metodi di Confronto

  • multi-VAR: Modello VAR multi-soggetto originale
  • multi-VAR(A): multi-VAR con penalità Lasso adattivo

Risultati Sperimentali

Risultati Principali

Prestazioni di Stima

  1. Caso a Bassa Dimensionalità (d=10): Il metodo proposto supera i metodi esistenti in termini di RMSE
  2. Caso ad Alta Dimensionalità (d=20): Con l'aumento della dimensione campionaria, il divario di prestazioni si riduce
  3. Sensibilità e Specificità: Comparabili con il multi-VAR adattivo, indicando che le soglie personalizzate svolgono un ruolo simile ai pesi adattivi

Efficienza Computazionale

Il metodo proposto mostra un miglioramento significativo nel tempo computazionale rispetto ai metodi di riferimento:

  • d=10, T=50: Rapporto di accelerazione circa 2-3 volte
  • d=20, T=200: Rapporto di accelerazione fino a 60-100 volte

Miglioramento del Tasso di Convergenza

L'analisi teorica dimostra che il metodo proposto realizza tassi di convergenza personalizzati:

  • Percorso comune: ∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
  • Percorso unico: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

Risultati Inferenziali

Prestazioni della Verifica di Ipotesi

  1. Verifica di Nullità: FDR tra 0.0-0.6, potenza 0.5-1.0
  2. Verifica di Omogeneità: FDR tra 0.0-0.6, potenza 0.4-1.0
  3. Verifica di Significatività: FDR sempre 0, potenza 0.25-1.0

Le prestazioni della verifica migliorano con l'aumento della dimensione campionaria e sono robuste ai cambiamenti di dimensionalità.

Applicazione ai Dati Reali

Scoperta della Rete Cerebrale

  1. Connessioni Comuni: Identificazione di connessioni della rete cerebrale correlate all'elaborazione emotiva condivise da tutti i soggetti
  2. Differenze Individuali: Rispetto ai metodi di riferimento, il metodo proposto identifica modelli di connessione più sparsi ma più interpretabili
  3. Significato Biologico: Le connessioni scoperte sono coerenti con i meccanismi neurali noti dell'elaborazione emotiva

Scoperte Chiave

  • Connessioni bidirezionali tra la rete di attenzione ventrale A e la rete in modalità predefinita B
  • Connessione dalla rete frontale-parietale A al sistema limbico B
  • Connessione dal sistema limbico A al sistema limbico B

Lavori Correlati

Modellazione di Serie Temporali Multi-Soggetto

  1. Modelli VAR Multi-Classe (Wilms et al., 2018): Utilizzo di Lasso fuso per incoraggiare la somiglianza tra soggetti
  2. Modelli di Supporto Non Sovrapposto (Skripnikov & Michailidis, 2019): Distinzione di componenti comuni e uniche mediante penalità non convesse
  3. Modelli VAR Congiunti (Manomaisaowapak & Songsiri, 2022): Utilizzo di Lasso di gruppo per identificare componenti comuni

Serie Temporali ad Alta Dimensionalità

  • Modellazione VAR sparsa: Applicazione di metodi di tipo Lasso in impostazioni ad alta dimensionalità
  • Stima deviata: Teoria dell'inferenza statistica nella regressione ad alta dimensionalità
  • Stima robusta: Metodi di stimatore M per gestire dati eterogenei

Vantaggi di Questo Articolo

Rispetto ai metodi esistenti, questo articolo fornisce per la prima volta:

  1. Tassi di convergenza personalizzati con garanzie teoriche
  2. Framework di inferenza statistica completo
  3. Strategia computazionale efficiente in termini di comunicazione

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: Le nuove condizioni di identificabilità migliorano significativamente l'efficienza statistica del modello multi-VAR
  2. Contributo Teorico: Stabilimento della teoria dei tassi di convergenza personalizzati, superamento dei limiti globali dei metodi esistenti
  3. Valore Pratico: Il framework inferenziale colma un importante vuoto nella modellazione di serie temporali ad alta dimensionalità multi-soggetto
  4. Prospettive di Applicazione: Dimostrazione di buone prospettive di applicazione in ambiti come le neuroscienze

Limitazioni

  1. Ipotesi Distributive: Attualmente limitato a innovazioni gaussiane, l'estensione a distribuzioni con code pesanti rimane una sfida
  2. Regolazione dei Parametri: Mancanza di criteri standardizzati nella selezione della griglia di parametri nella convalida incrociata
  3. Ritardi di Ordine Superiore: La progettazione di penalità strutturate per modelli VAR(p) rimane da perfezionare

Direzioni Future

  1. Estensione Distributiva: Gestione di distribuzioni di innovazione più generali come le distribuzioni sub-esponenziali
  2. Estensione al Clustering: Combinazione della decomposizione con clustering per percorsi parzialmente condivisi
  3. Modellazione Strutturata: Metodi di sparsità di gruppo sovrapposto per ritardi di ordine superiore

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornitura di analisi completa dei tassi di convergenza e teoria della distribuzione asintotica
  2. Innovazione Metodologica: Combinazione intelligente di stima robusta e framework efficienti in termini di comunicazione
  3. Completezza Sperimentale: Copertura di molteplici scenari di eterogeneità e validazione su dati reali
  4. Alto Valore Pratico: Risoluzione di importanti problemi teorici e pratici in questo ambito

Insufficienze

  1. Complessità Computazionale: Il costo computazionale della selezione dei parametri mediante convalida incrociata tripla è relativamente elevato
  2. Condizioni di Ipotesi: Le condizioni tecniche nell'Assunzione 2.2 sono piuttosto rigorose
  3. Estensibilità: L'estensibilità del metodo a strutture di modelli più complesse rimane da verificare

Impatto

  1. Contributo Accademico: Fornitura di un nuovo framework teorico per l'analisi di serie temporali ad alta dimensionalità multi-soggetto
  2. Valore di Applicazione: Prospettive di applicazione diffuse in neuroscienze, psicologia e altri ambiti
  3. Riproducibilità: Fornitura di implementazione completa in pacchetto R, facilitando la riproduzione della ricerca

Scenari Applicabili

  • Analisi di reti cerebrali multi-soggetto
  • Ricerca sulle differenze individuali
  • Modellazione di serie temporali eterogenee
  • Applicazioni VAR ad alta dimensionalità che richiedono inferenza statistica

Bibliografia

L'articolo cita una ricca bibliografia di lavori correlati, coprendo molteplici ambiti come la statistica ad alta dimensionalità, l'analisi di serie temporali e la stima robusta, fornendo una solida base teorica per la ricerca.