2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic

Modélisation conjointe et inférence de modèles vectoriels autorégressifs creux de haute dimension multi-sujets

Informations de base

  • ID de l'article: 2510.14044
  • Titre: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
  • Auteurs: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
  • Classification: stat.ME (Statistique - Méthodologie)
  • Date de publication: 17 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.14044

Résumé

Les modèles vectoriels autorégressifs multi-sujets (multi-VAR) capturent l'hétérogénéité des relations de causalité de Granger en réseau entre sujets en décomposant les matrices de transition VAR creuses individuelles en chemins partagés communs et chemins spécifiques aux sujets. Bien que ce modèle ait été appliqué à la caractérisation des chemins cachés partagés et uniques entre sujets et ait démontré des performances supérieures aux méthodes couramment utilisées en psychologie et neurosciences, son utilisation de la médiane pondérée pour identifier les effets communs présente des problèmes d'efficacité statistique, car les taux de convergence des chemins communs et uniques sont déterminés par le sujet le moins creux et la taille d'échantillon minimale parmi tous les sujets. Cet article propose de nouvelles conditions d'identifiabilité pour le modèle multi-VAR basées sur un cadre d'intégration de données efficace en communication, réalisant des taux de convergence personnalisés pour chaque niveau de parcimonie des sujets et taille d'échantillon. De plus, un cadre de test d'hypothèse est développé pour évaluer la nullité et l'homogénéité des chemins individuels, utilisant des statistiques de test de type Wald construites sur des estimateurs individuels non biaisés, et permettant de dériver des tests de signification des chemins communs par ce cadre.

Contexte et motivation de la recherche

Définition du problème

Les problèmes fondamentaux que cette recherche vise à résoudre sont l'efficacité statistique et l'inférence dans la modélisation vectorielle autorégressif creux multi-sujets de haute dimension. Ceux-ci incluent spécifiquement:

  1. Problème d'efficacité statistique: Le modèle multi-VAR existant utilise la médiane pondérée pour identifier les effets communs, ce qui limite les taux de convergence au sujet le moins creux et à la taille d'échantillon minimale, sans exploiter pleinement les caractéristiques hétérogènes de chaque sujet.
  2. Absence de cadre d'inférence: Absence d'un cadre formel de test d'hypothèse pour les modèles VAR multi-sujets, incapable d'évaluer la signification, la nullité et l'homogénéité des chemins individuels.

Importance de la recherche

Ce problème revêt une importance significative dans les domaines suivants:

  • Neurosciences: Analyse des modèles de connectivité réseau cérébral de plusieurs sujets, identification des connexions neurales communes et spécifiques aux sujets
  • Psychologie: Compréhension des différences individuelles et des processus psychologiques communs
  • Génomique: Analyse des modèles communs et spécifiques aux sujets des réseaux de régulation génique
  • Finance: Modélisation des risques systématiques et individuels des séries chronologiques financières

Limitations des méthodes existantes

La méthode multi-VAR originale présente les problèmes suivants:

  1. Taux de convergence sous-optimal: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), limité par le sujet le moins creux
  2. Efficacité de calcul faible: Nécessite d'empiler toutes les équations des sujets pour résoudre des problèmes d'optimisation à grande échelle
  3. Absence d'outils d'inférence: Impossible de réaliser des tests statistiques et une quantification de l'incertitude

Contributions principales

  1. Proposition de nouvelles conditions d'identifiabilité: Basées sur un cadre d'intégration de données efficace en communication, évitant les problèmes d'efficacité statistique de la méthode de médiane pondérée
  2. Réalisation de taux de convergence personnalisés: Les taux de convergence dépendent maintenant du niveau de parcimonie et de la taille d'échantillon de chaque sujet, plutôt que du pire cas global
  3. Construction d'un cadre d'inférence complet: Développement de trois classes de tests d'hypothèse: tests de nullité, tests d'homogénéité et tests de signification
  4. Garanties théoriques: Fourniture de la théorie des taux de convergence des estimateurs et des distributions asymptotiques des statistiques de test
  5. Amélioration de l'efficacité de calcul: Adoption d'une stratégie d'estimation séparée puis d'agrégation, réduisant significativement la complexité de calcul

Détails de la méthode

Définition de la tâche

Étant donné K sujets avec des séries chronologiques d-dimensionnelles {X_t^(k)}, chaque sujet ayant T_k points temporels, l'objectif est:

  1. Estimer le chemin commun α^(0): Paramètres de matrice de transition VAR partagés par tous les sujets
  2. Estimer le chemin unique α^(k): Paramètres spécifiques au k-ième sujet
  3. Satisfaire la relation de décomposition: β^(k) = α^(0) + α^(k), où β^(k) est le vecteur de paramètres complet du k-ième sujet

Architecture du modèle

1. Spécification du modèle VAR

Chaque sujet suit un modèle VAR(p):

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

où ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. Procédure d'estimation

Étape 1: Estimation individuelle Pour chaque sujet k et chaque variable i, utiliser la régression Lasso:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

Étape 2: Estimation non biaisée Calculer l'estimateur non biaisé:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

où Θ̂^(k) est l'inverse approximée de la matrice Hessienne, calculée par régression nodale.

Étape 3: Agrégation robuste Utiliser la fonction de perte redescendante pour identifier le chemin commun:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

Étape 4: Parcimonie Appliquer le seuillage dur ou doux pour restaurer la parcimonie:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

Points d'innovation technique

  1. Estimateur M robuste: Traiter l'identification des effets communs comme un problème de contamination de mesure, utilisant la fonction de perte redescendante pour gérer les valeurs aberrantes
  2. Seuillage personnalisé: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), exploitant pleinement les informations d'échantillon de chaque sujet
  3. Cadre efficace en communication: Éviter l'optimisation globale, chaque sujet peut calculer indépendamment puis agréger

Configuration expérimentale

Ensembles de données

Données simulées

  • Paramètres: K ∈ {10,15}, d ∈ {10,20}, longueur d'échantillon moyenne T ∈ {50,200}
  • Niveaux d'hétérogénéité: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, correspondant respectivement à une hétérogénéité élevée, moyenne et faible
  • Parcimonie totale: Fixée à 6%
  • Répétitions: 50 répétitions pour chaque configuration

Données réelles

  • Source de données: Données fMRI de tâche de traitement émotionnel du Human Connectome Project (HCP)
  • Sujets: 12 femmes, âgées de 22 à 30 ans
  • Parcellisation cérébrale: Atlas Schaefer2018 400-parcel, mappé à 17 réseaux fonctionnels
  • Longueur d'échantillon: Longueur moyenne Tₖ = 165 points temporels

Métriques d'évaluation

Performance d'estimation

  • RMSE: ∥α̂ - α∥₂/∥α∥₂
  • Sensibilité: Proportion de paramètres non nuls correctement identifiés
  • Spécificité: Proportion de paramètres nuls correctement identifiés

Performance d'inférence

  • FDR: Taux de fausses découvertes
  • Puissance: Puissance statistique
  • Temps de calcul: Ratio d'accélération par rapport à la méthode de référence

Méthodes de comparaison

  • multi-VAR: Modèle VAR multi-sujets original
  • multi-VAR(A): multi-VAR avec pénalité Lasso adaptative

Résultats expérimentaux

Résultats principaux

Performance d'estimation

  1. Cas de faible dimension (d=10): La méthode proposée surpasse les méthodes existantes en RMSE
  2. Cas de haute dimension (d=20): Avec l'augmentation de la taille d'échantillon, l'écart de performance diminue
  3. Sensibilité et spécificité: Comparables au multi-VAR adaptatif, indiquant que le seuillage personnalisé joue un rôle similaire aux poids adaptatifs

Efficacité de calcul

La méthode proposée montre une amélioration significative du temps de calcul par rapport aux méthodes de référence:

  • d=10, T=50: Ratio d'accélération d'environ 2-3 fois
  • d=20, T=200: Ratio d'accélération pouvant atteindre 60-100 fois

Amélioration du taux de convergence

L'analyse théorique montre que la méthode proposée réalise des taux de convergence personnalisés:

  • Chemin commun: ∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
  • Chemin unique: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

Résultats d'inférence

Performance des tests d'hypothèse

  1. Tests de nullité: FDR entre 0.0 et 0.6, puissance 0.5-1.0
  2. Tests d'homogénéité: FDR entre 0.0 et 0.6, puissance 0.4-1.0
  3. Tests de signification: FDR toujours 0, puissance 0.25-1.0

La performance des tests s'améliore avec l'augmentation de la taille d'échantillon et est robuste aux variations de dimension.

Application sur données réelles

Découverte de réseaux cérébraux

  1. Connexions communes: Identification des connexions de réseau cérébral liées au traitement émotionnel partagées par tous les sujets
  2. Différences individuelles: Comparée à la méthode de référence, la méthode proposée identifie des modèles de connexion plus creux mais plus interprétables
  3. Signification biologique: Les connexions découvertes sont conformes aux mécanismes neuraux connus du traitement émotionnel

Découvertes clés

  • Connexions bidirectionnelles entre le réseau d'attention ventral A et le réseau du mode par défaut B
  • Connexion du réseau fronto-pariétal A vers le système limbique B
  • Connexion du système limbique A vers B au sein du système limbique

Travaux connexes

Modélisation de séries chronologiques multi-sujets

  1. Modèles VAR multi-classes (Wilms et al., 2018): Utilisation de Lasso fusionné pour encourager la similarité entre sujets
  2. Modèles de support non-chevauchant (Skripnikov & Michailidis, 2019): Distinction des composantes communes et uniques par pénalité non-convexe
  3. Modèles VAR conjoints (Manomaisaowapak & Songsiri, 2022): Utilisation de Lasso groupé pour identifier les composantes communes

Séries chronologiques de haute dimension

  • Modélisation VAR creux: Application des méthodes de type Lasso en contexte haute dimension
  • Estimation non biaisée: Théorie d'inférence statistique en régression haute dimension
  • Estimation robuste: Méthodes d'estimateurs M pour traiter les données hétérogènes

Avantages de cet article

Comparé aux méthodes existantes, cet article fournit pour la première fois:

  1. Taux de convergence personnalisés avec garanties théoriques
  2. Cadre d'inférence statistique complet
  3. Stratégie de calcul efficace en communication

Conclusion et discussion

Conclusions principales

  1. Efficacité de la méthode: Les nouvelles conditions d'identifiabilité améliorent significativement l'efficacité statistique du modèle multi-VAR
  2. Contribution théorique: Établissement de la théorie des taux de convergence personnalisés, dépassant les limitations globales des méthodes existantes
  3. Valeur pratique: Le cadre d'inférence comble un vide important dans la modélisation de séries chronologiques multi-sujets de haute dimension
  4. Perspectives d'application: Démontre un bon potentiel d'application dans des domaines comme les neurosciences

Limitations

  1. Hypothèses de distribution: Actuellement limitées aux innovations gaussiennes, l'extension aux distributions à queue lourde reste un défi
  2. Ajustement de paramètres: Absence de critères standardisés pour la sélection de grille de paramètres en validation croisée
  3. Décalages d'ordre supérieur: La conception de pénalités structurées pour les modèles VAR(p) reste à perfectionner

Directions futures

  1. Extension de distribution: Traitement de distributions d'innovations plus générales comme les distributions sous-exponentielles
  2. Extension de clustering: Combinaison avec décomposition de clustering pour chemins partagés partiellement
  3. Modélisation structurée: Méthodes de parcimonie groupée chevauchante pour décalages d'ordre supérieur

Évaluation approfondie

Points forts

  1. Rigueur théorique: Fourniture d'une analyse complète des taux de convergence et de la théorie des distributions asymptotiques
  2. Innovation méthodologique: Combinaison ingénieuse d'estimation robuste et de cadre efficace en communication
  3. Complétude expérimentale: Couverture de multiples scénarios d'hétérogénéité et validation sur données réelles
  4. Valeur pratique élevée: Résolution de problèmes théoriques et pratiques importants dans ce domaine

Insuffisances

  1. Complexité de calcul: Coût de calcul élevé de la sélection de paramètres par validation croisée triple
  2. Conditions d'hypothèse: Les conditions techniques de l'Assumption 2.2 sont relativement strictes
  3. Extensibilité: L'extensibilité de la méthode à des structures de modèles plus complexes reste à vérifier

Impact

  1. Contribution académique: Fourniture d'un nouveau cadre théorique pour l'analyse de séries chronologiques multi-sujets de haute dimension
  2. Valeur d'application: Perspectives d'application larges dans les neurosciences, la psychologie et autres domaines
  3. Reproductibilité: Fourniture d'une implémentation complète en package R, facilitant la reproduction de la recherche

Scénarios d'application

  • Analyse de réseaux cérébraux multi-sujets
  • Recherche sur les différences individuelles
  • Modélisation de séries chronologiques hétérogènes
  • Applications VAR haute dimension nécessitant l'inférence statistique

Références

L'article cite une littérature riche couvrant plusieurs domaines incluant la statistique haute dimension, l'analyse de séries chronologiques et l'estimation robuste, fournissant une base théorique solide pour la recherche.