Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic
Modélisation conjointe et inférence de modèles vectoriels autorégressifs creux de haute dimension multi-sujets
Titre: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Auteurs: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
Les modèles vectoriels autorégressifs multi-sujets (multi-VAR) capturent l'hétérogénéité des relations de causalité de Granger en réseau entre sujets en décomposant les matrices de transition VAR creuses individuelles en chemins partagés communs et chemins spécifiques aux sujets. Bien que ce modèle ait été appliqué à la caractérisation des chemins cachés partagés et uniques entre sujets et ait démontré des performances supérieures aux méthodes couramment utilisées en psychologie et neurosciences, son utilisation de la médiane pondérée pour identifier les effets communs présente des problèmes d'efficacité statistique, car les taux de convergence des chemins communs et uniques sont déterminés par le sujet le moins creux et la taille d'échantillon minimale parmi tous les sujets. Cet article propose de nouvelles conditions d'identifiabilité pour le modèle multi-VAR basées sur un cadre d'intégration de données efficace en communication, réalisant des taux de convergence personnalisés pour chaque niveau de parcimonie des sujets et taille d'échantillon. De plus, un cadre de test d'hypothèse est développé pour évaluer la nullité et l'homogénéité des chemins individuels, utilisant des statistiques de test de type Wald construites sur des estimateurs individuels non biaisés, et permettant de dériver des tests de signification des chemins communs par ce cadre.
Les problèmes fondamentaux que cette recherche vise à résoudre sont l'efficacité statistique et l'inférence dans la modélisation vectorielle autorégressif creux multi-sujets de haute dimension. Ceux-ci incluent spécifiquement:
Problème d'efficacité statistique: Le modèle multi-VAR existant utilise la médiane pondérée pour identifier les effets communs, ce qui limite les taux de convergence au sujet le moins creux et à la taille d'échantillon minimale, sans exploiter pleinement les caractéristiques hétérogènes de chaque sujet.
Absence de cadre d'inférence: Absence d'un cadre formel de test d'hypothèse pour les modèles VAR multi-sujets, incapable d'évaluer la signification, la nullité et l'homogénéité des chemins individuels.
Ce problème revêt une importance significative dans les domaines suivants:
Neurosciences: Analyse des modèles de connectivité réseau cérébral de plusieurs sujets, identification des connexions neurales communes et spécifiques aux sujets
Psychologie: Compréhension des différences individuelles et des processus psychologiques communs
Génomique: Analyse des modèles communs et spécifiques aux sujets des réseaux de régulation génique
Finance: Modélisation des risques systématiques et individuels des séries chronologiques financières
Proposition de nouvelles conditions d'identifiabilité: Basées sur un cadre d'intégration de données efficace en communication, évitant les problèmes d'efficacité statistique de la méthode de médiane pondérée
Réalisation de taux de convergence personnalisés: Les taux de convergence dépendent maintenant du niveau de parcimonie et de la taille d'échantillon de chaque sujet, plutôt que du pire cas global
Construction d'un cadre d'inférence complet: Développement de trois classes de tests d'hypothèse: tests de nullité, tests d'homogénéité et tests de signification
Garanties théoriques: Fourniture de la théorie des taux de convergence des estimateurs et des distributions asymptotiques des statistiques de test
Amélioration de l'efficacité de calcul: Adoption d'une stratégie d'estimation séparée puis d'agrégation, réduisant significativement la complexité de calcul
Estimateur M robuste: Traiter l'identification des effets communs comme un problème de contamination de mesure, utilisant la fonction de perte redescendante pour gérer les valeurs aberrantes
Seuillage personnalisé: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), exploitant pleinement les informations d'échantillon de chaque sujet
Cadre efficace en communication: Éviter l'optimisation globale, chaque sujet peut calculer indépendamment puis agréger
Connexions communes: Identification des connexions de réseau cérébral liées au traitement émotionnel partagées par tous les sujets
Différences individuelles: Comparée à la méthode de référence, la méthode proposée identifie des modèles de connexion plus creux mais plus interprétables
Signification biologique: Les connexions découvertes sont conformes aux mécanismes neuraux connus du traitement émotionnel
L'article cite une littérature riche couvrant plusieurs domaines incluant la statistique haute dimension, l'analyse de séries chronologiques et l'estimation robuste, fournissant une base théorique solide pour la recherche.