Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic
Gemeinsame Modellierung und Inferenz von hochdimensionalen spärlichen Vektorautoregressionsmodellen mit mehreren Subjekten
Titel: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Autoren: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
Multi-Subjekt-Vektorautoregressionsmodelle (multi-VAR) erfassen heterogene Netzwerk-Granger-Kausalbeziehungen zwischen Subjekten, indem individuelle spärliche VAR-Übergansmatrizen in gemeinsame und subjektspezifische Pfade zerlegt werden. Obwohl dieses Modell zur Charakterisierung verborgener gemeinsamer und eindeutiger Pfade zwischen Subjekten angewendet wurde und in der Psychologie und Neurowissenschaft überlegene Leistung gegenüber gängigen Methoden gezeigt hat, weist die Verwendung gewichteter Mediane zur Identifikation gemeinsamer Effekte statistische Effizienzprobleme auf, da die Konvergenzraten durch das am wenigsten spärliche Subjekt und die kleinste Stichprobengröße über alle Subjekte bestimmt werden. Dieser Artikel schlägt neue Identifizierbarkeitsbedingungen für das multi-VAR-Modell basierend auf einem kommunikationseffizienten Datenintegrations-Framework vor und ermöglicht maßgeschneiderte Konvergenzraten für jede subjektspezifische Spärlichkeitsstufe und Stichprobengröße. Darüber hinaus wird ein Hypothesentestframework entwickelt, um die Nullheit und Homogenität individueller Pfade zu bewerten, wobei Wald-Typ-Teststatistiken basierend auf individuellen entverzerrten Schätzern konstruiert werden, und das Framework ermöglicht die Ableitung von Signifikanztests für gemeinsame Pfade.
Die Kernprobleme dieser Forschung sind statistische Effizienz und Inferenz in der hochdimensionalen spärlichen Vektorautoregressionsmodellierung mit mehreren Subjekten. Dies umfasst konkret:
Statistische Effizienzprobleme: Bestehende multi-VAR-Modelle verwenden gewichtete Mediane zur Identifikation gemeinsamer Effekte, was dazu führt, dass Konvergenzraten durch das am wenigsten spärliche Subjekt und die kleinste Stichprobengröße begrenzt werden, ohne die heterogenen Merkmale jedes Subjekts vollständig zu nutzen.
Fehlende Inferenz-Framework: Es fehlt ein formales Hypothesentestframework für multi-Subjekt-VAR-Modelle, um die Signifikanz, Nullheit und Homogenität individueller Pfade zu bewerten.
Neue Identifizierbarkeitsbedingungen: Basierend auf einem kommunikationseffizienten Datenintegrations-Framework, vermeidet die Effizienzprobleme der gewichteten Median-Methode
Individualisierte Konvergenzraten: Konvergenzraten hängen nun von der eigenen Spärlichkeitsstufe und Stichprobengröße jedes Subjekts ab, nicht vom globalen Worst-Case
Umfassendes Inferenz-Framework: Entwicklung von drei Klassen von Hypothesentests: Nullheits-, Homogenitäts- und Signifikanztests
Theoretische Garantien: Bereitstellung von Konvergenzraten für Schätzer und asymptotischen Verteilungstheorie für Teststatistiken
Verbesserte Recheneffizienz: Einsatz einer Strategie der separaten Schätzung und anschließenden Aggregation, deutliche Reduzierung der Rechenkomplexität
Robuste M-Schätzer: Identifikation gemeinsamer Effekte als Messfehler-Kontaminationsproblem, Verwendung neu abgestiegener Verlustfunktionen zur Behandlung von Ausreißern
Niedrigdimensionaler Fall (d=10): Vorgeschlagene Methode übertrifft bestehende Methoden bei RMSE
Hochdimensionaler Fall (d=20): Mit zunehmender Stichprobengröße verringert sich der Leistungsunterschied
Sensitivität und Spezifität: Vergleichbar mit adaptivem multi-VAR, was darauf hindeutet, dass individualisierte Schwellenwerte eine ähnliche Rolle wie adaptive Gewichte spielen
Gemeinsame Verbindungen: Identifikation von Gehirnnetzwerk-Verbindungen, die mit Emotions-Verarbeitung bei allen Versuchspersonen verbunden sind
Individuelle Unterschiede: Im Vergleich zur Baseline-Methode identifiziert die vorgeschlagene Methode spärlichere, aber aussagekräftigere Verbindungsmuster
Biologische Bedeutung: Die entdeckten Verbindungen entsprechen bekannten neuronalen Mechanismen der Emotions-Verarbeitung
Der Artikel zitiert umfangreiche relevante Literatur, die wichtige Arbeiten aus mehreren Bereichen wie hochdimensionale Statistik, Zeitreihenanalyse und robuste Schätzung abdeckt und eine solide theoretische Grundlage für die Forschung bietet.