2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras

The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.

academic

Gemeinsame Modellierung und Inferenz von hochdimensionalen spärlichen Vektorautoregressionsmodellen mit mehreren Subjekten

Grundinformationen

Paper-ID: 2510.14044
Titel: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
Autoren: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
Klassifizierung: stat.ME (Statistik - Methodologie)
Veröffentlichungsdatum: 17. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.14044

Zusammenfassung

Multi-Subjekt-Vektorautoregressionsmodelle (multi-VAR) erfassen heterogene Netzwerk-Granger-Kausalbeziehungen zwischen Subjekten, indem individuelle spärliche VAR-Übergansmatrizen in gemeinsame und subjektspezifische Pfade zerlegt werden. Obwohl dieses Modell zur Charakterisierung verborgener gemeinsamer und eindeutiger Pfade zwischen Subjekten angewendet wurde und in der Psychologie und Neurowissenschaft überlegene Leistung gegenüber gängigen Methoden gezeigt hat, weist die Verwendung gewichteter Mediane zur Identifikation gemeinsamer Effekte statistische Effizienzprobleme auf, da die Konvergenzraten durch das am wenigsten spärliche Subjekt und die kleinste Stichprobengröße über alle Subjekte bestimmt werden. Dieser Artikel schlägt neue Identifizierbarkeitsbedingungen für das multi-VAR-Modell basierend auf einem kommunikationseffizienten Datenintegrations-Framework vor und ermöglicht maßgeschneiderte Konvergenzraten für jede subjektspezifische Spärlichkeitsstufe und Stichprobengröße. Darüber hinaus wird ein Hypothesentestframework entwickelt, um die Nullheit und Homogenität individueller Pfade zu bewerten, wobei Wald-Typ-Teststatistiken basierend auf individuellen entverzerrten Schätzern konstruiert werden, und das Framework ermöglicht die Ableitung von Signifikanztests für gemeinsame Pfade.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme dieser Forschung sind statistische Effizienz und Inferenz in der hochdimensionalen spärlichen Vektorautoregressionsmodellierung mit mehreren Subjekten. Dies umfasst konkret:

Statistische Effizienzprobleme: Bestehende multi-VAR-Modelle verwenden gewichtete Mediane zur Identifikation gemeinsamer Effekte, was dazu führt, dass Konvergenzraten durch das am wenigsten spärliche Subjekt und die kleinste Stichprobengröße begrenzt werden, ohne die heterogenen Merkmale jedes Subjekts vollständig zu nutzen.
Fehlende Inferenz-Framework: Es fehlt ein formales Hypothesentestframework für multi-Subjekt-VAR-Modelle, um die Signifikanz, Nullheit und Homogenität individueller Pfade zu bewerten.

Forschungsrelevanz

Dieses Problem ist in den folgenden Bereichen von großer Bedeutung:

Neurowissenschaften: Analyse von Gehirnnetzwerk-Verbindungsmustern mehrerer Versuchspersonen, Identifikation gemeinsamer und subjektspezifischer neuronaler Verbindungen
Psychologie: Verständnis individueller Unterschiede und gemeinsamer psychologischer Prozesse
Genomik: Analyse gemeinsamer und subjektspezifischer Muster von Genregulationsnetzwerken
Finanzen: Modellierung systematischer und individueller Risiken in Finanzzeitsreihen

Einschränkungen bestehender Methoden

Die ursprüngliche multi-VAR-Methode weist folgende Probleme auf:

Suboptimale Konvergenzraten: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), begrenzt durch das am wenigsten spärliche Subjekt
Geringe Recheneffizienz: Erfordert Stapelverarbeitung aller Subjektgleichungen zur Lösung großer Optimierungsprobleme
Fehlende Inferenzwerkzeuge: Keine statistischen Tests und Unsicherheitsquantifizierung möglich

Kernbeiträge

Neue Identifizierbarkeitsbedingungen: Basierend auf einem kommunikationseffizienten Datenintegrations-Framework, vermeidet die Effizienzprobleme der gewichteten Median-Methode
Individualisierte Konvergenzraten: Konvergenzraten hängen nun von der eigenen Spärlichkeitsstufe und Stichprobengröße jedes Subjekts ab, nicht vom globalen Worst-Case
Umfassendes Inferenz-Framework: Entwicklung von drei Klassen von Hypothesentests: Nullheits-, Homogenitäts- und Signifikanztests
Theoretische Garantien: Bereitstellung von Konvergenzraten für Schätzer und asymptotischen Verteilungstheorie für Teststatistiken
Verbesserte Recheneffizienz: Einsatz einer Strategie der separaten Schätzung und anschließenden Aggregation, deutliche Reduzierung der Rechenkomplexität

Methodische Details

Aufgabendefinition

Gegeben sind K Subjekte mit d-dimensionalen Zeitreihen {X_t^(k)}, wobei jedes Subjekt T_k Zeitpunkte hat. Das Ziel ist:

Schätzung gemeinsamer Pfade α^(0): VAR-Übergansmatrix-Parameter, die von allen Subjekten geteilt werden
Schätzung eindeutiger Pfade α^(k): Parameter, die dem k-ten Subjekt eigen sind
Erfüllung der Zerlegungsbeziehung: β^(k) = α^(0) + α^(k), wobei β^(k) der vollständige Parametervektor des k-ten Subjekts ist

Modellarchitektur

1. VAR-Modellspezifikation

Jedes Subjekt folgt einem VAR(p)-Modell:

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

wobei ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. Schätzungsverfahren

Schritt 1: Individuelle Schätzung Für jedes Subjekt k und jede Variable i wird Lasso-Regression verwendet:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

Schritt 2: Entverzerrte Schätzung Berechnung des entverzerrten Schätzers:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

wobei Θ̂^(k) die approximative Inverse der Hessian-Matrix ist, berechnet durch Knoten-Regression.

Schritt 3: Robuste Aggregation Verwendung einer neu abgestiegenen Verlustfunktion zur Identifikation gemeinsamer Pfade:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

Schritt 4: Spärlichkeit Anwendung von Hard-Thresholding oder Soft-Thresholding zur Wiederherstellung der Spärlichkeit:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

Technische Innovationen

Robuste M-Schätzer: Identifikation gemeinsamer Effekte als Messfehler-Kontaminationsproblem, Verwendung neu abgestiegener Verlustfunktionen zur Behandlung von Ausreißern
Individualisierte Schwellenwerte: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), vollständige Nutzung der Stichprobeninformationen jedes Subjekts
Kommunikationseffizientes Framework: Vermeidung globaler Optimierung, jedes Subjekt kann unabhängig berechnet und dann aggregiert werden

Experimentelle Einrichtung

Datensätze

Simulierte Daten

Parametereinstellungen: K ∈ {10,15}, d ∈ {10,20}, durchschnittliche Stichprobenlänge T ∈ {50,200}
Heterogenitätsstufen: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, entsprechend hoher, mittlerer und niedriger Heterogenität
Gesamtspärlichkeit: Festgelegt auf 6%
Wiederholungen: 50 Wiederholungen für jede Einstellung

Echte Daten

Datenquelle: Human Connectome Project (HCP) Emotions-Verarbeitungs-Task fMRI-Daten
Versuchspersonen: 12 weibliche Personen, Alter 22-30 Jahre
Gehirnregionen-Aufteilung: Schaefer2018 400-Parcel Atlas, abgebildet auf 17 funktionelle Netzwerke
Stichprobenlänge: Durchschnittlich Tₖ = 165 Zeitpunkte

Bewertungsmetriken

Schätzungsleistung

RMSE: ∥α̂ - α∥₂/∥α∥₂
Sensitivität: Anteil der korrekt identifizierten Nicht-Null-Parameter
Spezifität: Anteil der korrekt identifizierten Null-Parameter

Inferenz-Leistung

FDR: False Discovery Rate
Power: Statistische Teststärke
Rechenzeit: Beschleunigungsverhältnis relativ zur Baseline-Methode

Vergleichsmethoden

multi-VAR: Ursprüngliches Multi-Subjekt-VAR-Modell
multi-VAR(A): multi-VAR mit adaptiver Lasso-Bestrafung

Experimentelle Ergebnisse

Hauptergebnisse

Schätzungsleistung

Niedrigdimensionaler Fall (d=10): Vorgeschlagene Methode übertrifft bestehende Methoden bei RMSE
Hochdimensionaler Fall (d=20): Mit zunehmender Stichprobengröße verringert sich der Leistungsunterschied
Sensitivität und Spezifität: Vergleichbar mit adaptivem multi-VAR, was darauf hindeutet, dass individualisierte Schwellenwerte eine ähnliche Rolle wie adaptive Gewichte spielen

Recheneffizienz

Die vorgeschlagene Methode zeigt signifikante Verbesserungen in der Rechenzeit gegenüber der Baseline-Methode:

d=10, T=50: Beschleunigungsverhältnis etwa 2-3x
d=20, T=200: Beschleunigungsverhältnis bis zu 60-100x

Konvergenzraten-Verbesserung

Die theoretische Analyse zeigt, dass die vorgeschlagene Methode individualisierte Konvergenzraten erreicht:

Gemeinsame Pfade: ∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
Eindeutige Pfade: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

Inferenz-Ergebnisse

Hypothesentest-Leistung

Nullheits-Test: FDR zwischen 0,0-0,6, Teststärke 0,5-1,0
Homogenitäts-Test: FDR zwischen 0,0-0,6, Teststärke 0,4-1,0
Signifikanz-Test: FDR durchgehend 0, Teststärke 0,25-1,0

Die Test-Leistung verbessert sich mit zunehmender Stichprobengröße und ist robust gegenüber Dimensionsänderungen.

Anwendung auf echte Daten

Gehirnnetzwerk-Entdeckung

Gemeinsame Verbindungen: Identifikation von Gehirnnetzwerk-Verbindungen, die mit Emotions-Verarbeitung bei allen Versuchspersonen verbunden sind
Individuelle Unterschiede: Im Vergleich zur Baseline-Methode identifiziert die vorgeschlagene Methode spärlichere, aber aussagekräftigere Verbindungsmuster
Biologische Bedeutung: Die entdeckten Verbindungen entsprechen bekannten neuronalen Mechanismen der Emotions-Verarbeitung

Wichtigste Erkenntnisse

Bidirektionale Verbindung zwischen ventralem Aufmerksamkeitsnetzwerk A und Default-Mode-Netzwerk B
Verbindung vom frontalen Parietalnetzwerk A zum limbischen System B
Verbindung innerhalb des limbischen Systems von A zu B

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Methodische Effektivität: Die neuen Identifizierbarkeitsbedingungen verbessern die statistische Effizienz des multi-VAR-Modells erheblich
Theoretischer Beitrag: Etablierung einer individualisierten Konvergenzraten-Theorie, die die globalen Einschränkungen bestehender Methoden überwindet
Praktischer Wert: Das Inferenz-Framework füllt eine wichtige Lücke in der hochdimensionalen Zeitreihenmodellierung mit mehreren Subjekten
Anwendungsperspektiven: Zeigt gutes Anwendungspotenzial in Bereichen wie Neurowissenschaften

Einschränkungen

Verteilungsannahmen: Derzeit auf Gaußsche Innovationen beschränkt, Erweiterung auf schwer-tailed Verteilungen bleibt eine Herausforderung
Parametereinstellung: Fehlende standardisierte Kriterien für die Parameternetze-Auswahl in der Kreuzvalidierung
Höhere Verzögerungen: Strukturierte Bestrafungsdesign für die Erweiterung auf VAR(p)-Modelle bedarf weiterer Verbesserung

Zukünftige Richtungen

Verteilungs-Erweiterung: Behandlung allgemeinerer Innovationsverteilungen wie subexponentielle Verteilungen
Clustering-Erweiterung: Kombination mit Clustering-Zerlegung für teilweise gemeinsame Pfade
Strukturierte Modellierung: Überlappende Gruppen-Spärlichkeits-Methoden für höhere Verzögerungen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Vollständige Konvergenzraten-Analyse und asymptotische Verteilungstheorie
Methodische Innovation: Geschickte Kombination robuster Schätzung und kommunikationseffizienter Frameworks
Experimentelle Vollständigkeit: Abdeckung mehrerer Heterogenitäts-Szenarien und Validierung mit echten Daten
Hoher praktischer Wert: Lösung wichtiger theoretischer und praktischer Probleme in diesem Bereich

Schwächen

Rechenkomplexität: Höhere Rechenkosten durch dreischichtige Kreuzvalidierung für die Parameterauswahl
Annahmebedingungen: Technische Bedingungen in Assumption 2.2 sind relativ streng
Erweiterbarkeit: Erweiterbarkeit der Methode auf komplexere Modellstrukturen bedarf weiterer Verifikation

Auswirkungen

Akademischer Beitrag: Bietet einen neuen theoretischen Rahmen für die Analyse hochdimensionaler Zeitreihen mit mehreren Subjekten
Anwendungswert: Breites Anwendungspotenzial in Neurowissenschaften, Psychologie und anderen Bereichen
Reproduzierbarkeit: Vollständige R-Paket-Implementierung verfügbar, erleichtert Forschungsreproduzierbarkeit

Anwendungsszenarien

Multi-Subjekt-Gehirnnetzwerk-Analyse
Forschung zu individuellen Unterschieden
Heterogene Zeitreihenmodellierung
Hochdimensionale VAR-Anwendungen, die statistische Inferenz erfordern

Literaturverzeichnis

Der Artikel zitiert umfangreiche relevante Literatur, die wichtige Arbeiten aus mehreren Bereichen wie hochdimensionale Statistik, Zeitreihenanalyse und robuste Schätzung abdeckt und eine solide theoretische Grundlage für die Forschung bietet.