2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic

Gemeinsame Modellierung und Inferenz von hochdimensionalen spärlichen Vektorautoregressionsmodellen mit mehreren Subjekten

Grundinformationen

  • Paper-ID: 2510.14044
  • Titel: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
  • Autoren: Younghoon Kim (Cornell University), Zachary F. Fisher (University of North Carolina at Chapel Hill), Vladas Pipiras (University of North Carolina at Chapel Hill)
  • Klassifizierung: stat.ME (Statistik - Methodologie)
  • Veröffentlichungsdatum: 17. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.14044

Zusammenfassung

Multi-Subjekt-Vektorautoregressionsmodelle (multi-VAR) erfassen heterogene Netzwerk-Granger-Kausalbeziehungen zwischen Subjekten, indem individuelle spärliche VAR-Übergansmatrizen in gemeinsame und subjektspezifische Pfade zerlegt werden. Obwohl dieses Modell zur Charakterisierung verborgener gemeinsamer und eindeutiger Pfade zwischen Subjekten angewendet wurde und in der Psychologie und Neurowissenschaft überlegene Leistung gegenüber gängigen Methoden gezeigt hat, weist die Verwendung gewichteter Mediane zur Identifikation gemeinsamer Effekte statistische Effizienzprobleme auf, da die Konvergenzraten durch das am wenigsten spärliche Subjekt und die kleinste Stichprobengröße über alle Subjekte bestimmt werden. Dieser Artikel schlägt neue Identifizierbarkeitsbedingungen für das multi-VAR-Modell basierend auf einem kommunikationseffizienten Datenintegrations-Framework vor und ermöglicht maßgeschneiderte Konvergenzraten für jede subjektspezifische Spärlichkeitsstufe und Stichprobengröße. Darüber hinaus wird ein Hypothesentestframework entwickelt, um die Nullheit und Homogenität individueller Pfade zu bewerten, wobei Wald-Typ-Teststatistiken basierend auf individuellen entverzerrten Schätzern konstruiert werden, und das Framework ermöglicht die Ableitung von Signifikanztests für gemeinsame Pfade.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme dieser Forschung sind statistische Effizienz und Inferenz in der hochdimensionalen spärlichen Vektorautoregressionsmodellierung mit mehreren Subjekten. Dies umfasst konkret:

  1. Statistische Effizienzprobleme: Bestehende multi-VAR-Modelle verwenden gewichtete Mediane zur Identifikation gemeinsamer Effekte, was dazu führt, dass Konvergenzraten durch das am wenigsten spärliche Subjekt und die kleinste Stichprobengröße begrenzt werden, ohne die heterogenen Merkmale jedes Subjekts vollständig zu nutzen.
  2. Fehlende Inferenz-Framework: Es fehlt ein formales Hypothesentestframework für multi-Subjekt-VAR-Modelle, um die Signifikanz, Nullheit und Homogenität individueller Pfade zu bewerten.

Forschungsrelevanz

Dieses Problem ist in den folgenden Bereichen von großer Bedeutung:

  • Neurowissenschaften: Analyse von Gehirnnetzwerk-Verbindungsmustern mehrerer Versuchspersonen, Identifikation gemeinsamer und subjektspezifischer neuronaler Verbindungen
  • Psychologie: Verständnis individueller Unterschiede und gemeinsamer psychologischer Prozesse
  • Genomik: Analyse gemeinsamer und subjektspezifischer Muster von Genregulationsnetzwerken
  • Finanzen: Modellierung systematischer und individueller Risiken in Finanzzeitsreihen

Einschränkungen bestehender Methoden

Die ursprüngliche multi-VAR-Methode weist folgende Probleme auf:

  1. Suboptimale Konvergenzraten: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), begrenzt durch das am wenigsten spärliche Subjekt
  2. Geringe Recheneffizienz: Erfordert Stapelverarbeitung aller Subjektgleichungen zur Lösung großer Optimierungsprobleme
  3. Fehlende Inferenzwerkzeuge: Keine statistischen Tests und Unsicherheitsquantifizierung möglich

Kernbeiträge

  1. Neue Identifizierbarkeitsbedingungen: Basierend auf einem kommunikationseffizienten Datenintegrations-Framework, vermeidet die Effizienzprobleme der gewichteten Median-Methode
  2. Individualisierte Konvergenzraten: Konvergenzraten hängen nun von der eigenen Spärlichkeitsstufe und Stichprobengröße jedes Subjekts ab, nicht vom globalen Worst-Case
  3. Umfassendes Inferenz-Framework: Entwicklung von drei Klassen von Hypothesentests: Nullheits-, Homogenitäts- und Signifikanztests
  4. Theoretische Garantien: Bereitstellung von Konvergenzraten für Schätzer und asymptotischen Verteilungstheorie für Teststatistiken
  5. Verbesserte Recheneffizienz: Einsatz einer Strategie der separaten Schätzung und anschließenden Aggregation, deutliche Reduzierung der Rechenkomplexität

Methodische Details

Aufgabendefinition

Gegeben sind K Subjekte mit d-dimensionalen Zeitreihen {X_t^(k)}, wobei jedes Subjekt T_k Zeitpunkte hat. Das Ziel ist:

  1. Schätzung gemeinsamer Pfade α^(0): VAR-Übergansmatrix-Parameter, die von allen Subjekten geteilt werden
  2. Schätzung eindeutiger Pfade α^(k): Parameter, die dem k-ten Subjekt eigen sind
  3. Erfüllung der Zerlegungsbeziehung: β^(k) = α^(0) + α^(k), wobei β^(k) der vollständige Parametervektor des k-ten Subjekts ist

Modellarchitektur

1. VAR-Modellspezifikation

Jedes Subjekt folgt einem VAR(p)-Modell:

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

wobei ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. Schätzungsverfahren

Schritt 1: Individuelle Schätzung Für jedes Subjekt k und jede Variable i wird Lasso-Regression verwendet:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

Schritt 2: Entverzerrte Schätzung Berechnung des entverzerrten Schätzers:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

wobei Θ̂^(k) die approximative Inverse der Hessian-Matrix ist, berechnet durch Knoten-Regression.

Schritt 3: Robuste Aggregation Verwendung einer neu abgestiegenen Verlustfunktion zur Identifikation gemeinsamer Pfade:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

Schritt 4: Spärlichkeit Anwendung von Hard-Thresholding oder Soft-Thresholding zur Wiederherstellung der Spärlichkeit:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

Technische Innovationen

  1. Robuste M-Schätzer: Identifikation gemeinsamer Effekte als Messfehler-Kontaminationsproblem, Verwendung neu abgestiegener Verlustfunktionen zur Behandlung von Ausreißern
  2. Individualisierte Schwellenwerte: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), vollständige Nutzung der Stichprobeninformationen jedes Subjekts
  3. Kommunikationseffizientes Framework: Vermeidung globaler Optimierung, jedes Subjekt kann unabhängig berechnet und dann aggregiert werden

Experimentelle Einrichtung

Datensätze

Simulierte Daten

  • Parametereinstellungen: K ∈ {10,15}, d ∈ {10,20}, durchschnittliche Stichprobenlänge T ∈ {50,200}
  • Heterogenitätsstufen: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, entsprechend hoher, mittlerer und niedriger Heterogenität
  • Gesamtspärlichkeit: Festgelegt auf 6%
  • Wiederholungen: 50 Wiederholungen für jede Einstellung

Echte Daten

  • Datenquelle: Human Connectome Project (HCP) Emotions-Verarbeitungs-Task fMRI-Daten
  • Versuchspersonen: 12 weibliche Personen, Alter 22-30 Jahre
  • Gehirnregionen-Aufteilung: Schaefer2018 400-Parcel Atlas, abgebildet auf 17 funktionelle Netzwerke
  • Stichprobenlänge: Durchschnittlich Tₖ = 165 Zeitpunkte

Bewertungsmetriken

Schätzungsleistung

  • RMSE: ∥α̂ - α∥₂/∥α∥₂
  • Sensitivität: Anteil der korrekt identifizierten Nicht-Null-Parameter
  • Spezifität: Anteil der korrekt identifizierten Null-Parameter

Inferenz-Leistung

  • FDR: False Discovery Rate
  • Power: Statistische Teststärke
  • Rechenzeit: Beschleunigungsverhältnis relativ zur Baseline-Methode

Vergleichsmethoden

  • multi-VAR: Ursprüngliches Multi-Subjekt-VAR-Modell
  • multi-VAR(A): multi-VAR mit adaptiver Lasso-Bestrafung

Experimentelle Ergebnisse

Hauptergebnisse

Schätzungsleistung

  1. Niedrigdimensionaler Fall (d=10): Vorgeschlagene Methode übertrifft bestehende Methoden bei RMSE
  2. Hochdimensionaler Fall (d=20): Mit zunehmender Stichprobengröße verringert sich der Leistungsunterschied
  3. Sensitivität und Spezifität: Vergleichbar mit adaptivem multi-VAR, was darauf hindeutet, dass individualisierte Schwellenwerte eine ähnliche Rolle wie adaptive Gewichte spielen

Recheneffizienz

Die vorgeschlagene Methode zeigt signifikante Verbesserungen in der Rechenzeit gegenüber der Baseline-Methode:

  • d=10, T=50: Beschleunigungsverhältnis etwa 2-3x
  • d=20, T=200: Beschleunigungsverhältnis bis zu 60-100x

Konvergenzraten-Verbesserung

Die theoretische Analyse zeigt, dass die vorgeschlagene Methode individualisierte Konvergenzraten erreicht:

  • Gemeinsame Pfade: ∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
  • Eindeutige Pfade: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

Inferenz-Ergebnisse

Hypothesentest-Leistung

  1. Nullheits-Test: FDR zwischen 0,0-0,6, Teststärke 0,5-1,0
  2. Homogenitäts-Test: FDR zwischen 0,0-0,6, Teststärke 0,4-1,0
  3. Signifikanz-Test: FDR durchgehend 0, Teststärke 0,25-1,0

Die Test-Leistung verbessert sich mit zunehmender Stichprobengröße und ist robust gegenüber Dimensionsänderungen.

Anwendung auf echte Daten

Gehirnnetzwerk-Entdeckung

  1. Gemeinsame Verbindungen: Identifikation von Gehirnnetzwerk-Verbindungen, die mit Emotions-Verarbeitung bei allen Versuchspersonen verbunden sind
  2. Individuelle Unterschiede: Im Vergleich zur Baseline-Methode identifiziert die vorgeschlagene Methode spärlichere, aber aussagekräftigere Verbindungsmuster
  3. Biologische Bedeutung: Die entdeckten Verbindungen entsprechen bekannten neuronalen Mechanismen der Emotions-Verarbeitung

Wichtigste Erkenntnisse

  • Bidirektionale Verbindung zwischen ventralem Aufmerksamkeitsnetzwerk A und Default-Mode-Netzwerk B
  • Verbindung vom frontalen Parietalnetzwerk A zum limbischen System B
  • Verbindung innerhalb des limbischen Systems von A zu B

Verwandte Arbeiten

Multi-Subjekt-Zeitreihenmodellierung

  1. Multi-Klassen-VAR-Modelle (Wilms et al., 2018): Verwendung von Fusions-Lasso zur Förderung der Ähnlichkeit zwischen Subjekten
  2. Nicht-überlappende Unterstützungs-Modelle (Skripnikov & Michailidis, 2019): Unterscheidung gemeinsamer und eindeutiger Komponenten durch nicht-konvexe Bestrafung
  3. Verbundene VAR-Modelle (Manomaisaowapak & Songsiri, 2022): Verwendung von Gruppen-Lasso zur Identifikation gemeinsamer Komponenten

Hochdimensionale Zeitreihen

  • Spärliche VAR-Modellierung: Anwendung von Lasso-Methoden in hochdimensionalen Einstellungen
  • Entverzerrte Schätzung: Statistische Inferenztheorie in hochdimensionaler Regression
  • Robuste Schätzung: M-Schätzer-Methoden zur Behandlung heterogener Daten

Vorteile dieses Artikels

Im Vergleich zu bestehenden Methoden bietet dieser Artikel erstmals:

  1. Theoretisch garantierte individualisierte Konvergenzraten
  2. Ein umfassendes statistisches Inferenz-Framework
  3. Eine kommunikationseffiziente Rechenstrategie

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodische Effektivität: Die neuen Identifizierbarkeitsbedingungen verbessern die statistische Effizienz des multi-VAR-Modells erheblich
  2. Theoretischer Beitrag: Etablierung einer individualisierten Konvergenzraten-Theorie, die die globalen Einschränkungen bestehender Methoden überwindet
  3. Praktischer Wert: Das Inferenz-Framework füllt eine wichtige Lücke in der hochdimensionalen Zeitreihenmodellierung mit mehreren Subjekten
  4. Anwendungsperspektiven: Zeigt gutes Anwendungspotenzial in Bereichen wie Neurowissenschaften

Einschränkungen

  1. Verteilungsannahmen: Derzeit auf Gaußsche Innovationen beschränkt, Erweiterung auf schwer-tailed Verteilungen bleibt eine Herausforderung
  2. Parametereinstellung: Fehlende standardisierte Kriterien für die Parameternetze-Auswahl in der Kreuzvalidierung
  3. Höhere Verzögerungen: Strukturierte Bestrafungsdesign für die Erweiterung auf VAR(p)-Modelle bedarf weiterer Verbesserung

Zukünftige Richtungen

  1. Verteilungs-Erweiterung: Behandlung allgemeinerer Innovationsverteilungen wie subexponentielle Verteilungen
  2. Clustering-Erweiterung: Kombination mit Clustering-Zerlegung für teilweise gemeinsame Pfade
  3. Strukturierte Modellierung: Überlappende Gruppen-Spärlichkeits-Methoden für höhere Verzögerungen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige Konvergenzraten-Analyse und asymptotische Verteilungstheorie
  2. Methodische Innovation: Geschickte Kombination robuster Schätzung und kommunikationseffizienter Frameworks
  3. Experimentelle Vollständigkeit: Abdeckung mehrerer Heterogenitäts-Szenarien und Validierung mit echten Daten
  4. Hoher praktischer Wert: Lösung wichtiger theoretischer und praktischer Probleme in diesem Bereich

Schwächen

  1. Rechenkomplexität: Höhere Rechenkosten durch dreischichtige Kreuzvalidierung für die Parameterauswahl
  2. Annahmebedingungen: Technische Bedingungen in Assumption 2.2 sind relativ streng
  3. Erweiterbarkeit: Erweiterbarkeit der Methode auf komplexere Modellstrukturen bedarf weiterer Verifikation

Auswirkungen

  1. Akademischer Beitrag: Bietet einen neuen theoretischen Rahmen für die Analyse hochdimensionaler Zeitreihen mit mehreren Subjekten
  2. Anwendungswert: Breites Anwendungspotenzial in Neurowissenschaften, Psychologie und anderen Bereichen
  3. Reproduzierbarkeit: Vollständige R-Paket-Implementierung verfügbar, erleichtert Forschungsreproduzierbarkeit

Anwendungsszenarien

  • Multi-Subjekt-Gehirnnetzwerk-Analyse
  • Forschung zu individuellen Unterschieden
  • Heterogene Zeitreihenmodellierung
  • Hochdimensionale VAR-Anwendungen, die statistische Inferenz erfordern

Literaturverzeichnis

Der Artikel zitiert umfangreiche relevante Literatur, die wichtige Arbeiten aus mehreren Bereichen wie hochdimensionale Statistik, Zeitreihenanalyse und robuste Schätzung abdeckt und eine solide theoretische Grundlage für die Forschung bietet.