2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras

The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.

academic

बहु-विषय उच्च-आयामी विरल सदिश स्वप्रतिगामी मॉडल का संयुक्त मॉडलिंग और अनुमान

मूल जानकारी

पेपर ID: 2510.14044
शीर्षक: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
लेखक: Younghoon Kim (कॉर्नेल विश्वविद्यालय), Zachary F. Fisher (उत्तरी कैरोलिना विश्वविद्यालय चैपल हिल), Vladas Pipiras (उत्तरी कैरोलिना विश्वविद्यालय चैपल हिल)
वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
प्रकाशन तिथि: 17 अक्टूबर, 2025
पेपर लिंक: https://arxiv.org/abs/2510.14044

सारांश

बहु-विषय सदिश स्वप्रतिगामी (multi-VAR) मॉडल व्यक्तिगत विरल VAR स्थानांतरण मैट्रिक्स को सामान्य साझा पथ और विषय-विशिष्ट पथ में विघटित करके विषयों के बीच विषमजातीय नेटवर्क Granger कारणात्मकता को पकड़ता है। हालांकि इस मॉडल को विषयों के बीच छिपे हुए साझा और अद्वितीय पथों को चिह्नित करने के लिए लागू किया गया है और मनोविज्ञान और तंत्रिका विज्ञान में सामान्य तरीकों से बेहतर प्रदर्शन दिखाया है, भारित माध्यिका का उपयोग करके सामान्य प्रभाव की पहचान करने का तरीका सांख्यिकीय दक्षता समस्याओं से ग्रस्त है, क्योंकि सामान्य पथ और अद्वितीय पथों के अभिसरण दर सबसे कम विरल विषय और सभी विषयों में न्यूनतम नमूना आकार द्वारा निर्धारित होते हैं। यह पेपर संचार-कुशल डेटा एकीकरण ढांचे के आधार पर multi-VAR मॉडल के लिए नई पहचान योग्यता शर्तें प्रस्तावित करता है, जो प्रत्येक विषय की विरलता स्तर और नमूना आकार के लिए अनुकूलित अभिसरण दर प्राप्त करता है। इसके अतिरिक्त, व्यक्तिगत पथों की शून्यता और समरूपता का मूल्यांकन करने के लिए एक परिकल्पना परीक्षण ढांचा विकसित किया गया है, जो व्यक्तिगत निष्पक्ष अनुमानकर्ताओं के आधार पर निर्मित Wald-प्रकार के परीक्षण सांख्यिकी का उपयोग करता है, और इस ढांचे के माध्यम से सामान्य पथ महत्व परीक्षण प्राप्त किया जा सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान बहु-विषय उच्च-आयामी विरल सदिश स्वप्रतिगामी मॉडलिंग में सांख्यिकीय दक्षता और अनुमान समस्याओं को हल करने का लक्ष्य रखता है। विशेष रूप से इसमें शामिल हैं:

सांख्यिकीय दक्षता समस्या: मौजूदा multi-VAR मॉडल भारित माध्यिका का उपयोग करके सामान्य प्रभाव की पहचान करते हैं, जिससे अभिसरण दर सबसे कम विरल विषय और न्यूनतम नमूना आकार द्वारा सीमित होती है, जो प्रत्येक विषय की विषमजातीय विशेषताओं का पूर्ण उपयोग नहीं कर सकती है।
अनुमान ढांचे की कमी: बहु-विषय VAR मॉडल के लिए औपचारिक परिकल्पना परीक्षण ढांचे की कमी है, जो व्यक्तिगत पथों की महत्ता, शून्यता और समरूपता का मूल्यांकन नहीं कर सकते हैं।

अनुसंधान का महत्व

यह समस्या निम्नलिखित क्षेत्रों में महत्वपूर्ण है:

तंत्रिका विज्ञान: कई प्रतिभागियों के मस्तिष्क नेटवर्क कनेक्शन पैटर्न का विश्लेषण, सामान्य और व्यक्तिगत-विशिष्ट तंत्रिका कनेक्शन की पहचान
मनोविज्ञान: व्यक्तिगत अंतर और सामान्य मनोवैज्ञानिक प्रक्रियाओं को समझना
जीनोमिक्स: जीन नियामक नेटवर्क के सामान्य और व्यक्तिगत-विशिष्ट पैटर्न का विश्लेषण
वित्त: वित्तीय समय श्रृंखला की प्रणालीगत और व्यक्तिगत जोखिम को मॉडल करना

मौजूदा तरीकों की सीमाएं

मूल multi-VAR विधि निम्नलिखित समस्याओं से ग्रस्त है:

उप-इष्टतम अभिसरण दर: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), सबसे कम विरल विषय द्वारा सीमित
कम कम्प्यूटेशनल दक्षता: सभी विषय समीकरणों को ढेर करके बड़े पैमाने पर अनुकूलन समस्या को हल करने की आवश्यकता है
अनुमान उपकरणों की कमी: सांख्यिकीय परीक्षण और अनिश्चितता परिमाणीकरण नहीं कर सकते हैं

मुख्य योगदान

नई पहचान योग्यता शर्तें प्रस्तावित करना: संचार-कुशल डेटा एकीकरण ढांचे के आधार पर, भारित माध्यिका विधि की सांख्यिकीय दक्षता समस्या से बचा जाता है
व्यक्तिगतकृत अभिसरण दर प्राप्त करना: अभिसरण दर अब प्रत्येक विषय की अपनी विरलता स्तर और नमूना आकार पर निर्भर करती है, न कि वैश्विक सबसे खराब स्थिति पर
संपूर्ण अनुमान ढांचा बनाना: तीन प्रकार की परिकल्पना परीक्षण विकसित करना: शून्यता परीक्षण, समरूपता परीक्षण और महत्व परीक्षण
सैद्धांतिक गारंटी: अनुमानकर्ता के अभिसरण दर और परीक्षण सांख्यिकी के स्पर्शोन्मुख वितरण सिद्धांत प्रदान करना
कम्प्यूटेशनल दक्षता में सुधार: अलग-अलग अनुमान और फिर एकत्रीकरण की रणनीति अपनाना, कम्प्यूटेशनल जटिलता में काफी कमी

विधि विवरण

कार्य परिभाषा

K विषयों की d-आयामी समय श्रृंखला {X_t^(k)} दी गई है, जहां प्रत्येक विषय के पास T_k समय बिंदु हैं, लक्ष्य है:

सामान्य पथ α^(0) का अनुमान लगाना: सभी विषयों द्वारा साझा किए गए VAR स्थानांतरण मैट्रिक्स पैरामीटर
अद्वितीय पथ α^(k) का अनुमान लगाना: kवें विषय के विशिष्ट पैरामीटर
विघटन संबंध को संतुष्ट करना: β^(k) = α^(0) + α^(k), जहां β^(k) kवें विषय का पूर्ण पैरामीटर सदिश है

मॉडल आर्किटेक्चर

1. VAR मॉडल सेटिंग

प्रत्येक विषय VAR(p) मॉडल का पालन करता है:

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

जहां ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. अनुमान प्रक्रिया

चरण 1: व्यक्तिगत अनुमान प्रत्येक विषय k और प्रत्येक चर i के लिए, Lasso प्रतिगमन का उपयोग करना:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

चरण 2: निष्पक्ष अनुमान निष्पक्ष अनुमानकर्ता की गणना करना:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

जहां Θ̂^(k) Hessian मैट्रिक्स का अनुमानित व्युत्क्रम है, नोड प्रतिगमन के माध्यम से गणना की जाती है।

चरण 3: मजबूत एकत्रीकरण सामान्य पथ की पहचान के लिए पुनः-अवरोही हानि फ़ंक्शन का उपयोग करना:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

चरण 4: विरलीकरण विरलता को पुनः प्राप्त करने के लिए कठोर या नरम थ्रेशोल्डिंग लागू करना:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

तकनीकी नवाचार बिंदु

मजबूत M-अनुमानकर्ता: सामान्य प्रभाव की पहचान को माप प्रदूषण समस्या के रूप में मानना, बाहरी मानों को संभालने के लिए पुनः-अवरोही हानि फ़ंक्शन का उपयोग करना
व्यक्तिगतकृत थ्रेशोल्ड: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), प्रत्येक विषय की नमूना जानकारी का पूर्ण उपयोग करना
संचार-कुशल ढांचा: वैश्विक अनुकूलन से बचना, प्रत्येक विषय स्वतंत्र रूप से गणना कर सकता है और फिर एकत्रित कर सकता है

प्रयोगात्मक सेटअप

डेटासेट

सिमुलेशन डेटा

पैरामीटर सेटिंग: K ∈ {10,15}, d ∈ {10,20}, औसत नमूना लंबाई T ∈ {50,200}
विषमजातीयता स्तर: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, क्रमशः उच्च, मध्यम, निम्न विषमजातीयता के अनुरूप
कुल विरलता: 6% पर निर्धारित
दोहराव संख्या: प्रत्येक सेटिंग को 50 बार दोहराया गया

वास्तविक डेटा

डेटा स्रोत: Human Connectome Project (HCP) भावनात्मक प्रसंस्करण कार्य fMRI डेटा
प्रतिभागी: 12 महिलाएं, आयु 22-30 वर्ष
मस्तिष्क क्षेत्र विभाजन: Schaefer2018 400-parcel atlas, 17 कार्यात्मक नेटवर्क में मैप किया गया
नमूना लंबाई: औसत Tₖ = 165 समय बिंदु

मूल्यांकन मेट्रिक्स

अनुमान प्रदर्शन

RMSE: ∥α̂ - α∥₂/∥α∥₂
संवेदनशीलता: गैर-शून्य पैरामीटर को सही ढंग से पहचानने का अनुपात
विशिष्टता: शून्य पैरामीटर को सही ढंग से पहचानने का अनुपात

अनुमान प्रदर्शन

FDR: झूठी खोज दर
Power: सांख्यिकीय शक्ति
कम्प्यूटेशनल समय: आधारभूत विधि के सापेक्ष त्वरण अनुपात

तुलना विधियां

multi-VAR: मूल बहु-विषय VAR मॉडल
multi-VAR(A): अनुकूली Lasso दंड के साथ multi-VAR

प्रयोगात्मक परिणाम

मुख्य परिणाम

अनुमान प्रदर्शन

निम्न-आयामी स्थिति (d=10): प्रस्तावित विधि RMSE पर मौजूदा तरीकों से बेहतर है
उच्च-आयामी स्थिति (d=20): नमूना आकार बढ़ने के साथ, प्रदर्शन अंतर कम हो जाता है
संवेदनशीलता और विशिष्टता: अनुकूली multi-VAR के समान है, जो दर्शाता है कि व्यक्तिगतकृत थ्रेशोल्ड अनुकूली वजन के समान भूमिका निभाता है

कम्प्यूटेशनल दक्षता

प्रस्तावित विधि कम्प्यूटेशनल समय में आधारभूत विधि से काफी बेहतर है:

d=10, T=50: त्वरण अनुपात लगभग 2-3 गुना
d=20, T=200: त्वरण अनुपात 60-100 गुना तक पहुंच सकता है

अभिसरण दर में सुधार

सैद्धांतिक विश्लेषण से पता चलता है कि प्रस्तावित विधि व्यक्तिगतकृत अभिसरण दर प्राप्त करती है:

सामान्य पथ: ∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
अद्वितीय पथ: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

अनुमान परिणाम

परिकल्पना परीक्षण प्रदर्शन

शून्यता परीक्षण: FDR 0.0-0.6 के बीच है, शक्ति 0.5-1.0
समरूपता परीक्षण: FDR 0.0-0.6 के बीच है, शक्ति 0.4-1.0
महत्व परीक्षण: FDR हमेशा 0 है, शक्ति 0.25-1.0

परीक्षण प्रदर्शन नमूना आकार बढ़ने के साथ सुधारता है, आयाम परिवर्तन के लिए मजबूत है।

वास्तविक डेटा अनुप्रयोग

मस्तिष्क नेटवर्क खोज

सामान्य कनेक्शन: सभी प्रतिभागियों द्वारा साझा किए गए भावनात्मक प्रसंस्करण से संबंधित मस्तिष्क नेटवर्क कनेक्शन की पहचान
व्यक्तिगत अंतर: आधारभूत विधि की तुलना में, प्रस्तावित विधि अधिक विरल लेकिन अधिक व्याख्यात्मक कनेक्शन पैटर्न की पहचान करती है
जैविक अर्थ: खोजे गए कनेक्शन भावनात्मक प्रसंस्करण के ज्ञात तंत्रिका तंत्र के अनुरूप हैं

मुख्य निष्कर्ष

वेंट्रल अटेंशन नेटवर्क A और डिफ़ॉल्ट मोड नेटवर्क B के बीच द्विदिशीय कनेक्शन
फ्रंटोपेरिएटल नेटवर्क A से लिम्बिक सिस्टम B तक कनेक्शन
लिम्बिक सिस्टम के भीतर A से B कनेक्शन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि की प्रभावशीलता: नई पहचान योग्यता शर्तें multi-VAR मॉडल की सांख्यिकीय दक्षता में काफी सुधार करती हैं
सैद्धांतिक योगदान: व्यक्तिगतकृत अभिसरण दर सिद्धांत स्थापित करना, मौजूदा तरीकों की वैश्विक सीमा को तोड़ना
व्यावहारिक मूल्य: अनुमान ढांचा बहु-विषय उच्च-आयामी समय श्रृंखला मॉडलिंग में महत्वपूर्ण रिक्तता को भरता है
अनुप्रयोग संभावनाएं: तंत्रिका विज्ञान जैसे क्षेत्रों में अच्छी अनुप्रयोग क्षमता प्रदर्शित करता है

सीमाएं

वितरण धारणा: वर्तमान में गाऊसी नवाचार तक सीमित है, भारी-पूंछ वाले वितरण में विस्तार अभी भी चुनौती है
पैरामीटर ट्यूनिंग: क्रॉस-सत्यापन में पैरामीटर ग्रिड चयन के लिए मानकीकृत मानदंड की कमी है
उच्च-क्रम लैग: VAR(p) मॉडल में विस्तार करते समय संरचित दंड डिजाइन में सुधार की आवश्यकता है

भविष्य की दिशाएं

वितरण विस्तार: सबएक्सपोनेंशियल वितरण जैसे अधिक सामान्य नवाचार वितरण को संभालना
क्लस्टरिंग विस्तार: आंशिक साझा पथ के क्लस्टरिंग विघटन को संयोजित करना
संरचित मॉडलिंग: उच्च-क्रम लैग के लिए ओवरलैपिंग समूह विरलता विधि

गहन मूल्यांकन

लाभ

सैद्धांतिक कठोरता: संपूर्ण अभिसरण दर विश्लेषण और स्पर्शोन्मुख वितरण सिद्धांत प्रदान करना
विधि नवाचार: मजबूत अनुमान और संचार-कुशल ढांचे को चतुराई से संयोजित करना
प्रयोग व्यापकता: कई विषमजातीयता परिदृश्य और वास्तविक डेटा सत्यापन को कवर करना
व्यावहारिक मूल्य उच्च: इस क्षेत्र की महत्वपूर्ण सैद्धांतिक और व्यावहारिक समस्याओं को हल करना

कमियां

कम्प्यूटेशनल जटिलता: तीन-स्तरीय क्रॉस-सत्यापन पैरामीटर चयन की कम्प्यूटेशनल लागत अधिक है
धारणा शर्तें: Assumption 2.2 में तकनीकी शर्तें काफी कठोर हैं
विस्तार क्षमता: विधि को अधिक जटिल मॉडल संरचना में विस्तार की क्षमता सत्यापन की प्रतीक्षा में है

प्रभाव

शैक्षणिक योगदान: बहु-विषय उच्च-आयामी समय श्रृंखला विश्लेषण के लिए नया सैद्धांतिक ढांचा प्रदान करना
अनुप्रयोग मूल्य: तंत्रिका विज्ञान, मनोविज्ञान आदि क्षेत्रों में व्यापक अनुप्रयोग संभावनाएं
पुनरुत्पादनीयता: संपूर्ण R पैकेज कार्यान्वयन प्रदान करना, अनुसंधान पुनरुत्पादन को सुविधाजनक बनाना

लागू परिदृश्य

बहु-विषय मस्तिष्क नेटवर्क विश्लेषण
व्यक्तिगत अंतर अनुसंधान
विषमजातीय समय श्रृंखला मॉडलिंग
सांख्यिकीय अनुमान की आवश्यकता वाले उच्च-आयामी VAR अनुप्रयोग

संदर्भ

पेपर में उच्च-आयामी सांख्यिकी, समय श्रृंखला विश्लेषण, मजबूत अनुमान और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हुए समृद्ध संबंधित साहित्य का हवाला दिया गया है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।