2025-11-10T02:36:50.165419

A Spatio-temporal CP decomposition analysis of New England region in the US

Sanogo
Spatio temporal data consist of measurement for one or more raster fields such as weather, traffic volume, crime rate, or disease incidents. Advances in modern technology have increased the number of available information for this type of data hence the rise of multidimensional data. In this paper we take advantage of the multidimensional structure of the data but also its temporal and spatial structure. In fact, we will be using the NCAR Climate Data Gateway website which provides data discovery and access services for global and regional climate model data. The daily values of total precipitation (prec), maximum (tmax), and minimum (tmin) temperature are combined to create a multidimensional data called tensor (a multidimensional array). In this paper, we propose a spatio temporal principal component analysis to initialize CP decomposition component. We take full advantage of the spatial and temporal structure of the data in the initialization step for cp component analysis. The performance of our method is tested via comparison with most popular initialization method. We also run a clustering analysis to further show the performance of our analysis.
academic

अमेरिका के न्यू इंग्लैंड क्षेत्र का स्पेसियो-टेम्पोरल CP विघटन विश्लेषण

मूल जानकारी

  • पेपर ID: 2510.10322
  • शीर्षक: अमेरिका के न्यू इंग्लैंड क्षेत्र का स्पेसियो-टेम्पोरल CP विघटन विश्लेषण
  • लेखक: फातौमता सानोगो (बेट्स कॉलेज गणित विभाग)
  • वर्गीकरण: stat.AP cs.NA math.NA
  • प्रकाशन तिथि: 11 अक्टूबर 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.10322

सारांश

स्पेसियो-टेम्पोरल डेटा में एक या अधिक ग्रिड फील्ड के मापन होते हैं, जैसे मौसम, यातायात प्रवाह, अपराध दर या रोग घटनाएं। आधुनिक तकनीकी प्रगति ने ऐसे डेटा की उपलब्ध जानकारी की मात्रा को बढ़ाया है, जिससे बहुआयामी डेटा उत्पन्न हुआ है। यह पेपर डेटा की बहुआयामी संरचना के साथ-साथ समय और स्थान संरचना का उपयोग करता है। लेखक NCAR जलवायु डेटा गेटवे वेबसाइट द्वारा प्रदान किए गए वैश्विक और क्षेत्रीय जलवायु मॉडल डेटा का उपयोग करते हुए, कुल वर्षा (prec), अधिकतम तापमान (tmax) और न्यूनतम तापमान (tmin) के दैनिक मानों को संयोजित करके बहुआयामी डेटा टेंसर बनाते हैं। पेपर स्पेसियो-टेम्पोरल प्रमुख घटक विश्लेषण प्रस्तावित करता है जो CP विघटन घटकों को आरंभीकृत करने के लिए, डेटा की स्थानिक और समय संरचना को CP घटक विश्लेषण के आरंभीकरण चरण में पूरी तरह से उपयोग करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

  1. समाधान की जाने वाली समस्या: पारंपरिक टेंसर विघटन विधियां (जैसे CP विघटन) जलवायु स्पेसियो-टेम्पोरल डेटा को संभालते समय, स्पेसियो-टेम्पोरल सहसंबंध के लिए विशेष आरंभीकरण रणनीति की कमी होती है, जिससे कारक पहचान क्षमता खराब और पुनर्निर्माण सटीकता कम होती है।
  2. समस्या की महत्ता:
    • वैश्विक जलवायु परिवर्तन से चरम मौसम की घटनाएं बार-बार होती हैं, जिन्हें अधिक विश्वसनीय पूर्वानुमान और निदान उपकरणों की आवश्यकता है
    • संख्यात्मक पृथ्वी प्रणाली मॉडल लंबे कम्प्यूटेशनल समय और डेटा आयाम के घातीय वृद्धि की चुनौती का सामना करते हैं
    • भौतिकी-आधारित मॉडल को अनुकरण करने के लिए सांख्यिकीय और मशीन लर्निंग विधियों की आवश्यकता है
  3. मौजूदा विधियों की सीमाएं:
    • PCA मुख्य विचरण पैटर्न निकाल सकता है, लेकिन चर को स्वतंत्र रूप से संभालता है और ऑर्थोगोनलिटी बाधा लागू करता है, भौतिक व्याख्या की कमी है
    • यादृच्छिक आरंभीकरण और HOSVD आरंभीकरण स्पेसियो-टेम्पोरल डेटा की अंतर्निहित संरचना पर विचार नहीं करते हैं
    • मौजूदा टेंसर विघटन विधियों का जलवायु अनुसंधान में सीमित अनुप्रयोग है
  4. अनुसंधान प्रेरणा: जलवायु डेटा के स्पेसियो-टेम्पोरल सहसंबंध का विशेष रूप से उपयोग करने वाली CP विघटन आरंभीकरण रणनीति विकसित करना, कारक पहचान क्षमता और पुनर्निर्माण सटीकता में सुधार करना।

मुख्य योगदान

  1. नई आरंभीकरण प्रक्रिया प्रस्तावित की: स्पेसियो-टेम्पोरल सहसंबंध का उपयोग करके CP विघटन की पुनर्निर्माण गुणवत्ता और व्याख्यात्मकता को बढ़ाया
  2. NCAR वर्षा और तापमान डेटासेट का अनुभवजन्य मूल्यांकन: सामान्य आरंभीकरण विधियों के साथ बेंचमार्क तुलना
  3. क्लस्टरिंग विश्लेषण किया: CP-व्युत्पन्न कारकों की व्याख्यात्मक मूल्य और मॉडल प्रदर्शन प्रदर्शित किया
  4. स्पेसियो-टेम्पोरल टेंसर विघटन के लिए सैद्धांतिक ढांचा प्रदान किया: जलवायु डेटा विश्लेषण के लिए स्केलेबल विश्लेषण ढांचा

विधि विवरण

कार्य परिभाषा

त्रि-आयामी टेंसर XRI×J×K\mathcal{X} \in \mathbb{R}^{I \times J \times K} दिया गया है, जहां II समय आयाम है, JJ स्थान आयाम है, KK चर आयाम है, लक्ष्य इष्टतम CP विघटन खोजना है: X=r=1Rarbrcr=[[A,B,C]]\mathcal{X} = \sum_{r=1}^{R} \mathbf{a}_r \circ \mathbf{b}_r \circ \mathbf{c}_r = [[\mathbf{A}, \mathbf{B}, \mathbf{C}]]

मॉडल आर्किटेक्चर

1. स्पेसियो-टेम्पोरल प्रमुख घटक विश्लेषण (STPCA)

  • डेटा रूपांतरण: डेटा मैट्रिक्स को बहुचर कार्यात्मक डेटा सेट में रूपांतरित करना, फूरियर आधार के माध्यम से रूपांतरण: ϕ0(t)=1T,ϕ2j1(t)=2Tsin(2πjtT),ϕ2j(t)=2Tcos(2πjtT)\phi_0(t) = \frac{1}{\sqrt{T}}, \quad \phi_{2j-1}(t) = \sqrt{\frac{2}{T}}\sin\left(\frac{2\pi j t}{T}\right), \quad \phi_{2j}(t) = \sqrt{\frac{2}{T}}\cos\left(\frac{2\pi j t}{T}\right)
  • स्थानिक भार मैट्रिक्स: Moran सूचकांक को स्थानिक भार मैट्रिक्स W\mathbf{W} के साथ संयोजित करके स्थानिक सहसंबंध मैट्रिक्स प्राप्त करना
  • विशेषता निष्कर्षण: विशेषताएं निकालना जो सकारात्मक और नकारात्मक दोनों हो सकती हैं और संबंधित स्पेसियो-टेम्पोरल प्रमुख घटक

2. CP विघटन अनुकूलन

कारक मैट्रिक्स अनुकूलन के लिए वैकल्पिक न्यूनतम वर्ग विधि (ALS) का उपयोग:

  • अन्य दो कारक मैट्रिक्स को ठीक करना, वर्तमान कारक मैट्रिक्स को ग्रेडिएंट डिसेंट के माध्यम से अपडेट करना
  • यादृच्छिक आरंभीकरण या HOSVD आरंभीकरण के बजाय STPCA परिणाम का उपयोग आरंभीकरण के रूप में

3. K-means क्लस्टरिंग

निकाले गए कारक मैट्रिक्स पर K-means क्लस्टरिंग लागू करना: minA,B,C,G,S,TX1TA(SB)TF2+λAGSF2+η(BF2+CF2)\min_{\mathbf{A},\mathbf{B},\mathbf{C},\mathbf{G},\mathbf{S},\mathbf{T}} \|\mathbf{X}_1 - \mathbf{T}\mathbf{A}(\mathbf{S} \odot \mathbf{B})^T\|_F^2 + \lambda\|\mathbf{A} - \mathbf{G}\mathbf{S}\|_F^2 + \eta(\|\mathbf{B}\|_F^2 + \|\mathbf{C}\|_F^2)

तकनीकी नवाचार बिंदु

  1. स्पेसियो-टेम्पोरल संरचना-जागरूक आरंभीकरण: पहली बार स्पेसियो-टेम्पोरल सहसंबंध को CP विघटन के आरंभीकरण प्रक्रिया में स्पष्ट रूप से शामिल किया
  2. बहु-स्तरीय विशेषता निष्कर्षण: फूरियर रूपांतरण और स्थानिक भार मैट्रिक्स के माध्यम से समय और स्थान पैटर्न को एक साथ कैप्चर करना
  3. अतिरिक्त विकर्णीकरण चरण की आवश्यकता नहीं: TASD विधि की तुलना में, SimDiag चरण से बचना, कम्प्यूटेशनल दक्षता में सुधार

प्रयोगात्मक सेटअप

डेटासेट

  • डेटा स्रोत: NA-CORDEX डेटासेट, NCAR जलवायु डेटा गेटवे से
  • समय सीमा: 1 जनवरी 1979 से 31 दिसंबर 2024 तक (13,149 दिन)
  • स्थानिक सीमा: अमेरिका के न्यू इंग्लैंड क्षेत्र (मेन, न्यू हैम्पशायर, वर्मोंट, मैसाचुसेट्स, रोड आइलैंड, कनेक्टिकट)
  • स्थानिक संकल्प: 0.22° (50 किलोमीटर), 31×34 ग्रिड सेल (कुल 1,054 ग्रिड बिंदु)
  • चर: कुल वर्षा (prec), अधिकतम तापमान (tmax), न्यूनतम तापमान (tmin)
  • टेंसर आयाम: XR13149×1054×3\mathcal{X} \in \mathbb{R}^{13149 \times 1054 \times 3}

मूल्यांकन मेट्रिक्स

  1. पुनर्निर्माण सापेक्ष त्रुटि: XestimateX2X2\frac{\|\mathcal{X}_{estimate} - \mathcal{X}\|_2}{\|\mathcal{X}\|_2}
  2. सिल्हूट गुणांक: bamax(a,b)\frac{b-a}{\max(a,b)}, जहां aa क्लस्टर के भीतर दूरी है, bb निकटतम क्लस्टर दूरी है

तुलना विधियां

  1. HOSVD+CPD: उच्च-क्रम विलक्षण मूल्य विघटन आरंभीकरण के साथ CP विघटन
  2. Random+CPD: यादृच्छिक आरंभीकरण के साथ CP विघटन
  3. STPCA+CPD: इस पेपर द्वारा प्रस्तावित विधि

कार्यान्वयन विवरण

  • CP विघटन की रैंक: R = 2, 3
  • क्लस्टरिंग विश्लेषण के लिए k मान सीमा: 2-12
  • तुलनात्मक प्रयोगों के लिए MATLAB टेंसर टूलबॉक्स का उपयोग

प्रयोगात्मक परिणाम

मुख्य परिणाम

पुनर्निर्माण त्रुटि तुलना

आरंभीकरण विधिरैंक=2 की सापेक्ष त्रुटिरैंक=3 की सापेक्ष त्रुटि
HOSVD0.49280.3832
Random0.49300.3849
STPCA0.49100.3810

STPCA विधि दोनों रैंक सेटिंग्स में सबसे कम पुनर्निर्माण सापेक्ष त्रुटि प्राप्त करती है।

क्लस्टरिंग प्रदर्शन तुलना

रैंक=2 पर सिल्हूट गुणांक:

आरंभीकरण विधिपैटर्न1 सिल्हूट गुणांकसर्वश्रेष्ठ kपैटर्न2 सिल्हूट गुणांकसर्वश्रेष्ठ k
HOSVD0.648420.58722
Random0.65820.62
STPCA0.799020.61844

रैंक=3 पर सिल्हूट गुणांक:

आरंभीकरण विधिपैटर्न1 सिल्हूट गुणांकसर्वश्रेष्ठ kपैटर्न2 सिल्हूट गुणांकसर्वश्रेष्ठ k
HOSVD0.493230.65282
Random0.51330.6482
STPCA0.645620.67212

प्रयोगात्मक निष्कर्ष

  1. स्पेसियो-टेम्पोरल सहसंबंध विश्लेषण:
    • वर्षा का स्थानिक और समय सहसंबंध कमजोर है
    • अधिकतम तापमान और न्यूनतम तापमान मजबूत स्पेसियो-टेम्पोरल सहसंबंध प्रदर्शित करते हैं, विशेष रूप से वसंत और शरद ऋतु में
    • तापमान चर के स्वत:सहसंबंध फलन का आकार बहुत समान है
  2. प्रदर्शन में सुधार: STPCA आरंभीकरण सभी परीक्षण कॉन्फ़िगरेशन में पारंपरिक विधियों से बेहतर है
  3. कम्प्यूटेशनल दक्षता: STPCA विधि अतिरिक्त विकर्णीकरण चरण से बचती है, कम्प्यूटेशनल गति तेजी है

संबंधित कार्य

  1. टेंसर विघटन विधियां: CP विघटन को पहली बार Hitchcock (1927) द्वारा प्रस्तावित किया गया था, बाद में Carroll और Chang (1970) और Harshman (1970) द्वारा विकसित किया गया
  2. स्थानिक PCA: स्थानिक स्वत:सहसंबंध पर विचार करने वाली प्रमुख घटक विश्लेषण विधि
  3. जलवायु डेटा विश्लेषण: जलवायु विज्ञान में अनुभवजन्य ऑर्थोगोनल फलन (EOF) विश्लेषण का अनुप्रयोग
  4. गहन शिक्षा विधियां: जलवायु मॉडलिंग में कनवोल्यूशनल न्यूरल नेटवर्क और ग्राफ न्यूरल नेटवर्क का अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रस्तावित STPCA+CPD विधि पुनर्निर्माण सटीकता और क्लस्टरिंग प्रदर्शन दोनों में पारंपरिक आरंभीकरण विधियों से बेहतर है
  2. स्पेसियो-टेम्पोरल निर्भरता का स्पष्ट उपयोग CP विघटन के प्रदर्शन में महत्वपूर्ण सुधार कर सकता है
  3. यह ढांचा बहुचर जलवायु डेटासेट विश्लेषण के लिए एक स्केलेबल समाधान प्रदान करता है

सीमाएं

  1. केवल न्यू इंग्लैंड क्षेत्र के जलवायु डेटा पर सत्यापित किया गया है, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है
  2. केवल 2 और 3 घटकों के विघटन पर विचार किया गया है, उच्च रैंक के मामलों के लिए आगे के अनुसंधान की आवश्यकता है
  3. स्थानिक भार मैट्रिक्स का चयन परिणामों को प्रभावित कर सकता है, गहन संवेदनशीलता विश्लेषण की आवश्यकता है

भविष्य की दिशाएं

  1. जटिल स्पेसियो-टेम्पोरल गतिशीलता को कैप्चर करने के लिए गहन शिक्षा आर्किटेक्चर को एकीकृत करना
  2. अधिक मजबूत स्पेसियो-टेम्पोरल टेंसर विघटन योजना का अनुसंधान
  3. पूर्वानुमान और डाउनस्केलिंग अनुप्रयोगों के लिए टेंसर ढांचे को सामान्यीकृत करना

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार: पहली बार स्पेसियो-टेम्पोरल सहसंबंध को CP विघटन आरंभीकरण में स्पष्ट रूप से शामिल किया, स्पष्ट सैद्धांतिक प्रेरणा के साथ
  2. प्रयोग पूर्णता: वास्तविक जलवायु डेटा पर व्यापक तुलनात्मक प्रयोग और क्लस्टरिंग विश्लेषण
  3. परिणाम विश्वसनीयता: कई मूल्यांकन मेट्रिक्स पर सुसंगत प्रदर्शन सुधार
  4. व्यावहारिक मूल्य: जलवायु डेटा विश्लेषण के लिए नए उपकरण और दृष्टिकोण प्रदान करता है

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त: अभिसरण और सांख्यिकीय गारंटी के सैद्धांतिक विश्लेषण की कमी
  2. प्रयोग पैमाना सीमित: केवल एकल क्षेत्र और सीमित विघटन रैंक पर सत्यापन
  3. पैरामीटर संवेदनशीलता: स्थानिक भार मैट्रिक्स और फूरियर आधार संख्या चयन के प्रभाव पर अपर्याप्त चर्चा
  4. कम्प्यूटेशनल जटिलता: विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण प्रदान नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: स्पेसियो-टेम्पोरल डेटा के टेंसर विघटन के लिए नई आरंभीकरण रणनीति प्रदान करता है
  2. अनुप्रयोग मूल्य: जलवायु विज्ञान, पर्यावरण निगरानी आदि क्षेत्रों में संभावित अनुप्रयोग मूल्य
  3. पुनरुत्पादनीयता: विस्तृत प्रयोगात्मक सेटअप प्रदान किया गया है, लेकिन कोड सार्वजनिक रूप से जारी नहीं किया गया है

लागू परिदृश्य

  1. बड़े पैमाने पर स्पेसियो-टेम्पोरल जलवायु डेटा विश्लेषण
  2. पर्यावरण निगरानी डेटा की पैटर्न पहचान
  3. स्पेसियो-टेम्पोरल सहसंबंध पर विचार करने की आवश्यकता वाले बहुचर डेटा आयाम में कमी
  4. जलवायु परिवर्तन अनुसंधान में क्षेत्रीय विश्लेषण

संदर्भ

  • Hitchcock, F.L. (1927). टेंसर या पॉलीडिक की अभिव्यक्ति उत्पादों के योग के रूप में
  • Carroll, J.D., Chang, J. (1970). बहुआयामी स्केलिंग में व्यक्तिगत अंतर का विश्लेषण
  • Harshman, R. (1970). PARAFAC प्रक्रिया की नींव
  • Krzýsko, M., et al. (2024). स्पेसियो-टेम्पोरल प्रमुख घटक विश्लेषण