Structured covariance estimation via tensor-train decomposition
Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
academic
टेंसर-ट्रेन विघटन के माध्यम से संरचित सहप्रसरण अनुमान
यह पेपर स्वतंत्र समान रूप से वितरित उच्च-आयामी यादृच्छिक सदिशों के नमूनों से सहप्रसरण मैट्रिक्स के अनुमान की समस्या का अध्ययन करता है। आयामीता के अभिशाप से बचने के लिए, लेखक सहप्रसरण मैट्रिक्स Σ की संरचना पर अतिरिक्त मान्यताएं लागू करते हैं, विशेष रूप से यह अध्ययन करते हैं कि Σ को टेंसर-ट्रेन (TT) प्रारूप में छोटे मैट्रिक्स के दोहरे क्रोनेकर उत्पाद के योग द्वारा अनुमानित किया जा सकता है। यह सेटिंग व्यापक रूप से ज्ञात क्रोनेकर योग और CANDECOMP/PARAFAC मॉडल को स्वाभाविक रूप से विस्तारित करता है, लेकिन तौर-तरीकों के बीच अधिक समृद्ध अंतःक्रिया की अनुमति देता है। लेखक TT-SVD और Tucker-2 मिश्रित संरचना के लिए उपयुक्त उच्च-क्रम ऑर्थोगोनल पुनरावृत्ति (HOOI) पर आधारित बहुपद समय पुनरावृत्ति एल्गोरिदम प्रस्तावित करते हैं, और छिपे हुए क्रोनेकर उत्पाद और टेंसर-ट्रेन संरचना को ध्यान में रखते हुए सहप्रसरण अनुमान सटीकता के गैर-स्पर्शोन्मुख आयाम-मुक्त सीमाएं प्राप्त करते हैं।
आयामीता का अभिशाप समस्या: उच्च-आयामी स्थिति में, शास्त्रीय नमूना सहप्रसरण अनुमानक Σ^=n1∑i=1nXiXiT आयामीता के अभिशाप का सामना करता है, जब d बहुत बड़ा हो तो प्रदर्शन तेजी से गिरता है।
संरचित मान्यताओं की आवश्यकता: इस समस्या को दूर करने के लिए, सांख्यिकीविद् आमतौर पर डेटा संरचना का लाभ उठाने और अज्ञात मापदंडों की कुल संख्या को कम करने के लिए Σ पर अतिरिक्त संरचनात्मक मान्यताएं लागू करते हैं।
मौजूदा विधियों की सीमाएं:
क्रोनेकर उत्पाद मॉडल Σ=Φ⊗Ψ बहुत सरल है
क्रोनेकर योग मॉडल Σ=∑k=1KΦk⊗Ψk पर्याप्त लचीलापन की कमी है
CANDECOMP/PARAFAC मॉडल कम्प्यूटेशनल रूप से NP-कठिन समस्याओं का सामना करता है
नया सहप्रसरण मॉडल: टेंसर-ट्रेन विघटन पर आधारित सहप्रसरण संरचना प्रस्तावित करता है, जो क्रोनेकर योग और CANDECOMP/PARAFAC मॉडल को स्वाभाविक रूप से विस्तारित करता है, अधिक समृद्ध तौर-तरीके अंतःक्रिया की अनुमति देता है।
कुशल एल्गोरिदम: HardTTh एल्गोरिदम डिजाइन किया गया है (Hard Tensor Train Thresholding), TT-SVD और Tucker-2 मिश्रित संरचना के अनुकूल HOOI पर आधारित, कम्प्यूटेशनल जटिलता O((J+K)Td1d2d3) है।
सैद्धांतिक गारंटी: गैर-स्पर्शोन्मुख, आयाम-मुक्त अभिसरण सीमाएं स्थापित करता है, जो TT संरचित टेंसर अनुमान के लिए पहला आयाम-मुक्त सैद्धांतिक परिणाम है।
व्यावहारिक सत्यापन: संख्यात्मक प्रयोगों के माध्यम से विधि की प्रभावशीलता को सत्यापित करता है, पुनरावृत्ति सुधार की आवश्यकता को प्रदर्शित करता है।
इनपुट: स्वतंत्र समान रूप से वितरित नमूने X1,…,Xn∈Rpqrआउटपुट: सहप्रसरण मैट्रिक्स Σ का अनुमान Σ~बाधा: Σ में TT संरचना है, Σ=∑j=1J∑k=1KUj⊗Vjk⊗Wk के रूप में व्यक्त किया जा सकता है
Tucker-2 मिश्रित संरचना: मानक Tucker विघटन के विपरीत जिसे तीन ऑर्थोगोनल कारकों की आवश्यकता होती है, TT संरचना को केवल दो ऑर्थोगोनल कारकों की आवश्यकता होती है, कम्प्यूटेशनल जटिलता को कम करता है।
पुनरावृत्ति सुधार रणनीति: तौर-तरीके उप-स्थान को वैकल्पिक रूप से अनुकूलित करके, अनुमान सटीकता को क्रमिक रूप से सुधारता है।
कठोर थ्रेसहोल्डिंग प्रक्रिया: नरम थ्रेसहोल्डिंग के बजाय कठोर थ्रेसहोल्डिंग का उपयोग करता है, टेंसर नाभिक मानदंड सन्निकटन की NP-कठिन समस्या से बचता है।
प्रयोग सैद्धांतिक शर्तों की आवश्यकता को सत्यापित करता है: जब एकवचन मान शर्तें संतुष्ट नहीं होती हैं (जैसे n=500), एल्गोरिदम उप-स्थान को प्रभावी ढंग से पुनः प्राप्त नहीं कर सकता; जब शर्तें संतुष्ट होती हैं (जैसे n≥2000), पुनरावृत्ति प्रदर्शन में महत्वपूर्ण सुधार करता है।
मॉडल लाभ: TT प्रारूप सहप्रसरण मॉडल कम्प्यूटेशनल व्यवहार्यता बनाए रखते हुए पारंपरिक क्रोनेकर मॉडल की तुलना में अधिक समृद्ध संरचना प्रदान करता है।
एल्गोरिदम प्रभावशीलता: HardTTh एल्गोरिदम बहुपद समय जटिलता को प्राप्त करता है, और पुनरावृत्ति के माध्यम से अनुमान गुणवत्ता में महत्वपूर्ण सुधार करता है।
सैद्धांतिक गारंटी: TT संरचना के लिए पहली आयाम-मुक्त अभिसरण सीमा स्थापित करता है, विचरण पद:
v~=96ω∥Σ∥nJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)