A Novel Block-Alternating Iterative Algorithm for Retrieving Top-$k$ Elements from Factorized Tensors
Xiao, Zeng
Tensors, especially higher-order tensors, are typically represented in low-rank formats to preserve the main information of the high-dimensional data while saving memory space. In practice, only a small fraction elements in high-dimensional data are of interest, such as the $k$ largest or smallest elements. Thus, retrieving the $k$ largest/smallest elements from a low-rank tensor is a fundamental and important task in a wide variety of applications. In this paper, we first model the top-$k$ elements retrieval problem to a continuous constrained optimization problem. To address the equivalent optimization problem, we develop a block-alternating iterative algorithm that decomposes the original problem into a sequence of small-scale subproblems. Leveraging the separable summation structure of the objective function, a heuristic algorithm is proposed to solve these subproblems in an alternating manner. Numerical experiments with tensors from synthetic and real-world applications demonstrate that the proposed algorithm outperforms existing methods in terms of accuracy and stability.
academic
गुणनखंडित टेंसर से शीर्ष-k तत्वों को पुनः प्राप्त करने के लिए एक नवीन ब्लॉक-वैकल्पिक पुनरावृत्तिमूलक एल्गोरिदम
उच्च-क्रम टेंसर को आमतौर पर निम्न-रैंक प्रारूप में प्रदर्शित किया जाता है, जो मेमोरी बचाते हुए उच्च-आयामी डेटा की मुख्य जानकारी को संरक्षित करता है। व्यावहारिक अनुप्रयोगों में, अक्सर डेटा के केवल एक छोटे हिस्से पर ध्यान दिया जाता है, जैसे कि सबसे बड़े या सबसे छोटे k तत्व। यह पेपर निम्न-रैंक टेंसर से शीर्ष-k तत्वों को पुनः प्राप्त करने की इस मौलिक समस्या को संबोधित करता है, पहले इसे एक सतत बाधित अनुकूलन समस्या के रूप में मॉडल करके, फिर एक ब्लॉक-वैकल्पिक पुनरावृत्तिमूलक एल्गोरिदम विकसित करके जो मूल समस्या को छोटी-छोटी उप-समस्याओं में विघटित करता है। उद्देश्य फ़ंक्शन की वियोज्य योग संरचना का उपयोग करते हुए, एक अनुमानी एल्गोरिदम प्रस्तावित किया गया है जो इन उप-समस्याओं को वैकल्पिक तरीके से हल करता है। सिंथेटिक डेटा और वास्तविक अनुप्रयोग टेंसर पर संख्यात्मक प्रयोग दिखाते हैं कि एल्गोरिदम सटीकता और स्थिरता के मामले में मौजूदा तरीकों से बेहतर है।
गुणनखंडित टेंसर (factorized tensor) से शीर्ष-k सबसे बड़े या सबसे छोटे तत्वों और उनके स्थानों को कुशलतापूर्वक और सटीक रूप से पुनः प्राप्त करना। यहाँ गुणनखंडित टेंसर CP, Tucker, TT आदि निम्न-रैंक विघटन प्रारूपों में प्रदर्शित उच्च-आयामी डेटा को संदर्भित करता है।
अनुशंसा प्रणाली: सबसे बड़े k तत्व सबसे अर्थपूर्ण व्यक्तिगतकृत अनुशंसाओं के अनुरूप हैं
क्वांटम सिमुलेशन: क्वांटम अवस्थाओं को आमतौर पर मेमोरी उपयोग को कम करने के लिए टेंसर विघटन में प्रदर्शित किया जाता है, अधिकतम संभावना अनुमान गुणनखंडित टेंसर में अधिकतम आयाम तत्वों को पुनः प्राप्त करने के बराबर है
वैज्ञानिक कम्प्यूटिंग: सिमुलेशन डेटा, हाइपरस्पेक्ट्रल छवियों, वीडियो आदि उच्च-आयामी डेटा की मुख्य जानकारी निष्कर्षण
अनुकूलन समस्याएं: कई व्यावहारिक कार्यों को शीर्ष-k तत्व पुनः प्राप्ति समस्या के रूप में मॉडल किया जा सकता है
सटीकता नमूना आकार और गुणवत्ता पर अत्यधिक निर्भर है
गुणनखंडित टेंसर की अंतर्निहित संरचना से प्रभावित, अस्थिर प्रदर्शन
केवल k>1 के लिए उपयुक्त, न्यूनतम तत्वों को पुनः प्राप्त करने के लिए सीधे सामान्यीकृत नहीं किया जा सकता
सतत अनुकूलन विधियां:
शक्ति पुनरावृत्ति/व्युत्क्रम पुनरावृत्ति: Hadamard उत्पाद टेंसर रैंक के तेजी से वृद्धि का कारण बनता है, पुनः संपीड़न संचालन की आवश्यकता होती है, संचित त्रुटि स्थान निर्धारण विफलता का कारण बन सकती है
प्रक्षेपित ढाल वंश (PGD): हाइपरपैरामीटर (जैसे चरण आकार) चयन के लिए अत्यधिक संवेदनशील, विभिन्न कार्यों में अस्थिर प्रदर्शन
मौजूदा एल्गोरिदम k>1 के मामले में सीधे लागू नहीं किए जा सकते
सममित eigenvalue मॉडल (Espig et al. 2013, 2020) के आधार पर, लेखकों ने देखा कि eigenvector के अनुरूप टेंसर में रैंक-एक संरचना है, जिससे नई समतुल्य सतत बाधित अनुकूलन पुनर्निर्माण प्रस्तावित की गई है, और ब्लॉक-वैकल्पिक पुनरावृत्तिमूलक एल्गोरिदम को कुशलतापूर्वक हल करने के लिए डिज़ाइन किया गया है।
मॉडलिंग योगदान: eigenvector के अनुरूप टेंसर की रैंक-एक संरचना के आधार पर, शीर्ष-k तत्व पुनः प्राप्ति समस्या को सतत बाधित अनुकूलन समस्या के रूप में मॉडल किया गया है (प्रमेय 1)
एल्गोरिदम योगदान: समतुल्य अनुकूलन समस्या को हल करने के लिए एक नवीन ब्लॉक-वैकल्पिक पुनरावृत्तिमूलक एल्गोरिदम प्रस्तावित किया गया है, उद्देश्य फ़ंक्शन की वियोज्य योग संरचना का उपयोग करके अनुमानी विधि डिज़ाइन की गई है
अनुप्रयोग योगदान: एल्गोरिदम को क्वांटम सर्किट सिमुलेशन के माप चरण में लागू किया गया है, संख्यात्मक परिणाम मौजूदा एल्गोरिदम से बेहतर हैं
प्रदर्शन लाभ:
सार्वभौमिकता: अधिकतम/न्यूनतम k तत्वों और उनके स्थानों को पुनः प्राप्त कर सकता है
स्थिरता: विभिन्न वितरण के गुणनखंडित टेंसर पर सटीकता में उल्लेखनीय सुधार
इनपुट: d-क्रम CP टेंसर A∈Rn1×n2×⋯×nd, जिसे इस प्रकार प्रदर्शित किया गया है:
A:=∑r=1RU1(:,r)∘U2(:,r)∘⋯∘Ud(:,r)
जहाँ ∘ टेंसर बाहरी उत्पाद को दर्शाता है, {Up∈Rnp×R:p=1,…,d} CP कारक हैं, R CP रैंक है।
आउटपुट: k सबसे बड़े (या सबसे छोटे) तत्वों के मान और संबंधित बहु-आयामी सूचकांक स्थान।
उद्देश्य: टेंसर को पूरी तरह से पुनः प्राप्त किए बिना, गुणनखंडित प्रतिनिधित्व से सीधे कुशलतापूर्वक पुनः प्राप्त करना।
शीर्ष-k पुनः प्राप्ति समस्या को सममित eigenvalue समस्या में परिवर्तित करना। मुख्य अवलोकन: विकर्ण मैट्रिक्स A (टेंसर के सभी तत्वों से बना) के eigenvector में रैंक-एक संरचना है।
अनुकूलन समस्या 2.5 (मुख्य मॉडलिंग):
maxXp∈Rnp×k∑j=1k∑r=1R∏p=1d⟨Xp(:,j),Up(:,r)∗Xp(:,j)⟩
बाधा शर्तें:
∥Xp(:,j)∥2=1 सभी p=1,…,d;j=1,…,k के लिए
∏p=1d⟨Xp(:,i),Xp(:,j)⟩={1,0,i=ji=j
जहाँ ∗ Hadamard उत्पाद को दर्शाता है, ⟨⋅,⋅⟩ आंतरिक उत्पाद को दर्शाता है।
स्केल विश्लेषण: समस्या का स्केल ∑p=1dnpk है, उद्देश्य फ़ंक्शन गणना केवल np-आयामी वेक्टर के Hadamard उत्पाद को शामिल करती है, पूर्ण टेंसर पुनः प्राप्ति से बचा जाता है।
मुख्य विचार: गैर-रैखिक Gauss-Seidel पुनरावृत्ति से प्रेरित, हर बार केवल s लक्ष्य चर {Xp1,…,Xps} को अपडेट करते हैं, बड़ी समस्या को छोटी उप-समस्याओं में विघटित करते हैं।
उप-समस्या रूप (प्रमेय 2):
max{Xq:q∈{p1,…,ps}}∑j,r=1k,Rαrt∏q∈{p1,…,ps}⟨Xq(:,j),Uq(:,r)∗Xq(:,j)⟩
जहाँ गुणांक:
αr,jt=∏q∈/{p1,…,ps}⟨Xqt(:,j),Uq(:,r)∗Xqt(:,j)⟩
उप-समस्या स्केल ∑q∈{p1,…,ps}nqk तक कम हो जाता है।
मुख्य अवलोकन: उद्देश्य फ़ंक्शन में वियोज्य योग संरचना है:
f1(Xp1(:,1),…,Xps(:,1))+⋯+fk(Xp1(:,k),…,Xps(:,k))
समाधान रणनीति: क्रम में 1→2→⋯→k समाधान निर्धारित करते हैं, जो स्थानीय इष्टतमता को संतुष्ट करते हैं।
j=1 के लिए:
(Xp1∗(:,1),…,Xps∗(:,1))=argmaxf1s-क्रम CP टेंसर ∑r=1Rαr,1tUp1(:,r)∘⋯∘Ups(:,r) के सबसे बड़े तत्व को पुनः प्राप्त करने के बराबर है।
j>1 के लिए: बाधा βr,i,jt∏q∈{p1,…,ps}⟨Xq(:,i),Xq(:,j)⟩=0 (सभी i<j के लिए) को संतुष्ट करना आवश्यक है।
दो मामले:
यदि βr,i,jt=0: बाधा अप्रभावी है, सीधे सबसे बड़े तत्व को पुनः प्राप्त करें
अन्यथा: ऑर्थोगोनैलिटी शर्त को संतुष्ट करने वाले सबसे बड़े तत्व को खोजें
रैंक-एक संरचना उपयोग: पहली बार स्पष्ट रूप से eigenvector के अनुरूप टेंसर की रैंक-एक संरचना का उपयोग अनुकूलन समस्या को सरल बनाने के लिए, उच्च-आयामी टेंसर को सीधे संभालने से बचा जाता है
ब्लॉक विघटन रणनीति: ब्लॉक पैरामीटर s के माध्यम से उप-समस्या स्केल और खोज स्थान आकार को नियंत्रित करते हैं, दक्षता और सटीकता को संतुलित करते हैं
वियोज्य योग उपयोग: उद्देश्य फ़ंक्शन की वियोज्यता का कुशलतापूर्वक उपयोग करते हैं, k समाधानों के संयुक्त अनुकूलन को क्रमिक अनुकूलन में परिवर्तित करते हैं
बाधा प्रबंधन: βr,i,jt गुणांक के माध्यम से बाधा प्रभावशीलता को कुशलतापूर्वक निर्धारित करते हैं, घातीय जटिलता से बचा जाता है
सार्वभौमिक डिजाइन:
अधिकतम/न्यूनतम तत्व पुनः प्राप्ति केवल अनुकूलन दिशा बदलने की आवश्यकता है
जटिल टेंसर के वास्तविक/काल्पनिक भाग पुनः प्राप्ति का समर्थन करता है
Tucker, TT आदि अन्य टेंसर प्रारूपों पर लागू किया जा सकता है
Espig et al. (2013, 2020): सममित eigenvalue मॉडल की आधारशिला कार्य
Lu et al. (2017): Star sampling विधि
Sidiropoulos et al. (2023): MinCPD प्रक्षेपित ढाल वंश विधि
Oseledets (2011): टेंसर चेन (TT) विघटन
Kolda & Bader (2009): टेंसर विघटन सर्वेक्षण
Ma & Yang (2022): क्वांटम सिमुलेशन में निम्न-रैंक सन्निकटन
समग्र मूल्यांकन: यह एक ठोस संख्यात्मक विश्लेषण पेपर है, जो टेंसर शीर्ष-k पुनः प्राप्ति की इस महत्वपूर्ण समस्या के लिए नवीन मॉडलिंग और एल्गोरिदम प्रस्तावित करता है। प्रयोगात्मक सत्यापन पर्याप्त है, व्यावहारिक मूल्य अधिक है। मुख्य कमियां सैद्धांतिक विश्लेषण की कमी और कम्प्यूटेशनल दक्षता मूल्यांकन की अपर्याप्तता में हैं। टेंसर कम्प्यूटिंग और क्वांटम सिमुलेशन क्षेत्र के शोधकर्ताओं और इंजीनियरों के लिए, यह एक ध्यान देने योग्य कार्य है। सुझाव है कि लेखक बाद में सैद्धांतिक विश्लेषण जोड़ें, कोड सार्वजनिक करें, और बड़ी समस्याओं पर आगे सत्यापन करें।