A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
गहन अवस्था-अंतरिक्ष मॉडल संपीड़न विधि आउटपुट त्रुटि पर ऊपरी सीमा का उपयोग करते हुए
यह पेपर रैखिक द्विघात आउटपुट (LQO) प्रणालियों को आंतरिक ब्लॉक के रूप में युक्त गहन अवस्था-अंतरिक्ष मॉडल (Deep SSMs) का अध्ययन करता है, और सिद्ध आउटपुट त्रुटि गारंटी के साथ एक संपीड़न विधि प्रस्तावित करता है। लेखक पहले दो Deep SSMs के बीच आउटपुट त्रुटि की ऊपरी सीमा प्राप्त करते हैं, और प्रमाणित करते हैं कि यह सीमा परत-दर-परत LQO प्रणालियों की h² त्रुटि मानदंड द्वारा व्यक्त की जा सकती है, जो मौजूदा मॉडल क्रम में कमी (MOR) आधारित संपीड़न विधियों के लिए सैद्धांतिक आधार प्रदान करती है। इस सीमा के आधार पर, लेखक h² त्रुटि मानदंड को उद्देश्य के रूप में एक अनुकूलन समस्या तैयार करते हैं और एक प्रवणता-आधारित MOR विधि विकसित करते हैं। Long Range Arena बेंचमार्क के IMDb कार्य पर, यह संपीड़न विधि उत्कृष्ट प्रदर्शन करती है, पिछली विधियों के विपरीत, पुनः प्रशिक्षण के बिना लगभग 80% प्रशिक्षणयोग्य पैरामीटर में कमी करते हुए, केवल 4-5% प्रदर्शन में गिरावट के साथ।
Deep SSMs लंबी अवधि की निर्भरता और गैर-रैखिकता को कुशलतापूर्वक संभालने में सक्षम अनुक्रम मॉडल के रूप में, कई कार्यों में Transformer के समान प्रदर्शन प्रदर्शित किया है। हालांकि, उच्च प्रदर्शन अक्सर बड़ी संख्या में पैरामीटर की आवश्यकता होती है, विशेष रूप से एम्बेडेड रैखिक अवस्था-अंतरिक्ष मॉडल के पैरामीटर स्केल में। व्यावहारिक तैनाती में, प्रदर्शन बनाए रखते हुए अधिक कॉम्पैक्ट मॉडल प्राप्त करने की आवश्यकता है।
परत-दर-परत स्वतंत्र प्रसंस्करण: मौजूदा MOR विधियां प्रत्येक परत के रैखिक अवस्था-अंतरिक्ष मॉडल को स्वतंत्र रूप से संपीड़ित करती हैं, परतों के बीच परस्पर क्रिया को अनदेखा करती हैं
समग्र प्रदर्शन गारंटी की कमी: हालांकि प्रत्येक परत की आउटपुट त्रुटि को कम कर सकते हैं, लेकिन पूरे Deep SSM के अंतिम आउटपुट प्रदर्शन की गारंटी नहीं दे सकते
पुनः प्रशिक्षण की आवश्यकता: अधिकांश विधियों को संपीड़ित मॉडल को प्रारंभिकीकरण के रूप में उपयोग करके पुनः प्रशिक्षण की आवश्यकता होती है
यह पेपर परत-दर-परत परस्पर क्रिया पर विचार करते हुए एक संपीड़न मॉडल बनाने का लक्ष्य रखता है, पूरे Deep SSM की आउटपुट त्रुटि ‖s_out - ŝ_out‖_ℓ∞^L को सीधे कम करता है, और सैद्धांतिक गारंटी प्रदान करता है।
सैद्धांतिक योगदान: Deep SSMs के बीच आउटपुट त्रुटि की ऊपरी सीमा प्राप्त करता है, प्रमाणित करता है कि यह सीमा प्रत्येक परत की LQO प्रणालियों की h² त्रुटि मानदंड द्वारा व्यक्त की जा सकती है, मौजूदा MOR विधियों के लिए सैद्धांतिक आधार प्रदान करता है
विधि नवाचार: परत-दर-परत परस्पर क्रिया पर विचार करते हुए एक MOR अनुकूलन एल्गोरिथ्म प्रस्तावित करता है, जो Deep SSM की अद्वितीय विशेषताओं को बनाए रखते हुए आउटपुट त्रुटि सीमा को कम कर सकता है
व्यावहारिक मूल्य: IMDb कार्य पर पुनः प्रशिक्षण के बिना उच्च-गुणवत्ता संपीड़न प्राप्त करता है, 80% पैरामीटर में कमी के साथ केवल 4-5% प्रदर्शन गिरावट
एल्गोरिथ्म गारंटी: प्रस्तावित प्रवणता एल्गोरिथ्म में स्थिर बिंदु तक अभिसरण की सैद्धांतिक गारंटी है
पूर्व-प्रशिक्षित ξ-परत Deep SSM और इनपुट अनुक्रम (s_in,k)^(L-1)_(k=0) दिए गए, एक कम-क्रम Deep SSM बनाएं जो आउटपुट त्रुटि e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L को कम करता है।
परिमित समय-क्षेत्र Sylvester/Lyapunov समीकरणों को हल करके प्रवणता की गणना करें। A मैट्रिक्स विकर्ण होने के कारण, O(nm) समय जटिलता में कुशलतापूर्वक हल किया जा सकता है।
पुनः प्रशिक्षण के बिना उच्च प्रदर्शन: r_list=32,16,12,4 के लिए, संपीड़न के बाद सटीकता 0.8166 तक पहुंचती है, HiPPO पुनः प्रशिक्षण के बाद 0.8029 से अधिक है
स्तरीय आवंटन की प्रभावशीलता: उथली परतों को बड़े r मान आवंटित करना लक्ष्य फ़ंक्शन मान को महत्वपूर्ण रूप से कम कर सकता है
स्थिरता गारंटी: यह विधि हमेशा स्थिरता बनाए रखती है, जबकि TLH2 r=32 पर विफल हो जाता है
यह पेपर 21 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
Deep SSM संबंधित कार्य: HiPPO 1, S5 4, Mamba 5
मॉडल संपीड़न विधियां: 10-14
प्रणाली नियंत्रण सिद्धांत: 15-17
अनुकूलन सिद्धांत: 20-21
समग्र मूल्यांकन: यह Deep SSM संपीड़न क्षेत्र में सैद्धांतिक और व्यावहारिक दोनों दृष्टिकोण से एक उत्कृष्ट पेपर है, जो महत्वपूर्ण योगदान देता है। हालांकि प्रयोज्यता की सीमा और प्रयोग की व्यापकता में कुछ सीमाएं हैं, लेकिन इसकी सैद्धांतिक कठोरता और व्यावहारिक मूल्य इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाता है।