2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

गहन अवस्था-अंतरिक्ष मॉडल संपीड़न विधि आउटपुट त्रुटि पर ऊपरी सीमा का उपयोग करते हुए

मूल जानकारी

पेपर ID: 2510.14542
शीर्षक: A Deep State-Space Model Compression Method using Upper Bound on Output Error
लेखक: हिरोकी सकामोतो, काज़ुहिरो सातो (टोक्यो विश्वविद्यालय सूचना विज्ञान और प्रौद्योगिकी स्नातक स्कूल, गणितीय सूचना विज्ञान विभाग)
वर्गीकरण: eess.SY (प्रणाली और नियंत्रण), cs.LG (मशीन लर्निंग), cs.SY (प्रणाली और नियंत्रण)
प्रस्तुति तिथि: 16 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.14542v1

सारांश

यह पेपर रैखिक द्विघात आउटपुट (LQO) प्रणालियों को आंतरिक ब्लॉक के रूप में युक्त गहन अवस्था-अंतरिक्ष मॉडल (Deep SSMs) का अध्ययन करता है, और सिद्ध आउटपुट त्रुटि गारंटी के साथ एक संपीड़न विधि प्रस्तावित करता है। लेखक पहले दो Deep SSMs के बीच आउटपुट त्रुटि की ऊपरी सीमा प्राप्त करते हैं, और प्रमाणित करते हैं कि यह सीमा परत-दर-परत LQO प्रणालियों की h² त्रुटि मानदंड द्वारा व्यक्त की जा सकती है, जो मौजूदा मॉडल क्रम में कमी (MOR) आधारित संपीड़न विधियों के लिए सैद्धांतिक आधार प्रदान करती है। इस सीमा के आधार पर, लेखक h² त्रुटि मानदंड को उद्देश्य के रूप में एक अनुकूलन समस्या तैयार करते हैं और एक प्रवणता-आधारित MOR विधि विकसित करते हैं। Long Range Arena बेंचमार्क के IMDb कार्य पर, यह संपीड़न विधि उत्कृष्ट प्रदर्शन करती है, पिछली विधियों के विपरीत, पुनः प्रशिक्षण के बिना लगभग 80% प्रशिक्षणयोग्य पैरामीटर में कमी करते हुए, केवल 4-5% प्रदर्शन में गिरावट के साथ।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

Deep SSMs लंबी अवधि की निर्भरता और गैर-रैखिकता को कुशलतापूर्वक संभालने में सक्षम अनुक्रम मॉडल के रूप में, कई कार्यों में Transformer के समान प्रदर्शन प्रदर्शित किया है। हालांकि, उच्च प्रदर्शन अक्सर बड़ी संख्या में पैरामीटर की आवश्यकता होती है, विशेष रूप से एम्बेडेड रैखिक अवस्था-अंतरिक्ष मॉडल के पैरामीटर स्केल में। व्यावहारिक तैनाती में, प्रदर्शन बनाए रखते हुए अधिक कॉम्पैक्ट मॉडल प्राप्त करने की आवश्यकता है।

मौजूदा विधियों की सीमाएं

परत-दर-परत स्वतंत्र प्रसंस्करण: मौजूदा MOR विधियां प्रत्येक परत के रैखिक अवस्था-अंतरिक्ष मॉडल को स्वतंत्र रूप से संपीड़ित करती हैं, परतों के बीच परस्पर क्रिया को अनदेखा करती हैं
समग्र प्रदर्शन गारंटी की कमी: हालांकि प्रत्येक परत की आउटपुट त्रुटि को कम कर सकते हैं, लेकिन पूरे Deep SSM के अंतिम आउटपुट प्रदर्शन की गारंटी नहीं दे सकते
पुनः प्रशिक्षण की आवश्यकता: अधिकांश विधियों को संपीड़ित मॉडल को प्रारंभिकीकरण के रूप में उपयोग करके पुनः प्रशिक्षण की आवश्यकता होती है

अनुसंधान प्रेरणा

यह पेपर परत-दर-परत परस्पर क्रिया पर विचार करते हुए एक संपीड़न मॉडल बनाने का लक्ष्य रखता है, पूरे Deep SSM की आउटपुट त्रुटि ‖s_out - ŝ_out‖_ℓ∞^L को सीधे कम करता है, और सैद्धांतिक गारंटी प्रदान करता है।

मुख्य योगदान

सैद्धांतिक योगदान: Deep SSMs के बीच आउटपुट त्रुटि की ऊपरी सीमा प्राप्त करता है, प्रमाणित करता है कि यह सीमा प्रत्येक परत की LQO प्रणालियों की h² त्रुटि मानदंड द्वारा व्यक्त की जा सकती है, मौजूदा MOR विधियों के लिए सैद्धांतिक आधार प्रदान करता है
विधि नवाचार: परत-दर-परत परस्पर क्रिया पर विचार करते हुए एक MOR अनुकूलन एल्गोरिथ्म प्रस्तावित करता है, जो Deep SSM की अद्वितीय विशेषताओं को बनाए रखते हुए आउटपुट त्रुटि सीमा को कम कर सकता है
व्यावहारिक मूल्य: IMDb कार्य पर पुनः प्रशिक्षण के बिना उच्च-गुणवत्ता संपीड़न प्राप्त करता है, 80% पैरामीटर में कमी के साथ केवल 4-5% प्रदर्शन गिरावट
एल्गोरिथ्म गारंटी: प्रस्तावित प्रवणता एल्गोरिथ्म में स्थिर बिंदु तक अभिसरण की सैद्धांतिक गारंटी है

विधि विवरण

कार्य परिभाषा

पूर्व-प्रशिक्षित ξ-परत Deep SSM और इनपुट अनुक्रम (s_in,k)^(L-1)_(k=0) दिए गए, एक कम-क्रम Deep SSM बनाएं जो आउटपुट त्रुटि e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L को कम करता है।

असतत समय जटिल LQO प्रणाली

निम्नलिखित LQO प्रणाली पर विचार करें:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

जहां A ∈ C^(n×n) विकर्ण स्थिर मैट्रिक्स है, M_i हर्मिटियन मैट्रिक्स है।

Deep SSM आर्किटेक्चर

i-वीं परत की LQO प्रणाली:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

अवशिष्ट कनेक्शन और परत सामान्यीकरण के माध्यम से परतों को जोड़ा जाता है:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

आउटपुट त्रुटि ऊपरी सीमा सिद्धांत

प्रमेय 1: स्थिरता मान्यताओं के तहत, आउटपुट त्रुटि संतुष्ट करती है:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

जहां G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, ω परत सामान्यीकरण का अधिकतम Lipschitz स्थिरांक है।

अनुमान 1: जब इनपुट सीमित हो, तो त्रुटि सीमा सरल हो जाती है:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

अनुकूलन समस्या तैयारी

त्रुटि सीमा के आधार पर, MOR अनुकूलन समस्या तैयार करें:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to स्थिरता बाधाएं

प्रवणता गणना

परिमित समय-क्षेत्र Sylvester/Lyapunov समीकरणों को हल करके प्रवणता की गणना करें। A मैट्रिक्स विकर्ण होने के कारण, O(nm) समय जटिलता में कुशलतापूर्वक हल किया जा सकता है।

एल्गोरिथ्म डिज़ाइन

एल्गोरिथ्म 1: स्थिरता गारंटी के साथ प्रवणता विधि

स्थिरता और Armijo शर्त सुनिश्चित करने के लिए बैकट्रैकिंग लाइन खोज का उपयोग करें
स्थिर बिंदु तक अभिसरण की सैद्धांतिक गारंटी है

प्रयोग सेटअप

डेटासेट

Long Range Arena (LRA) बेंचमार्क के IMDb भावना विश्लेषण कार्य का उपयोग करें, अनुक्रम लंबाई L=4096।

मॉडल कॉन्फ़िगरेशन

मूल मॉडल: 4-परत Deep SSM, n=128, m=64, c=1
कुल पैरामीटर: 207,490
पूर्व-प्रशिक्षण सटीकता: 86.66%

तुलना विधियां

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): यह विधि TLBT प्रारंभिकीकरण के साथ
Algorithm 1 (TLH2 init.): यह विधि TLH2 प्रारंभिकीकरण के साथ
HiPPO: शुद्ध HiPPO प्रारंभिकीकरण आधारभूत के रूप में

संपीड़न सेटिंग्स

लक्ष्य पैरामीटर: 34,114 (लगभग 80% में कमी)
दो क्रम में कमी कॉन्फ़िगरेशन: r_list = 16×4 और 32,16,12,4

प्रयोग परिणाम

मुख्य परिणाम

विधि	r_list	सापेक्ष त्रुटि	परीक्षण सटीकता (संपीड़न से पहले/पुनः प्रशिक्षण के बाद)
HiPPO	16×4	1.5050	0.4905 / 0.7907
TLBT	16×4	0.6330	0.7615 / 0.8647
TLH2	16×4	0.6101	0.7642 / 0.8660
यह विधि (TLBT init.)	16×4	0.6266	0.7649 / 0.8662
यह विधि (TLH2 init.)	16×4	0.6100	0.7640 / 0.8628
यह विधि (TLBT init.)	32,16,12,4	0.3103	0.8166 / 0.8689

मुख्य निष्कर्ष

पुनः प्रशिक्षण के बिना उच्च प्रदर्शन: r_list=32,16,12,4 के लिए, संपीड़न के बाद सटीकता 0.8166 तक पहुंचती है, HiPPO पुनः प्रशिक्षण के बाद 0.8029 से अधिक है
स्तरीय आवंटन की प्रभावशीलता: उथली परतों को बड़े r मान आवंटित करना लक्ष्य फ़ंक्शन मान को महत्वपूर्ण रूप से कम कर सकता है
स्थिरता गारंटी: यह विधि हमेशा स्थिरता बनाए रखती है, जबकि TLH2 r=32 पर विफल हो जाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्राप्त आउटपुट त्रुटि सीमा मौजूदा MOR विधियों के लिए सैद्धांतिक आधार प्रदान करती है
सीमा पर आधारित अनुकूलन विधि उच्च-गुणवत्ता संपीड़न मॉडल बना सकती है
प्रयोग संसाधन-सीमित वातावरण में पुनः प्रशिक्षण के बिना तैनाती की व्यवहार्यता को सत्यापित करता है

सीमाएं

केवल विशिष्ट Deep SSM आर्किटेक्चर पर विचार किया गया है (LQO प्रणाली युक्त)
प्रयोग केवल एकल कार्य (IMDb) पर सत्यापित किए गए हैं
परत सामान्यीकरण का Lipschitz स्थिरांक बहुत बड़ा हो सकता है, सीमा की कसाई को प्रभावित करता है

भविष्य की दिशाएं

पुनः प्रशिक्षण के बिना उच्च प्रदर्शन प्राप्त करने के कारणों का सैद्धांतिक तंत्र अनुसंधान करें
अधिक सामान्य Deep SSM आर्किटेक्चर तक विस्तार करें
अधिक कार्यों और डेटासेट पर विधि की सामान्यता को सत्यापित करें

गहन मूल्यांकन

लाभ

सैद्धांतिक कठोरता: पूर्ण गणितीय व्युत्पत्ति और अभिसरण गारंटी प्रदान करता है
व्यावहारिक मूल्य: महत्वपूर्ण पैरामीटर संपीड़न प्राप्त करता है और पुनः प्रशिक्षण की आवश्यकता नहीं है
विधि नवाचार: पहली बार परत-दर-परत परस्पर क्रिया पर विचार करके समग्र अनुकूलन करता है
पर्याप्त प्रयोग: कई विधियों की तुलना की गई है और विस्तृत विश्लेषण प्रदान किया गया है

कमियां

सीमित प्रयोज्यता: केवल LQO प्रणाली युक्त विशिष्ट Deep SSM पर लागू होता है
प्रयोग सीमा: केवल एकल NLP कार्य पर सत्यापित, अन्य क्षेत्रों में सत्यापन की कमी
कम्प्यूटेशनल जटिलता: प्रवणता गणना में बड़े-पैमाने पर Sylvester समीकरण समाधान शामिल है
सीमा की कसाई: परत सामान्यीकरण का बड़ा Lipschitz स्थिरांक सीमा को ढीला कर सकता है

प्रभाव

सैद्धांतिक योगदान: Deep SSM संपीड़न के लिए नया सैद्धांतिक ढांचा प्रदान करता है
व्यावहारिक मूल्य: संसाधन-सीमित तैनाती परिदृश्यों के लिए महत्वपूर्ण है
विधि प्रेरणा: अन्य गहन मॉडल संपीड़न के लिए नई सोच प्रदान करता है

लागू परिदृश्य

कम्प्यूटेशनल संसाधन वाले किनारे उपकरणों पर तैनाती
ऐसे परिदृश्य जहां तेजी से मॉडल संपीड़न की आवश्यकता है और पुनः प्रशिक्षण संभव नहीं है
लंबे अनुक्रम मॉडलिंग कार्यों में Deep SSM संपीड़न

संदर्भ

यह पेपर 21 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

Deep SSM संबंधित कार्य: HiPPO 1, S5 4, Mamba 5
मॉडल संपीड़न विधियां: 10-14
प्रणाली नियंत्रण सिद्धांत: 15-17
अनुकूलन सिद्धांत: 20-21

समग्र मूल्यांकन: यह Deep SSM संपीड़न क्षेत्र में सैद्धांतिक और व्यावहारिक दोनों दृष्टिकोण से एक उत्कृष्ट पेपर है, जो महत्वपूर्ण योगदान देता है। हालांकि प्रयोज्यता की सीमा और प्रयोग की व्यापकता में कुछ सीमाएं हैं, लेकिन इसकी सैद्धांतिक कठोरता और व्यावहारिक मूल्य इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाता है।

A Deep State-Space Model Compression Method using Upper Bound on Output Error

गहन अवस्था-अंतरिक्ष मॉडल संपीड़न विधि आउटपुट त्रुटि पर ऊपरी सीमा का उपयोग करते हुए

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा विधियों की सीमाएं

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

असतत समय जटिल LQO प्रणाली

Deep SSM आर्किटेक्चर

आउटपुट त्रुटि ऊपरी सीमा सिद्धांत

अनुकूलन समस्या तैयारी

प्रवणता गणना

एल्गोरिथ्म डिज़ाइन

प्रयोग सेटअप

डेटासेट

मॉडल कॉन्फ़िगरेशन

तुलना विधियां

संपीड़न सेटिंग्स

प्रयोग परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

संबंधित कार्य

Deep SSM में MOR का अनुप्रयोग

इस पेपर और मौजूदा कार्य में अंतर

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ