2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

गहन अवस्था-अंतरिक्ष मॉडल संपीड़न विधि आउटपुट त्रुटि पर ऊपरी सीमा का उपयोग करते हुए

मूल जानकारी

  • पेपर ID: 2510.14542
  • शीर्षक: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • लेखक: हिरोकी सकामोतो, काज़ुहिरो सातो (टोक्यो विश्वविद्यालय सूचना विज्ञान और प्रौद्योगिकी स्नातक स्कूल, गणितीय सूचना विज्ञान विभाग)
  • वर्गीकरण: eess.SY (प्रणाली और नियंत्रण), cs.LG (मशीन लर्निंग), cs.SY (प्रणाली और नियंत्रण)
  • प्रस्तुति तिथि: 16 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.14542v1

सारांश

यह पेपर रैखिक द्विघात आउटपुट (LQO) प्रणालियों को आंतरिक ब्लॉक के रूप में युक्त गहन अवस्था-अंतरिक्ष मॉडल (Deep SSMs) का अध्ययन करता है, और सिद्ध आउटपुट त्रुटि गारंटी के साथ एक संपीड़न विधि प्रस्तावित करता है। लेखक पहले दो Deep SSMs के बीच आउटपुट त्रुटि की ऊपरी सीमा प्राप्त करते हैं, और प्रमाणित करते हैं कि यह सीमा परत-दर-परत LQO प्रणालियों की h² त्रुटि मानदंड द्वारा व्यक्त की जा सकती है, जो मौजूदा मॉडल क्रम में कमी (MOR) आधारित संपीड़न विधियों के लिए सैद्धांतिक आधार प्रदान करती है। इस सीमा के आधार पर, लेखक h² त्रुटि मानदंड को उद्देश्य के रूप में एक अनुकूलन समस्या तैयार करते हैं और एक प्रवणता-आधारित MOR विधि विकसित करते हैं। Long Range Arena बेंचमार्क के IMDb कार्य पर, यह संपीड़न विधि उत्कृष्ट प्रदर्शन करती है, पिछली विधियों के विपरीत, पुनः प्रशिक्षण के बिना लगभग 80% प्रशिक्षणयोग्य पैरामीटर में कमी करते हुए, केवल 4-5% प्रदर्शन में गिरावट के साथ।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

Deep SSMs लंबी अवधि की निर्भरता और गैर-रैखिकता को कुशलतापूर्वक संभालने में सक्षम अनुक्रम मॉडल के रूप में, कई कार्यों में Transformer के समान प्रदर्शन प्रदर्शित किया है। हालांकि, उच्च प्रदर्शन अक्सर बड़ी संख्या में पैरामीटर की आवश्यकता होती है, विशेष रूप से एम्बेडेड रैखिक अवस्था-अंतरिक्ष मॉडल के पैरामीटर स्केल में। व्यावहारिक तैनाती में, प्रदर्शन बनाए रखते हुए अधिक कॉम्पैक्ट मॉडल प्राप्त करने की आवश्यकता है।

मौजूदा विधियों की सीमाएं

  1. परत-दर-परत स्वतंत्र प्रसंस्करण: मौजूदा MOR विधियां प्रत्येक परत के रैखिक अवस्था-अंतरिक्ष मॉडल को स्वतंत्र रूप से संपीड़ित करती हैं, परतों के बीच परस्पर क्रिया को अनदेखा करती हैं
  2. समग्र प्रदर्शन गारंटी की कमी: हालांकि प्रत्येक परत की आउटपुट त्रुटि को कम कर सकते हैं, लेकिन पूरे Deep SSM के अंतिम आउटपुट प्रदर्शन की गारंटी नहीं दे सकते
  3. पुनः प्रशिक्षण की आवश्यकता: अधिकांश विधियों को संपीड़ित मॉडल को प्रारंभिकीकरण के रूप में उपयोग करके पुनः प्रशिक्षण की आवश्यकता होती है

अनुसंधान प्रेरणा

यह पेपर परत-दर-परत परस्पर क्रिया पर विचार करते हुए एक संपीड़न मॉडल बनाने का लक्ष्य रखता है, पूरे Deep SSM की आउटपुट त्रुटि ‖s_out - ŝ_out‖_ℓ∞^L को सीधे कम करता है, और सैद्धांतिक गारंटी प्रदान करता है।

मुख्य योगदान

  1. सैद्धांतिक योगदान: Deep SSMs के बीच आउटपुट त्रुटि की ऊपरी सीमा प्राप्त करता है, प्रमाणित करता है कि यह सीमा प्रत्येक परत की LQO प्रणालियों की h² त्रुटि मानदंड द्वारा व्यक्त की जा सकती है, मौजूदा MOR विधियों के लिए सैद्धांतिक आधार प्रदान करता है
  2. विधि नवाचार: परत-दर-परत परस्पर क्रिया पर विचार करते हुए एक MOR अनुकूलन एल्गोरिथ्म प्रस्तावित करता है, जो Deep SSM की अद्वितीय विशेषताओं को बनाए रखते हुए आउटपुट त्रुटि सीमा को कम कर सकता है
  3. व्यावहारिक मूल्य: IMDb कार्य पर पुनः प्रशिक्षण के बिना उच्च-गुणवत्ता संपीड़न प्राप्त करता है, 80% पैरामीटर में कमी के साथ केवल 4-5% प्रदर्शन गिरावट
  4. एल्गोरिथ्म गारंटी: प्रस्तावित प्रवणता एल्गोरिथ्म में स्थिर बिंदु तक अभिसरण की सैद्धांतिक गारंटी है

विधि विवरण

कार्य परिभाषा

पूर्व-प्रशिक्षित ξ-परत Deep SSM और इनपुट अनुक्रम (s_in,k)^(L-1)_(k=0) दिए गए, एक कम-क्रम Deep SSM बनाएं जो आउटपुट त्रुटि e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L को कम करता है।

असतत समय जटिल LQO प्रणाली

निम्नलिखित LQO प्रणाली पर विचार करें:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

जहां A ∈ C^(n×n) विकर्ण स्थिर मैट्रिक्स है, M_i हर्मिटियन मैट्रिक्स है।

Deep SSM आर्किटेक्चर

i-वीं परत की LQO प्रणाली:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

अवशिष्ट कनेक्शन और परत सामान्यीकरण के माध्यम से परतों को जोड़ा जाता है:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

आउटपुट त्रुटि ऊपरी सीमा सिद्धांत

प्रमेय 1: स्थिरता मान्यताओं के तहत, आउटपुट त्रुटि संतुष्ट करती है:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

जहां G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, ω परत सामान्यीकरण का अधिकतम Lipschitz स्थिरांक है।

अनुमान 1: जब इनपुट सीमित हो, तो त्रुटि सीमा सरल हो जाती है:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

अनुकूलन समस्या तैयारी

त्रुटि सीमा के आधार पर, MOR अनुकूलन समस्या तैयार करें:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to स्थिरता बाधाएं

प्रवणता गणना

परिमित समय-क्षेत्र Sylvester/Lyapunov समीकरणों को हल करके प्रवणता की गणना करें। A मैट्रिक्स विकर्ण होने के कारण, O(nm) समय जटिलता में कुशलतापूर्वक हल किया जा सकता है।

एल्गोरिथ्म डिज़ाइन

एल्गोरिथ्म 1: स्थिरता गारंटी के साथ प्रवणता विधि

  • स्थिरता और Armijo शर्त सुनिश्चित करने के लिए बैकट्रैकिंग लाइन खोज का उपयोग करें
  • स्थिर बिंदु तक अभिसरण की सैद्धांतिक गारंटी है

प्रयोग सेटअप

डेटासेट

Long Range Arena (LRA) बेंचमार्क के IMDb भावना विश्लेषण कार्य का उपयोग करें, अनुक्रम लंबाई L=4096।

मॉडल कॉन्फ़िगरेशन

  • मूल मॉडल: 4-परत Deep SSM, n=128, m=64, c=1
  • कुल पैरामीटर: 207,490
  • पूर्व-प्रशिक्षण सटीकता: 86.66%

तुलना विधियां

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² model reduction
  3. Algorithm 1 (TLBT init.): यह विधि TLBT प्रारंभिकीकरण के साथ
  4. Algorithm 1 (TLH2 init.): यह विधि TLH2 प्रारंभिकीकरण के साथ
  5. HiPPO: शुद्ध HiPPO प्रारंभिकीकरण आधारभूत के रूप में

संपीड़न सेटिंग्स

  • लक्ष्य पैरामीटर: 34,114 (लगभग 80% में कमी)
  • दो क्रम में कमी कॉन्फ़िगरेशन: r_list = 16×4 और 32,16,12,4

प्रयोग परिणाम

मुख्य परिणाम

विधिr_listसापेक्ष त्रुटिपरीक्षण सटीकता (संपीड़न से पहले/पुनः प्रशिक्षण के बाद)
HiPPO16×41.50500.4905 / 0.7907
TLBT16×40.63300.7615 / 0.8647
TLH216×40.61010.7642 / 0.8660
यह विधि (TLBT init.)16×40.62660.7649 / 0.8662
यह विधि (TLH2 init.)16×40.61000.7640 / 0.8628
यह विधि (TLBT init.)32,16,12,40.31030.8166 / 0.8689

मुख्य निष्कर्ष

  1. पुनः प्रशिक्षण के बिना उच्च प्रदर्शन: r_list=32,16,12,4 के लिए, संपीड़न के बाद सटीकता 0.8166 तक पहुंचती है, HiPPO पुनः प्रशिक्षण के बाद 0.8029 से अधिक है
  2. स्तरीय आवंटन की प्रभावशीलता: उथली परतों को बड़े r मान आवंटित करना लक्ष्य फ़ंक्शन मान को महत्वपूर्ण रूप से कम कर सकता है
  3. स्थिरता गारंटी: यह विधि हमेशा स्थिरता बनाए रखती है, जबकि TLH2 r=32 पर विफल हो जाता है

संबंधित कार्य

Deep SSM में MOR का अनुप्रयोग

  • Balanced Truncation विधि: 11,12 परत-दर-परत स्वतंत्र संपीड़न के लिए BT का उपयोग करते हैं
  • H² अनुकूलन विधि: 14 Deep SSM गुणों को संरक्षित करने वाली H² इष्टतम क्रम में कमी प्रस्तावित करता है
  • H∞ सूचकांक विधि: 13 मोड को कुशलतापूर्वक समाप्त करने के लिए H∞ अंश पेश करता है

इस पेपर और मौजूदा कार्य में अंतर

  1. प्रणाली नियंत्रण सिद्धांत के दृष्टिकोण से समग्र आउटपुट प्रदर्शन गारंटी प्रदान करने वाला पहला
  2. परत-दर-परत परस्पर क्रिया पर विचार करता है, न कि स्वतंत्र प्रसंस्करण
  3. पुनः प्रशिक्षण के बिना उच्च-गुणवत्ता संपीड़न मॉडल प्राप्त करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्राप्त आउटपुट त्रुटि सीमा मौजूदा MOR विधियों के लिए सैद्धांतिक आधार प्रदान करती है
  2. सीमा पर आधारित अनुकूलन विधि उच्च-गुणवत्ता संपीड़न मॉडल बना सकती है
  3. प्रयोग संसाधन-सीमित वातावरण में पुनः प्रशिक्षण के बिना तैनाती की व्यवहार्यता को सत्यापित करता है

सीमाएं

  1. केवल विशिष्ट Deep SSM आर्किटेक्चर पर विचार किया गया है (LQO प्रणाली युक्त)
  2. प्रयोग केवल एकल कार्य (IMDb) पर सत्यापित किए गए हैं
  3. परत सामान्यीकरण का Lipschitz स्थिरांक बहुत बड़ा हो सकता है, सीमा की कसाई को प्रभावित करता है

भविष्य की दिशाएं

  1. पुनः प्रशिक्षण के बिना उच्च प्रदर्शन प्राप्त करने के कारणों का सैद्धांतिक तंत्र अनुसंधान करें
  2. अधिक सामान्य Deep SSM आर्किटेक्चर तक विस्तार करें
  3. अधिक कार्यों और डेटासेट पर विधि की सामान्यता को सत्यापित करें

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक कठोरता: पूर्ण गणितीय व्युत्पत्ति और अभिसरण गारंटी प्रदान करता है
  2. व्यावहारिक मूल्य: महत्वपूर्ण पैरामीटर संपीड़न प्राप्त करता है और पुनः प्रशिक्षण की आवश्यकता नहीं है
  3. विधि नवाचार: पहली बार परत-दर-परत परस्पर क्रिया पर विचार करके समग्र अनुकूलन करता है
  4. पर्याप्त प्रयोग: कई विधियों की तुलना की गई है और विस्तृत विश्लेषण प्रदान किया गया है

कमियां

  1. सीमित प्रयोज्यता: केवल LQO प्रणाली युक्त विशिष्ट Deep SSM पर लागू होता है
  2. प्रयोग सीमा: केवल एकल NLP कार्य पर सत्यापित, अन्य क्षेत्रों में सत्यापन की कमी
  3. कम्प्यूटेशनल जटिलता: प्रवणता गणना में बड़े-पैमाने पर Sylvester समीकरण समाधान शामिल है
  4. सीमा की कसाई: परत सामान्यीकरण का बड़ा Lipschitz स्थिरांक सीमा को ढीला कर सकता है

प्रभाव

  1. सैद्धांतिक योगदान: Deep SSM संपीड़न के लिए नया सैद्धांतिक ढांचा प्रदान करता है
  2. व्यावहारिक मूल्य: संसाधन-सीमित तैनाती परिदृश्यों के लिए महत्वपूर्ण है
  3. विधि प्रेरणा: अन्य गहन मॉडल संपीड़न के लिए नई सोच प्रदान करता है

लागू परिदृश्य

  1. कम्प्यूटेशनल संसाधन वाले किनारे उपकरणों पर तैनाती
  2. ऐसे परिदृश्य जहां तेजी से मॉडल संपीड़न की आवश्यकता है और पुनः प्रशिक्षण संभव नहीं है
  3. लंबे अनुक्रम मॉडलिंग कार्यों में Deep SSM संपीड़न

संदर्भ

यह पेपर 21 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

  • Deep SSM संबंधित कार्य: HiPPO 1, S5 4, Mamba 5
  • मॉडल संपीड़न विधियां: 10-14
  • प्रणाली नियंत्रण सिद्धांत: 15-17
  • अनुकूलन सिद्धांत: 20-21

समग्र मूल्यांकन: यह Deep SSM संपीड़न क्षेत्र में सैद्धांतिक और व्यावहारिक दोनों दृष्टिकोण से एक उत्कृष्ट पेपर है, जो महत्वपूर्ण योगदान देता है। हालांकि प्रयोज्यता की सीमा और प्रयोग की व्यापकता में कुछ सीमाएं हैं, लेकिन इसकी सैद्धांतिक कठोरता और व्यावहारिक मूल्य इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाता है।