A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
طريقة ضغط نموذج فضاء الحالة العميق باستخدام الحد الأعلى لخطأ الإخراج
تدرس هذه الورقة نماذج فضاء الحالة العميقة (Deep SSMs) التي تحتوي على أنظمة الإخراج الخطية التربيعية (LQO) كعناصر داخلية، وتقترح طريقة ضغط مع ضمانات خطأ إخراج قابلة للإثبات. يشتق المؤلفون أولاً حداً أعلى لخطأ الإخراج بين نموذجي Deep SSMs، ويثبتان أن هذا الحد يمكن التعبير عنه من خلال معايير خطأ h² لأنظمة LQO بين الطبقات، مما يوفر أساساً نظرياً لطرق ضغط قائمة على تقليل الترتيب (MOR). بناءً على هذا الحد، يصيغ المؤلفون مشكلة تحسين باستخدام معايير خطأ h² ويطورون طريقة MOR قائمة على التدرج. على مهمة IMDb في معيار Long Range Arena، تُظهر طريقة الضغط أداءً ممتازاً، حيث تقلل حوالي 80% من المعاملات القابلة للتدريب دون إعادة تدريب، مع انخفاض الأداء بنسبة 4-5% فقط.
تُظهر نماذج Deep SSMs كنماذج متسلسلة فعالة في معالجة التبعيات طويلة المدى واللاخطية أداءً مماثلاً للمحولات (Transformers) في عدة مهام. ومع ذلك، غالباً ما يتطلب الأداء العالية عدداً كبيراً من المعاملات، خاصة معاملات نماذج فضاء الحالة الخطية المدمجة. في التطبيقات العملية، يكون من الضروري الحصول على نموذج أكثر إحكاماً مع الحفاظ على الأداء.
تهدف هذه الورقة إلى بناء نموذج ضغط يأخذ في الاعتبار التفاعلات بين الطبقات، وتقليل خطأ الإخراج لكامل Deep SSM مباشرة ‖s_out - ŝ_out‖_ℓ∞^L، مع توفير ضمانات نظرية.
المساهمة النظرية: اشتقاق حد أعلى لخطأ الإخراج بين نماذج Deep SSMs، وإثبات أن هذا الحد يمكن التعبير عنه من خلال معايير خطأ h² لأنظمة LQO في كل طبقة، مما يوفر أساساً نظرياً لطرق MOR الموجودة
الابتكار في الطريقة: اقتراح خوارزمية تحسين MOR تأخذ في الاعتبار التفاعلات بين الطبقات، وتقلل من الحد الأعلى لخطأ الإخراج مع الحفاظ على الخصائص الفريدة لـ Deep SSM
القيمة العملية: تحقيق ضغط عالي الجودة دون إعادة تدريب على مهمة IMDb، مع تقليل المعاملات بنسبة 80% وانخفاض الأداء بنسبة 4-5% فقط
ضمانات الخوارزمية: الخوارزمية المقترحة القائمة على التدرج لها ضمانات نظرية للتقارب إلى نقطة ثابتة
بالنظر إلى نموذج Deep SSM مُدرب مسبقاً بـ ξ طبقة ومتسلسلة إدخال (s_in,k)^(L-1)_(k=0)، بناء نموذج Deep SSM مخفض الترتيب بحيث يكون خطأ الإخراج e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L في الحد الأدنى.
تستشهد هذه الورقة بـ 21 مرجعاً ذا صلة، تغطي بشكل أساسي:
أعمال Deep SSM ذات الصلة: HiPPO 1, S5 4, Mamba 5
طرق ضغط النموذج: 10-14
نظرية التحكم في الأنظمة: 15-17
نظرية التحسين: 20-21
التقييم الشامل: هذه ورقة ممتازة تجمع بين النظرية والممارسة، وتحقق مساهمات مهمة في مجال ضغط Deep SSM. على الرغم من وجود قيود في نطاق التطبيق واتساع التجارب، فإن صرامتها النظرية وقيمتها العملية تجعلها تقدماً مهماً في هذا المجال.