2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

طريقة ضغط نموذج فضاء الحالة العميق باستخدام الحد الأعلى لخطأ الإخراج

المعلومات الأساسية

معرّف الورقة: 2510.14542
العنوان: A Deep State-Space Model Compression Method using Upper Bound on Output Error
المؤلفون: Hiroki Sakamoto, Kazuhiro Sato (كلية الدراسات العليا للعلوم والتكنولوجيا، جامعة طوكيو)
التصنيف: eess.SY (الأنظمة والتحكم)، cs.LG (التعلم الآلي)، cs.SY (الأنظمة والتحكم)
تاريخ الإرسال: 16 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.14542v1

الملخص

تدرس هذه الورقة نماذج فضاء الحالة العميقة (Deep SSMs) التي تحتوي على أنظمة الإخراج الخطية التربيعية (LQO) كعناصر داخلية، وتقترح طريقة ضغط مع ضمانات خطأ إخراج قابلة للإثبات. يشتق المؤلفون أولاً حداً أعلى لخطأ الإخراج بين نموذجي Deep SSMs، ويثبتان أن هذا الحد يمكن التعبير عنه من خلال معايير خطأ h² لأنظمة LQO بين الطبقات، مما يوفر أساساً نظرياً لطرق ضغط قائمة على تقليل الترتيب (MOR). بناءً على هذا الحد، يصيغ المؤلفون مشكلة تحسين باستخدام معايير خطأ h² ويطورون طريقة MOR قائمة على التدرج. على مهمة IMDb في معيار Long Range Arena، تُظهر طريقة الضغط أداءً ممتازاً، حيث تقلل حوالي 80% من المعاملات القابلة للتدريب دون إعادة تدريب، مع انخفاض الأداء بنسبة 4-5% فقط.

الخلفية البحثية والدافع

تعريف المشكلة

تُظهر نماذج Deep SSMs كنماذج متسلسلة فعالة في معالجة التبعيات طويلة المدى واللاخطية أداءً مماثلاً للمحولات (Transformers) في عدة مهام. ومع ذلك، غالباً ما يتطلب الأداء العالية عدداً كبيراً من المعاملات، خاصة معاملات نماذج فضاء الحالة الخطية المدمجة. في التطبيقات العملية، يكون من الضروري الحصول على نموذج أكثر إحكاماً مع الحفاظ على الأداء.

قيود الطرق الموجودة

المعالجة المستقلة بين الطبقات: تعالج طرق MOR الموجودة نموذج فضاء الحالة الخطي في كل طبقة بشكل مستقل، متجاهلة التفاعلات بين الطبقات
عدم وجود ضمانات أداء شاملة: بينما يمكن تقليل خطأ الإخراج في كل طبقة، لا يمكن ضمان أداء الإخراج النهائي لكامل Deep SSM
الحاجة إلى إعادة التدريب: تتطلب معظم الطرق إعادة تدريب باستخدام النموذج المضغوط كتهيئة أولية

الدافع البحثي

تهدف هذه الورقة إلى بناء نموذج ضغط يأخذ في الاعتبار التفاعلات بين الطبقات، وتقليل خطأ الإخراج لكامل Deep SSM مباشرة ‖s_out - ŝ_out‖_ℓ∞^L، مع توفير ضمانات نظرية.

المساهمات الأساسية

المساهمة النظرية: اشتقاق حد أعلى لخطأ الإخراج بين نماذج Deep SSMs، وإثبات أن هذا الحد يمكن التعبير عنه من خلال معايير خطأ h² لأنظمة LQO في كل طبقة، مما يوفر أساساً نظرياً لطرق MOR الموجودة
الابتكار في الطريقة: اقتراح خوارزمية تحسين MOR تأخذ في الاعتبار التفاعلات بين الطبقات، وتقلل من الحد الأعلى لخطأ الإخراج مع الحفاظ على الخصائص الفريدة لـ Deep SSM
القيمة العملية: تحقيق ضغط عالي الجودة دون إعادة تدريب على مهمة IMDb، مع تقليل المعاملات بنسبة 80% وانخفاض الأداء بنسبة 4-5% فقط
ضمانات الخوارزمية: الخوارزمية المقترحة القائمة على التدرج لها ضمانات نظرية للتقارب إلى نقطة ثابتة

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج Deep SSM مُدرب مسبقاً بـ ξ طبقة ومتسلسلة إدخال (s_in,k)^(L-1)_(k=0)، بناء نموذج Deep SSM مخفض الترتيب بحيث يكون خطأ الإخراج e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L في الحد الأدنى.

نظام LQO بالوقت المنفصل المعقد

النظر في نظام LQO التالي:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

حيث A ∈ C^(n×n) مصفوفة مستقرة قطرية، و M_i مصفوفات هيرميتية.

معمارية Deep SSM

نظام LQO في الطبقة i:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

ربط الطبقات من خلال الاتصالات المتبقية وتطبيع الطبقات:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

نظرية الحد الأعلى لخطأ الإخراج

النظرية 1: تحت افتراضات الاستقرار، يحقق خطأ الإخراج:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

حيث G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j، و ω هو أقصى ثابت ليبشيتز لتطبيع الطبقات.

النتيجة 1: عندما يكون الإدخال محدوداً، يتم تبسيط الحد الأعلى للخطأ إلى:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

صياغة مشكلة التحسين

بناءً على الحد الأعلى للخطأ، صياغة مشكلة تحسين MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to قيود الاستقرار

حساب التدرج

حساب التدرج من خلال حل معادلات Sylvester/Lyapunov بالمجال الزمني المحدود. نظراً لأن مصفوفة A قطرية، يمكن حلها بكفاءة بتعقيد زمني O(nm).

تصميم الخوارزمية

الخوارزمية 1: طريقة التدرج مع ضمانات الاستقرار

استخدام البحث الخطي بالتراجع لضمان الاستقرار وشرط Armijo
لها ضمانات نظرية للتقارب إلى نقطة ثابتة

إعداد التجارب

مجموعة البيانات

استخدام مهمة تحليل المشاعر IMDb من معيار Long Range Arena (LRA)، بطول متسلسل L=4096.

إعدادات النموذج

النموذج الأصلي: Deep SSM بـ 4 طبقات، n=128, m=64, c=1
إجمالي المعاملات: 207,490
دقة التدريب المسبق: 86.66%

طرق المقارنة

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): الطريقة المقترحة مع تهيئة TLBT
Algorithm 1 (TLH2 init.): الطريقة المقترحة مع تهيئة TLH2
HiPPO: تهيئة HiPPO النقية كخط أساس

إعدادات الضغط

المعاملات المستهدفة: 34,114 (تقليل حوالي 80%)
تكوينان لتقليل الترتيب: r_list = 16×4 و 32,16,12,4

نتائج التجارب

النتائج الرئيسية

الطريقة	r_list	الخطأ النسبي	دقة الاختبار (قبل/بعد إعادة التدريب)
HiPPO	16×4	1.5050	0.4905 / 0.7907
TLBT	16×4	0.6330	0.7615 / 0.8647
TLH2	16×4	0.6101	0.7642 / 0.8660
الطريقة المقترحة (تهيئة TLBT)	16×4	0.6266	0.7649 / 0.8662
الطريقة المقترحة (تهيئة TLH2)	16×4	0.6100	0.7640 / 0.8628
الطريقة المقترحة (تهيئة TLBT)	32,16,12,4	0.3103	0.8166 / 0.8689

النتائج الرئيسية

أداء عالية دون إعادة تدريب: بالنسبة لـ r_list=32,16,12,4، تصل دقة الضغط إلى 0.8166، متفوقة على HiPPO بعد إعادة التدريب 0.8029
فعالية التوزيع الهرمي: تخصيص قيم r أكبر للطبقات الضحلة يقلل بشكل كبير من قيمة دالة الهدف
ضمان الاستقرار: تحافظ الطريقة المقترحة دائماً على الاستقرار، بينما تفشل TLH2 عند r=32

الأعمال ذات الصلة

تطبيق MOR في Deep SSM

طرق Balanced Truncation: 11,12 استخدام BT لضغط مستقل بين الطبقات
طرق تحسين H²: 14 اقتراح تقليل ترتيب H² الأمثل مع الحفاظ على خصائص Deep SSM
طرق مؤشر H∞: 13 إدخال كسور H∞ لحذف الأنماط بكفاءة عالية

الفروقات بين هذه الورقة والأعمال الموجودة

أول مرة توفير ضمانات أداء إخراج شاملة من منظور نظرية التحكم في الأنظمة
الأخذ في الاعتبار التفاعلات بين الطبقات بدلاً من معالجة كل طبقة بشكل مستقل
الحصول على نموذج ضغط عالي الجودة دون الحاجة إلى إعادة تدريب

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الحد الأعلى المشتق لخطأ الإخراج يوفر أساساً نظرياً لطرق MOR الموجودة
طريقة التحسين القائمة على الحد الأعلى يمكنها بناء نماذج ضغط عالية الجودة
التجارب تتحقق من جدوى النشر دون إعادة تدريب في البيئات محدودة الموارد

القيود

تأخذ في الاعتبار فقط معمارية Deep SSM محددة (تحتوي على أنظمة LQO)
التجارب تم التحقق منها فقط على مهمة واحدة (IMDb)
قد يكون ثابت ليبشيتز لتطبيع الطبقات كبيراً جداً، مما يؤثر على إحكام الحد الأعلى

الاتجاهات المستقبلية

دراسة الآليات النظرية لماذا يمكن الحصول على أداء عالية دون إعادة تدريب
التوسع إلى معماريات Deep SSM أكثر عمومية
التحقق من عمومية الطريقة على مزيد من المهام ومجموعات البيانات

التقييم المتعمق

المزايا

الصرامة النظرية: توفير اشتقاق رياضي كامل وضمانات التقارب
القيمة العملية: تحقيق ضغط معاملات كبير دون الحاجة إلى إعادة تدريب
ابتكار الطريقة: أول مرة تأخذ في الاعتبار التفاعلات بين الطبقات للتحسين الشامل
التجارب الكافية: مقارنة مع عدة طرق وتحليل تفصيلي

أوجه القصور

نطاق التطبيق محدود: ينطبق فقط على Deep SSM محددة تحتوي على أنظمة LQO
نطاق التجارب: التحقق فقط على مهمة NLP واحدة، يفتقد التحقق في مجالات أخرى
التعقيد الحسابي: حساب التدرج يتضمن حل معادلات Sylvester واسعة النطاق
إحكام الحد الأعلى: قد يؤدي ثابت ليبشيتز الكبير لتطبيع الطبقات إلى حد أعلى فضفاض

التأثير

المساهمة النظرية: توفير إطار نظري جديد لضغط Deep SSM
القيمة العملية: ذات أهمية كبيرة لسيناريوهات النشر في الأجهزة محدودة الموارد
الإلهام الطريقة: توفير أفكار جديدة لضغط نماذج عميقة أخرى

السيناريوهات المطبقة

نشر الأجهزة الطرفية محدودة الموارد الحسابية
سيناريوهات ضغط النموذج السريع دون إمكانية إعادة التدريب
ضغط Deep SSM في مهام نمذجة المتسلسلات الطويلة

المراجع

تستشهد هذه الورقة بـ 21 مرجعاً ذا صلة، تغطي بشكل أساسي:

أعمال Deep SSM ذات الصلة: HiPPO 1, S5 4, Mamba 5
طرق ضغط النموذج: 10-14
نظرية التحكم في الأنظمة: 15-17
نظرية التحسين: 20-21

التقييم الشامل: هذه ورقة ممتازة تجمع بين النظرية والممارسة، وتحقق مساهمات مهمة في مجال ضغط Deep SSM. على الرغم من وجود قيود في نطاق التطبيق واتساع التجارب، فإن صرامتها النظرية وقيمتها العملية تجعلها تقدماً مهماً في هذا المجال.