A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
Une Méthode de Compression de Modèles d'Espace d'État Profonds utilisant une Borne Supérieure sur l'Erreur de Sortie
Titre: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Auteurs: Hiroki Sakamoto, Kazuhiro Sato (Département d'Informatique Mathématique, École Supérieure d'Informatique et de Technologie, Université de Tokyo)
Classification: eess.SY (Systèmes et Contrôle), cs.LG (Apprentissage Automatique), cs.SY (Systèmes et Contrôle)
Cet article étudie les modèles d'espace d'état profonds (Deep SSMs) contenant des systèmes de sortie quadratique linéaire (LQO) comme blocs internes, et propose une méthode de compression avec des garanties d'erreur de sortie prouvables. Les auteurs dérivent d'abord une borne supérieure sur l'erreur de sortie entre deux Deep SSMs et démontrent que cette borne peut être exprimée par la norme d'erreur h² des systèmes LQO entre couches, fournissant ainsi une justification théorique aux méthodes de compression existantes basées sur la réduction de modèle (MOR). Sur la base de cette borne, les auteurs formulent un problème d'optimisation visant la norme d'erreur h² et développent une méthode MOR basée sur le gradient. Sur la tâche IMDb du benchmark Long Range Arena, la méthode de compression montre d'excellentes performances, réduisant environ 80% des paramètres entraînables sans réentraînement, avec une dégradation de performance de seulement 4-5%.
Les Deep SSMs, en tant que modèles de séquence capables de traiter efficacement les dépendances à long terme et les non-linéarités, ont démontré des performances comparables aux Transformers dans de nombreuses tâches. Cependant, les hautes performances nécessitent généralement un grand nombre de paramètres, en particulier l'échelle des paramètres des modèles d'espace d'état linéaires intégrés. Dans les déploiements pratiques, il est nécessaire d'obtenir des modèles plus compacts tout en maintenant les performances.
Traitement indépendant entre couches: Les méthodes MOR existantes compriment indépendamment le modèle d'espace d'état linéaire de chaque couche, ignorant les interactions entre couches
Absence de garanties de performance globale: Bien que capable de réduire l'erreur de sortie de chaque couche, elles ne peuvent pas garantir la performance de sortie finale du Deep SSM complet
Nécessité de réentraînement: La plupart des méthodes nécessitent un réentraînement utilisant le modèle compressé comme initialisation
Cet article vise à construire un modèle de compression qui considère les interactions entre couches, minimisant directement l'erreur de sortie du Deep SSM complet ‖s_out - ŝ_out‖_ℓ∞^L, avec des garanties théoriques.
Contribution théorique: Dérivation d'une borne supérieure sur l'erreur de sortie entre Deep SSMs, démontrant que cette borne peut être exprimée par la norme d'erreur h² des systèmes LQO de chaque couche, fournissant une justification théorique aux méthodes MOR existantes
Innovation méthodologique: Proposition d'un algorithme d'optimisation MOR considérant les interactions entre couches, capable de minimiser la borne supérieure d'erreur de sortie tout en préservant les propriétés distinctives du Deep SSM
Valeur pratique: Réalisation d'une compression de haute qualité sans réentraînement sur la tâche IMDb, réduisant 80% des paramètres avec une dégradation de performance de seulement 4-5%
Garanties algorithmiques: L'algorithme de gradient proposé possède des garanties théoriques de convergence vers un point stationnaire
Étant donné un Deep SSM pré-entraîné à ξ couches et une séquence d'entrée (s_in,k)^(L-1)_(k=0), construire un Deep SSM d'ordre réduit minimisant l'erreur de sortie e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L.
Le gradient est calculé en résolvant des équations de Sylvester/Lyapunov en domaine temporel fini. Puisque la matrice A est diagonale, cela peut être résolu efficacement en temps O(nm).
Haute performance sans réentraînement: Pour r_list=32,16,12,4, la précision après compression atteint 0.8166, dépassant celle de HiPPO après réentraînement (0.8029)
Efficacité de l'allocation hiérarchique: L'allocation de valeurs r plus grandes aux couches peu profondes réduit significativement la valeur de la fonction objectif
Garanties de stabilité: La méthode proposée maintient toujours la stabilité, tandis que TLH2 échoue à r=32
Cet article cite 21 références connexes, couvrant principalement:
Travaux connexes sur Deep SSM: HiPPO 1, S5 4, Mamba 5
Méthodes de compression de modèles: 10-14
Théorie du contrôle des systèmes: 15-17
Théorie de l'optimisation: 20-21
Évaluation Globale: Cet article est une excellente contribution équilibrant théorie et pratique, apportant des contributions importantes dans le domaine de la compression des Deep SSM. Bien que présentant des limitations en termes de portée d'application et d'ampleur expérimentale, sa rigueur théorique et sa valeur pratique en font un progrès important dans ce domaine.