2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

Une Méthode de Compression de Modèles d'Espace d'État Profonds utilisant une Borne Supérieure sur l'Erreur de Sortie

Informations Fondamentales

ID de l'article: 2510.14542
Titre: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Auteurs: Hiroki Sakamoto, Kazuhiro Sato (Département d'Informatique Mathématique, École Supérieure d'Informatique et de Technologie, Université de Tokyo)
Classification: eess.SY (Systèmes et Contrôle), cs.LG (Apprentissage Automatique), cs.SY (Systèmes et Contrôle)
Date de soumission: 16 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.14542v1

Résumé

Cet article étudie les modèles d'espace d'état profonds (Deep SSMs) contenant des systèmes de sortie quadratique linéaire (LQO) comme blocs internes, et propose une méthode de compression avec des garanties d'erreur de sortie prouvables. Les auteurs dérivent d'abord une borne supérieure sur l'erreur de sortie entre deux Deep SSMs et démontrent que cette borne peut être exprimée par la norme d'erreur h² des systèmes LQO entre couches, fournissant ainsi une justification théorique aux méthodes de compression existantes basées sur la réduction de modèle (MOR). Sur la base de cette borne, les auteurs formulent un problème d'optimisation visant la norme d'erreur h² et développent une méthode MOR basée sur le gradient. Sur la tâche IMDb du benchmark Long Range Arena, la méthode de compression montre d'excellentes performances, réduisant environ 80% des paramètres entraînables sans réentraînement, avec une dégradation de performance de seulement 4-5%.

Contexte et Motivation de la Recherche

Définition du Problème

Les Deep SSMs, en tant que modèles de séquence capables de traiter efficacement les dépendances à long terme et les non-linéarités, ont démontré des performances comparables aux Transformers dans de nombreuses tâches. Cependant, les hautes performances nécessitent généralement un grand nombre de paramètres, en particulier l'échelle des paramètres des modèles d'espace d'état linéaires intégrés. Dans les déploiements pratiques, il est nécessaire d'obtenir des modèles plus compacts tout en maintenant les performances.

Limitations des Méthodes Existantes

Traitement indépendant entre couches: Les méthodes MOR existantes compriment indépendamment le modèle d'espace d'état linéaire de chaque couche, ignorant les interactions entre couches
Absence de garanties de performance globale: Bien que capable de réduire l'erreur de sortie de chaque couche, elles ne peuvent pas garantir la performance de sortie finale du Deep SSM complet
Nécessité de réentraînement: La plupart des méthodes nécessitent un réentraînement utilisant le modèle compressé comme initialisation

Motivation de la Recherche

Cet article vise à construire un modèle de compression qui considère les interactions entre couches, minimisant directement l'erreur de sortie du Deep SSM complet ‖s_out - ŝ_out‖_ℓ∞^L, avec des garanties théoriques.

Contributions Principales

Contribution théorique: Dérivation d'une borne supérieure sur l'erreur de sortie entre Deep SSMs, démontrant que cette borne peut être exprimée par la norme d'erreur h² des systèmes LQO de chaque couche, fournissant une justification théorique aux méthodes MOR existantes
Innovation méthodologique: Proposition d'un algorithme d'optimisation MOR considérant les interactions entre couches, capable de minimiser la borne supérieure d'erreur de sortie tout en préservant les propriétés distinctives du Deep SSM
Valeur pratique: Réalisation d'une compression de haute qualité sans réentraînement sur la tâche IMDb, réduisant 80% des paramètres avec une dégradation de performance de seulement 4-5%
Garanties algorithmiques: L'algorithme de gradient proposé possède des garanties théoriques de convergence vers un point stationnaire

Détails de la Méthode

Définition de la Tâche

Étant donné un Deep SSM pré-entraîné à ξ couches et une séquence d'entrée (s_in,k)^(L-1)_(k=0), construire un Deep SSM d'ordre réduit minimisant l'erreur de sortie e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L.

Système LQO Complexe en Temps Discret

Considérant le système LQO suivant:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

où A ∈ C^(n×n) est une matrice diagonale stable et M_i sont des matrices Hermitiennes.

Architecture du Deep SSM

Système LQO de la i-ème couche:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Les couches sont connectées via des connexions résiduelles et une normalisation de couche:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Théorie de la Borne Supérieure d'Erreur de Sortie

Théorème 1: Sous les hypothèses de stabilité, l'erreur de sortie satisfait:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

où G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, et ω est la constante de Lipschitz maximale de la normalisation de couche.

Corollaire 1: Lorsque l'entrée est bornée, la borne d'erreur se simplifie en:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Formulation du Problème d'Optimisation

Sur la base de la borne d'erreur, formulation du problème d'optimisation MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to contraintes de stabilité

Calcul du Gradient

Le gradient est calculé en résolvant des équations de Sylvester/Lyapunov en domaine temporel fini. Puisque la matrice A est diagonale, cela peut être résolu efficacement en temps O(nm).

Conception de l'Algorithme

Algorithme 1: Méthode de gradient avec garanties de stabilité

Utilisation de recherche en ligne avec retour arrière pour assurer la stabilité et la condition d'Armijo
Garanties théoriques de convergence vers un point stationnaire

Configuration Expérimentale

Ensemble de Données

Utilisation de la tâche d'analyse de sentiment IMDb du benchmark Long Range Arena (LRA), avec une longueur de séquence L=4096.

Configuration du Modèle

Modèle original: Deep SSM à 4 couches, n=128, m=64, c=1
Paramètres totaux: 207,490
Précision pré-entraînée: 86,66%

Méthodes de Comparaison

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): Méthode proposée initialisée par TLBT
Algorithm 1 (TLH2 init.): Méthode proposée initialisée par TLH2
HiPPO: Initialisation HiPPO pure comme ligne de base

Configuration de Compression

Paramètres cibles: 34,114 (réduction d'environ 80%)
Deux configurations de réduction d'ordre: r_list = 16×4 et 32,16,12,4

Résultats Expérimentaux

Résultats Principaux

Méthode	r_list	Erreur Relative	Précision Test (Avant/Après Réentraînement)
HiPPO	16×4	1.5050	0.4905 / 0.7907
TLBT	16×4	0.6330	0.7615 / 0.8647
TLH2	16×4	0.6101	0.7642 / 0.8660
Proposé (TLBT init.)	16×4	0.6266	0.7649 / 0.8662
Proposé (TLH2 init.)	16×4	0.6100	0.7640 / 0.8628
Proposé (TLBT init.)	32,16,12,4	0.3103	0.8166 / 0.8689

Découvertes Clés

Haute performance sans réentraînement: Pour r_list=32,16,12,4, la précision après compression atteint 0.8166, dépassant celle de HiPPO après réentraînement (0.8029)
Efficacité de l'allocation hiérarchique: L'allocation de valeurs r plus grandes aux couches peu profondes réduit significativement la valeur de la fonction objectif
Garanties de stabilité: La méthode proposée maintient toujours la stabilité, tandis que TLH2 échoue à r=32

Travaux Connexes

Application de MOR aux Deep SSM

Méthodes de Balanced Truncation: 11,12 utilisent BT pour la compression indépendante entre couches
Méthodes d'optimisation H²: 14 propose une réduction d'ordre H² optimal préservant les propriétés du Deep SSM
Méthodes d'indice H∞: 13 introduit une fraction H∞ pour éliminer efficacement les modes

Distinction avec les Travaux Existants

Première fourniture de garanties de performance de sortie globale du point de vue de la théorie du contrôle des systèmes
Considération des interactions entre couches plutôt que traitement indépendant
Obtention de modèles compressés de haute qualité sans réentraînement

Conclusion et Discussion

Conclusions Principales

La borne d'erreur de sortie dérivée fournit une justification théorique aux méthodes MOR existantes
La méthode d'optimisation basée sur la borne peut construire des modèles compressés de haute qualité
Les expériences valident la faisabilité du déploiement sans réentraînement dans les environnements à ressources limitées

Limitations

Considération limitée à une architecture Deep SSM spécifique (contenant des systèmes LQO)
Validation expérimentale sur une seule tâche (IMDb) uniquement
La constante de Lipschitz de la normalisation de couche peut être grande, affectant la tightness de la borne

Directions Futures

Étude des mécanismes théoriques expliquant pourquoi une haute performance peut être obtenue sans réentraînement
Extension à des architectures Deep SSM plus générales
Validation de la généralité de la méthode sur plus de tâches et d'ensembles de données

Évaluation Approfondie

Points Forts

Rigueur théorique: Fourniture de dérivations mathématiques complètes et de garanties de convergence
Valeur pratique: Réalisation d'une compression de paramètres significative sans réentraînement
Innovation méthodologique: Première considération des interactions entre couches pour optimisation globale
Expérimentation suffisante: Comparaison avec plusieurs méthodes et analyse détaillée

Insuffisances

Portée d'application limitée: Applicable uniquement aux Deep SSM spécifiques contenant des systèmes LQO
Portée expérimentale: Validation sur une seule tâche NLP, manque de validation dans d'autres domaines
Complexité computationnelle: Le calcul du gradient implique la résolution d'équations de Sylvester à grande échelle
Tightness de la borne: La grande constante de Lipschitz de la normalisation de couche peut conduire à une borne trop lâche

Impact

Contribution théorique: Fourniture d'un nouveau cadre théorique pour la compression des Deep SSM
Valeur pratique: Importance significative pour les scénarios de déploiement avec ressources limitées
Inspiration méthodologique: Fourniture de nouvelles perspectives pour la compression d'autres modèles profonds

Scénarios d'Application

Déploiement sur appareils périphériques avec ressources informatiques limitées
Scénarios nécessitant une compression rapide de modèles sans possibilité de réentraînement
Compression de Deep SSM dans les tâches de modélisation de longues séquences

Références

Cet article cite 21 références connexes, couvrant principalement:

Travaux connexes sur Deep SSM: HiPPO 1, S5 4, Mamba 5
Méthodes de compression de modèles: 10-14
Théorie du contrôle des systèmes: 15-17
Théorie de l'optimisation: 20-21

Évaluation Globale: Cet article est une excellente contribution équilibrant théorie et pratique, apportant des contributions importantes dans le domaine de la compression des Deep SSM. Bien que présentant des limitations en termes de portée d'application et d'ampleur expérimentale, sa rigueur théorique et sa valeur pratique en font un progrès important dans ce domaine.