2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

Un Metodo di Compressione di Modelli State-Space Profondi Utilizzando un Limite Superiore sull'Errore di Output

Informazioni Fondamentali

ID Articolo: 2510.14542
Titolo: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Autori: Hiroki Sakamoto, Kazuhiro Sato (Dipartimento di Informatica Matematica, Scuola di Dottorato in Scienza e Tecnologia dell'Informazione, Università di Tokyo)
Classificazione: eess.SY (Sistemi e Controllo), cs.LG (Apprendimento Automatico), cs.SY (Sistemi e Controllo)
Data di Sottomissione: 16 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.14542v1

Riassunto

Questo articolo esamina i modelli state-space profondi (Deep SSMs) che contengono sistemi con output quadratico lineare (LQO) come blocchi interni, e propone un metodo di compressione con garanzie di errore di output provabili. Gli autori derivano innanzitutto un limite superiore dell'errore di output tra due Deep SSMs e dimostrano che tale limite può essere espresso attraverso la norma di errore h² dei sistemi LQO tra i livelli, fornendo così una base teorica ai metodi di compressione basati sulla riduzione dell'ordine del modello (MOR) esistenti. Basandosi su questo limite superiore, gli autori formulano un problema di ottimizzazione con la norma di errore h² come obiettivo e sviluppano un metodo MOR basato su gradienti. Nel compito IMDb del benchmark Long Range Arena, il metodo di compressione mostra prestazioni eccellenti, riducendo circa l'80% dei parametri addestrabili senza riaddestrare, con una diminuzione di prestazioni di soli il 4-5%.

Contesto di Ricerca e Motivazione

Definizione del Problema

I Deep SSMs, come modelli di sequenza in grado di elaborare efficientemente dipendenze a lungo raggio e non linearità, hanno dimostrato prestazioni comparabili ai Transformer in numerosi compiti. Tuttavia, le alte prestazioni richiedono spesso un gran numero di parametri, in particolare la scala dei parametri dei modelli state-space lineari incorporati. Nella distribuzione pratica, è necessario ottenere modelli più compatti mantenendo le prestazioni.

Limitazioni dei Metodi Esistenti

Elaborazione Indipendente tra Livelli: I metodi MOR esistenti comprimono indipendentemente il modello state-space lineare di ogni livello, ignorando le interazioni tra livelli
Mancanza di Garanzie di Prestazioni Globali: Sebbene possano ridurre l'errore di output di ogni livello, non garantiscono le prestazioni di output finale dell'intero Deep SSM
Necessità di Riaddestrare: La maggior parte dei metodi richiede il riaddestrare utilizzando il modello compresso come inizializzazione

Motivazione della Ricerca

Questo articolo mira a costruire un modello di compressione che consideri le interazioni tra livelli, minimizzando direttamente l'errore di output dell'intero Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L, e fornendo garanzie teoriche.

Contributi Fondamentali

Contributo Teorico: Derivazione di un limite superiore dell'errore di output tra Deep SSMs, dimostrazione che tale limite può essere espresso attraverso la norma di errore h² dei sistemi LQO di ogni livello, fornendo una base teorica ai metodi MOR esistenti
Innovazione Metodologica: Proposta di un algoritmo di ottimizzazione MOR che considera le interazioni tra livelli, in grado di minimizzare il limite superiore dell'errore di output mantenendo le proprietà uniche del Deep SSM
Valore Pratico: Realizzazione di una compressione di alta qualità senza riaddestrare nel compito IMDb, con riduzione dell'80% dei parametri e diminuzione delle prestazioni di soli il 4-5%
Garanzie Algoritmiche: L'algoritmo basato su gradienti proposto possiede garanzie teoriche di convergenza a punti stazionari

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un Deep SSM preaddestrato con ξ livelli e una sequenza di input (s_in,k)^(L-1)_(k=0), costruire un Deep SSM di ordine ridotto tale che l'errore di output e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L sia minimizzato.

Sistema LQO Complesso a Tempo Discreto

Considerare il seguente sistema LQO:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

dove A ∈ C^(n×n) è una matrice diagonale stabile, M_i sono matrici Hermitiane.

Architettura Deep SSM

Sistema LQO dell'i-esimo livello:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Connessione dei livelli attraverso connessioni residue e normalizzazione di livello:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Teoria del Limite Superiore dell'Errore di Output

Teorema 1: Sotto ipotesi di stabilità, l'errore di output soddisfa:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

dove G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, ω è la costante di Lipschitz massima della normalizzazione di livello.

Corollario 1: Quando l'input è limitato, il limite superiore dell'errore si semplifica in:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Formulazione del Problema di Ottimizzazione

Basato sul limite superiore dell'errore, formulare il problema di ottimizzazione MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to vincoli di stabilità

Calcolo del Gradiente

Calcolo del gradiente attraverso la risoluzione di equazioni di Sylvester/Lyapunov a orizzonte finito. Poiché la matrice A è diagonale, può essere risolta in tempo O(nm) in modo efficiente.

Progettazione dell'Algoritmo

Algoritmo 1: Metodo del Gradiente con Garanzie di Stabilità

Utilizzo della ricerca di backtracking per garantire stabilità e condizione di Armijo
Garanzie teoriche di convergenza a punti stazionari

Configurazione Sperimentale

Dataset

Utilizzo del compito di analisi del sentimento IMDb dal benchmark Long Range Arena (LRA), con lunghezza di sequenza L=4096.

Configurazione del Modello

Modello originale: Deep SSM a 4 livelli, n=128, m=64, c=1
Parametri totali: 207.490
Accuratezza preaddestrata: 86,66%

Metodi di Confronto

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): Metodo proposto inizializzato con TLBT
Algorithm 1 (TLH2 init.): Metodo proposto inizializzato con TLH2
HiPPO: Inizializzazione pura HiPPO come baseline

Impostazioni di Compressione

Parametri target: 34.114 (riduzione di circa l'80%)
Due configurazioni di riduzione dell'ordine: r_list = 16×4 e 32,16,12,4

Risultati Sperimentali

Risultati Principali

Metodo	r_list	Errore Relativo	Accuratezza Test (Pre-compressione / Post-riaddestrare)
HiPPO	16×4	1,5050	0,4905 / 0,7907
TLBT	16×4	0,6330	0,7615 / 0,8647
TLH2	16×4	0,6101	0,7642 / 0,8660
Proposto (TLBT init.)	16×4	0,6266	0,7649 / 0,8662
Proposto (TLH2 init.)	16×4	0,6100	0,7640 / 0,8628
Proposto (TLBT init.)	32,16,12,4	0,3103	0,8166 / 0,8689

Scoperte Chiave

Alte Prestazioni Senza Riaddestrare: Per r_list=32,16,12,4, l'accuratezza post-compressione raggiunge 0,8166, superando il 0,8029 di HiPPO dopo riaddestrare
Efficacia dell'Allocazione Gerarchica: L'allocazione di valori r più grandi ai livelli superficiali riduce significativamente il valore della funzione obiettivo
Garanzie di Stabilità: Il metodo proposto mantiene sempre la stabilità, mentre TLH2 fallisce con r=32

Lavori Correlati

Applicazione di MOR nei Deep SSM

Metodi di Balanced Truncation: 11,12 utilizzano BT per compressione indipendente tra livelli
Metodi di Ottimizzazione H²: 14 propone riduzione d'ordine H²-ottimale mantenendo le proprietà del Deep SSM
Metodi di Indice H∞: 13 introduce frazione H∞ per eliminare efficientemente i modi

Differenze tra questo Articolo e Lavori Esistenti

Primo a fornire garanzie di prestazioni di output globali dal punto di vista della teoria dei sistemi di controllo
Considera le interazioni tra livelli piuttosto che elaborare ogni livello indipendentemente
Ottiene compressione di alta qualità senza riaddestrare

Conclusioni e Discussione

Conclusioni Principali

Il limite superiore dell'errore di output derivato fornisce una base teorica ai metodi MOR esistenti
Il metodo di ottimizzazione basato sul limite superiore può costruire modelli di compressione di alta qualità
Gli esperimenti verificano la fattibilità della distribuzione senza riaddestrare in ambienti con risorse limitate

Limitazioni

Considera solo un'architettura Deep SSM specifica (contenente sistemi LQO)
Gli esperimenti sono verificati solo su un singolo compito (IMDb)
La costante di Lipschitz della normalizzazione di livello potrebbe essere grande, influenzando la stretta del limite superiore

Direzioni Future

Ricerca dei meccanismi teorici del perché si ottengono alte prestazioni senza riaddestrare
Estensione ad architetture Deep SSM più generali
Verifica della generalità del metodo su più compiti e dataset

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Fornisce derivazioni matematiche complete e garanzie di convergenza
Valore Pratico: Realizza compressione significativa dei parametri senza riaddestrare
Innovazione Metodologica: Primo a considerare le interazioni tra livelli per ottimizzazione globale
Esperimenti Completi: Confronta più metodi e fornisce analisi dettagliate

Insufficienze

Ambito di Applicabilità Limitato: Applicabile solo a Deep SSM specifici contenenti sistemi LQO
Ambito Sperimentale: Verificato solo su un singolo compito NLP, mancanza di verifica in altri domini
Complessità Computazionale: Il calcolo del gradiente comporta la risoluzione di equazioni di Sylvester su larga scala
Stretta del Limite Superiore: La grande costante di Lipschitz della normalizzazione di livello potrebbe causare un limite superiore troppo lasco

Impatto

Contributo Teorico: Fornisce un nuovo quadro teorico per la compressione di Deep SSM
Valore Pratico: Ha importanza significativa per scenari di distribuzione con risorse limitate
Ispirazione Metodologica: Fornisce nuove idee per la compressione di altri modelli profondi

Scenari Applicabili

Distribuzione su dispositivi edge con risorse computazionali limitate
Scenari che richiedono compressione rapida del modello senza possibilità di riaddestrare
Compressione di Deep SSM in compiti di modellazione di sequenze lunghe

Riferimenti Bibliografici

Questo articolo cita 21 riferimenti correlati, principalmente coprendo:

Lavori correlati a Deep SSM: HiPPO 1, S5 4, Mamba 5
Metodi di compressione del modello: 10-14
Teoria dei sistemi di controllo: 15-17
Teoria dell'ottimizzazione: 20-21

Valutazione Complessiva: Questo è un articolo eccellente che bilancia teoria e pratica, apportando contributi importanti nel campo della compressione di Deep SSM. Sebbene presenti limitazioni nell'ambito di applicabilità e nell'ampiezza sperimentale, il suo rigore teorico e valore pratico lo rendono un progresso importante in questo campo.