2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

Un Metodo di Compressione di Modelli State-Space Profondi Utilizzando un Limite Superiore sull'Errore di Output

Informazioni Fondamentali

  • ID Articolo: 2510.14542
  • Titolo: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • Autori: Hiroki Sakamoto, Kazuhiro Sato (Dipartimento di Informatica Matematica, Scuola di Dottorato in Scienza e Tecnologia dell'Informazione, Università di Tokyo)
  • Classificazione: eess.SY (Sistemi e Controllo), cs.LG (Apprendimento Automatico), cs.SY (Sistemi e Controllo)
  • Data di Sottomissione: 16 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.14542v1

Riassunto

Questo articolo esamina i modelli state-space profondi (Deep SSMs) che contengono sistemi con output quadratico lineare (LQO) come blocchi interni, e propone un metodo di compressione con garanzie di errore di output provabili. Gli autori derivano innanzitutto un limite superiore dell'errore di output tra due Deep SSMs e dimostrano che tale limite può essere espresso attraverso la norma di errore h² dei sistemi LQO tra i livelli, fornendo così una base teorica ai metodi di compressione basati sulla riduzione dell'ordine del modello (MOR) esistenti. Basandosi su questo limite superiore, gli autori formulano un problema di ottimizzazione con la norma di errore h² come obiettivo e sviluppano un metodo MOR basato su gradienti. Nel compito IMDb del benchmark Long Range Arena, il metodo di compressione mostra prestazioni eccellenti, riducendo circa l'80% dei parametri addestrabili senza riaddestrare, con una diminuzione di prestazioni di soli il 4-5%.

Contesto di Ricerca e Motivazione

Definizione del Problema

I Deep SSMs, come modelli di sequenza in grado di elaborare efficientemente dipendenze a lungo raggio e non linearità, hanno dimostrato prestazioni comparabili ai Transformer in numerosi compiti. Tuttavia, le alte prestazioni richiedono spesso un gran numero di parametri, in particolare la scala dei parametri dei modelli state-space lineari incorporati. Nella distribuzione pratica, è necessario ottenere modelli più compatti mantenendo le prestazioni.

Limitazioni dei Metodi Esistenti

  1. Elaborazione Indipendente tra Livelli: I metodi MOR esistenti comprimono indipendentemente il modello state-space lineare di ogni livello, ignorando le interazioni tra livelli
  2. Mancanza di Garanzie di Prestazioni Globali: Sebbene possano ridurre l'errore di output di ogni livello, non garantiscono le prestazioni di output finale dell'intero Deep SSM
  3. Necessità di Riaddestrare: La maggior parte dei metodi richiede il riaddestrare utilizzando il modello compresso come inizializzazione

Motivazione della Ricerca

Questo articolo mira a costruire un modello di compressione che consideri le interazioni tra livelli, minimizzando direttamente l'errore di output dell'intero Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L, e fornendo garanzie teoriche.

Contributi Fondamentali

  1. Contributo Teorico: Derivazione di un limite superiore dell'errore di output tra Deep SSMs, dimostrazione che tale limite può essere espresso attraverso la norma di errore h² dei sistemi LQO di ogni livello, fornendo una base teorica ai metodi MOR esistenti
  2. Innovazione Metodologica: Proposta di un algoritmo di ottimizzazione MOR che considera le interazioni tra livelli, in grado di minimizzare il limite superiore dell'errore di output mantenendo le proprietà uniche del Deep SSM
  3. Valore Pratico: Realizzazione di una compressione di alta qualità senza riaddestrare nel compito IMDb, con riduzione dell'80% dei parametri e diminuzione delle prestazioni di soli il 4-5%
  4. Garanzie Algoritmiche: L'algoritmo basato su gradienti proposto possiede garanzie teoriche di convergenza a punti stazionari

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un Deep SSM preaddestrato con ξ livelli e una sequenza di input (s_in,k)^(L-1)_(k=0), costruire un Deep SSM di ordine ridotto tale che l'errore di output e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L sia minimizzato.

Sistema LQO Complesso a Tempo Discreto

Considerare il seguente sistema LQO:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

dove A ∈ C^(n×n) è una matrice diagonale stabile, M_i sono matrici Hermitiane.

Architettura Deep SSM

Sistema LQO dell'i-esimo livello:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Connessione dei livelli attraverso connessioni residue e normalizzazione di livello:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Teoria del Limite Superiore dell'Errore di Output

Teorema 1: Sotto ipotesi di stabilità, l'errore di output soddisfa:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

dove G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, ω è la costante di Lipschitz massima della normalizzazione di livello.

Corollario 1: Quando l'input è limitato, il limite superiore dell'errore si semplifica in:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Formulazione del Problema di Ottimizzazione

Basato sul limite superiore dell'errore, formulare il problema di ottimizzazione MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to vincoli di stabilità

Calcolo del Gradiente

Calcolo del gradiente attraverso la risoluzione di equazioni di Sylvester/Lyapunov a orizzonte finito. Poiché la matrice A è diagonale, può essere risolta in tempo O(nm) in modo efficiente.

Progettazione dell'Algoritmo

Algoritmo 1: Metodo del Gradiente con Garanzie di Stabilità

  • Utilizzo della ricerca di backtracking per garantire stabilità e condizione di Armijo
  • Garanzie teoriche di convergenza a punti stazionari

Configurazione Sperimentale

Dataset

Utilizzo del compito di analisi del sentimento IMDb dal benchmark Long Range Arena (LRA), con lunghezza di sequenza L=4096.

Configurazione del Modello

  • Modello originale: Deep SSM a 4 livelli, n=128, m=64, c=1
  • Parametri totali: 207.490
  • Accuratezza preaddestrata: 86,66%

Metodi di Confronto

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² model reduction
  3. Algorithm 1 (TLBT init.): Metodo proposto inizializzato con TLBT
  4. Algorithm 1 (TLH2 init.): Metodo proposto inizializzato con TLH2
  5. HiPPO: Inizializzazione pura HiPPO come baseline

Impostazioni di Compressione

  • Parametri target: 34.114 (riduzione di circa l'80%)
  • Due configurazioni di riduzione dell'ordine: r_list = 16×4 e 32,16,12,4

Risultati Sperimentali

Risultati Principali

Metodor_listErrore RelativoAccuratezza Test (Pre-compressione / Post-riaddestrare)
HiPPO16×41,50500,4905 / 0,7907
TLBT16×40,63300,7615 / 0,8647
TLH216×40,61010,7642 / 0,8660
Proposto (TLBT init.)16×40,62660,7649 / 0,8662
Proposto (TLH2 init.)16×40,61000,7640 / 0,8628
Proposto (TLBT init.)32,16,12,40,31030,8166 / 0,8689

Scoperte Chiave

  1. Alte Prestazioni Senza Riaddestrare: Per r_list=32,16,12,4, l'accuratezza post-compressione raggiunge 0,8166, superando il 0,8029 di HiPPO dopo riaddestrare
  2. Efficacia dell'Allocazione Gerarchica: L'allocazione di valori r più grandi ai livelli superficiali riduce significativamente il valore della funzione obiettivo
  3. Garanzie di Stabilità: Il metodo proposto mantiene sempre la stabilità, mentre TLH2 fallisce con r=32

Lavori Correlati

Applicazione di MOR nei Deep SSM

  • Metodi di Balanced Truncation: 11,12 utilizzano BT per compressione indipendente tra livelli
  • Metodi di Ottimizzazione H²: 14 propone riduzione d'ordine H²-ottimale mantenendo le proprietà del Deep SSM
  • Metodi di Indice H∞: 13 introduce frazione H∞ per eliminare efficientemente i modi

Differenze tra questo Articolo e Lavori Esistenti

  1. Primo a fornire garanzie di prestazioni di output globali dal punto di vista della teoria dei sistemi di controllo
  2. Considera le interazioni tra livelli piuttosto che elaborare ogni livello indipendentemente
  3. Ottiene compressione di alta qualità senza riaddestrare

Conclusioni e Discussione

Conclusioni Principali

  1. Il limite superiore dell'errore di output derivato fornisce una base teorica ai metodi MOR esistenti
  2. Il metodo di ottimizzazione basato sul limite superiore può costruire modelli di compressione di alta qualità
  3. Gli esperimenti verificano la fattibilità della distribuzione senza riaddestrare in ambienti con risorse limitate

Limitazioni

  1. Considera solo un'architettura Deep SSM specifica (contenente sistemi LQO)
  2. Gli esperimenti sono verificati solo su un singolo compito (IMDb)
  3. La costante di Lipschitz della normalizzazione di livello potrebbe essere grande, influenzando la stretta del limite superiore

Direzioni Future

  1. Ricerca dei meccanismi teorici del perché si ottengono alte prestazioni senza riaddestrare
  2. Estensione ad architetture Deep SSM più generali
  3. Verifica della generalità del metodo su più compiti e dataset

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornisce derivazioni matematiche complete e garanzie di convergenza
  2. Valore Pratico: Realizza compressione significativa dei parametri senza riaddestrare
  3. Innovazione Metodologica: Primo a considerare le interazioni tra livelli per ottimizzazione globale
  4. Esperimenti Completi: Confronta più metodi e fornisce analisi dettagliate

Insufficienze

  1. Ambito di Applicabilità Limitato: Applicabile solo a Deep SSM specifici contenenti sistemi LQO
  2. Ambito Sperimentale: Verificato solo su un singolo compito NLP, mancanza di verifica in altri domini
  3. Complessità Computazionale: Il calcolo del gradiente comporta la risoluzione di equazioni di Sylvester su larga scala
  4. Stretta del Limite Superiore: La grande costante di Lipschitz della normalizzazione di livello potrebbe causare un limite superiore troppo lasco

Impatto

  1. Contributo Teorico: Fornisce un nuovo quadro teorico per la compressione di Deep SSM
  2. Valore Pratico: Ha importanza significativa per scenari di distribuzione con risorse limitate
  3. Ispirazione Metodologica: Fornisce nuove idee per la compressione di altri modelli profondi

Scenari Applicabili

  1. Distribuzione su dispositivi edge con risorse computazionali limitate
  2. Scenari che richiedono compressione rapida del modello senza possibilità di riaddestrare
  3. Compressione di Deep SSM in compiti di modellazione di sequenze lunghe

Riferimenti Bibliografici

Questo articolo cita 21 riferimenti correlati, principalmente coprendo:

  • Lavori correlati a Deep SSM: HiPPO 1, S5 4, Mamba 5
  • Metodi di compressione del modello: 10-14
  • Teoria dei sistemi di controllo: 15-17
  • Teoria dell'ottimizzazione: 20-21

Valutazione Complessiva: Questo è un articolo eccellente che bilancia teoria e pratica, apportando contributi importanti nel campo della compressione di Deep SSM. Sebbene presenti limitazioni nell'ambito di applicabilità e nell'ampiezza sperimentale, il suo rigore teorico e valore pratico lo rendono un progresso importante in questo campo.