A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
Un Metodo di Compressione di Modelli State-Space Profondi Utilizzando un Limite Superiore sull'Errore di Output
Titolo: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Autori: Hiroki Sakamoto, Kazuhiro Sato (Dipartimento di Informatica Matematica, Scuola di Dottorato in Scienza e Tecnologia dell'Informazione, Università di Tokyo)
Classificazione: eess.SY (Sistemi e Controllo), cs.LG (Apprendimento Automatico), cs.SY (Sistemi e Controllo)
Questo articolo esamina i modelli state-space profondi (Deep SSMs) che contengono sistemi con output quadratico lineare (LQO) come blocchi interni, e propone un metodo di compressione con garanzie di errore di output provabili. Gli autori derivano innanzitutto un limite superiore dell'errore di output tra due Deep SSMs e dimostrano che tale limite può essere espresso attraverso la norma di errore h² dei sistemi LQO tra i livelli, fornendo così una base teorica ai metodi di compressione basati sulla riduzione dell'ordine del modello (MOR) esistenti. Basandosi su questo limite superiore, gli autori formulano un problema di ottimizzazione con la norma di errore h² come obiettivo e sviluppano un metodo MOR basato su gradienti. Nel compito IMDb del benchmark Long Range Arena, il metodo di compressione mostra prestazioni eccellenti, riducendo circa l'80% dei parametri addestrabili senza riaddestrare, con una diminuzione di prestazioni di soli il 4-5%.
I Deep SSMs, come modelli di sequenza in grado di elaborare efficientemente dipendenze a lungo raggio e non linearità, hanno dimostrato prestazioni comparabili ai Transformer in numerosi compiti. Tuttavia, le alte prestazioni richiedono spesso un gran numero di parametri, in particolare la scala dei parametri dei modelli state-space lineari incorporati. Nella distribuzione pratica, è necessario ottenere modelli più compatti mantenendo le prestazioni.
Elaborazione Indipendente tra Livelli: I metodi MOR esistenti comprimono indipendentemente il modello state-space lineare di ogni livello, ignorando le interazioni tra livelli
Mancanza di Garanzie di Prestazioni Globali: Sebbene possano ridurre l'errore di output di ogni livello, non garantiscono le prestazioni di output finale dell'intero Deep SSM
Necessità di Riaddestrare: La maggior parte dei metodi richiede il riaddestrare utilizzando il modello compresso come inizializzazione
Questo articolo mira a costruire un modello di compressione che consideri le interazioni tra livelli, minimizzando direttamente l'errore di output dell'intero Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L, e fornendo garanzie teoriche.
Contributo Teorico: Derivazione di un limite superiore dell'errore di output tra Deep SSMs, dimostrazione che tale limite può essere espresso attraverso la norma di errore h² dei sistemi LQO di ogni livello, fornendo una base teorica ai metodi MOR esistenti
Innovazione Metodologica: Proposta di un algoritmo di ottimizzazione MOR che considera le interazioni tra livelli, in grado di minimizzare il limite superiore dell'errore di output mantenendo le proprietà uniche del Deep SSM
Valore Pratico: Realizzazione di una compressione di alta qualità senza riaddestrare nel compito IMDb, con riduzione dell'80% dei parametri e diminuzione delle prestazioni di soli il 4-5%
Garanzie Algoritmiche: L'algoritmo basato su gradienti proposto possiede garanzie teoriche di convergenza a punti stazionari
Dato un Deep SSM preaddestrato con ξ livelli e una sequenza di input (s_in,k)^(L-1)_(k=0), costruire un Deep SSM di ordine ridotto tale che l'errore di output e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L sia minimizzato.
Calcolo del gradiente attraverso la risoluzione di equazioni di Sylvester/Lyapunov a orizzonte finito. Poiché la matrice A è diagonale, può essere risolta in tempo O(nm) in modo efficiente.
Alte Prestazioni Senza Riaddestrare: Per r_list=32,16,12,4, l'accuratezza post-compressione raggiunge 0,8166, superando il 0,8029 di HiPPO dopo riaddestrare
Efficacia dell'Allocazione Gerarchica: L'allocazione di valori r più grandi ai livelli superficiali riduce significativamente il valore della funzione obiettivo
Garanzie di Stabilità: Il metodo proposto mantiene sempre la stabilità, mentre TLH2 fallisce con r=32
Questo articolo cita 21 riferimenti correlati, principalmente coprendo:
Lavori correlati a Deep SSM: HiPPO 1, S5 4, Mamba 5
Metodi di compressione del modello: 10-14
Teoria dei sistemi di controllo: 15-17
Teoria dell'ottimizzazione: 20-21
Valutazione Complessiva: Questo è un articolo eccellente che bilancia teoria e pratica, apportando contributi importanti nel campo della compressione di Deep SSM. Sebbene presenti limitazioni nell'ambito di applicabilità e nell'ampiezza sperimentale, il suo rigore teorico e valore pratico lo rendono un progresso importante in questo campo.