A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
Eine Kompressionsmethode für tiefe Zustandsraum-Modelle unter Verwendung einer oberen Schranke für den Ausgabefehler
Titel: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Autoren: Hiroki Sakamoto, Kazuhiro Sato (Abteilung für Mathematische Informatik, Graduate School of Information Science and Technology, Universität Tokio)
Klassifizierung: eess.SY (Systeme und Regelung), cs.LG (Maschinelles Lernen), cs.SY (Systeme und Regelung)
Diese Arbeit untersucht tiefe Zustandsraum-Modelle (Deep SSMs), die lineare quadratische Ausgabe-Systeme (LQO-Systeme) als interne Blöcke enthalten, und schlägt eine Kompressionsmethode mit nachweisbaren Ausgabefehlerschranken vor. Die Autoren leiten zunächst eine obere Schranke für den Ausgabefehler zwischen zwei Deep SSMs her und zeigen, dass diese Schranke durch die h²-Fehlernorm der LQO-Systeme zwischen den Schichten ausgedrückt werden kann. Dies liefert eine theoretische Grundlage für bestehende modellordnungsreduktions-basierte (MOR) Kompressionsmethoden. Basierend auf dieser Schranke formulieren die Autoren ein Optimierungsproblem mit der h²-Fehlernorm als Ziel und entwickeln eine gradientenbasierte MOR-Methode. Bei der IMDb-Aufgabe der Long Range Arena-Benchmark zeigt die Kompressionsmethode hervorragende Ergebnisse: Sie reduziert etwa 80% der trainierbaren Parameter ohne Umschulung, während die Leistung nur um 4-5% abnimmt.
Deep SSMs als Sequenzmodelle, die lange Abhängigkeiten und Nichtlinearität effizient verarbeiten können, haben in mehreren Aufgaben eine mit Transformern vergleichbare Leistung gezeigt. Hohe Leistung erfordert jedoch häufig eine große Anzahl von Parametern, insbesondere die Parametergröße der eingebetteten linearen Zustandsraum-Modelle. Bei der praktischen Bereitstellung ist es notwendig, kompaktere Modelle zu erhalten, während die Leistung erhalten bleibt.
Schichtweise unabhängige Verarbeitung: Bestehende MOR-Methoden komprimieren die linearen Zustandsraum-Modelle jeder Schicht unabhängig und ignorieren Wechselwirkungen zwischen Schichten
Fehlende Gesamtleistungsgarantie: Obwohl der Ausgabefehler jeder Schicht reduziert werden kann, kann die endgültige Ausgabeleistung des gesamten Deep SSM nicht garantiert werden
Erforderliche Umschulung: Die meisten Methoden erfordern eine Umschulung mit dem komprimierten Modell als Initialisierung
Diese Arbeit zielt darauf ab, ein Kompressionsmodell zu konstruieren, das Wechselwirkungen zwischen Schichten berücksichtigt, den Ausgabefehler des gesamten Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L direkt minimiert und theoretische Garantien bietet.
Theoretischer Beitrag: Herleitung einer oberen Schranke für den Ausgabefehler zwischen Deep SSMs, Nachweis, dass diese Schranke durch die h²-Fehlernorm der LQO-Systeme jeder Schicht ausgedrückt werden kann, und Bereitstellung einer theoretischen Grundlage für bestehende MOR-Methoden
Methodische Innovation: Vorschlag eines MOR-Optimierungsalgorithmus, der Wechselwirkungen zwischen Schichten berücksichtigt und die Ausgabefehlerschranke minimieren kann, während die Besonderheiten des Deep SSM erhalten bleiben
Praktischer Wert: Realisierung hochqualitativer Kompression ohne Umschulung bei der IMDb-Aufgabe mit 80% Parameterreduktion und nur 4-5% Leistungsabfall
Algorithmusgarantie: Der vorgeschlagene Gradientenalgorithmus hat theoretische Garantien für die Konvergenz zu stationären Punkten
Gegeben ein vortrainiertes ξ-schichtiges Deep SSM und eine Eingabesequenz (s_in,k)^(L-1)_(k=0), konstruiere ein reduziertes Deep SSM, so dass der Ausgabefehler e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L minimiert wird.
Gradienten werden durch Lösen von endlichzeitigen Sylvester/Lyapunov-Gleichungen berechnet. Da die A-Matrix diagonal ist, können diese mit O(nm) Zeitkomplexität effizient gelöst werden.
Hochleistung ohne Umschulung: Für r_list=32,16,12,4 erreicht die komprimierte Genauigkeit 0,8166 und übersteigt damit die nach Umschulung erzielte HiPPO-Genauigkeit von 0,8029
Effektivität der hierarchischen Zuweisung: Die Zuweisung größerer r-Werte zu flacheren Schichten reduziert den Zielwert erheblich
Stabilitätsgarantie: Diese Methode behält immer Stabilität bei, während TLH2 bei r=32 fehlschlägt
Diese Arbeit zitiert 21 verwandte Literaturquellen, hauptsächlich abdeckend:
Deep SSM-bezogene Arbeiten: HiPPO 1, S5 4, Mamba 5
Modellkompressionsmethoden: 10-14
Systemregelungstheorie: 15-17
Optimierungstheorie: 20-21
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis verbindet und wichtige Beiträge zum Bereich der Deep SSM-Kompression leistet. Obwohl es Einschränkungen in Bezug auf Anwendbarkeit und experimentelle Breite gibt, machen seine theoretische Strenge und sein praktischer Wert es zu einem wichtigen Fortschritt in diesem Bereich.