2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

Eine Kompressionsmethode für tiefe Zustandsraum-Modelle unter Verwendung einer oberen Schranke für den Ausgabefehler

Grundlegende Informationen

Paper-ID: 2510.14542
Titel: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Autoren: Hiroki Sakamoto, Kazuhiro Sato (Abteilung für Mathematische Informatik, Graduate School of Information Science and Technology, Universität Tokio)
Klassifizierung: eess.SY (Systeme und Regelung), cs.LG (Maschinelles Lernen), cs.SY (Systeme und Regelung)
Einreichungsdatum: 16. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.14542v1

Zusammenfassung

Diese Arbeit untersucht tiefe Zustandsraum-Modelle (Deep SSMs), die lineare quadratische Ausgabe-Systeme (LQO-Systeme) als interne Blöcke enthalten, und schlägt eine Kompressionsmethode mit nachweisbaren Ausgabefehlerschranken vor. Die Autoren leiten zunächst eine obere Schranke für den Ausgabefehler zwischen zwei Deep SSMs her und zeigen, dass diese Schranke durch die h²-Fehlernorm der LQO-Systeme zwischen den Schichten ausgedrückt werden kann. Dies liefert eine theoretische Grundlage für bestehende modellordnungsreduktions-basierte (MOR) Kompressionsmethoden. Basierend auf dieser Schranke formulieren die Autoren ein Optimierungsproblem mit der h²-Fehlernorm als Ziel und entwickeln eine gradientenbasierte MOR-Methode. Bei der IMDb-Aufgabe der Long Range Arena-Benchmark zeigt die Kompressionsmethode hervorragende Ergebnisse: Sie reduziert etwa 80% der trainierbaren Parameter ohne Umschulung, während die Leistung nur um 4-5% abnimmt.

Forschungshintergrund und Motivation

Problemdefinition

Deep SSMs als Sequenzmodelle, die lange Abhängigkeiten und Nichtlinearität effizient verarbeiten können, haben in mehreren Aufgaben eine mit Transformern vergleichbare Leistung gezeigt. Hohe Leistung erfordert jedoch häufig eine große Anzahl von Parametern, insbesondere die Parametergröße der eingebetteten linearen Zustandsraum-Modelle. Bei der praktischen Bereitstellung ist es notwendig, kompaktere Modelle zu erhalten, während die Leistung erhalten bleibt.

Einschränkungen bestehender Methoden

Schichtweise unabhängige Verarbeitung: Bestehende MOR-Methoden komprimieren die linearen Zustandsraum-Modelle jeder Schicht unabhängig und ignorieren Wechselwirkungen zwischen Schichten
Fehlende Gesamtleistungsgarantie: Obwohl der Ausgabefehler jeder Schicht reduziert werden kann, kann die endgültige Ausgabeleistung des gesamten Deep SSM nicht garantiert werden
Erforderliche Umschulung: Die meisten Methoden erfordern eine Umschulung mit dem komprimierten Modell als Initialisierung

Forschungsmotivation

Diese Arbeit zielt darauf ab, ein Kompressionsmodell zu konstruieren, das Wechselwirkungen zwischen Schichten berücksichtigt, den Ausgabefehler des gesamten Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L direkt minimiert und theoretische Garantien bietet.

Kernbeiträge

Theoretischer Beitrag: Herleitung einer oberen Schranke für den Ausgabefehler zwischen Deep SSMs, Nachweis, dass diese Schranke durch die h²-Fehlernorm der LQO-Systeme jeder Schicht ausgedrückt werden kann, und Bereitstellung einer theoretischen Grundlage für bestehende MOR-Methoden
Methodische Innovation: Vorschlag eines MOR-Optimierungsalgorithmus, der Wechselwirkungen zwischen Schichten berücksichtigt und die Ausgabefehlerschranke minimieren kann, während die Besonderheiten des Deep SSM erhalten bleiben
Praktischer Wert: Realisierung hochqualitativer Kompression ohne Umschulung bei der IMDb-Aufgabe mit 80% Parameterreduktion und nur 4-5% Leistungsabfall
Algorithmusgarantie: Der vorgeschlagene Gradientenalgorithmus hat theoretische Garantien für die Konvergenz zu stationären Punkten

Methodische Details

Aufgabendefinition

Gegeben ein vortrainiertes ξ-schichtiges Deep SSM und eine Eingabesequenz (s_in,k)^(L-1)_(k=0), konstruiere ein reduziertes Deep SSM, so dass der Ausgabefehler e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L minimiert wird.

Diskretzeitiges komplexes LQO-System

Betrachte das folgende LQO-System:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

wobei A ∈ C^(n×n) eine diagonal stabile Matrix ist und M_i hermitesche Matrizen sind.

Deep SSM-Architektur

Das LQO-System der i-ten Schicht:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Die Schichten werden durch Residualverbindungen und Schichtnormalisierung verbunden:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Theoretische Ausgabefehlerschranke

Satz 1: Unter Stabilitätsannahmen erfüllt der Ausgabefehler:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

wobei G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, und ω die maximale Lipschitz-Konstante der Schichtnormalisierung ist.

Korollar 1: Wenn die Eingabe beschränkt ist, vereinfacht sich die Fehlerschranke zu:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Optimierungsproblemformulierung

Basierend auf der Fehlerschranke wird das MOR-Optimierungsproblem formuliert:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to Stabilitätseinschränkungen

Gradientenberechnung

Gradienten werden durch Lösen von endlichzeitigen Sylvester/Lyapunov-Gleichungen berechnet. Da die A-Matrix diagonal ist, können diese mit O(nm) Zeitkomplexität effizient gelöst werden.

Algorithmusdesign

Algorithmus 1: Gradientenmethode mit Stabilitätsgarantie

Verwendung von Backtracking-Liniensuche zur Gewährleistung von Stabilität und Armijo-Bedingung
Theoretische Garantie für Konvergenz zu stationären Punkten

Experimentelle Einrichtung

Datensatz

Verwendung der IMDb-Sentimentanalyse-Aufgabe der Long Range Arena (LRA)-Benchmark mit Sequenzlänge L=4096.

Modellkonfiguration

Originalmodell: 4-schichtiges Deep SSM, n=128, m=64, c=1
Gesamtparameter: 207.490
Vortrainierte Genauigkeit: 86,66%

Vergleichsmethoden

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): Diese Methode mit TLBT-Initialisierung
Algorithm 1 (TLH2 init.): Diese Methode mit TLH2-Initialisierung
HiPPO: Reine HiPPO-Initialisierung als Baseline

Kompressionseinstellungen

Zielparameter: 34.114 (etwa 80% Reduktion)
Zwei Reduktionskonfigurationen: r_list = 16×4 und 32,16,12,4

Experimentelle Ergebnisse

Hauptergebnisse

Methode	r_list	Relativer Fehler	Test-Genauigkeit (vor/nach Umschulung)
HiPPO	16×4	1,5050	0,4905 / 0,7907
TLBT	16×4	0,6330	0,7615 / 0,8647
TLH2	16×4	0,6101	0,7642 / 0,8660
Diese Arbeit (TLBT init.)	16×4	0,6266	0,7649 / 0,8662
Diese Arbeit (TLH2 init.)	16×4	0,6100	0,7640 / 0,8628
Diese Arbeit (TLBT init.)	32,16,12,4	0,3103	0,8166 / 0,8689

Wichtigste Erkenntnisse

Hochleistung ohne Umschulung: Für r_list=32,16,12,4 erreicht die komprimierte Genauigkeit 0,8166 und übersteigt damit die nach Umschulung erzielte HiPPO-Genauigkeit von 0,8029
Effektivität der hierarchischen Zuweisung: Die Zuweisung größerer r-Werte zu flacheren Schichten reduziert den Zielwert erheblich
Stabilitätsgarantie: Diese Methode behält immer Stabilität bei, während TLH2 bei r=32 fehlschlägt

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die hergeleitete Ausgabefehlerschranke bietet eine theoretische Grundlage für bestehende MOR-Methoden
Die auf der Schranke basierende Optimierungsmethode kann hochwertige komprimierte Modelle konstruieren
Experimente bestätigen die Machbarkeit der Bereitstellung ohne Umschulung in ressourcenbeschränkten Umgebungen

Einschränkungen

Berücksichtigung nur einer spezifischen Deep SSM-Architektur (mit LQO-Systemen)
Experimente nur bei einer einzelnen Aufgabe (IMDb) validiert
Die Lipschitz-Konstante der Schichtnormalisierung kann groß sein und die Enge der Schranke beeinflussen

Zukünftige Richtungen

Untersuchung des theoretischen Mechanismus, warum hochwertige Leistung ohne Umschulung erreicht wird
Erweiterung auf allgemeinere Deep SSM-Architekturen
Validierung der Methode auf mehr Aufgaben und Datensätzen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Vollständige mathematische Herleitung und Konvergenzgarantien
Praktischer Wert: Signifikante Parameterreduktion ohne Umschulung realisiert
Methodische Innovation: Erste Berücksichtigung von Wechselwirkungen zwischen Schichten für Gesamtoptimierung
Umfassende Experimente: Vergleich mehrerer Methoden mit detaillierter Analyse

Mängel

Begrenzte Anwendbarkeit: Nur für spezifische Deep SSMs mit LQO-Systemen geeignet
Experimenteller Umfang: Nur bei einer einzelnen NLP-Aufgabe validiert, fehlende Validierung in anderen Bereichen
Rechenkomplexität: Gradientenberechnung beinhaltet Lösung großer Sylvester-Gleichungen
Schrankenenge: Große Lipschitz-Konstante der Schichtnormalisierung kann zu lockerer Schranke führen

Einfluss

Theoretischer Beitrag: Neuer theoretischer Rahmen für Deep SSM-Kompression
Praktischer Wert: Wichtig für Bereitstellung in ressourcenbeschränkten Szenarien
Methodische Inspiration: Neue Ansätze für Kompression anderer tiefer Modelle

Anwendungsszenarien

Bereitstellung auf Edge-Geräten mit begrenzten Rechenressourcen
Szenarien, die schnelle Modellkompression ohne Umschulung erfordern
Kompression von Deep SSMs bei Aufgaben mit langen Sequenzen

Referenzen

Diese Arbeit zitiert 21 verwandte Literaturquellen, hauptsächlich abdeckend:

Deep SSM-bezogene Arbeiten: HiPPO 1, S5 4, Mamba 5
Modellkompressionsmethoden: 10-14
Systemregelungstheorie: 15-17
Optimierungstheorie: 20-21

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis verbindet und wichtige Beiträge zum Bereich der Deep SSM-Kompression leistet. Obwohl es Einschränkungen in Bezug auf Anwendbarkeit und experimentelle Breite gibt, machen seine theoretische Strenge und sein praktischer Wert es zu einem wichtigen Fortschritt in diesem Bereich.