2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

Eine Kompressionsmethode für tiefe Zustandsraum-Modelle unter Verwendung einer oberen Schranke für den Ausgabefehler

Grundlegende Informationen

  • Paper-ID: 2510.14542
  • Titel: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • Autoren: Hiroki Sakamoto, Kazuhiro Sato (Abteilung für Mathematische Informatik, Graduate School of Information Science and Technology, Universität Tokio)
  • Klassifizierung: eess.SY (Systeme und Regelung), cs.LG (Maschinelles Lernen), cs.SY (Systeme und Regelung)
  • Einreichungsdatum: 16. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.14542v1

Zusammenfassung

Diese Arbeit untersucht tiefe Zustandsraum-Modelle (Deep SSMs), die lineare quadratische Ausgabe-Systeme (LQO-Systeme) als interne Blöcke enthalten, und schlägt eine Kompressionsmethode mit nachweisbaren Ausgabefehlerschranken vor. Die Autoren leiten zunächst eine obere Schranke für den Ausgabefehler zwischen zwei Deep SSMs her und zeigen, dass diese Schranke durch die h²-Fehlernorm der LQO-Systeme zwischen den Schichten ausgedrückt werden kann. Dies liefert eine theoretische Grundlage für bestehende modellordnungsreduktions-basierte (MOR) Kompressionsmethoden. Basierend auf dieser Schranke formulieren die Autoren ein Optimierungsproblem mit der h²-Fehlernorm als Ziel und entwickeln eine gradientenbasierte MOR-Methode. Bei der IMDb-Aufgabe der Long Range Arena-Benchmark zeigt die Kompressionsmethode hervorragende Ergebnisse: Sie reduziert etwa 80% der trainierbaren Parameter ohne Umschulung, während die Leistung nur um 4-5% abnimmt.

Forschungshintergrund und Motivation

Problemdefinition

Deep SSMs als Sequenzmodelle, die lange Abhängigkeiten und Nichtlinearität effizient verarbeiten können, haben in mehreren Aufgaben eine mit Transformern vergleichbare Leistung gezeigt. Hohe Leistung erfordert jedoch häufig eine große Anzahl von Parametern, insbesondere die Parametergröße der eingebetteten linearen Zustandsraum-Modelle. Bei der praktischen Bereitstellung ist es notwendig, kompaktere Modelle zu erhalten, während die Leistung erhalten bleibt.

Einschränkungen bestehender Methoden

  1. Schichtweise unabhängige Verarbeitung: Bestehende MOR-Methoden komprimieren die linearen Zustandsraum-Modelle jeder Schicht unabhängig und ignorieren Wechselwirkungen zwischen Schichten
  2. Fehlende Gesamtleistungsgarantie: Obwohl der Ausgabefehler jeder Schicht reduziert werden kann, kann die endgültige Ausgabeleistung des gesamten Deep SSM nicht garantiert werden
  3. Erforderliche Umschulung: Die meisten Methoden erfordern eine Umschulung mit dem komprimierten Modell als Initialisierung

Forschungsmotivation

Diese Arbeit zielt darauf ab, ein Kompressionsmodell zu konstruieren, das Wechselwirkungen zwischen Schichten berücksichtigt, den Ausgabefehler des gesamten Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L direkt minimiert und theoretische Garantien bietet.

Kernbeiträge

  1. Theoretischer Beitrag: Herleitung einer oberen Schranke für den Ausgabefehler zwischen Deep SSMs, Nachweis, dass diese Schranke durch die h²-Fehlernorm der LQO-Systeme jeder Schicht ausgedrückt werden kann, und Bereitstellung einer theoretischen Grundlage für bestehende MOR-Methoden
  2. Methodische Innovation: Vorschlag eines MOR-Optimierungsalgorithmus, der Wechselwirkungen zwischen Schichten berücksichtigt und die Ausgabefehlerschranke minimieren kann, während die Besonderheiten des Deep SSM erhalten bleiben
  3. Praktischer Wert: Realisierung hochqualitativer Kompression ohne Umschulung bei der IMDb-Aufgabe mit 80% Parameterreduktion und nur 4-5% Leistungsabfall
  4. Algorithmusgarantie: Der vorgeschlagene Gradientenalgorithmus hat theoretische Garantien für die Konvergenz zu stationären Punkten

Methodische Details

Aufgabendefinition

Gegeben ein vortrainiertes ξ-schichtiges Deep SSM und eine Eingabesequenz (s_in,k)^(L-1)_(k=0), konstruiere ein reduziertes Deep SSM, so dass der Ausgabefehler e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L minimiert wird.

Diskretzeitiges komplexes LQO-System

Betrachte das folgende LQO-System:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

wobei A ∈ C^(n×n) eine diagonal stabile Matrix ist und M_i hermitesche Matrizen sind.

Deep SSM-Architektur

Das LQO-System der i-ten Schicht:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Die Schichten werden durch Residualverbindungen und Schichtnormalisierung verbunden:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Theoretische Ausgabefehlerschranke

Satz 1: Unter Stabilitätsannahmen erfüllt der Ausgabefehler:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

wobei G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, und ω die maximale Lipschitz-Konstante der Schichtnormalisierung ist.

Korollar 1: Wenn die Eingabe beschränkt ist, vereinfacht sich die Fehlerschranke zu:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Optimierungsproblemformulierung

Basierend auf der Fehlerschranke wird das MOR-Optimierungsproblem formuliert:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to Stabilitätseinschränkungen

Gradientenberechnung

Gradienten werden durch Lösen von endlichzeitigen Sylvester/Lyapunov-Gleichungen berechnet. Da die A-Matrix diagonal ist, können diese mit O(nm) Zeitkomplexität effizient gelöst werden.

Algorithmusdesign

Algorithmus 1: Gradientenmethode mit Stabilitätsgarantie

  • Verwendung von Backtracking-Liniensuche zur Gewährleistung von Stabilität und Armijo-Bedingung
  • Theoretische Garantie für Konvergenz zu stationären Punkten

Experimentelle Einrichtung

Datensatz

Verwendung der IMDb-Sentimentanalyse-Aufgabe der Long Range Arena (LRA)-Benchmark mit Sequenzlänge L=4096.

Modellkonfiguration

  • Originalmodell: 4-schichtiges Deep SSM, n=128, m=64, c=1
  • Gesamtparameter: 207.490
  • Vortrainierte Genauigkeit: 86,66%

Vergleichsmethoden

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² model reduction
  3. Algorithm 1 (TLBT init.): Diese Methode mit TLBT-Initialisierung
  4. Algorithm 1 (TLH2 init.): Diese Methode mit TLH2-Initialisierung
  5. HiPPO: Reine HiPPO-Initialisierung als Baseline

Kompressionseinstellungen

  • Zielparameter: 34.114 (etwa 80% Reduktion)
  • Zwei Reduktionskonfigurationen: r_list = 16×4 und 32,16,12,4

Experimentelle Ergebnisse

Hauptergebnisse

Methoder_listRelativer FehlerTest-Genauigkeit (vor/nach Umschulung)
HiPPO16×41,50500,4905 / 0,7907
TLBT16×40,63300,7615 / 0,8647
TLH216×40,61010,7642 / 0,8660
Diese Arbeit (TLBT init.)16×40,62660,7649 / 0,8662
Diese Arbeit (TLH2 init.)16×40,61000,7640 / 0,8628
Diese Arbeit (TLBT init.)32,16,12,40,31030,8166 / 0,8689

Wichtigste Erkenntnisse

  1. Hochleistung ohne Umschulung: Für r_list=32,16,12,4 erreicht die komprimierte Genauigkeit 0,8166 und übersteigt damit die nach Umschulung erzielte HiPPO-Genauigkeit von 0,8029
  2. Effektivität der hierarchischen Zuweisung: Die Zuweisung größerer r-Werte zu flacheren Schichten reduziert den Zielwert erheblich
  3. Stabilitätsgarantie: Diese Methode behält immer Stabilität bei, während TLH2 bei r=32 fehlschlägt

Verwandte Arbeiten

MOR-Anwendung in Deep SSMs

  • Balanced Truncation-Methoden: 11,12 verwenden BT für schichtweise unabhängige Kompression
  • H²-Optimierungsmethoden: 14 schlägt H²-optimale Reduktion vor, die Deep SSM-Eigenschaften beibehält
  • H∞-Index-Methoden: 13 führt H∞-Bruch ein, um Modal effizient zu eliminieren

Unterschiede zu bestehenden Arbeiten

  1. Erste Bereitstellung einer Gesamtausgabeleistungsgarantie aus der Perspektive der Systemregelungstheorie
  2. Berücksichtigung von Wechselwirkungen zwischen Schichten statt unabhängiger Verarbeitung jeder Schicht
  3. Hochwertige Kompression ohne Umschulung möglich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die hergeleitete Ausgabefehlerschranke bietet eine theoretische Grundlage für bestehende MOR-Methoden
  2. Die auf der Schranke basierende Optimierungsmethode kann hochwertige komprimierte Modelle konstruieren
  3. Experimente bestätigen die Machbarkeit der Bereitstellung ohne Umschulung in ressourcenbeschränkten Umgebungen

Einschränkungen

  1. Berücksichtigung nur einer spezifischen Deep SSM-Architektur (mit LQO-Systemen)
  2. Experimente nur bei einer einzelnen Aufgabe (IMDb) validiert
  3. Die Lipschitz-Konstante der Schichtnormalisierung kann groß sein und die Enge der Schranke beeinflussen

Zukünftige Richtungen

  1. Untersuchung des theoretischen Mechanismus, warum hochwertige Leistung ohne Umschulung erreicht wird
  2. Erweiterung auf allgemeinere Deep SSM-Architekturen
  3. Validierung der Methode auf mehr Aufgaben und Datensätzen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige mathematische Herleitung und Konvergenzgarantien
  2. Praktischer Wert: Signifikante Parameterreduktion ohne Umschulung realisiert
  3. Methodische Innovation: Erste Berücksichtigung von Wechselwirkungen zwischen Schichten für Gesamtoptimierung
  4. Umfassende Experimente: Vergleich mehrerer Methoden mit detaillierter Analyse

Mängel

  1. Begrenzte Anwendbarkeit: Nur für spezifische Deep SSMs mit LQO-Systemen geeignet
  2. Experimenteller Umfang: Nur bei einer einzelnen NLP-Aufgabe validiert, fehlende Validierung in anderen Bereichen
  3. Rechenkomplexität: Gradientenberechnung beinhaltet Lösung großer Sylvester-Gleichungen
  4. Schrankenenge: Große Lipschitz-Konstante der Schichtnormalisierung kann zu lockerer Schranke führen

Einfluss

  1. Theoretischer Beitrag: Neuer theoretischer Rahmen für Deep SSM-Kompression
  2. Praktischer Wert: Wichtig für Bereitstellung in ressourcenbeschränkten Szenarien
  3. Methodische Inspiration: Neue Ansätze für Kompression anderer tiefer Modelle

Anwendungsszenarien

  1. Bereitstellung auf Edge-Geräten mit begrenzten Rechenressourcen
  2. Szenarien, die schnelle Modellkompression ohne Umschulung erfordern
  3. Kompression von Deep SSMs bei Aufgaben mit langen Sequenzen

Referenzen

Diese Arbeit zitiert 21 verwandte Literaturquellen, hauptsächlich abdeckend:

  • Deep SSM-bezogene Arbeiten: HiPPO 1, S5 4, Mamba 5
  • Modellkompressionsmethoden: 10-14
  • Systemregelungstheorie: 15-17
  • Optimierungstheorie: 20-21

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis verbindet und wichtige Beiträge zum Bereich der Deep SSM-Kompression leistet. Obwohl es Einschränkungen in Bezug auf Anwendbarkeit und experimentelle Breite gibt, machen seine theoretische Strenge und sein praktischer Wert es zu einem wichtigen Fortschritt in diesem Bereich.