2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

Un Método de Compresión de Modelos de Espacio de Estados Profundos Utilizando Cota Superior en Error de Salida

Información Básica

  • ID del Artículo: 2510.14542
  • Título: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • Autores: Hiroki Sakamoto, Kazuhiro Sato (Departamento de Informática Matemática, Escuela de Posgrado de Ciencia e Ingeniería de la Información, Universidad de Tokio)
  • Clasificación: eess.SY (Sistemas y Control), cs.LG (Aprendizaje Automático), cs.SY (Sistemas y Control)
  • Fecha de Presentación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.14542v1

Resumen

Este artículo investiga modelos de espacio de estados profundos (Deep SSMs) que contienen sistemas de salida cuadrática lineal (LQO) como bloques internos, y propone un método de compresión con garantías de error de salida demostrables. Los autores primero derivan una cota superior del error de salida entre dos Deep SSMs y demuestran que esta cota puede expresarse mediante la norma de error h² de los sistemas LQO entre capas, proporcionando así una base teórica para los métodos de compresión existentes basados en reducción de orden de modelo (MOR). Basándose en esta cota superior, los autores formulan un problema de optimización con la norma de error h² como objetivo y desarrollan un método MOR basado en gradientes. En la tarea IMDb del punto de referencia Long Range Arena, el método de compresión muestra un desempeño excelente, reduciendo aproximadamente el 80% de los parámetros entrenables sin reentrenamiento, con una disminución de rendimiento de solo 4-5%.

Antecedentes de Investigación y Motivación

Definición del Problema

Los Deep SSMs, como modelos de secuencia capaces de procesar eficientemente dependencias a largo plazo y no linealidades, han demostrado un desempeño comparable al de los Transformers en múltiples tareas. Sin embargo, el alto desempeño generalmente requiere una gran cantidad de parámetros, particularmente en la escala de parámetros de los modelos de espacio de estados lineales incrustados. En la implementación práctica, es necesario obtener modelos más compactos mientras se mantiene el desempeño.

Limitaciones de Métodos Existentes

  1. Procesamiento Independiente Entre Capas: Los métodos MOR existentes comprimen independientemente el modelo de espacio de estados lineal de cada capa, ignorando las interacciones entre capas
  2. Falta de Garantías de Desempeño Global: Aunque pueden reducir el error de salida de cada capa, no garantizan el desempeño de salida final del Deep SSM completo
  3. Requieren Reentrenamiento: La mayoría de los métodos necesitan reentrenamiento utilizando el modelo comprimido como inicialización

Motivación de la Investigación

Este artículo tiene como objetivo construir un modelo de compresión que considere las interacciones entre capas, minimizar directamente el error de salida del Deep SSM completo ‖s_out - ŝ_out‖_ℓ∞^L, y proporcionar garantías teóricas.

Contribuciones Principales

  1. Contribución Teórica: Se deriva una cota superior del error de salida entre Deep SSMs, demostrando que esta cota puede expresarse mediante la norma de error h² de los sistemas LQO de cada capa, proporcionando una base teórica para los métodos MOR existentes
  2. Innovación Metodológica: Se propone un algoritmo de optimización MOR que considera las interacciones entre capas, capaz de minimizar la cota superior del error de salida mientras se mantienen las propiedades únicas del Deep SSM
  3. Valor Práctico: Se logra compresión de alta calidad sin reentrenamiento en la tarea IMDb, reduciendo el 80% de parámetros con una disminución de rendimiento de solo 4-5%
  4. Garantías de Algoritmo: El algoritmo basado en gradientes propuesto tiene garantías teóricas de convergencia a puntos estacionarios

Explicación Detallada del Método

Definición de la Tarea

Dado un Deep SSM preentrenado de ξ capas y una secuencia de entrada (s_in,k)^(L-1)_(k=0), construir un Deep SSM de orden reducido de modo que el error de salida e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L sea mínimo.

Sistema LQO de Tiempo Discreto Complejo

Considérese el siguiente sistema LQO:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

donde A ∈ C^(n×n) es una matriz diagonal estable, y M_i son matrices Hermitianas.

Arquitectura del Deep SSM

Sistema LQO de la i-ésima capa:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Las capas se conectan mediante conexiones residuales y normalización de capas:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Teoría de Cota Superior del Error de Salida

Teorema 1: Bajo supuestos de estabilidad, el error de salida satisface:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

donde G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, y ω es la constante de Lipschitz máxima de la normalización de capas.

Corolario 1: Cuando la entrada está acotada, la cota superior del error se simplifica a:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Formulación del Problema de Optimización

Basándose en la cota superior del error, se formula el problema de optimización MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to restricciones de estabilidad

Cálculo de Gradientes

Los gradientes se calculan resolviendo ecuaciones de Sylvester/Lyapunov de horizonte temporal finito. Dado que la matriz A es diagonal, pueden resolverse con complejidad temporal O(nm).

Diseño del Algoritmo

Algoritmo 1: Método de Gradientes con Garantías de Estabilidad

  • Utiliza búsqueda de línea con retroceso para garantizar estabilidad y condición de Armijo
  • Tiene garantías teóricas de convergencia a puntos estacionarios

Configuración Experimental

Conjunto de Datos

Se utiliza la tarea de análisis de sentimientos IMDb del punto de referencia Long Range Arena (LRA), con longitud de secuencia L=4096.

Configuración del Modelo

  • Modelo original: Deep SSM de 4 capas, n=128, m=64, c=1
  • Parámetros totales: 207,490
  • Precisión preentrenada: 86.66%

Métodos de Comparación

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² model reduction
  3. Algorithm 1 (TLBT init.): Método propuesto inicializado con TLBT
  4. Algorithm 1 (TLH2 init.): Método propuesto inicializado con TLH2
  5. HiPPO: Inicialización pura de HiPPO como línea base

Configuración de Compresión

  • Parámetros objetivo: 34,114 (reducción de aproximadamente 80%)
  • Dos configuraciones de orden reducido: r_list = 16×4 y 32,16,12,4

Resultados Experimentales

Resultados Principales

Métodor_listError RelativoPrecisión de Prueba (Antes/Después Reentrenamiento)
HiPPO16×41.50500.4905 / 0.7907
TLBT16×40.63300.7615 / 0.8647
TLH216×40.61010.7642 / 0.8660
Propuesto (TLBT init.)16×40.62660.7649 / 0.8662
Propuesto (TLH2 init.)16×40.61000.7640 / 0.8628
Propuesto (TLBT init.)32,16,12,40.31030.8166 / 0.8689

Hallazgos Clave

  1. Alto Desempeño sin Reentrenamiento: Para r_list=32,16,12,4, la precisión después de la compresión alcanza 0.8166, superando la de HiPPO después del reentrenamiento de 0.8029
  2. Efectividad de la Asignación Jerárquica: Asignar valores r más grandes en capas superficiales reduce significativamente el valor de la función objetivo
  3. Garantías de Estabilidad: El método propuesto mantiene siempre la estabilidad, mientras que TLH2 falla cuando r=32

Trabajo Relacionado

Aplicación de MOR en Deep SSM

  • Métodos de Balanced Truncation: 11,12 utilizan BT para compresión independiente entre capas
  • Métodos de Optimización H²: 14 propone reducción de orden óptima en H² manteniendo propiedades del Deep SSM
  • Métodos de Índice H∞: 13 introduce fracciones H∞ para eliminar eficientemente modos

Diferencias con Trabajos Existentes

  1. Primera vez que se proporciona garantía de desempeño de salida global desde la perspectiva de la teoría de control de sistemas
  2. Considera interacciones entre capas en lugar de procesar cada capa independientemente
  3. Obtiene modelos comprimidos de alta calidad sin necesidad de reentrenamiento

Conclusiones y Discusión

Conclusiones Principales

  1. La cota superior del error de salida derivada proporciona una base teórica para los métodos MOR existentes
  2. El método de optimización basado en la cota superior puede construir modelos comprimidos de alta calidad
  3. Los experimentos validan la viabilidad de la implementación sin reentrenamiento en entornos con recursos limitados

Limitaciones

  1. Solo considera una arquitectura específica de Deep SSM (que contiene sistemas LQO)
  2. Los experimentos se validan solo en una única tarea (IMDb)
  3. La constante de Lipschitz de la normalización de capas puede ser grande, afectando la estrechez de la cota superior

Direcciones Futuras

  1. Investigar el mecanismo teórico de por qué se logra alto desempeño sin reentrenamiento
  2. Extender a arquitecturas de Deep SSM más generales
  3. Validar la generalidad del método en más tareas y conjuntos de datos

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona derivaciones matemáticas completas y garantías de convergencia
  2. Valor Práctico: Logra compresión significativa de parámetros sin necesidad de reentrenamiento
  3. Innovación Metodológica: Primera vez que se consideran interacciones entre capas para optimización global
  4. Experimentos Suficientes: Compara múltiples métodos con análisis detallado

Deficiencias

  1. Rango de Aplicabilidad Limitado: Solo aplicable a Deep SSM específicos que contienen sistemas LQO
  2. Alcance Experimental: Validación solo en una única tarea de PNL, falta validación en otros dominios
  3. Complejidad Computacional: El cálculo de gradientes implica resolver ecuaciones de Sylvester a gran escala
  4. Estrechez de la Cota: La gran constante de Lipschitz de la normalización de capas puede resultar en una cota superior muy holgada

Impacto

  1. Contribución Teórica: Proporciona un nuevo marco teórico para la compresión de Deep SSM
  2. Valor Práctico: Tiene importancia significativa para escenarios de implementación con recursos limitados
  3. Inspiración Metodológica: Proporciona nuevas ideas para la compresión de otros modelos profundos

Escenarios Aplicables

  1. Implementación en dispositivos periféricos con recursos computacionales limitados
  2. Escenarios donde se requiere compresión rápida de modelos sin posibilidad de reentrenamiento
  3. Compresión de Deep SSM en tareas de modelado de secuencias largas

Referencias

Este artículo cita 21 referencias relacionadas, que abarcan principalmente:

  • Trabajos relacionados con Deep SSM: HiPPO 1, S5 4, Mamba 5
  • Métodos de compresión de modelos: 10-14
  • Teoría de control de sistemas: 15-17
  • Teoría de optimización: 20-21

Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, realizando contribuciones importantes en el campo de la compresión de Deep SSM. Aunque tiene limitaciones en rango de aplicabilidad y amplitud experimental, su rigor teórico y valor práctico lo convierten en un avance importante en este campo.