2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

Un Método de Compresión de Modelos de Espacio de Estados Profundos Utilizando Cota Superior en Error de Salida

Información Básica

ID del Artículo: 2510.14542
Título: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Autores: Hiroki Sakamoto, Kazuhiro Sato (Departamento de Informática Matemática, Escuela de Posgrado de Ciencia e Ingeniería de la Información, Universidad de Tokio)
Clasificación: eess.SY (Sistemas y Control), cs.LG (Aprendizaje Automático), cs.SY (Sistemas y Control)
Fecha de Presentación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.14542v1

Resumen

Este artículo investiga modelos de espacio de estados profundos (Deep SSMs) que contienen sistemas de salida cuadrática lineal (LQO) como bloques internos, y propone un método de compresión con garantías de error de salida demostrables. Los autores primero derivan una cota superior del error de salida entre dos Deep SSMs y demuestran que esta cota puede expresarse mediante la norma de error h² de los sistemas LQO entre capas, proporcionando así una base teórica para los métodos de compresión existentes basados en reducción de orden de modelo (MOR). Basándose en esta cota superior, los autores formulan un problema de optimización con la norma de error h² como objetivo y desarrollan un método MOR basado en gradientes. En la tarea IMDb del punto de referencia Long Range Arena, el método de compresión muestra un desempeño excelente, reduciendo aproximadamente el 80% de los parámetros entrenables sin reentrenamiento, con una disminución de rendimiento de solo 4-5%.

Antecedentes de Investigación y Motivación

Definición del Problema

Los Deep SSMs, como modelos de secuencia capaces de procesar eficientemente dependencias a largo plazo y no linealidades, han demostrado un desempeño comparable al de los Transformers en múltiples tareas. Sin embargo, el alto desempeño generalmente requiere una gran cantidad de parámetros, particularmente en la escala de parámetros de los modelos de espacio de estados lineales incrustados. En la implementación práctica, es necesario obtener modelos más compactos mientras se mantiene el desempeño.

Limitaciones de Métodos Existentes

Procesamiento Independiente Entre Capas: Los métodos MOR existentes comprimen independientemente el modelo de espacio de estados lineal de cada capa, ignorando las interacciones entre capas
Falta de Garantías de Desempeño Global: Aunque pueden reducir el error de salida de cada capa, no garantizan el desempeño de salida final del Deep SSM completo
Requieren Reentrenamiento: La mayoría de los métodos necesitan reentrenamiento utilizando el modelo comprimido como inicialización

Motivación de la Investigación

Este artículo tiene como objetivo construir un modelo de compresión que considere las interacciones entre capas, minimizar directamente el error de salida del Deep SSM completo ‖s_out - ŝ_out‖_ℓ∞^L, y proporcionar garantías teóricas.

Contribuciones Principales

Contribución Teórica: Se deriva una cota superior del error de salida entre Deep SSMs, demostrando que esta cota puede expresarse mediante la norma de error h² de los sistemas LQO de cada capa, proporcionando una base teórica para los métodos MOR existentes
Innovación Metodológica: Se propone un algoritmo de optimización MOR que considera las interacciones entre capas, capaz de minimizar la cota superior del error de salida mientras se mantienen las propiedades únicas del Deep SSM
Valor Práctico: Se logra compresión de alta calidad sin reentrenamiento en la tarea IMDb, reduciendo el 80% de parámetros con una disminución de rendimiento de solo 4-5%
Garantías de Algoritmo: El algoritmo basado en gradientes propuesto tiene garantías teóricas de convergencia a puntos estacionarios

Explicación Detallada del Método

Definición de la Tarea

Dado un Deep SSM preentrenado de ξ capas y una secuencia de entrada (s_in,k)^(L-1)_(k=0), construir un Deep SSM de orden reducido de modo que el error de salida e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L sea mínimo.

Sistema LQO de Tiempo Discreto Complejo

Considérese el siguiente sistema LQO:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

donde A ∈ C^(n×n) es una matriz diagonal estable, y M_i son matrices Hermitianas.

Arquitectura del Deep SSM

Sistema LQO de la i-ésima capa:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Las capas se conectan mediante conexiones residuales y normalización de capas:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Teoría de Cota Superior del Error de Salida

Teorema 1: Bajo supuestos de estabilidad, el error de salida satisface:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

donde G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, y ω es la constante de Lipschitz máxima de la normalización de capas.

Corolario 1: Cuando la entrada está acotada, la cota superior del error se simplifica a:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Formulación del Problema de Optimización

Basándose en la cota superior del error, se formula el problema de optimización MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to restricciones de estabilidad

Cálculo de Gradientes

Los gradientes se calculan resolviendo ecuaciones de Sylvester/Lyapunov de horizonte temporal finito. Dado que la matriz A es diagonal, pueden resolverse con complejidad temporal O(nm).

Diseño del Algoritmo

Algoritmo 1: Método de Gradientes con Garantías de Estabilidad

Utiliza búsqueda de línea con retroceso para garantizar estabilidad y condición de Armijo
Tiene garantías teóricas de convergencia a puntos estacionarios

Configuración Experimental

Conjunto de Datos

Se utiliza la tarea de análisis de sentimientos IMDb del punto de referencia Long Range Arena (LRA), con longitud de secuencia L=4096.

Configuración del Modelo

Modelo original: Deep SSM de 4 capas, n=128, m=64, c=1
Parámetros totales: 207,490
Precisión preentrenada: 86.66%

Métodos de Comparación

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): Método propuesto inicializado con TLBT
Algorithm 1 (TLH2 init.): Método propuesto inicializado con TLH2
HiPPO: Inicialización pura de HiPPO como línea base

Configuración de Compresión

Parámetros objetivo: 34,114 (reducción de aproximadamente 80%)
Dos configuraciones de orden reducido: r_list = 16×4 y 32,16,12,4

Resultados Experimentales

Resultados Principales

Método	r_list	Error Relativo	Precisión de Prueba (Antes/Después Reentrenamiento)
HiPPO	16×4	1.5050	0.4905 / 0.7907
TLBT	16×4	0.6330	0.7615 / 0.8647
TLH2	16×4	0.6101	0.7642 / 0.8660
Propuesto (TLBT init.)	16×4	0.6266	0.7649 / 0.8662
Propuesto (TLH2 init.)	16×4	0.6100	0.7640 / 0.8628
Propuesto (TLBT init.)	32,16,12,4	0.3103	0.8166 / 0.8689

Hallazgos Clave

Alto Desempeño sin Reentrenamiento: Para r_list=32,16,12,4, la precisión después de la compresión alcanza 0.8166, superando la de HiPPO después del reentrenamiento de 0.8029
Efectividad de la Asignación Jerárquica: Asignar valores r más grandes en capas superficiales reduce significativamente el valor de la función objetivo
Garantías de Estabilidad: El método propuesto mantiene siempre la estabilidad, mientras que TLH2 falla cuando r=32

Trabajo Relacionado

Aplicación de MOR en Deep SSM

Métodos de Balanced Truncation: 11,12 utilizan BT para compresión independiente entre capas
Métodos de Optimización H²: 14 propone reducción de orden óptima en H² manteniendo propiedades del Deep SSM
Métodos de Índice H∞: 13 introduce fracciones H∞ para eliminar eficientemente modos

Diferencias con Trabajos Existentes

Primera vez que se proporciona garantía de desempeño de salida global desde la perspectiva de la teoría de control de sistemas
Considera interacciones entre capas en lugar de procesar cada capa independientemente
Obtiene modelos comprimidos de alta calidad sin necesidad de reentrenamiento

Conclusiones y Discusión

Conclusiones Principales

La cota superior del error de salida derivada proporciona una base teórica para los métodos MOR existentes
El método de optimización basado en la cota superior puede construir modelos comprimidos de alta calidad
Los experimentos validan la viabilidad de la implementación sin reentrenamiento en entornos con recursos limitados

Limitaciones

Solo considera una arquitectura específica de Deep SSM (que contiene sistemas LQO)
Los experimentos se validan solo en una única tarea (IMDb)
La constante de Lipschitz de la normalización de capas puede ser grande, afectando la estrechez de la cota superior

Direcciones Futuras

Investigar el mecanismo teórico de por qué se logra alto desempeño sin reentrenamiento
Extender a arquitecturas de Deep SSM más generales
Validar la generalidad del método en más tareas y conjuntos de datos

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona derivaciones matemáticas completas y garantías de convergencia
Valor Práctico: Logra compresión significativa de parámetros sin necesidad de reentrenamiento
Innovación Metodológica: Primera vez que se consideran interacciones entre capas para optimización global
Experimentos Suficientes: Compara múltiples métodos con análisis detallado

Deficiencias

Rango de Aplicabilidad Limitado: Solo aplicable a Deep SSM específicos que contienen sistemas LQO
Alcance Experimental: Validación solo en una única tarea de PNL, falta validación en otros dominios
Complejidad Computacional: El cálculo de gradientes implica resolver ecuaciones de Sylvester a gran escala
Estrechez de la Cota: La gran constante de Lipschitz de la normalización de capas puede resultar en una cota superior muy holgada

Impacto

Contribución Teórica: Proporciona un nuevo marco teórico para la compresión de Deep SSM
Valor Práctico: Tiene importancia significativa para escenarios de implementación con recursos limitados
Inspiración Metodológica: Proporciona nuevas ideas para la compresión de otros modelos profundos

Escenarios Aplicables

Implementación en dispositivos periféricos con recursos computacionales limitados
Escenarios donde se requiere compresión rápida de modelos sin posibilidad de reentrenamiento
Compresión de Deep SSM en tareas de modelado de secuencias largas

Referencias

Este artículo cita 21 referencias relacionadas, que abarcan principalmente:

Trabajos relacionados con Deep SSM: HiPPO 1, S5 4, Mamba 5
Métodos de compresión de modelos: 10-14
Teoría de control de sistemas: 15-17
Teoría de optimización: 20-21

Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, realizando contribuciones importantes en el campo de la compresión de Deep SSM. Aunque tiene limitaciones en rango de aplicabilidad y amplitud experimental, su rigor teórico y valor práctico lo convierten en un avance importante en este campo.