A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
Un Método de Compresión de Modelos de Espacio de Estados Profundos Utilizando Cota Superior en Error de Salida
Título: A Deep State-Space Model Compression Method using Upper Bound on Output Error
Autores: Hiroki Sakamoto, Kazuhiro Sato (Departamento de Informática Matemática, Escuela de Posgrado de Ciencia e Ingeniería de la Información, Universidad de Tokio)
Clasificación: eess.SY (Sistemas y Control), cs.LG (Aprendizaje Automático), cs.SY (Sistemas y Control)
Este artículo investiga modelos de espacio de estados profundos (Deep SSMs) que contienen sistemas de salida cuadrática lineal (LQO) como bloques internos, y propone un método de compresión con garantías de error de salida demostrables. Los autores primero derivan una cota superior del error de salida entre dos Deep SSMs y demuestran que esta cota puede expresarse mediante la norma de error h² de los sistemas LQO entre capas, proporcionando así una base teórica para los métodos de compresión existentes basados en reducción de orden de modelo (MOR). Basándose en esta cota superior, los autores formulan un problema de optimización con la norma de error h² como objetivo y desarrollan un método MOR basado en gradientes. En la tarea IMDb del punto de referencia Long Range Arena, el método de compresión muestra un desempeño excelente, reduciendo aproximadamente el 80% de los parámetros entrenables sin reentrenamiento, con una disminución de rendimiento de solo 4-5%.
Los Deep SSMs, como modelos de secuencia capaces de procesar eficientemente dependencias a largo plazo y no linealidades, han demostrado un desempeño comparable al de los Transformers en múltiples tareas. Sin embargo, el alto desempeño generalmente requiere una gran cantidad de parámetros, particularmente en la escala de parámetros de los modelos de espacio de estados lineales incrustados. En la implementación práctica, es necesario obtener modelos más compactos mientras se mantiene el desempeño.
Procesamiento Independiente Entre Capas: Los métodos MOR existentes comprimen independientemente el modelo de espacio de estados lineal de cada capa, ignorando las interacciones entre capas
Falta de Garantías de Desempeño Global: Aunque pueden reducir el error de salida de cada capa, no garantizan el desempeño de salida final del Deep SSM completo
Requieren Reentrenamiento: La mayoría de los métodos necesitan reentrenamiento utilizando el modelo comprimido como inicialización
Este artículo tiene como objetivo construir un modelo de compresión que considere las interacciones entre capas, minimizar directamente el error de salida del Deep SSM completo ‖s_out - ŝ_out‖_ℓ∞^L, y proporcionar garantías teóricas.
Contribución Teórica: Se deriva una cota superior del error de salida entre Deep SSMs, demostrando que esta cota puede expresarse mediante la norma de error h² de los sistemas LQO de cada capa, proporcionando una base teórica para los métodos MOR existentes
Innovación Metodológica: Se propone un algoritmo de optimización MOR que considera las interacciones entre capas, capaz de minimizar la cota superior del error de salida mientras se mantienen las propiedades únicas del Deep SSM
Valor Práctico: Se logra compresión de alta calidad sin reentrenamiento en la tarea IMDb, reduciendo el 80% de parámetros con una disminución de rendimiento de solo 4-5%
Garantías de Algoritmo: El algoritmo basado en gradientes propuesto tiene garantías teóricas de convergencia a puntos estacionarios
Dado un Deep SSM preentrenado de ξ capas y una secuencia de entrada (s_in,k)^(L-1)_(k=0), construir un Deep SSM de orden reducido de modo que el error de salida e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L sea mínimo.
Los gradientes se calculan resolviendo ecuaciones de Sylvester/Lyapunov de horizonte temporal finito. Dado que la matriz A es diagonal, pueden resolverse con complejidad temporal O(nm).
Alto Desempeño sin Reentrenamiento: Para r_list=32,16,12,4, la precisión después de la compresión alcanza 0.8166, superando la de HiPPO después del reentrenamiento de 0.8029
Efectividad de la Asignación Jerárquica: Asignar valores r más grandes en capas superficiales reduce significativamente el valor de la función objetivo
Garantías de Estabilidad: El método propuesto mantiene siempre la estabilidad, mientras que TLH2 falla cuando r=32
Este artículo cita 21 referencias relacionadas, que abarcan principalmente:
Trabajos relacionados con Deep SSM: HiPPO 1, S5 4, Mamba 5
Métodos de compresión de modelos: 10-14
Teoría de control de sistemas: 15-17
Teoría de optimización: 20-21
Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, realizando contribuciones importantes en el campo de la compresión de Deep SSM. Aunque tiene limitaciones en rango de aplicabilidad y amplitud experimental, su rigor teórico y valor práctico lo convierten en un avance importante en este campo.