2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

A Deep State-Space Model Compression Method using Upper Bound on Output Error

基本信息

论文ID: 2510.14542
标题: A Deep State-Space Model Compression Method using Upper Bound on Output Error
作者: Hiroki Sakamoto, Kazuhiro Sato (东京大学信息科学与技术研究生院数学信息学系)
分类: eess.SY (系统与控制), cs.LG (机器学习), cs.SY (系统与控制)
提交时间: 2025年10月16日
论文链接: https://arxiv.org/abs/2510.14542v1

摘要

本文研究包含线性二次输出(LQO)系统作为内部块的深度状态空间模型(Deep SSMs)，并提出了一种具有可证明输出误差保证的压缩方法。作者首先推导了两个Deep SSMs之间输出误差的上界，并证明该上界可以通过层间LQO系统的h²误差范数来表达，从而为现有的基于模型降阶(MOR)的压缩方法提供了理论依据。基于此上界，作者以h²误差范数为目标制定了优化问题，并开发了基于梯度的MOR方法。在Long Range Arena基准的IMDb任务上，该压缩方法表现出色，与以往方法不同的是，在不重新训练的情况下减少了约80%的可训练参数，性能仅下降4-5%。

层间独立处理: 现有MOR方法独立地对每个层的线性状态空间模型进行压缩，忽略了层间交互
缺乏整体性能保证: 虽然能减少每层的输出误差，但无法保证整个Deep SSM的最终输出性能
需要重新训练: 大多数方法需要使用压缩后的模型作为初始化进行重新训练

研究动机

本文旨在构建考虑层间交互的压缩模型，直接最小化整个Deep SSM的输出误差‖s_out - ŝ_out‖_ℓ∞^L，并提供理论保证。

核心贡献

理论贡献: 推导了Deep SSMs之间输出误差的上界，证明该上界可通过各层LQO系统的h²误差范数表达，为现有MOR方法提供了理论依据
方法创新: 提出了考虑层间交互的MOR优化算法，能够在保持Deep SSM独特性质的同时最小化输出误差上界
实用价值: 在IMDb任务上实现了无需重新训练的高质量压缩，参数减少80%而性能仅下降4-5%
算法保证: 提出的梯度算法具有收敛到平稳点的理论保证

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

其中A ∈ C^(n×n)为对角稳定矩阵，M_i为Hermitian矩阵。

Deep SSM架构

第i层的LQO系统：

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

通过残差连接和层归一化连接各层：

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

输出误差上界理论

定理1: 在稳定性假设下，输出误差满足：

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

其中G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j，ω为层归一化的最大Lipschitz常数。

推论1: 当输入有界时，误差上界简化为：

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

优化问题制定

基于误差上界，制定MOR优化问题：

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to 稳定性约束

梯度计算

通过求解有限时域Sylvester/Lyapunov方程计算梯度。由于A矩阵为对角矩阵，可以O(nm)时间复杂度高效求解。

算法设计

算法1: 带稳定性保证的梯度方法

使用回溯线搜索确保稳定性和Armijo条件
具有收敛到平稳点的理论保证

原始模型：4层Deep SSM，n=128, m=64, c=1
总参数：207,490个
预训练准确率：86.66%

对比方法

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² model reduction
Algorithm 1 (TLBT init.): 本文方法用TLBT初始化
Algorithm 1 (TLH2 init.): 本文方法用TLH2初始化
HiPPO: 纯HiPPO初始化作为基线

压缩设置

目标参数：34,114个（减少约80%）
两种降阶配置：r_list = 16×4 和 32,16,12,4

实验结果

主要结果

方法	r_list	相对误差	测试准确率(压缩前/重训练后)
HiPPO	16×4	1.5050	0.4905 / 0.7907
TLBT	16×4	0.6330	0.7615 / 0.8647
TLH2	16×4	0.6101	0.7642 / 0.8660
本文(TLBT初始)	16×4	0.6266	0.7649 / 0.8662
本文(TLH2初始)	16×4	0.6100	0.7640 / 0.8628
本文(TLBT初始)	32,16,12,4	0.3103	0.8166 / 0.8689