2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

A Deep State-Space Model Compression Method using Upper Bound on Output Error

基本信息

  • 论文ID: 2510.14542
  • 标题: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • 作者: Hiroki Sakamoto, Kazuhiro Sato (东京大学信息科学与技术研究生院数学信息学系)
  • 分类: eess.SY (系统与控制), cs.LG (机器学习), cs.SY (系统与控制)
  • 提交时间: 2025年10月16日
  • 论文链接: https://arxiv.org/abs/2510.14542v1

摘要

本文研究包含线性二次输出(LQO)系统作为内部块的深度状态空间模型(Deep SSMs),并提出了一种具有可证明输出误差保证的压缩方法。作者首先推导了两个Deep SSMs之间输出误差的上界,并证明该上界可以通过层间LQO系统的h²误差范数来表达,从而为现有的基于模型降阶(MOR)的压缩方法提供了理论依据。基于此上界,作者以h²误差范数为目标制定了优化问题,并开发了基于梯度的MOR方法。在Long Range Arena基准的IMDb任务上,该压缩方法表现出色,与以往方法不同的是,在不重新训练的情况下减少了约80%的可训练参数,性能仅下降4-5%。

研究背景与动机

问题定义

Deep SSMs作为能够高效处理长程依赖和非线性的序列模型,已在多项任务中展现出与Transformer相当的性能。然而,高性能往往需要大量参数,特别是嵌入的线性状态空间模型的参数规模。在实际部署中,需要在保持性能的同时获得更紧凑的模型。

现有方法的局限性

  1. 层间独立处理: 现有MOR方法独立地对每个层的线性状态空间模型进行压缩,忽略了层间交互
  2. 缺乏整体性能保证: 虽然能减少每层的输出误差,但无法保证整个Deep SSM的最终输出性能
  3. 需要重新训练: 大多数方法需要使用压缩后的模型作为初始化进行重新训练

研究动机

本文旨在构建考虑层间交互的压缩模型,直接最小化整个Deep SSM的输出误差‖s_out - ŝ_out‖_ℓ∞^L,并提供理论保证。

核心贡献

  1. 理论贡献: 推导了Deep SSMs之间输出误差的上界,证明该上界可通过各层LQO系统的h²误差范数表达,为现有MOR方法提供了理论依据
  2. 方法创新: 提出了考虑层间交互的MOR优化算法,能够在保持Deep SSM独特性质的同时最小化输出误差上界
  3. 实用价值: 在IMDb任务上实现了无需重新训练的高质量压缩,参数减少80%而性能仅下降4-5%
  4. 算法保证: 提出的梯度算法具有收敛到平稳点的理论保证

方法详解

任务定义

给定预训练的ξ层Deep SSM和输入序列(s_in,k)^(L-1)_(k=0),构建降阶Deep SSM使得输出误差e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L 最小。

离散时间复数LQO系统

考虑如下LQO系统:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

其中A ∈ C^(n×n)为对角稳定矩阵,M_i为Hermitian矩阵。

Deep SSM架构

第i层的LQO系统:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

通过残差连接和层归一化连接各层:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

输出误差上界理论

定理1: 在稳定性假设下,输出误差满足:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

其中G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j,ω为层归一化的最大Lipschitz常数。

推论1: 当输入有界时,误差上界简化为:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

优化问题制定

基于误差上界,制定MOR优化问题:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to 稳定性约束

梯度计算

通过求解有限时域Sylvester/Lyapunov方程计算梯度。由于A矩阵为对角矩阵,可以O(nm)时间复杂度高效求解。

算法设计

算法1: 带稳定性保证的梯度方法

  • 使用回溯线搜索确保稳定性和Armijo条件
  • 具有收敛到平稳点的理论保证

实验设置

数据集

使用Long Range Arena (LRA)基准的IMDb情感分析任务,序列长度L=4096。

模型配置

  • 原始模型:4层Deep SSM,n=128, m=64, c=1
  • 总参数:207,490个
  • 预训练准确率:86.66%

对比方法

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² model reduction
  3. Algorithm 1 (TLBT init.): 本文方法用TLBT初始化
  4. Algorithm 1 (TLH2 init.): 本文方法用TLH2初始化
  5. HiPPO: 纯HiPPO初始化作为基线

压缩设置

  • 目标参数:34,114个(减少约80%)
  • 两种降阶配置:r_list = 16×4 和 32,16,12,4

实验结果

主要结果

方法r_list相对误差测试准确率(压缩前/重训练后)
HiPPO16×41.50500.4905 / 0.7907
TLBT16×40.63300.7615 / 0.8647
TLH216×40.61010.7642 / 0.8660
本文(TLBT初始)16×40.62660.7649 / 0.8662
本文(TLH2初始)16×40.61000.7640 / 0.8628
本文(TLBT初始)32,16,12,40.31030.8166 / 0.8689

关键发现

  1. 无需重训练的高性能: 对于r_list=32,16,12,4,压缩后准确率达到0.8166,超过HiPPO重训练后的0.8029
  2. 层次化分配的有效性: 浅层分配更大的r值能显著降低目标函数值
  3. 稳定性保证: 本文方法始终保持稳定性,而TLH2在r=32时失败

相关工作

MOR在Deep SSM中的应用

  • Balanced Truncation方法: 11,12使用BT进行层间独立压缩
  • H²优化方法: 14提出保持Deep SSM性质的H²最优降阶
  • H∞指标方法: 13引入H∞分数高效消除模态

本文与现有工作的区别

  1. 首次从系统控制理论角度提供整体输出性能保证
  2. 考虑层间交互而非独立处理各层
  3. 无需重训练即可获得高质量压缩模型

结论与讨论

主要结论

  1. 推导的输出误差上界为现有MOR方法提供了理论依据
  2. 基于上界的优化方法能构建高质量压缩模型
  3. 实验验证了在资源受限环境下无需重训练的部署可行性

局限性

  1. 仅考虑了特定的Deep SSM架构(包含LQO系统)
  2. 实验仅在单一任务(IMDb)上验证
  3. 层归一化的Lipschitz常数可能很大,影响上界的紧致性

未来方向

  1. 研究为何无需重训练即可获得高性能的理论机制
  2. 扩展到更一般的Deep SSM架构
  3. 在更多任务和数据集上验证方法的通用性

深度评价

优点

  1. 理论严谨性: 提供了完整的数学推导和收敛性保证
  2. 实用价值: 实现了显著的参数压缩且无需重训练
  3. 方法创新: 首次考虑层间交互进行整体优化
  4. 实验充分: 对比了多种方法并进行了详细分析

不足

  1. 适用范围有限: 仅适用于包含LQO系统的特定Deep SSM
  2. 实验范围: 仅在单一NLP任务上验证,缺乏其他领域验证
  3. 计算复杂度: 梯度计算涉及大规模Sylvester方程求解
  4. 上界紧致性: 层归一化的大Lipschitz常数可能导致上界过松

影响力

  1. 理论贡献: 为Deep SSM压缩提供了新的理论框架
  2. 实用价值: 对资源受限的部署场景具有重要意义
  3. 方法启发: 为其他深度模型的压缩提供了新思路

适用场景

  1. 计算资源受限的边缘设备部署
  2. 需要快速模型压缩而无法重训练的场景
  3. 长序列建模任务中的Deep SSM压缩

参考文献

本文引用了21篇相关文献,主要涵盖:

  • Deep SSM相关工作:HiPPO 1, S5 4, Mamba 5
  • 模型压缩方法:10-14
  • 系统控制理论:15-17
  • 优化理论:20-21

总体评价: 这是一篇理论与实践并重的优秀论文,在Deep SSM压缩领域做出了重要贡献。虽然在适用范围和实验广度上存在局限,但其理论严谨性和实用价值使其成为该领域的重要进展。