2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato

We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.

academic

출력 오류 상한을 이용한 심층 상태공간 모델 압축 방법

기본 정보

논문 ID: 2510.14542
제목: A Deep State-Space Model Compression Method using Upper Bound on Output Error
저자: Hiroki Sakamoto, Kazuhiro Sato (도쿄대학교 정보과학기술 대학원 수학정보학과)
분류: eess.SY (시스템 및 제어), cs.LG (기계학습), cs.SY (시스템 및 제어)
제출일: 2025년 10월 16일
논문 링크: https://arxiv.org/abs/2510.14542v1

초록

본 논문은 선형 이차 출력(LQO) 시스템을 내부 블록으로 포함하는 심층 상태공간 모델(Deep SSMs)을 연구하며, 증명 가능한 출력 오류 보장을 갖춘 압축 방법을 제안한다. 저자들은 먼저 두 Deep SSMs 간의 출력 오류에 대한 상한을 도출하고, 이 상한이 층간 LQO 시스템의 h² 오류 노름으로 표현될 수 있음을 증명하여 기존의 모델 차수 축소(MOR) 기반 압축 방법에 이론적 근거를 제공한다. 이 상한을 기반으로, 저자들은 h² 오류 노름을 목적함수로 최적화 문제를 수립하고 기울기 기반 MOR 방법을 개발했다. Long Range Arena 벤치마크의 IMDb 작업에서 이 압축 방법은 우수한 성능을 보이며, 기존 방법과 달리 재훈련 없이 약 80%의 훈련 가능한 매개변수를 감소시키면서 성능 저하는 4-5%에 불과하다.

연구 배경 및 동기

문제 정의

Deep SSMs는 장거리 의존성과 비선형성을 효율적으로 처리할 수 있는 수열 모델로서 다양한 작업에서 Transformer와 동등한 성능을 보여주었다. 그러나 높은 성능을 위해서는 많은 매개변수가 필요하며, 특히 내장된 선형 상태공간 모델의 매개변수 규모가 크다. 실제 배포에서는 성능을 유지하면서 더 컴팩트한 모델이 필요하다.

기존 방법의 한계

층간 독립 처리: 기존 MOR 방법은 각 층의 선형 상태공간 모델을 독립적으로 압축하여 층간 상호작용을 무시한다
전체 성능 보장 부재: 각 층의 출력 오류를 줄일 수 있지만 전체 Deep SSM의 최종 출력 성능을 보장할 수 없다
재훈련 필요: 대부분의 방법은 압축된 모델을 초기화로 사용하여 재훈련이 필요하다

연구 동기

본 논문은 층간 상호작용을 고려한 압축 모델을 구축하여 전체 Deep SSM의 출력 오류 ‖s_out - ŝ_out‖_ℓ∞^L를 직접 최소화하고 이론적 보장을 제공하는 것을 목표로 한다.

핵심 기여

이론적 기여: Deep SSMs 간의 출력 오류에 대한 상한을 도출하고, 이 상한이 각 층 LQO 시스템의 h² 오류 노름으로 표현될 수 있음을 증명하여 기존 MOR 방법에 이론적 근거를 제공한다
방법 혁신: 층간 상호작용을 고려한 MOR 최적화 알고리즘을 제안하여 Deep SSM의 고유한 특성을 유지하면서 출력 오류 상한을 최소화한다
실용적 가치: IMDb 작업에서 재훈련 없는 고품질 압축을 구현하여 매개변수 80% 감소 시 성능 저하는 4-5%에 불과하다
알고리즘 보장: 제안된 기울기 알고리즘은 정상점으로의 수렴에 대한 이론적 보장을 갖는다

방법 상세 설명

작업 정의

사전훈련된 ξ층 Deep SSM과 입력 수열 (s_in,k)^(L-1)_(k=0)이 주어졌을 때, 출력 오류 e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L를 최소화하는 차수 축소 Deep SSM을 구축한다.

이산시간 복소수 LQO 시스템

다음과 같은 LQO 시스템을 고려한다:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

여기서 A ∈ C^(n×n)는 대각 안정 행렬이고, M_i는 에르미트 행렬이다.

Deep SSM 아키텍처

i번째 층의 LQO 시스템:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

잔차 연결과 층 정규화를 통해 각 층을 연결한다:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

출력 오류 상한 이론

정리 1: 안정성 가정 하에서 출력 오류는 다음을 만족한다:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

여기서 G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j이고, ω는 층 정규화의 최대 립시츠 상수이다.

추론 1: 입력이 유계일 때, 오류 상한은 다음과 같이 단순화된다:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

최적화 문제 수립

오류 상한을 기반으로 MOR 최적화 문제를 수립한다:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to 안정성 제약조건

기울기 계산

유한 시간 영역 Sylvester/Lyapunov 방정식을 풀어 기울기를 계산한다. A 행렬이 대각 행렬이므로 O(nm) 시간 복잡도로 효율적으로 풀 수 있다.

알고리즘 설계

알고리즘 1: 안정성 보장을 갖춘 기울기 방법

역추적 선 탐색을 사용하여 안정성과 Armijo 조건을 보장한다
정상점으로의 수렴에 대한 이론적 보장을 갖는다

실험 설정

데이터셋

Long Range Arena (LRA) 벤치마크의 IMDb 감정 분석 작업을 사용하며, 수열 길이는 L=4096이다.

모델 구성

원본 모델: 4층 Deep SSM, n=128, m=64, c=1
총 매개변수: 207,490개
사전훈련 정확도: 86.66%

비교 방법

TLBT: Time-Limited Balanced Truncation
TLH2: Time-Limited H² 모델 축소
Algorithm 1 (TLBT init.): TLBT로 초기화한 본 논문의 방법
Algorithm 1 (TLH2 init.): TLH2로 초기화한 본 논문의 방법
HiPPO: 순수 HiPPO 초기화를 기준선으로 사용

압축 설정

목표 매개변수: 34,114개 (약 80% 감소)
두 가지 차수 축소 구성: r_list = 16×4 및 32,16,12,4

실험 결과

주요 결과

방법	r_list	상대 오류	테스트 정확도(압축 전/재훈련 후)
HiPPO	16×4	1.5050	0.4905 / 0.7907
TLBT	16×4	0.6330	0.7615 / 0.8647
TLH2	16×4	0.6101	0.7642 / 0.8660
본 논문(TLBT 초기)	16×4	0.6266	0.7649 / 0.8662
본 논문(TLH2 초기)	16×4	0.6100	0.7640 / 0.8628
본 논문(TLBT 초기)	32,16,12,4	0.3103	0.8166 / 0.8689

주요 발견

재훈련 없는 고성능: r_list=32,16,12,4의 경우, 압축 후 정확도는 0.8166에 도달하여 HiPPO 재훈련 후의 0.8029를 초과한다
계층적 할당의 효과성: 얕은 층에 더 큰 r 값을 할당하면 목적함수 값을 크게 감소시킬 수 있다
안정성 보장: 본 논문의 방법은 항상 안정성을 유지하는 반면 TLH2는 r=32일 때 실패한다