2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

출력 오류 상한을 이용한 심층 상태공간 모델 압축 방법

기본 정보

  • 논문 ID: 2510.14542
  • 제목: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • 저자: Hiroki Sakamoto, Kazuhiro Sato (도쿄대학교 정보과학기술 대학원 수학정보학과)
  • 분류: eess.SY (시스템 및 제어), cs.LG (기계학습), cs.SY (시스템 및 제어)
  • 제출일: 2025년 10월 16일
  • 논문 링크: https://arxiv.org/abs/2510.14542v1

초록

본 논문은 선형 이차 출력(LQO) 시스템을 내부 블록으로 포함하는 심층 상태공간 모델(Deep SSMs)을 연구하며, 증명 가능한 출력 오류 보장을 갖춘 압축 방법을 제안한다. 저자들은 먼저 두 Deep SSMs 간의 출력 오류에 대한 상한을 도출하고, 이 상한이 층간 LQO 시스템의 h² 오류 노름으로 표현될 수 있음을 증명하여 기존의 모델 차수 축소(MOR) 기반 압축 방법에 이론적 근거를 제공한다. 이 상한을 기반으로, 저자들은 h² 오류 노름을 목적함수로 최적화 문제를 수립하고 기울기 기반 MOR 방법을 개발했다. Long Range Arena 벤치마크의 IMDb 작업에서 이 압축 방법은 우수한 성능을 보이며, 기존 방법과 달리 재훈련 없이 약 80%의 훈련 가능한 매개변수를 감소시키면서 성능 저하는 4-5%에 불과하다.

연구 배경 및 동기

문제 정의

Deep SSMs는 장거리 의존성과 비선형성을 효율적으로 처리할 수 있는 수열 모델로서 다양한 작업에서 Transformer와 동등한 성능을 보여주었다. 그러나 높은 성능을 위해서는 많은 매개변수가 필요하며, 특히 내장된 선형 상태공간 모델의 매개변수 규모가 크다. 실제 배포에서는 성능을 유지하면서 더 컴팩트한 모델이 필요하다.

기존 방법의 한계

  1. 층간 독립 처리: 기존 MOR 방법은 각 층의 선형 상태공간 모델을 독립적으로 압축하여 층간 상호작용을 무시한다
  2. 전체 성능 보장 부재: 각 층의 출력 오류를 줄일 수 있지만 전체 Deep SSM의 최종 출력 성능을 보장할 수 없다
  3. 재훈련 필요: 대부분의 방법은 압축된 모델을 초기화로 사용하여 재훈련이 필요하다

연구 동기

본 논문은 층간 상호작용을 고려한 압축 모델을 구축하여 전체 Deep SSM의 출력 오류 ‖s_out - ŝ_out‖_ℓ∞^L를 직접 최소화하고 이론적 보장을 제공하는 것을 목표로 한다.

핵심 기여

  1. 이론적 기여: Deep SSMs 간의 출력 오류에 대한 상한을 도출하고, 이 상한이 각 층 LQO 시스템의 h² 오류 노름으로 표현될 수 있음을 증명하여 기존 MOR 방법에 이론적 근거를 제공한다
  2. 방법 혁신: 층간 상호작용을 고려한 MOR 최적화 알고리즘을 제안하여 Deep SSM의 고유한 특성을 유지하면서 출력 오류 상한을 최소화한다
  3. 실용적 가치: IMDb 작업에서 재훈련 없는 고품질 압축을 구현하여 매개변수 80% 감소 시 성능 저하는 4-5%에 불과하다
  4. 알고리즘 보장: 제안된 기울기 알고리즘은 정상점으로의 수렴에 대한 이론적 보장을 갖는다

방법 상세 설명

작업 정의

사전훈련된 ξ층 Deep SSM과 입력 수열 (s_in,k)^(L-1)_(k=0)이 주어졌을 때, 출력 오류 e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L를 최소화하는 차수 축소 Deep SSM을 구축한다.

이산시간 복소수 LQO 시스템

다음과 같은 LQO 시스템을 고려한다:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

여기서 A ∈ C^(n×n)는 대각 안정 행렬이고, M_i는 에르미트 행렬이다.

Deep SSM 아키텍처

i번째 층의 LQO 시스템:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

잔차 연결과 층 정규화를 통해 각 층을 연결한다:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

출력 오류 상한 이론

정리 1: 안정성 가정 하에서 출력 오류는 다음을 만족한다:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

여기서 G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j이고, ω는 층 정규화의 최대 립시츠 상수이다.

추론 1: 입력이 유계일 때, 오류 상한은 다음과 같이 단순화된다:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

최적화 문제 수립

오류 상한을 기반으로 MOR 최적화 문제를 수립한다:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to 안정성 제약조건

기울기 계산

유한 시간 영역 Sylvester/Lyapunov 방정식을 풀어 기울기를 계산한다. A 행렬이 대각 행렬이므로 O(nm) 시간 복잡도로 효율적으로 풀 수 있다.

알고리즘 설계

알고리즘 1: 안정성 보장을 갖춘 기울기 방법

  • 역추적 선 탐색을 사용하여 안정성과 Armijo 조건을 보장한다
  • 정상점으로의 수렴에 대한 이론적 보장을 갖는다

실험 설정

데이터셋

Long Range Arena (LRA) 벤치마크의 IMDb 감정 분석 작업을 사용하며, 수열 길이는 L=4096이다.

모델 구성

  • 원본 모델: 4층 Deep SSM, n=128, m=64, c=1
  • 총 매개변수: 207,490개
  • 사전훈련 정확도: 86.66%

비교 방법

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² 모델 축소
  3. Algorithm 1 (TLBT init.): TLBT로 초기화한 본 논문의 방법
  4. Algorithm 1 (TLH2 init.): TLH2로 초기화한 본 논문의 방법
  5. HiPPO: 순수 HiPPO 초기화를 기준선으로 사용

압축 설정

  • 목표 매개변수: 34,114개 (약 80% 감소)
  • 두 가지 차수 축소 구성: r_list = 16×4 및 32,16,12,4

실험 결과

주요 결과

방법r_list상대 오류테스트 정확도(압축 전/재훈련 후)
HiPPO16×41.50500.4905 / 0.7907
TLBT16×40.63300.7615 / 0.8647
TLH216×40.61010.7642 / 0.8660
본 논문(TLBT 초기)16×40.62660.7649 / 0.8662
본 논문(TLH2 초기)16×40.61000.7640 / 0.8628
본 논문(TLBT 초기)32,16,12,40.31030.8166 / 0.8689

주요 발견

  1. 재훈련 없는 고성능: r_list=32,16,12,4의 경우, 압축 후 정확도는 0.8166에 도달하여 HiPPO 재훈련 후의 0.8029를 초과한다
  2. 계층적 할당의 효과성: 얕은 층에 더 큰 r 값을 할당하면 목적함수 값을 크게 감소시킬 수 있다
  3. 안정성 보장: 본 논문의 방법은 항상 안정성을 유지하는 반면 TLH2는 r=32일 때 실패한다

관련 연구

Deep SSM에서의 MOR 적용

  • Balanced Truncation 방법: 11,12는 BT를 사용하여 층간 독립적 압축을 수행한다
  • H² 최적화 방법: 14는 Deep SSM의 특성을 유지하는 H² 최적 차수 축소를 제안한다
  • H∞ 지표 방법: 13은 H∞ 분수를 도입하여 효율적으로 모드를 제거한다

본 논문과 기존 연구의 차이점

  1. 시스템 제어 이론 관점에서 전체 출력 성능 보장을 처음으로 제공한다
  2. 각 층을 독립적으로 처리하지 않고 층간 상호작용을 고려한다
  3. 재훈련 없이 고품질 압축 모델을 획득할 수 있다

결론 및 논의

주요 결론

  1. 도출된 출력 오류 상한은 기존 MOR 방법에 이론적 근거를 제공한다
  2. 상한 기반 최적화 방법은 고품질 압축 모델을 구축할 수 있다
  3. 실험은 자원 제한 환경에서 재훈련 없는 배포의 가능성을 검증한다

한계

  1. 특정 Deep SSM 아키텍처(LQO 시스템 포함)만 고려한다
  2. 실험은 단일 작업(IMDb)에서만 검증된다
  3. 층 정규화의 립시츠 상수가 클 수 있어 상한의 타이트함에 영향을 미친다

향후 방향

  1. 재훈련 없이 고성능을 획득하는 이유에 대한 이론적 메커니즘 연구
  2. 더 일반적인 Deep SSM 아키텍처로 확장
  3. 더 많은 작업과 데이터셋에서 방법의 일반성 검증

심층 평가

장점

  1. 이론적 엄밀성: 완전한 수학적 유도와 수렴성 보장을 제공한다
  2. 실용적 가치: 상당한 매개변수 압축을 달성하면서 재훈련이 필요 없다
  3. 방법 혁신: 층간 상호작용을 고려한 전체 최적화를 처음으로 시도한다
  4. 충분한 실험: 여러 방법을 비교하고 상세한 분석을 제공한다

부족한 점

  1. 제한된 적용 범위: LQO 시스템을 포함하는 특정 Deep SSM에만 적용 가능하다
  2. 제한된 실험 범위: 단일 NLP 작업에서만 검증되어 다른 분야의 검증이 부족하다
  3. 계산 복잡도: 기울기 계산은 대규모 Sylvester 방정식 풀이를 포함한다
  4. 상한의 타이트함: 층 정규화의 큰 립시츠 상수로 인해 상한이 과도할 수 있다

영향력

  1. 이론적 기여: Deep SSM 압축을 위한 새로운 이론적 프레임워크를 제공한다
  2. 실용적 가치: 자원 제한 배포 시나리오에 중요한 의미를 갖는다
  3. 방법론적 영감: 다른 심층 모델의 압축에 새로운 아이디어를 제공한다

적용 시나리오

  1. 계산 자원이 제한된 엣지 디바이스 배포
  2. 재훈련이 불가능하면서 빠른 모델 압축이 필요한 경우
  3. 장수열 모델링 작업에서의 Deep SSM 압축

참고문헌

본 논문은 21개의 관련 문헌을 인용하며, 주로 다음을 포함한다:

  • Deep SSM 관련 연구: HiPPO 1, S5 4, Mamba 5
  • 모델 압축 방법: 10-14
  • 시스템 제어 이론: 15-17
  • 최적화 이론: 20-21

종합 평가: 이는 이론과 실제를 모두 중시하는 우수한 논문으로, Deep SSM 압축 분야에 중요한 기여를 한다. 적용 범위와 실험의 광범위성에서 한계가 있지만, 이론적 엄밀성과 실용적 가치로 인해 해당 분야의 중요한 진전이 된다.