2025-11-10T02:39:44.261053

A Deep State-Space Model Compression Method using Upper Bound on Output Error

Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic

Метод сжатия глубоких моделей пространства состояний с использованием верхней границы ошибки выхода

Основная информация

  • ID статьи: 2510.14542
  • Название: A Deep State-Space Model Compression Method using Upper Bound on Output Error
  • Авторы: Хироки Сакамото, Казухиро Сато (Отделение математической информатики, Высшая школа информатики и технологий, Токийский университет)
  • Классификация: eess.SY (системы и управление), cs.LG (машинное обучение), cs.SY (системы и управление)
  • Дата подачи: 16 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.14542v1

Аннотация

В данной работе исследуются глубокие модели пространства состояний (Deep SSMs), содержащие системы с линейно-квадратичным выходом (LQO) в качестве внутренних блоков, и предлагается метод сжатия с доказуемыми гарантиями ошибки выхода. Авторы сначала выводят верхнюю границу ошибки выхода между двумя Deep SSMs и доказывают, что эта граница может быть выражена через норму ошибки h² систем LQO между слоями, что обеспечивает теоретическое обоснование существующих методов сжатия на основе редукции моделей (MOR). На основе этой границы авторы формулируют задачу оптимизации с целевой функцией, основанной на норме ошибки h², и разрабатывают метод MOR на основе градиента. На задаче IMDb эталонного набора Long Range Arena метод сжатия демонстрирует отличные результаты: без переобучения достигается сокращение примерно на 80% обучаемых параметров при снижении производительности всего на 4-5%.

Предпосылки и мотивация исследования

Определение проблемы

Deep SSMs как последовательные модели, способные эффективно обрабатывать долгосрочные зависимости и нелинейность, продемонстрировали производительность, сравнимую с Transformer на множестве задач. Однако высокая производительность часто требует большого количества параметров, особенно в масштабе параметров встроенных линейных моделей пространства состояний. При практическом развертывании необходимо получить более компактную модель при сохранении производительности.

Ограничения существующих методов

  1. Независимая обработка между слоями: существующие методы MOR независимо сжимают линейные модели пространства состояний каждого слоя, игнорируя взаимодействие между слоями
  2. Отсутствие гарантий общей производительности: хотя удается снизить ошибку выхода каждого слоя, невозможно гарантировать производительность финального выхода всей Deep SSM
  3. Требование переобучения: большинство методов требуют переобучения с использованием сжатой модели в качестве инициализации

Мотивация исследования

Данная работа направлена на построение модели сжатия, учитывающей взаимодействие между слоями, с прямой минимизацией ошибки выхода всей Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L и обеспечением теоретических гарантий.

Основные вклады

  1. Теоретический вклад: выведена верхняя граница ошибки выхода между Deep SSMs, доказано, что эта граница может быть выражена через норму ошибки h² систем LQO каждого слоя, что обеспечивает теоретическое обоснование существующих методов MOR
  2. Методологическое новшество: предложен алгоритм оптимизации MOR, учитывающий взаимодействие между слоями, способный минимизировать верхнюю границу ошибки выхода при сохранении уникальных свойств Deep SSM
  3. Практическая ценность: достигнуто высокое качество сжатия без переобучения на задаче IMDb с сокращением параметров на 80% и снижением производительности всего на 4-5%
  4. Гарантии алгоритма: предложенный градиентный алгоритм имеет теоретические гарантии сходимости к стационарной точке

Подробное описание метода

Определение задачи

Для предварительно обученной ξ-слойной Deep SSM и входной последовательности (s_in,k)^(L-1)_(k=0) построить редуцированную Deep SSM таким образом, чтобы минимизировать ошибку выхода e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L.

Дискретная система LQO в комплексной области

Рассматривается следующая система LQO:

S: {
  x_k = Ax_(k-1) + Bu_k
  y_k = Cx_k + M(x_k ⊗ x_k)
}

где A ∈ C^(n×n) — диагональная устойчивая матрица, M_i — эрмитовы матрицы.

Архитектура Deep SSM

Система LQO i-го слоя:

S^(i): {
  x_k^(i) = A^(i)x_(k-1)^(i) + B^(i)u_k^(i)
  y_k^(i) = C^(i)x_k^(i) + M^(i)(x_k^(i) ⊗ x_k^(i))
}

Слои соединяются через остаточные связи и нормализацию слоев:

z_k^(i) = u_k^(i) + Re(y_k^(i))
u_(k+1)^(i) = LN_(γ₁^(i), γ₂^(i))(z_k^(i))

Теория верхней границы ошибки выхода

Теорема 1: При предположениях об устойчивости ошибка выхода удовлетворяет:

e_ξ ≤ Σ_(i=1)^ξ G_i ‖S^(i) - Ŝ^(i)‖_(h²_L) · (‖û^(i)‖_(ℓ²_L) √(1 + ‖û^(i)‖²_(ℓ²_L)))

где G_i = ω^(ξ-i+1) ∏_(j=i+1)^ξ g_j, ω — максимальная константа Липшица нормализации слоев.

Следствие 1: Когда вход ограничен, верхняя граница ошибки упрощается до:

e_ξ ≤ (b√(1+b²)) Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)

Формулировка задачи оптимизации

На основе верхней границы ошибки формулируется задача оптимизации MOR:

minimize f(Ŝ) := Σ_(i=1)^ξ G̃_i ‖S^(i) - Ŝ^(i)‖_(h²_L)
subject to ограничения устойчивости

Вычисление градиента

Градиент вычисляется путем решения уравнений Сильвестра/Ляпунова на конечном временном интервале. Поскольку матрица A диагональна, это может быть решено за время O(nm).

Проектирование алгоритма

Алгоритм 1: Градиентный метод с гарантиями устойчивости

  • Использует поиск с возвратом для обеспечения устойчивости и условия Армихо
  • Имеет теоретические гарантии сходимости к стационарной точке

Экспериментальная установка

Набор данных

Используется задача анализа тональности IMDb из эталонного набора Long Range Arena (LRA) с длиной последовательности L=4096.

Конфигурация модели

  • Исходная модель: 4-слойная Deep SSM, n=128, m=64, c=1
  • Общее количество параметров: 207 490
  • Точность предварительного обучения: 86,66%

Методы сравнения

  1. TLBT: Time-Limited Balanced Truncation
  2. TLH2: Time-Limited H² model reduction
  3. Algorithm 1 (TLBT init.): предложенный метод с инициализацией TLBT
  4. Algorithm 1 (TLH2 init.): предложенный метод с инициализацией TLH2
  5. HiPPO: чистая инициализация HiPPO в качестве базовой линии

Параметры сжатия

  • Целевое количество параметров: 34 114 (сокращение примерно на 80%)
  • Две конфигурации редукции: r_list = 16×4 и 32,16,12,4

Результаты экспериментов

Основные результаты

Методr_listОтносительная ошибкаТочность теста (до/после переобучения)
HiPPO16×41,50500,4905 / 0,7907
TLBT16×40,63300,7615 / 0,8647
TLH216×40,61010,7642 / 0,8660
Предложенный (TLBT init.)16×40,62660,7649 / 0,8662
Предложенный (TLH2 init.)16×40,61000,7640 / 0,8628
Предложенный (TLBT init.)32,16,12,40,31030,8166 / 0,8689

Ключевые выводы

  1. Высокая производительность без переобучения: для r_list=32,16,12,4 точность сжатой модели достигает 0,8166, превосходя 0,8029 переобученной модели HiPPO
  2. Эффективность иерархического распределения: распределение больших значений r на поверхностных слоях значительно снижает значение целевой функции
  3. Гарантии устойчивости: предложенный метод всегда сохраняет устойчивость, тогда как TLH2 не работает при r=32

Связанные работы

Применение MOR в Deep SSM

  • Методы сбалансированного усечения: 11,12 используют BT для независимого между слоями сжатия
  • Методы оптимизации H²: 14 предлагает редукцию, сохраняющую свойства Deep SSM
  • Методы индекса H∞: 13 вводит дробь H∞ для эффективного исключения мод

Отличие данной работы от существующих

  1. Впервые обеспечивает гарантии общей производительности выхода с точки зрения теории систем управления
  2. Учитывает взаимодействие между слоями вместо независимой обработки каждого слоя
  3. Достигает высокого качества сжатия без переобучения

Заключение и обсуждение

Основные выводы

  1. Выведенная верхняя граница ошибки выхода обеспечивает теоретическое обоснование существующих методов MOR
  2. Метод оптимизации на основе верхней границы может строить высокое качество сжатых моделей
  3. Эксперименты подтверждают возможность развертывания без переобучения в условиях ограниченных ресурсов

Ограничения

  1. Рассматривается только конкретная архитектура Deep SSM (содержащая системы LQO)
  2. Эксперименты проверены только на одной задаче (IMDb)
  3. Константа Липшица нормализации слоев может быть большой, влияя на плотность верхней границы

Направления будущих исследований

  1. Исследование теоретических механизмов, объясняющих высокую производительность без переобучения
  2. Расширение на более общие архитектуры Deep SSM
  3. Проверка универсальности метода на большем количестве задач и наборов данных

Глубокая оценка

Преимущества

  1. Теоретическая строгость: обеспечивает полный математический вывод и гарантии сходимости
  2. Практическая ценность: достигает значительного сжатия параметров без переобучения
  3. Методологическое новшество: впервые учитывает взаимодействие между слоями для общей оптимизации
  4. Достаточные эксперименты: сравнивает несколько методов с подробным анализом

Недостатки

  1. Ограниченная область применения: применимо только к конкретным Deep SSM, содержащим системы LQO
  2. Ограниченный диапазон экспериментов: проверено только на одной задаче NLP, отсутствует проверка в других областях
  3. Вычислительная сложность: вычисление градиента включает решение крупномасштабных уравнений Сильвестра
  4. Плотность верхней границы: большая константа Липшица нормализации слоев может привести к слишком свободной верхней границе

Влияние

  1. Теоретический вклад: обеспечивает новую теоретическую базу для сжатия Deep SSM
  2. Практическая ценность: имеет важное значение для развертывания на устройствах с ограниченными ресурсами
  3. Методологическое вдохновение: предоставляет новые идеи для сжатия других глубоких моделей

Применимые сценарии

  1. Развертывание на граничных устройствах с ограниченными вычислительными ресурсами
  2. Сценарии, требующие быстрого сжатия моделей без возможности переобучения
  3. Сжатие Deep SSM в задачах моделирования длинных последовательностей

Список литературы

Статья цитирует 21 связанную работу, охватывающую:

  • Работы по Deep SSM: HiPPO 1, S5 4, Mamba 5
  • Методы сжатия моделей: 10-14
  • Теория систем управления: 15-17
  • Теория оптимизации: 20-21

Общая оценка: Это отличная статья, сочетающая теорию и практику, которая вносит важный вклад в область сжатия Deep SSM. Несмотря на ограничения в области применения и широте экспериментов, её теоретическая строгость и практическая ценность делают её важным прогрессом в этой области.