A Deep State-Space Model Compression Method using Upper Bound on Output Error
Sakamoto, Sato
We study deep state-space models (Deep SSMs) that contain linear-quadratic-output (LQO) systems as internal blocks and present a compression method with a provable output error guarantee. We first derive an upper bound on the output error between two Deep SSMs and show that the bound can be expressed via the $h^2$-error norms between the layerwise LQO systems, thereby providing a theoretical justification for existing model order reduction (MOR)-based compression. Building on this bound, we formulate an optimization problem in terms of the $h^2$-error norm and develop a gradient-based MOR method. On the IMDb task from the Long Range Arena benchmark, we demonstrate that our compression method achieves strong performance. Moreover, unlike prior approaches, we reduce roughly 80% of trainable parameters without retraining, with only a 4-5% performance drop.
academic
Метод сжатия глубоких моделей пространства состояний с использованием верхней границы ошибки выхода
В данной работе исследуются глубокие модели пространства состояний (Deep SSMs), содержащие системы с линейно-квадратичным выходом (LQO) в качестве внутренних блоков, и предлагается метод сжатия с доказуемыми гарантиями ошибки выхода. Авторы сначала выводят верхнюю границу ошибки выхода между двумя Deep SSMs и доказывают, что эта граница может быть выражена через норму ошибки h² систем LQO между слоями, что обеспечивает теоретическое обоснование существующих методов сжатия на основе редукции моделей (MOR). На основе этой границы авторы формулируют задачу оптимизации с целевой функцией, основанной на норме ошибки h², и разрабатывают метод MOR на основе градиента. На задаче IMDb эталонного набора Long Range Arena метод сжатия демонстрирует отличные результаты: без переобучения достигается сокращение примерно на 80% обучаемых параметров при снижении производительности всего на 4-5%.
Deep SSMs как последовательные модели, способные эффективно обрабатывать долгосрочные зависимости и нелинейность, продемонстрировали производительность, сравнимую с Transformer на множестве задач. Однако высокая производительность часто требует большого количества параметров, особенно в масштабе параметров встроенных линейных моделей пространства состояний. При практическом развертывании необходимо получить более компактную модель при сохранении производительности.
Независимая обработка между слоями: существующие методы MOR независимо сжимают линейные модели пространства состояний каждого слоя, игнорируя взаимодействие между слоями
Отсутствие гарантий общей производительности: хотя удается снизить ошибку выхода каждого слоя, невозможно гарантировать производительность финального выхода всей Deep SSM
Требование переобучения: большинство методов требуют переобучения с использованием сжатой модели в качестве инициализации
Данная работа направлена на построение модели сжатия, учитывающей взаимодействие между слоями, с прямой минимизацией ошибки выхода всей Deep SSM ‖s_out - ŝ_out‖_ℓ∞^L и обеспечением теоретических гарантий.
Теоретический вклад: выведена верхняя граница ошибки выхода между Deep SSMs, доказано, что эта граница может быть выражена через норму ошибки h² систем LQO каждого слоя, что обеспечивает теоретическое обоснование существующих методов MOR
Методологическое новшество: предложен алгоритм оптимизации MOR, учитывающий взаимодействие между слоями, способный минимизировать верхнюю границу ошибки выхода при сохранении уникальных свойств Deep SSM
Практическая ценность: достигнуто высокое качество сжатия без переобучения на задаче IMDb с сокращением параметров на 80% и снижением производительности всего на 4-5%
Гарантии алгоритма: предложенный градиентный алгоритм имеет теоретические гарантии сходимости к стационарной точке
Для предварительно обученной ξ-слойной Deep SSM и входной последовательности (s_in,k)^(L-1)_(k=0) построить редуцированную Deep SSM таким образом, чтобы минимизировать ошибку выхода e_ξ := ‖s_out - ŝ_out‖_ℓ∞^L.
Градиент вычисляется путем решения уравнений Сильвестра/Ляпунова на конечном временном интервале. Поскольку матрица A диагональна, это может быть решено за время O(nm).
Высокая производительность без переобучения: для r_list=32,16,12,4 точность сжатой модели достигает 0,8166, превосходя 0,8029 переобученной модели HiPPO
Эффективность иерархического распределения: распределение больших значений r на поверхностных слоях значительно снижает значение целевой функции
Гарантии устойчивости: предложенный метод всегда сохраняет устойчивость, тогда как TLH2 не работает при r=32
Статья цитирует 21 связанную работу, охватывающую:
Работы по Deep SSM: HiPPO 1, S5 4, Mamba 5
Методы сжатия моделей: 10-14
Теория систем управления: 15-17
Теория оптимизации: 20-21
Общая оценка: Это отличная статья, сочетающая теорию и практику, которая вносит важный вклад в область сжатия Deep SSM. Несмотря на ограничения в области применения и широте экспериментов, её теоретическая строгость и практическая ценность делают её важным прогрессом в этой области.