2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Основная информация

  • ID статьи: 2509.06836
  • Название: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
  • Авторы: Eugene Kwek, Wenpeng Yin (Penn State University)
  • Классификация: cs.CL cs.AI cs.LG
  • Статус публикации: Препринт на рецензировании
  • Ссылка на статью: https://arxiv.org/abs/2509.06836v3

Аннотация

В данной работе предлагается метод обрезки COMPACT для решения проблем эффективности больших языковых моделей (LLM) с точки зрения памяти, задержки и стоимости обслуживания. Метод сочетает обрезку словаря с обрезкой каналов FFN на основе взвешивания по частым токенам, достигая сжатия параметров при сохранении стандартной архитектуры трансформатора. Эффективность метода проверена на семействах моделей Qwen, LLaMA и Gemma (параметры 0,5B-70B).

Исследовательский контекст и мотивация

Определение проблемы

Хотя большие языковые модели демонстрируют отличную производительность на различных задачах NLP, их огромное количество параметров (от миллиардов до сотен миллиардов) приводит к высоким затратам на развертывание, что ограничивает их применение на граничных устройствах, интерактивных приложениях и крупномасштабном выводе.

Ограничения существующих методов

  1. Обрезка по ширине (Width Pruning): Удаление скрытых измерений или каналов нарушает стандартную архитектуру трансформатора и требует пользовательского кода вывода
  2. Обрезка по глубине (Depth Pruning): Удаление целых блоков трансформатора сохраняет архитектуру, но приводит к резкому снижению производительности
  3. Плохая масштабируемость: Существующие методы эффективны на больших моделях, но плохо работают на малых языковых моделях (SLM)
  4. Игнорирование языковых особенностей: Не учитывается различие в важности токенов, все токены рассматриваются одинаково

Исследовательская мотивация

Авторы путем анализа обнаружили:

  • Значительные различия в распределении параметров моделей разных размеров: в малых моделях параметры словаря занимают большую долю, в больших моделях доминируют параметры FFN
  • Естественный язык следует распределению Зипфа, редкие токены появляются с очень низкой частотой и вносят ограниченный вклад в производительность

Основные вклады

  1. Систематический анализ: Первый систематический анализ закономерностей распределения параметров embedding, FFN и attention в LLM разных размеров
  2. Метод COMPACT: Предложена новая структура, сочетающая обрезку словаря и обрезку FFN на основе взвешивания по частым токенам
  3. Совместимость архитектуры: Сохранение стандартной архитектуры трансформатора, совместимость с существующими фреймворками вывода
  4. Адаптивность к масштабу: Достижение SOTA производительности на моделях от 0,5B до 70B параметров из нескольких семейств

Подробное описание метода

Анализ распределения параметров

Авторы сначала анализируют распределение параметров в современных decoder-only трансформаторах:

  • Параметры словаря: Nvocab=2VDN_{vocab} = 2VD (слои embedding и LM head)
  • Параметры FFN: NFFN=3LDIN_{FFN} = 3LDI (L слоев, промежуточное измерение I)
  • Параметры внимания: Nattention=2LD2(1+1H)N_{attention} = 2LD^2(1 + \frac{1}{H}) (H — отношение количества голов)

С увеличением размера модели NFFNN_{FFN} и NattentionN_{attention} растут как O(LD2)O(LD^2), а NvocabN_{vocab} растет только как O(D)O(D), поэтому в малых моделях параметры словаря занимают большую долю.

Архитектура COMPACT

1. Обрезка словаря (Vocabulary Pruning)

  • Принцип: На основе того, что BPE токенизатор следует распределению Зипфа, удаляются самые редкие VVV-V' токенов
  • Реализация: Прямое удаление соответствующих строк матриц embedding и LM head, а также правил слияния в токенизаторе
  • Преимущества: Не требует данных калибровки, вычислительно эффективно

2. Обрезка FFN на основе взвешивания по частым токенам

Традиционный метод act² вычисляет важность канала как: Ik=i=1N(SiLU(XiWgate)XiWup)k2I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k

Предложенный COMPACT метод common act²: Ik=i=1Nwi(SiLU(XiWgate)XiWup)k2,wi={0xiS1иначеI_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{иначе} \end{cases}

где SS — множество редких токенов, подлежащих обрезке.

Алгоритм

Алгоритм 1 COMPACT
Вход: модель M, набор данных калибровки D, целевой размер словаря V', целевое промежуточное измерение I'
1. Определить множество S самых редких V-V' токенов
2. Запустить прямой проход на наборе данных D, собрать квадраты активаций
3. Для каждого канала k вычислить важность Ik, используя common act²
4. Для каждого слоя: обрезать I-I' наименее важных каналов
5. Обрезать параметры словаря: удалить последние V-V' строк матриц embedding и LM head
6. Вернуть обрезанную модель M'

Технические инновации

  1. Двойная стратегия обрезки: Сочетание обрезки словаря и FFN, учитывающее особенности распределения параметров моделей разных размеров
  2. Взвешивание по частым токенам: При обрезке FFN учитываются только токены, которые остаются действительными после обрезки, избегая влияния редких токенов
  3. Сохранение архитектуры: Обрезаются только размер словаря и промежуточное измерение, сохраняется стандартная структура трансформатора
  4. Адаптивность к масштабу: Адаптация к потребностям разных размеров путем регулировки двух гиперпараметров VV' и II'

Экспериментальная установка

Оцениваемые модели

  • Малые языковые модели: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
  • Большие языковые модели: LLaMA 3.1-8B, LLaMA 3.1-70B

Наборы данных и задачи

  • Данные калибровки: 256 образцов из набора данных C4
  • Оцениваемые задачи: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Методы сравнения

  • Обрезка по глубине: ShortGPT, LaCo
  • Обрезка по ширине: SliceGPT, 2SSP, FLAP

Метрики оценки

  • Коэффициент обрезки параметров, средняя точность, коэффициент сохранения относительной производительности
  • Время обрезки, пропускная способность вывода, использование памяти GPU

Результаты экспериментов

Основные результаты

Производительность малых языковых моделей

На Qwen 2.5-0.5B с коэффициентом обрезки 35%:

  • COMPACT: средняя точность 35,3% (70,4% относительной производительности)
  • Лучший базовый метод: 31,4% (62,5% относительной производительности)

На LLaMA 3.2-1B с коэффициентом обрезки 35%:

  • COMPACT: средняя точность 36,9% (76,4% относительной производительности)
  • Лучший базовый метод: 33,6% (69,6% относительной производительности)

Производительность больших языковых моделей

На LLaMA 3.1-70B с коэффициентом обрезки 35%:

  • COMPACT: средняя точность 63,7% (80,2% относительной производительности)
  • 2SSP: 62,8% (79,1% относительной производительности)

Анализ эффективности

Сравнение времени обрезки (LLaMA 3.1-8B, обрезка 35%)

  • COMPACT: 0:32
  • 2SSP: 1:26
  • SliceGPT: 10:48

Эффективность вывода (LLaMA 3.1-8B, обрезка 35%)

  • Использование памяти: COMPACT снижает на 36% (максимум), ShortGPT/LaCo снижают на 25%
  • Увеличение пропускной способности: COMPACT увеличивает на 37%, ShortGPT/LaCo увеличивают на 57%

Абляционные исследования

Эффективность common act²

На Qwen 2.5-0.5B с обрезкой 35%:

  • Common act²: 70,4% относительной производительности
  • Стандартный act²: 69,2% относительной производительности
  • Метод |act|: 67,6% относительной производительности

Анализ баланса словаря-FFN

При фиксированном коэффициенте обрезки 37%, различные комбинации VV' и II':

  • Чистая обрезка FFN (V'=151936): 63,0% относительной производительности
  • Оптимальная комбинация (V'=49536): 70,4% относительной производительности

Важные находки

  1. Плавная деградация: COMPACT показывает плавное снижение производительности, тогда как методы глубокой обрезки демонстрируют резкие скачки производительности
  2. Архитектурная независимость: COMPACT можно напрямую применять к новым архитектурам, таким как Gemma 3, тогда как другие методы требуют архитектурно-специфических модификаций
  3. Ограниченное влияние редких токенов: Сокращение словаря на 67% влияет только на 4% переразметки текста

Связанные работы

Обрезка по глубине

  • Представительные методы: Shortened LLaMA, SLEB, LLM-Streamline
  • Преимущества: Сохранение стандартной архитектуры, значительное ускорение вывода
  • Недостатки: Грубое удаление приводит к резкому снижению производительности

Обрезка по ширине

  • Представительные методы: LLM-Pruner, SliceGPT, FLAP, 2SSP
  • Преимущества: Точный контроль, относительно плавное снижение производительности
  • Недостатки: Нарушение стандартной архитектуры, требование пользовательского кода вывода

Обрезка словаря

  • Существующие работы: Главным образом сосредоточены на обрезке словаря для конкретных языков/доменов
  • Вклад данной работы: Обрезка словаря для универсальных LLM, формирование полной структуры в сочетании с обрезкой FFN

Заключение и обсуждение

Основные выводы

  1. COMPACT достигает SOTA производительности обрезки на нескольких семействах моделей и размерах
  2. Метод сохраняет стандартную архитектуру трансформатора с хорошей совместимостью развертывания
  3. Двойная стратегия обрезки эффективно адаптируется к особенностям распределения параметров моделей разных размеров

Ограничения

  1. Ограниченное увеличение пропускной способности: По сравнению с методами глубокой обрезки остается отставание в увеличении пропускной способности вывода
  2. Адаптивность обрезки словаря к доменам: В конкретных доменах может потребоваться сохранение большего количества специализированной лексики
  3. Настройка гиперпараметров: Требуется поиск оптимальных комбинаций VV' и II' для различных коэффициентов обрезки

Направления будущих исследований

Авторы предлагают необходимость дальнейшего сокращения разрыва между обрезкой по ширине и обрезкой по глубине в отношении пропускной способности.

Глубокая оценка

Преимущества

  1. Прочная теоретическая база: Теоретическое руководство на основе анализа распределения параметров и характеристик распределения Зипфа
  2. Умный дизайн метода: Метод common act² умно сочетает обрезку словаря и обрезку FFN
  3. Комплексные эксперименты: Систематическая оценка, охватывающая несколько семейств моделей, размеров и задач
  4. Высокая практическая ценность: Сохранение совместимости архитектуры, простота развертывания

Недостатки

  1. Ограниченная степень инноваций: Обрезка словаря и обрезка FFN — это уже существующие методы, основной вклад заключается в их сочетании
  2. Недостаточно глубокий теоретический анализ: Отсутствует глубокое теоретическое объяснение того, почему такое сочетание эффективно
  3. Ограниченное ускорение вывода: По ключевым показателям производительности (пропускная способность) уступает методам глубокой обрезки

Влияние

  1. Академический вклад: Предоставляет новую перспективу для обрезки LLM, особенно идею адаптивности к масштабу
  2. Практическая ценность: Метод прост и эффективен, легко реализуется и развертывается
  3. Воспроизводимость: Авторы обещают открыть исходный код, что способствует распространению метода

Применимые сценарии

  1. Развертывание на граничных устройствах: Сжатие моделей в среде с ограниченной памятью
  2. Развертывание на нескольких масштабах: Сценарии, требующие одновременной поддержки малых и больших моделей
  3. Быстрая обрезка: Приложения, требующие завершения сжатия модели в короткие сроки

Библиография

Статья цитирует большое количество связанных работ, включая:

  • Методы квантизации: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
  • Обрезка по глубине: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
  • Обрезка по ширине: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
  • Обработка словаря: связанные работы по обрезке словаря для многоязычных и доменно-специфичных приложений

Общая оценка: Это технически обоснованная и практически полезная статья. Хотя в отношении теоретических инноваций она относительно ограничена, благодаря умному сочетанию методов и комплексной экспериментальной проверке она вносит эффективное и легко развертываемое решение в область обрезки LLM. Особенно преимущества в обрезке малых языковых моделей и совместимости архитектуры делают её перспективной для практического применения.