COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
В данной работе предлагается метод обрезки COMPACT для решения проблем эффективности больших языковых моделей (LLM) с точки зрения памяти, задержки и стоимости обслуживания. Метод сочетает обрезку словаря с обрезкой каналов FFN на основе взвешивания по частым токенам, достигая сжатия параметров при сохранении стандартной архитектуры трансформатора. Эффективность метода проверена на семействах моделей Qwen, LLaMA и Gemma (параметры 0,5B-70B).
Хотя большие языковые модели демонстрируют отличную производительность на различных задачах NLP, их огромное количество параметров (от миллиардов до сотен миллиардов) приводит к высоким затратам на развертывание, что ограничивает их применение на граничных устройствах, интерактивных приложениях и крупномасштабном выводе.
Обрезка по ширине (Width Pruning): Удаление скрытых измерений или каналов нарушает стандартную архитектуру трансформатора и требует пользовательского кода вывода
Обрезка по глубине (Depth Pruning): Удаление целых блоков трансформатора сохраняет архитектуру, но приводит к резкому снижению производительности
Плохая масштабируемость: Существующие методы эффективны на больших моделях, но плохо работают на малых языковых моделях (SLM)
Игнорирование языковых особенностей: Не учитывается различие в важности токенов, все токены рассматриваются одинаково
Значительные различия в распределении параметров моделей разных размеров: в малых моделях параметры словаря занимают большую долю, в больших моделях доминируют параметры FFN
Естественный язык следует распределению Зипфа, редкие токены появляются с очень низкой частотой и вносят ограниченный вклад в производительность
Параметры внимания: Nattention=2LD2(1+H1) (H — отношение количества голов)
С увеличением размера модели NFFN и Nattention растут как O(LD2), а Nvocab растет только как O(D), поэтому в малых моделях параметры словаря занимают большую долю.
Алгоритм 1 COMPACT
Вход: модель M, набор данных калибровки D, целевой размер словаря V', целевое промежуточное измерение I'
1. Определить множество S самых редких V-V' токенов
2. Запустить прямой проход на наборе данных D, собрать квадраты активаций
3. Для каждого канала k вычислить важность Ik, используя common act²
4. Для каждого слоя: обрезать I-I' наименее важных каналов
5. Обрезать параметры словаря: удалить последние V-V' строк матриц embedding и LM head
6. Вернуть обрезанную модель M'
Двойная стратегия обрезки: Сочетание обрезки словаря и FFN, учитывающее особенности распределения параметров моделей разных размеров
Взвешивание по частым токенам: При обрезке FFN учитываются только токены, которые остаются действительными после обрезки, избегая влияния редких токенов
Сохранение архитектуры: Обрезаются только размер словаря и промежуточное измерение, сохраняется стандартная структура трансформатора
Адаптивность к масштабу: Адаптация к потребностям разных размеров путем регулировки двух гиперпараметров V′ и I′
Плавная деградация: COMPACT показывает плавное снижение производительности, тогда как методы глубокой обрезки демонстрируют резкие скачки производительности
Архитектурная независимость: COMPACT можно напрямую применять к новым архитектурам, таким как Gemma 3, тогда как другие методы требуют архитектурно-специфических модификаций
Ограниченное влияние редких токенов: Сокращение словаря на 67% влияет только на 4% переразметки текста
Ограниченное увеличение пропускной способности: По сравнению с методами глубокой обрезки остается отставание в увеличении пропускной способности вывода
Адаптивность обрезки словаря к доменам: В конкретных доменах может потребоваться сохранение большего количества специализированной лексики
Настройка гиперпараметров: Требуется поиск оптимальных комбинаций V′ и I′ для различных коэффициентов обрезки
Статья цитирует большое количество связанных работ, включая:
Методы квантизации: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Обрезка по глубине: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Обрезка по ширине: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Обработка словаря: связанные работы по обрезке словаря для многоязычных и доменно-специфичных приложений
Общая оценка: Это технически обоснованная и практически полезная статья. Хотя в отношении теоретических инноваций она относительно ограничена, благодаря умному сочетанию методов и комплексной экспериментальной проверке она вносит эффективное и легко развертываемое решение в область обрезки LLM. Особенно преимущества в обрезке малых языковых моделей и совместимости архитектуры делают её перспективной для практического применения.