2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: Корректирующий адаптер с групповой остаточной векторной квантизацией для сжатия встраивания LLM

Основная информация

ID статьи: 2510.12721
Название: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
Авторы: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
Учреждение: LG Electronics USA
Категория: cs.LG
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12721v1

Аннотация

Большие языковые модели (LLM) обычно требуют большого количества параметров для встраивания токенов, что приводит к огромным требованиям к хранилищу и потреблению памяти. В частности, LLM, развёрнутые на граничных устройствах, ограничены памятью. Сжатие слоя встраивания не только освобождает пропускную способность памяти, но и ускоряет вывод. В этой работе предлагается CARVQ — новый метод постобучающего сжатия, объединяющий корректирующий адаптер с групповой остаточной векторной квантизацией. CARVQ использует комбинацию линейных и нелинейных отображений для имитации встраивания исходной модели и достигает сжатия примерно до 1,6 бит на параметр без необходимости в специализированном аппаратном обеспечении для хранения с низкой разрядностью. Метод протестирован на нескольких предварительно обученных LLM и оценен на задачах генерации, дискриминации, математики и рассуждения, демонстрируя, что CARVQ достигает более низкой средней разрядности на параметр при сохранении разумной перплексии и точности.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Слой встраивания больших языковых моделей занимает значительный объём памяти, особенно при развёртывании на граничных устройствах, что становится узким местом производительности
Практические требования: Эффективное развёртывание LLM на граничных устройствах с ограниченной памятью
Технические вызовы: Существующие методы квантизации показывают резкое снижение производительности при экстремально низкой разрядности и требуют специализированного аппаратного обеспечения

Важность проблемы

Проблема доли памяти: Когда слои трансформатора квантизированы, относительная доля памяти слоя встраивания значительно увеличивается (например, 52,06% в INT4 модели LLaMA-3.2-1B)
Потребности граничных вычислений: Память граничных устройств обычно ограничена несколькими ГБ; экономия 0,5 ГБ памяти может поддерживать дополнительные 2 млрд 4-битных параметров или более длинный контекст
Совместимость оборудования: Существующие методы квантизации с низкой разрядностью требуют специализированного аппаратного обеспечения, что ограничивает гибкость развёртывания

Ограничения существующих методов

Скалярная квантизация: Производительность резко падает ниже 2 бит и требует специального аппаратного обеспечения
Квантизация с учётом обучения (QAT): Требует исходных данных обучения и значительных вычислительных ресурсов для переобучения
Существующие методы сжатия встраивания: Линейные методы, такие как TensorGPT, показывают серьёзную потерю точности при высоких коэффициентах сжатия

Основные вклады

Предложение метода CARVQ: Новая техника постобучающего сжатия, объединяющая корректирующий адаптер и групповую остаточную векторную квантизацию, без необходимости в специализированном аппаратном обеспечении
Достижение экстремально низкой разрядности: Сохранение разумной производительности при коэффициенте сжатия в среднем 1,6 бит на параметр, в то время как скалярная квантизация становится неэффективной ниже 3 бит
Совместимость оборудования: Совместимость с существующими методами квантизации слоёв трансформатора, использующими только 4-битные и 16-битные типы данных
Широкая валидация: Проверка на 7 предварительно обученных моделях различных размеров, охватывающих четыре класса задач: генерация, дискриминация, математика и рассуждение

Подробное описание метода

Определение задачи

Вход: Матрица встраивания предварительно обученной LLM $M \in \mathbb{R}^{V \times n}$ , где $V$ — размер словаря, $n$ — размерность встраивания Выход: Сжатое представление встраивания, включающее таблицу квантизации и корректирующий адаптер Цель: Минимизация ошибки реконструкции при достижении максимального коэффициента сжатия

Архитектура модели

1. Групповая остаточная векторная квантизация (Group RVQ)

Переформирование матрицы: Переформирование матрицы встраивания в $M' \in \mathbb{R}^{nV/h \times h}$ , где $h$ — размерность подвектора
Операция группировки: Разделение $M'$ на $nV/gh$ групп размером $g \times h$
Итеративная квантизация: Применение $L$ итераций RVQ к каждой группе, каждая итерация использует кодовую книгу с $2^κ$ центроидами
Способ хранения: Кодовые книги хранятся с исходной точностью $p$ бит, индексы хранятся с $κ$ битами

2. Корректирующий адаптер (Corrective Adaptor)

Концепция проектирования: Использование стратегии сжатия-расширения для уменьшения количества параметров

Отображение сжатия: $\sigma_0: W \rightarrow \mathbb{R}^m$ , отображение токена в вектор малой размерности ( $m \ll n$ )
Отображение расширения: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , расширение обратно в исходную размерность через многослойный персептрон

Структура MLP: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ где $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

3. Общая структура CARVQ

Стратегия комбинирования: Финальное встраивание = выход Group RVQ + выход корректирующего адаптера Целевая функция обучения: Минимизация ошибки реконструкции L1 $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

Технические инновации

Механизм нелинейной компенсации: Корректирующий адаптер компенсирует ошибку квантизации RVQ через нелинейное отображение
Дружественный к оборудованию дизайн: Использование только 4-битных и 16-битных типов данных, совместимых с существующим оборудованием
Эффективность параметров: Количество параметров корректирующего адаптера значительно меньше, чем RVQ, общий коэффициент сжатия определяется RVQ
Постобучающая характеристика: Не требует переобучения, прямое применение к предварительно обученным моделям

Анализ коэффициента сжатия

Средняя разрядность на параметр: $B_{CARVQ} = B_{CA} + B_{RVQ}$ где: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

Экспериментальная установка

Наборы данных

Задачи генерации: Оценка перплексии WikiText-2
Задачи дискриминации: HellaSwag, WinoGrande, PIQA
Математические задачи: GSM8K
Задачи рассуждения: ARC Challenge, ARC Easy

Метрики оценки

Перплексия (Perplexity): Измерение качества генерации
Точность (Accuracy): Производительность на задачах дискриминации и рассуждения
Средняя разрядность на параметр: Показатель эффективности сжатия
Экономия памяти: Выгода при фактическом развёртывании

Методы сравнения

Скалярная квантизация: Стандартная квантизация INT4, INT3, INT2
Квантизация AWQ: Квантизация весов с учётом активации
Абляционные исследования: CA + скалярная квантизация vs CARVQ

Детали реализации

Гиперпараметры: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
Обучение: Оптимизатор Adam, скорость обучения 1e-3, 500 итераций
Оборудование: RTX 4090, время обучения примерно 2 минуты

Результаты экспериментов

Основные результаты

Производительность на задачах генерации

Метод	Средняя разрядность	Увеличение перплексии
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

Производительность на задачах дискриминации

CARVQ-3: Среднее снижение точности 0,70%
CARVQ-2: Среднее снижение точности 2,75%
INT2: Среднее снижение точности 8,23%

Абляционные исследования

Сравнение RVQ и скалярной квантизации:

CARVQ-2 (1.655 бит): Перплексия WikiText-2 16.34
CA+INT1 (1.155 бит): Перплексия WikiText-2 14528
Доказывает значительное преимущество RVQ над скалярной квантизацией

Проверка совместимости

Комбинирование с AWQ:

LLaMA-3.2-3B: Увеличение перплексии CARVQ-3+AWQ всего 0.95
Qwen2.5-3B: Увеличение перплексии CARVQ-3+AWQ всего 0.30
Доказывает хорошую совместимость с существующими методами квантизации

Экспериментальные находки

Эффект размера модели: Более крупные модели более устойчивы к квантизации слоя встраивания
Чувствительность к задачам: Математические задачи наиболее чувствительны к сжатию, задачи рассуждения относительно устойчивы
Оптимальная конфигурация: CARVQ-3 достигает лучшего баланса между коэффициентом сжатия и производительностью

Связанные работы

Сжатие с сохранением архитектуры

Методы квантизации: AWQ, SmoothQuant и другие методы квантизации с учётом активации
Методы обрезки: Структурированная обрезка, обрезка голов внимания
Преимущество данной работы: Сосредоточение на слое встраивания, ортогональная совместимость с существующими методами

Сжатие с адаптацией архитектуры

LoRA: Адаптация низкого ранга для тонкой настройки
Тензорная декомпозиция: Тензорное обучение и методы декомпозиции
Отличие данной работы: Постобучающее сжатие без необходимости переобучения

Сжатие слоя встраивания

TensorGPT: На основе тензорного обучения и декомпозиции, но линейная природа ограничивает производительность при высоком сжатии
Динамическая обрезка словаря: Требует тонкой настройки, плохая обобщаемость
Вклад данной работы: Первый эффективный метод постобучающего сжатия слоя встраивания

Заключение и обсуждение

Основные выводы

CARVQ достигает среднего коэффициента сжатия 1,6 бит, значительно превосходя нижний предел 3 бит скалярной квантизации
Метод обладает хорошей совместимостью с оборудованием, требуя только поддержку 4-битных и 16-битных типов данных
Ортогональная совместимость с существующими методами квантизации трансформаторов, может быть легко интегрирована

Ограничения

Область применения: Главным образом применим к малым моделям; в больших моделях доля слоя встраивания относительно мала
Вычислительная сложность: Не может быть напрямую применён к слоям трансформатора с непрерывной активацией
Семантическая информация: Может привести к потере тонкозернистой семантической информации, влияя на задачи, зависящие от тонких представлений
Распространение ошибок: Комбинирование с чрезмерно потерьёвым сжатием трансформатора может повлиять на общую робастность

Будущие направления

Расширение применения на модели большего масштаба
Исследование глубокой интеграции с другими методами сжатия
Разработка специализированного аппаратного ускорения для операций поиска в таблице
Изучение методов сжатия, сохраняющих семантическую структуру

Глубокая оценка

Преимущества

Высокая инновационность: Первое объединение корректирующего адаптера с групповой RVQ, решающее проблему сжатия слоя встраивания
Высокая практическая ценность: Ориентирован на реальные потребности развёртывания на граничных устройствах, имеет прямую практическую ценность
Полные эксперименты: Комплексная оценка на 7 моделях и 4 классах задач
Дружественность к инженерии: Хорошая совместимость с оборудованием, легко развёртывается

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокое объяснение того, почему такая комбинация эффективна
Ограниченная область применения: Главным образом для малых моделей; преимущество для больших моделей не очевидно
Неизвестное долгосрочное влияние: Влияние на нижестоящие задачи, такие как тонкая настройка и непрерывное обучение, требует дальнейшего исследования

Влияние

Технический вклад: Предоставляет новый технический путь для развёртывания LLM на граничных устройствах
Промышленная ценность: Имеет важное значение для развёртывания LLM на мобильных устройствах и устройствах IoT
Исследовательское вдохновение: Может стимулировать дальнейшие исследования в области сжатия слоя встраивания и проектирования адаптеров

Применимые сценарии

Граничные вычисления: Мобильные устройства и устройства IoT с ограниченной памятью
Приложения реального времени: Системы диалога, системы рекомендаций, требующие быстрого отклика
Сценарии, чувствительные к стоимости: Приложения, требующие развёртывания LLM на ограниченных аппаратных ресурсах

Библиография

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Общая оценка: Это высококачественная техническая статья, ориентированная на реальные потребности развёртывания. Предложенный метод CARVQ представляет собой важный прорыв в области сжатия слоя встраивания и предоставляет эффективное решение для развёртывания LLM на граничных устройствах. Несмотря на некоторые ограничения, его инновационность, практичность и инженерная ценность делают его важным вкладом в данную область.