2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: Корректирующий адаптер с групповой остаточной векторной квантизацией для сжатия встраивания LLM

Основная информация

  • ID статьи: 2510.12721
  • Название: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • Авторы: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • Учреждение: LG Electronics USA
  • Категория: cs.LG
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.12721v1

Аннотация

Большие языковые модели (LLM) обычно требуют большого количества параметров для встраивания токенов, что приводит к огромным требованиям к хранилищу и потреблению памяти. В частности, LLM, развёрнутые на граничных устройствах, ограничены памятью. Сжатие слоя встраивания не только освобождает пропускную способность памяти, но и ускоряет вывод. В этой работе предлагается CARVQ — новый метод постобучающего сжатия, объединяющий корректирующий адаптер с групповой остаточной векторной квантизацией. CARVQ использует комбинацию линейных и нелинейных отображений для имитации встраивания исходной модели и достигает сжатия примерно до 1,6 бит на параметр без необходимости в специализированном аппаратном обеспечении для хранения с низкой разрядностью. Метод протестирован на нескольких предварительно обученных LLM и оценен на задачах генерации, дискриминации, математики и рассуждения, демонстрируя, что CARVQ достигает более низкой средней разрядности на параметр при сохранении разумной перплексии и точности.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Слой встраивания больших языковых моделей занимает значительный объём памяти, особенно при развёртывании на граничных устройствах, что становится узким местом производительности
  2. Практические требования: Эффективное развёртывание LLM на граничных устройствах с ограниченной памятью
  3. Технические вызовы: Существующие методы квантизации показывают резкое снижение производительности при экстремально низкой разрядности и требуют специализированного аппаратного обеспечения

Важность проблемы

  • Проблема доли памяти: Когда слои трансформатора квантизированы, относительная доля памяти слоя встраивания значительно увеличивается (например, 52,06% в INT4 модели LLaMA-3.2-1B)
  • Потребности граничных вычислений: Память граничных устройств обычно ограничена несколькими ГБ; экономия 0,5 ГБ памяти может поддерживать дополнительные 2 млрд 4-битных параметров или более длинный контекст
  • Совместимость оборудования: Существующие методы квантизации с низкой разрядностью требуют специализированного аппаратного обеспечения, что ограничивает гибкость развёртывания

Ограничения существующих методов

  1. Скалярная квантизация: Производительность резко падает ниже 2 бит и требует специального аппаратного обеспечения
  2. Квантизация с учётом обучения (QAT): Требует исходных данных обучения и значительных вычислительных ресурсов для переобучения
  3. Существующие методы сжатия встраивания: Линейные методы, такие как TensorGPT, показывают серьёзную потерю точности при высоких коэффициентах сжатия

Основные вклады

  1. Предложение метода CARVQ: Новая техника постобучающего сжатия, объединяющая корректирующий адаптер и групповую остаточную векторную квантизацию, без необходимости в специализированном аппаратном обеспечении
  2. Достижение экстремально низкой разрядности: Сохранение разумной производительности при коэффициенте сжатия в среднем 1,6 бит на параметр, в то время как скалярная квантизация становится неэффективной ниже 3 бит
  3. Совместимость оборудования: Совместимость с существующими методами квантизации слоёв трансформатора, использующими только 4-битные и 16-битные типы данных
  4. Широкая валидация: Проверка на 7 предварительно обученных моделях различных размеров, охватывающих четыре класса задач: генерация, дискриминация, математика и рассуждение

Подробное описание метода

Определение задачи

Вход: Матрица встраивания предварительно обученной LLM MRV×nM \in \mathbb{R}^{V \times n}, где VV — размер словаря, nn — размерность встраивания Выход: Сжатое представление встраивания, включающее таблицу квантизации и корректирующий адаптер Цель: Минимизация ошибки реконструкции при достижении максимального коэффициента сжатия

Архитектура модели

1. Групповая остаточная векторная квантизация (Group RVQ)

  • Переформирование матрицы: Переформирование матрицы встраивания в MRnV/h×hM' \in \mathbb{R}^{nV/h \times h}, где hh — размерность подвектора
  • Операция группировки: Разделение MM' на nV/ghnV/gh групп размером g×hg \times h
  • Итеративная квантизация: Применение LL итераций RVQ к каждой группе, каждая итерация использует кодовую книгу с 2κ2^κ центроидами
  • Способ хранения: Кодовые книги хранятся с исходной точностью pp бит, индексы хранятся с κκ битами

2. Корректирующий адаптер (Corrective Adaptor)

Концепция проектирования: Использование стратегии сжатия-расширения для уменьшения количества параметров

  • Отображение сжатия: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m, отображение токена в вектор малой размерности (mnm \ll n)
  • Отображение расширения: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n, расширение обратно в исходную размерность через многослойный персептрон

Структура MLP: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} где hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i), hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. Общая структура CARVQ

Стратегия комбинирования: Финальное встраивание = выход Group RVQ + выход корректирующего адаптера Целевая функция обучения: Минимизация ошибки реконструкции L1 L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

Технические инновации

  1. Механизм нелинейной компенсации: Корректирующий адаптер компенсирует ошибку квантизации RVQ через нелинейное отображение
  2. Дружественный к оборудованию дизайн: Использование только 4-битных и 16-битных типов данных, совместимых с существующим оборудованием
  3. Эффективность параметров: Количество параметров корректирующего адаптера значительно меньше, чем RVQ, общий коэффициент сжатия определяется RVQ
  4. Постобучающая характеристика: Не требует переобучения, прямое применение к предварительно обученным моделям

Анализ коэффициента сжатия

Средняя разрядность на параметр: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} где: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

Экспериментальная установка

Наборы данных

  • Задачи генерации: Оценка перплексии WikiText-2
  • Задачи дискриминации: HellaSwag, WinoGrande, PIQA
  • Математические задачи: GSM8K
  • Задачи рассуждения: ARC Challenge, ARC Easy

Метрики оценки

  • Перплексия (Perplexity): Измерение качества генерации
  • Точность (Accuracy): Производительность на задачах дискриминации и рассуждения
  • Средняя разрядность на параметр: Показатель эффективности сжатия
  • Экономия памяти: Выгода при фактическом развёртывании

Методы сравнения

  • Скалярная квантизация: Стандартная квантизация INT4, INT3, INT2
  • Квантизация AWQ: Квантизация весов с учётом активации
  • Абляционные исследования: CA + скалярная квантизация vs CARVQ

Детали реализации

  • Гиперпараметры: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512], κ=4κ=4, h=8h=8, g=1024g=1024
  • Обучение: Оптимизатор Adam, скорость обучения 1e-3, 500 итераций
  • Оборудование: RTX 4090, время обучения примерно 2 минуты

Результаты экспериментов

Основные результаты

Производительность на задачах генерации

МетодСредняя разрядностьУвеличение перплексии
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

Производительность на задачах дискриминации

  • CARVQ-3: Среднее снижение точности 0,70%
  • CARVQ-2: Среднее снижение точности 2,75%
  • INT2: Среднее снижение точности 8,23%

Абляционные исследования

Сравнение RVQ и скалярной квантизации:

  • CARVQ-2 (1.655 бит): Перплексия WikiText-2 16.34
  • CA+INT1 (1.155 бит): Перплексия WikiText-2 14528
  • Доказывает значительное преимущество RVQ над скалярной квантизацией

Проверка совместимости

Комбинирование с AWQ:

  • LLaMA-3.2-3B: Увеличение перплексии CARVQ-3+AWQ всего 0.95
  • Qwen2.5-3B: Увеличение перплексии CARVQ-3+AWQ всего 0.30
  • Доказывает хорошую совместимость с существующими методами квантизации

Экспериментальные находки

  1. Эффект размера модели: Более крупные модели более устойчивы к квантизации слоя встраивания
  2. Чувствительность к задачам: Математические задачи наиболее чувствительны к сжатию, задачи рассуждения относительно устойчивы
  3. Оптимальная конфигурация: CARVQ-3 достигает лучшего баланса между коэффициентом сжатия и производительностью

Связанные работы

Сжатие с сохранением архитектуры

  • Методы квантизации: AWQ, SmoothQuant и другие методы квантизации с учётом активации
  • Методы обрезки: Структурированная обрезка, обрезка голов внимания
  • Преимущество данной работы: Сосредоточение на слое встраивания, ортогональная совместимость с существующими методами

Сжатие с адаптацией архитектуры

  • LoRA: Адаптация низкого ранга для тонкой настройки
  • Тензорная декомпозиция: Тензорное обучение и методы декомпозиции
  • Отличие данной работы: Постобучающее сжатие без необходимости переобучения

Сжатие слоя встраивания

  • TensorGPT: На основе тензорного обучения и декомпозиции, но линейная природа ограничивает производительность при высоком сжатии
  • Динамическая обрезка словаря: Требует тонкой настройки, плохая обобщаемость
  • Вклад данной работы: Первый эффективный метод постобучающего сжатия слоя встраивания

Заключение и обсуждение

Основные выводы

  1. CARVQ достигает среднего коэффициента сжатия 1,6 бит, значительно превосходя нижний предел 3 бит скалярной квантизации
  2. Метод обладает хорошей совместимостью с оборудованием, требуя только поддержку 4-битных и 16-битных типов данных
  3. Ортогональная совместимость с существующими методами квантизации трансформаторов, может быть легко интегрирована

Ограничения

  1. Область применения: Главным образом применим к малым моделям; в больших моделях доля слоя встраивания относительно мала
  2. Вычислительная сложность: Не может быть напрямую применён к слоям трансформатора с непрерывной активацией
  3. Семантическая информация: Может привести к потере тонкозернистой семантической информации, влияя на задачи, зависящие от тонких представлений
  4. Распространение ошибок: Комбинирование с чрезмерно потерьёвым сжатием трансформатора может повлиять на общую робастность

Будущие направления

  1. Расширение применения на модели большего масштаба
  2. Исследование глубокой интеграции с другими методами сжатия
  3. Разработка специализированного аппаратного ускорения для операций поиска в таблице
  4. Изучение методов сжатия, сохраняющих семантическую структуру

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое объединение корректирующего адаптера с групповой RVQ, решающее проблему сжатия слоя встраивания
  2. Высокая практическая ценность: Ориентирован на реальные потребности развёртывания на граничных устройствах, имеет прямую практическую ценность
  3. Полные эксперименты: Комплексная оценка на 7 моделях и 4 классах задач
  4. Дружественность к инженерии: Хорошая совместимость с оборудованием, легко развёртывается

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует глубокое объяснение того, почему такая комбинация эффективна
  2. Ограниченная область применения: Главным образом для малых моделей; преимущество для больших моделей не очевидно
  3. Неизвестное долгосрочное влияние: Влияние на нижестоящие задачи, такие как тонкая настройка и непрерывное обучение, требует дальнейшего исследования

Влияние

  1. Технический вклад: Предоставляет новый технический путь для развёртывания LLM на граничных устройствах
  2. Промышленная ценность: Имеет важное значение для развёртывания LLM на мобильных устройствах и устройствах IoT
  3. Исследовательское вдохновение: Может стимулировать дальнейшие исследования в области сжатия слоя встраивания и проектирования адаптеров

Применимые сценарии

  1. Граничные вычисления: Мобильные устройства и устройства IoT с ограниченной памятью
  2. Приложения реального времени: Системы диалога, системы рекомендаций, требующие быстрого отклика
  3. Сценарии, чувствительные к стоимости: Приложения, требующие развёртывания LLM на ограниченных аппаратных ресурсах

Библиография

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Общая оценка: Это высококачественная техническая статья, ориентированная на реальные потребности развёртывания. Предложенный метод CARVQ представляет собой важный прорыв в области сжатия слоя встраивания и предоставляет эффективное решение для развёртывания LLM на граничных устройствах. Несмотря на некоторые ограничения, его инновационность, практичность и инженерная ценность делают его важным вкладом в данную область.