Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
- ID статьи: 2510.12721
- Название: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- Авторы: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- Учреждение: LG Electronics USA
- Категория: cs.LG
- Дата публикации: 14 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.12721v1
Большие языковые модели (LLM) обычно требуют большого количества параметров для встраивания токенов, что приводит к огромным требованиям к хранилищу и потреблению памяти. В частности, LLM, развёрнутые на граничных устройствах, ограничены памятью. Сжатие слоя встраивания не только освобождает пропускную способность памяти, но и ускоряет вывод. В этой работе предлагается CARVQ — новый метод постобучающего сжатия, объединяющий корректирующий адаптер с групповой остаточной векторной квантизацией. CARVQ использует комбинацию линейных и нелинейных отображений для имитации встраивания исходной модели и достигает сжатия примерно до 1,6 бит на параметр без необходимости в специализированном аппаратном обеспечении для хранения с низкой разрядностью. Метод протестирован на нескольких предварительно обученных LLM и оценен на задачах генерации, дискриминации, математики и рассуждения, демонстрируя, что CARVQ достигает более низкой средней разрядности на параметр при сохранении разумной перплексии и точности.
- Основная проблема: Слой встраивания больших языковых моделей занимает значительный объём памяти, особенно при развёртывании на граничных устройствах, что становится узким местом производительности
- Практические требования: Эффективное развёртывание LLM на граничных устройствах с ограниченной памятью
- Технические вызовы: Существующие методы квантизации показывают резкое снижение производительности при экстремально низкой разрядности и требуют специализированного аппаратного обеспечения
- Проблема доли памяти: Когда слои трансформатора квантизированы, относительная доля памяти слоя встраивания значительно увеличивается (например, 52,06% в INT4 модели LLaMA-3.2-1B)
- Потребности граничных вычислений: Память граничных устройств обычно ограничена несколькими ГБ; экономия 0,5 ГБ памяти может поддерживать дополнительные 2 млрд 4-битных параметров или более длинный контекст
- Совместимость оборудования: Существующие методы квантизации с низкой разрядностью требуют специализированного аппаратного обеспечения, что ограничивает гибкость развёртывания
- Скалярная квантизация: Производительность резко падает ниже 2 бит и требует специального аппаратного обеспечения
- Квантизация с учётом обучения (QAT): Требует исходных данных обучения и значительных вычислительных ресурсов для переобучения
- Существующие методы сжатия встраивания: Линейные методы, такие как TensorGPT, показывают серьёзную потерю точности при высоких коэффициентах сжатия
- Предложение метода CARVQ: Новая техника постобучающего сжатия, объединяющая корректирующий адаптер и групповую остаточную векторную квантизацию, без необходимости в специализированном аппаратном обеспечении
- Достижение экстремально низкой разрядности: Сохранение разумной производительности при коэффициенте сжатия в среднем 1,6 бит на параметр, в то время как скалярная квантизация становится неэффективной ниже 3 бит
- Совместимость оборудования: Совместимость с существующими методами квантизации слоёв трансформатора, использующими только 4-битные и 16-битные типы данных
- Широкая валидация: Проверка на 7 предварительно обученных моделях различных размеров, охватывающих четыре класса задач: генерация, дискриминация, математика и рассуждение
Вход: Матрица встраивания предварительно обученной LLM M∈RV×n, где V — размер словаря, n — размерность встраивания
Выход: Сжатое представление встраивания, включающее таблицу квантизации и корректирующий адаптер
Цель: Минимизация ошибки реконструкции при достижении максимального коэффициента сжатия
- Переформирование матрицы: Переформирование матрицы встраивания в M′∈RnV/h×h, где h — размерность подвектора
- Операция группировки: Разделение M′ на nV/gh групп размером g×h
- Итеративная квантизация: Применение L итераций RVQ к каждой группе, каждая итерация использует кодовую книгу с 2κ центроидами
- Способ хранения: Кодовые книги хранятся с исходной точностью p бит, индексы хранятся с κ битами
Концепция проектирования: Использование стратегии сжатия-расширения для уменьшения количества параметров
- Отображение сжатия: σ0:W→Rm, отображение токена в вектор малой размерности (m≪n)
- Отображение расширения: σ1:Rm→Rn, расширение обратно в исходную размерность через многослойный персептрон
Структура MLP:
σ1=hL∘hNLk∘⋯∘hNL1
где hNLi(x)=ReLU(Wi⋅x+bi), hL(x)=WL⋅x+bL
Стратегия комбинирования: Финальное встраивание = выход Group RVQ + выход корректирующего адаптера
Целевая функция обучения: Минимизация ошибки реконструкции L1
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- Механизм нелинейной компенсации: Корректирующий адаптер компенсирует ошибку квантизации RVQ через нелинейное отображение
- Дружественный к оборудованию дизайн: Использование только 4-битных и 16-битных типов данных, совместимых с существующим оборудованием
- Эффективность параметров: Количество параметров корректирующего адаптера значительно меньше, чем RVQ, общий коэффициент сжатия определяется RVQ
- Постобучающая характеристика: Не требует переобучения, прямое применение к предварительно обученным моделям
Средняя разрядность на параметр:
BCARVQ=BCA+BRVQ
где:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- Задачи генерации: Оценка перплексии WikiText-2
- Задачи дискриминации: HellaSwag, WinoGrande, PIQA
- Математические задачи: GSM8K
- Задачи рассуждения: ARC Challenge, ARC Easy
- Перплексия (Perplexity): Измерение качества генерации
- Точность (Accuracy): Производительность на задачах дискриминации и рассуждения
- Средняя разрядность на параметр: Показатель эффективности сжатия
- Экономия памяти: Выгода при фактическом развёртывании
- Скалярная квантизация: Стандартная квантизация INT4, INT3, INT2
- Квантизация AWQ: Квантизация весов с учётом активации
- Абляционные исследования: CA + скалярная квантизация vs CARVQ
- Гиперпараметры: [m1,m2,m3]=[16,384,512], κ=4, h=8, g=1024
- Обучение: Оптимизатор Adam, скорость обучения 1e-3, 500 итераций
- Оборудование: RTX 4090, время обучения примерно 2 минуты
| Метод | Средняя разрядность | Увеличение перплексии |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: Среднее снижение точности 0,70%
- CARVQ-2: Среднее снижение точности 2,75%
- INT2: Среднее снижение точности 8,23%
Сравнение RVQ и скалярной квантизации:
- CARVQ-2 (1.655 бит): Перплексия WikiText-2 16.34
- CA+INT1 (1.155 бит): Перплексия WikiText-2 14528
- Доказывает значительное преимущество RVQ над скалярной квантизацией
Комбинирование с AWQ:
- LLaMA-3.2-3B: Увеличение перплексии CARVQ-3+AWQ всего 0.95
- Qwen2.5-3B: Увеличение перплексии CARVQ-3+AWQ всего 0.30
- Доказывает хорошую совместимость с существующими методами квантизации
- Эффект размера модели: Более крупные модели более устойчивы к квантизации слоя встраивания
- Чувствительность к задачам: Математические задачи наиболее чувствительны к сжатию, задачи рассуждения относительно устойчивы
- Оптимальная конфигурация: CARVQ-3 достигает лучшего баланса между коэффициентом сжатия и производительностью
- Методы квантизации: AWQ, SmoothQuant и другие методы квантизации с учётом активации
- Методы обрезки: Структурированная обрезка, обрезка голов внимания
- Преимущество данной работы: Сосредоточение на слое встраивания, ортогональная совместимость с существующими методами
- LoRA: Адаптация низкого ранга для тонкой настройки
- Тензорная декомпозиция: Тензорное обучение и методы декомпозиции
- Отличие данной работы: Постобучающее сжатие без необходимости переобучения
- TensorGPT: На основе тензорного обучения и декомпозиции, но линейная природа ограничивает производительность при высоком сжатии
- Динамическая обрезка словаря: Требует тонкой настройки, плохая обобщаемость
- Вклад данной работы: Первый эффективный метод постобучающего сжатия слоя встраивания
- CARVQ достигает среднего коэффициента сжатия 1,6 бит, значительно превосходя нижний предел 3 бит скалярной квантизации
- Метод обладает хорошей совместимостью с оборудованием, требуя только поддержку 4-битных и 16-битных типов данных
- Ортогональная совместимость с существующими методами квантизации трансформаторов, может быть легко интегрирована
- Область применения: Главным образом применим к малым моделям; в больших моделях доля слоя встраивания относительно мала
- Вычислительная сложность: Не может быть напрямую применён к слоям трансформатора с непрерывной активацией
- Семантическая информация: Может привести к потере тонкозернистой семантической информации, влияя на задачи, зависящие от тонких представлений
- Распространение ошибок: Комбинирование с чрезмерно потерьёвым сжатием трансформатора может повлиять на общую робастность
- Расширение применения на модели большего масштаба
- Исследование глубокой интеграции с другими методами сжатия
- Разработка специализированного аппаратного ускорения для операций поиска в таблице
- Изучение методов сжатия, сохраняющих семантическую структуру
- Высокая инновационность: Первое объединение корректирующего адаптера с групповой RVQ, решающее проблему сжатия слоя встраивания
- Высокая практическая ценность: Ориентирован на реальные потребности развёртывания на граничных устройствах, имеет прямую практическую ценность
- Полные эксперименты: Комплексная оценка на 7 моделях и 4 классах задач
- Дружественность к инженерии: Хорошая совместимость с оборудованием, легко развёртывается
- Недостаточный теоретический анализ: Отсутствует глубокое объяснение того, почему такая комбинация эффективна
- Ограниченная область применения: Главным образом для малых моделей; преимущество для больших моделей не очевидно
- Неизвестное долгосрочное влияние: Влияние на нижестоящие задачи, такие как тонкая настройка и непрерывное обучение, требует дальнейшего исследования
- Технический вклад: Предоставляет новый технический путь для развёртывания LLM на граничных устройствах
- Промышленная ценность: Имеет важное значение для развёртывания LLM на мобильных устройствах и устройствах IoT
- Исследовательское вдохновение: Может стимулировать дальнейшие исследования в области сжатия слоя встраивания и проектирования адаптеров
- Граничные вычисления: Мобильные устройства и устройства IoT с ограниченной памятью
- Приложения реального времени: Системы диалога, системы рекомендаций, требующие быстрого отклика
- Сценарии, чувствительные к стоимости: Приложения, требующие развёртывания LLM на ограниченных аппаратных ресурсах
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
Общая оценка: Это высококачественная техническая статья, ориентированная на реальные потребности развёртывания. Предложенный метод CARVQ представляет собой важный прорыв в области сжатия слоя встраивания и предоставляет эффективное решение для развёртывания LLM на граничных устройствах. Несмотря на некоторые ограничения, его инновационность, практичность и инженерная ценность делают его важным вкладом в данную область.