2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

基本信息

论文ID: 2510.12721
标题: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
作者: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
机构: LG Electronics USA
分类: cs.LG
发表时间: 2025年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12721v1

摘要

大型语言模型(LLMs)通常依赖大量参数进行token嵌入，导致巨大的存储需求和内存占用。特别是部署在边缘设备上的LLMs受内存限制，通过压缩嵌入层来减少内存占用不仅能释放内存带宽，还能加速推理。为此，本文提出CARVQ，一种后训练的新型校正适配器与分组残差向量量化的结合方法。CARVQ依赖线性和非线性映射的组合，模仿原始模型嵌入，在不需要专用硬件支持低位存储的情况下压缩至约1.6位。该方法在多个预训练LLMs上进行测试，在生成、判别、数学和推理任务上评估，表明CARVQ在保持合理困惑度和准确性的同时，能够实现更低的平均每参数位宽。

研究背景与动机

问题定义

核心问题: 大型语言模型的嵌入层占用大量内存，特别是在边缘设备部署时成为性能瓶颈
实际需求: 在内存受限的边缘设备上高效部署LLMs
技术挑战: 现有量化方法在极低位宽下性能急剧下降，且需要专用硬件支持

问题重要性

内存占比问题: 当transformer层被量化后，嵌入层的相对内存占比显著增加（如LLaMA-3.2-1B的INT4模型中占52.06%）
边缘计算需求: 边缘设备内存通常限制在几GB，节省0.5GB内存可以支持额外2B个4位参数或更长上下文
硬件兼容性: 现有低位量化方法需要专用硬件支持，限制了部署灵活性

现有方法局限性

标量量化: 在2位以下性能急剧下降，且需要特殊硬件支持
量化感知训练(QAT): 需要原始训练数据和大量计算资源重训练
现有嵌入压缩方法: TensorGPT等线性方法在高压缩比下精度损失严重

核心贡献

提出CARVQ方法: 结合校正适配器和分组残差向量量化的新型后训练压缩技术，无需专用硬件支持
实现极低位宽压缩: 在平均1.6位每参数的压缩率下保持合理性能，而标量量化在3位以下失效
硬件兼容性: 与现有transformer层量化方法兼容，仅使用4位和16位数据类型
广泛验证: 在7个不同规模的预训练模型上验证，涵盖生成、判别、数学和推理四类任务

方法详解

任务定义

输入: 预训练LLM的嵌入矩阵 $M \in \mathbb{R}^{V \times n}$ ，其中 $V$ 为词汇表大小， $n$ 为嵌入维度输出: 压缩后的嵌入表示，包括量化查找表和校正适配器目标: 最小化重构误差的同时实现最大压缩比

模型架构

1. 分组残差向量量化(Group RVQ)

矩阵重塑: 将嵌入矩阵重塑为 $M' \in \mathbb{R}^{nV/h \times h}$ ，其中 $h$ 为子向量维度
分组操作: 将 $M'$ 分为 $nV/gh$ 组，每组大小为 $g \times h$
迭代量化: 对每组应用 $L$ 次RVQ，每次使用 $2^κ$ 个质心的码本
存储方式: 码本以原精度 $p$ 位存储，索引以 $κ$ 位存储

2. 校正适配器(Corrective Adaptor)

设计理念: 采用收缩-扩张策略减少参数数量

收缩映射: $\sigma_0: W \rightarrow \mathbb{R}^m$ ，将token映射到小维度向量( $m \ll n$ )
扩张映射: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ ，通过多层感知机扩张回原维度

MLP结构: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ 其中 $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ ， $h_L(x) = W_L \cdot x + b_L$

3. CARVQ整体框架

组合策略: 最终嵌入 = Group RVQ输出 + 校正适配器输出 训练目标: 最小化L1重构误差 $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

技术创新点

非线性补偿机制: 校正适配器通过非线性映射补偿RVQ的量化误差
硬件友好设计: 仅使用4位和16位数据类型，与现有硬件兼容
参数效率: 校正适配器参数量远小于RVQ，总体压缩比由RVQ主导
后训练特性: 无需重训练，直接应用于预训练模型

压缩比分析

平均每参数位宽: $B_{CARVQ} = B_{CA} + B_{RVQ}$ 其中: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

实验设置

数据集

生成任务: WikiText-2困惑度评估
判别任务: HellaSwag, WinoGrande, PIQA
数学任务: GSM8K
推理任务: ARC Challenge, ARC Easy

评价指标

困惑度(Perplexity): 衡量生成质量
准确率(Accuracy): 判别和推理任务性能
平均每参数位宽: 压缩效率指标
内存节省: 实际部署收益

对比方法

标量量化: INT4, INT3, INT2标准量化
AWQ量化: 激活感知权重量化
消融实验: CA+标量量化 vs CARVQ

实现细节

超参数: $[m_1, m_2, m_3] = [16, 384, 512]$ ， $κ=4$ ， $h=8$ ， $g=1024$
训练: Adam优化器，学习率1e-3，500次迭代
硬件: RTX 4090，训练时间约2分钟

实验结果

主要结果

生成任务性能

方法	平均位宽	困惑度增加
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

判别任务性能

CARVQ-3: 平均准确率下降0.70%
CARVQ-2: 平均准确率下降2.75%
INT2: 平均准确率下降8.23%

消融实验

RVQ vs 标量量化对比:

CARVQ-2 (1.655位): WikiText-2困惑度16.34
CA+INT1 (1.155位): WikiText-2困惑度14528
证明了RVQ相比标量量化的显著优势

兼容性验证

与AWQ结合:

LLaMA-3.2-3B: CARVQ-3+AWQ困惑度增加仅0.95
Qwen2.5-3B: CARVQ-3+AWQ困惑度增加仅0.30
证明与现有量化方法的良好兼容性

实验发现

模型规模效应: 更大模型对嵌入层量化更鲁棒
任务敏感性: 数学任务对压缩最敏感，推理任务相对鲁棒
甜点配置: CARVQ-3在压缩比和性能间达到最佳平衡

结论与讨论

主要结论

CARVQ实现了1.6位平均压缩率，显著优于标量量化的3位下限
方法具有良好的硬件兼容性，仅需4位和16位数据类型支持
与现有transformer量化方法正交兼容，可无缝集成

局限性

适用范围: 主要适用于小型模型，大型模型中嵌入层占比相对较小
计算复杂度: 无法直接应用于连续激活的transformer层
语义信息: 可能丢失细粒度语义信息，影响依赖微妙表示的任务
误差传播: 与过度有损的transformer压缩结合可能影响整体鲁棒性

未来方向

扩展到更大规模模型的应用
研究与其他压缩技术的深度集成
开发专用硬件加速查找表操作
探索保持语义结构的压缩方法

深度评价

优点

创新性强: 首次将校正适配器与分组RVQ结合，解决嵌入层压缩难题
实用价值高: 针对边缘设备部署的实际需求，具有直接应用价值
实验充分: 涵盖7个模型、4类任务的全面评估
工程友好: 硬件兼容性好，易于部署

不足

理论分析不足: 缺乏对为什么这种组合有效的深入理论解释
适用场景受限: 主要针对小型模型，对大型模型优势不明显
长期影响未知: 对模型微调、持续学习等下游任务的影响需要进一步研究

影响力

技术贡献: 为LLM边缘部署提供了新的技术路径
产业价值: 对移动设备、IoT设备上的LLM部署具有重要意义
研究启发: 可能催生更多嵌入层压缩和适配器设计的研究

适用场景

边缘计算: 内存受限的移动设备、IoT设备
实时应用: 需要快速响应的对话系统、推荐系统
成本敏感场景: 需要在有限硬件资源下部署LLM的应用

参考文献

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

总体评价: 这是一篇针对实际部署需求的高质量技术论文，提出的CARVQ方法在嵌入层压缩领域具有重要突破，为LLM边缘部署提供了有效解决方案。尽管存在一些局限性，但其创新性、实用性和工程价值使其成为该领域的重要贡献。