Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic- 论文ID: 2510.12721
- 标题: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- 作者: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- 机构: LG Electronics USA
- 分类: cs.LG
- 发表时间: 2025年10月14日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.12721v1
大型语言模型(LLMs)通常依赖大量参数进行token嵌入,导致巨大的存储需求和内存占用。特别是部署在边缘设备上的LLMs受内存限制,通过压缩嵌入层来减少内存占用不仅能释放内存带宽,还能加速推理。为此,本文提出CARVQ,一种后训练的新型校正适配器与分组残差向量量化的结合方法。CARVQ依赖线性和非线性映射的组合,模仿原始模型嵌入,在不需要专用硬件支持低位存储的情况下压缩至约1.6位。该方法在多个预训练LLMs上进行测试,在生成、判别、数学和推理任务上评估,表明CARVQ在保持合理困惑度和准确性的同时,能够实现更低的平均每参数位宽。
- 核心问题: 大型语言模型的嵌入层占用大量内存,特别是在边缘设备部署时成为性能瓶颈
- 实际需求: 在内存受限的边缘设备上高效部署LLMs
- 技术挑战: 现有量化方法在极低位宽下性能急剧下降,且需要专用硬件支持
- 内存占比问题: 当transformer层被量化后,嵌入层的相对内存占比显著增加(如LLaMA-3.2-1B的INT4模型中占52.06%)
- 边缘计算需求: 边缘设备内存通常限制在几GB,节省0.5GB内存可以支持额外2B个4位参数或更长上下文
- 硬件兼容性: 现有低位量化方法需要专用硬件支持,限制了部署灵活性
- 标量量化: 在2位以下性能急剧下降,且需要特殊硬件支持
- 量化感知训练(QAT): 需要原始训练数据和大量计算资源重训练
- 现有嵌入压缩方法: TensorGPT等线性方法在高压缩比下精度损失严重
- 提出CARVQ方法: 结合校正适配器和分组残差向量量化的新型后训练压缩技术,无需专用硬件支持
- 实现极低位宽压缩: 在平均1.6位每参数的压缩率下保持合理性能,而标量量化在3位以下失效
- 硬件兼容性: 与现有transformer层量化方法兼容,仅使用4位和16位数据类型
- 广泛验证: 在7个不同规模的预训练模型上验证,涵盖生成、判别、数学和推理四类任务
输入: 预训练LLM的嵌入矩阵 M∈RV×n,其中V为词汇表大小,n为嵌入维度
输出: 压缩后的嵌入表示,包括量化查找表和校正适配器
目标: 最小化重构误差的同时实现最大压缩比
- 矩阵重塑: 将嵌入矩阵重塑为M′∈RnV/h×h,其中h为子向量维度
- 分组操作: 将M′分为nV/gh组,每组大小为g×h
- 迭代量化: 对每组应用L次RVQ,每次使用2κ个质心的码本
- 存储方式: 码本以原精度p位存储,索引以κ位存储
设计理念: 采用收缩-扩张策略减少参数数量
- 收缩映射: σ0:W→Rm,将token映射到小维度向量(m≪n)
- 扩张映射: σ1:Rm→Rn,通过多层感知机扩张回原维度
MLP结构:
σ1=hL∘hNLk∘⋯∘hNL1
其中hNLi(x)=ReLU(Wi⋅x+bi),hL(x)=WL⋅x+bL
组合策略: 最终嵌入 = Group RVQ输出 + 校正适配器输出
训练目标: 最小化L1重构误差
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- 非线性补偿机制: 校正适配器通过非线性映射补偿RVQ的量化误差
- 硬件友好设计: 仅使用4位和16位数据类型,与现有硬件兼容
- 参数效率: 校正适配器参数量远小于RVQ,总体压缩比由RVQ主导
- 后训练特性: 无需重训练,直接应用于预训练模型
平均每参数位宽:
BCARVQ=BCA+BRVQ
其中:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- 生成任务: WikiText-2困惑度评估
- 判别任务: HellaSwag, WinoGrande, PIQA
- 数学任务: GSM8K
- 推理任务: ARC Challenge, ARC Easy
- 困惑度(Perplexity): 衡量生成质量
- 准确率(Accuracy): 判别和推理任务性能
- 平均每参数位宽: 压缩效率指标
- 内存节省: 实际部署收益
- 标量量化: INT4, INT3, INT2标准量化
- AWQ量化: 激活感知权重量化
- 消融实验: CA+标量量化 vs CARVQ
- 超参数: [m1,m2,m3]=[16,384,512],κ=4,h=8,g=1024
- 训练: Adam优化器,学习率1e-3,500次迭代
- 硬件: RTX 4090,训练时间约2分钟
| 方法 | 平均位宽 | 困惑度增加 |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: 平均准确率下降0.70%
- CARVQ-2: 平均准确率下降2.75%
- INT2: 平均准确率下降8.23%
RVQ vs 标量量化对比:
- CARVQ-2 (1.655位): WikiText-2困惑度16.34
- CA+INT1 (1.155位): WikiText-2困惑度14528
- 证明了RVQ相比标量量化的显著优势
与AWQ结合:
- LLaMA-3.2-3B: CARVQ-3+AWQ困惑度增加仅0.95
- Qwen2.5-3B: CARVQ-3+AWQ困惑度增加仅0.30
- 证明与现有量化方法的良好兼容性
- 模型规模效应: 更大模型对嵌入层量化更鲁棒
- 任务敏感性: 数学任务对压缩最敏感,推理任务相对鲁棒
- 甜点配置: CARVQ-3在压缩比和性能间达到最佳平衡
- 量化方法: AWQ、SmoothQuant等激活感知量化
- 剪枝方法: 结构化剪枝、注意力头剪枝
- 本文优势: 专注嵌入层,与现有方法正交兼容
- LoRA: 低秩适配用于微调
- 张量分解: 张量训练分解等方法
- 本文区别: 后训练压缩,无需重训练
- TensorGPT: 基于张量训练分解,但线性特性限制高压缩性能
- 动态词汇剪枝: 需要微调,泛化性差
- 本文贡献: 首个高效的嵌入层后训练压缩方法
- CARVQ实现了1.6位平均压缩率,显著优于标量量化的3位下限
- 方法具有良好的硬件兼容性,仅需4位和16位数据类型支持
- 与现有transformer量化方法正交兼容,可无缝集成
- 适用范围: 主要适用于小型模型,大型模型中嵌入层占比相对较小
- 计算复杂度: 无法直接应用于连续激活的transformer层
- 语义信息: 可能丢失细粒度语义信息,影响依赖微妙表示的任务
- 误差传播: 与过度有损的transformer压缩结合可能影响整体鲁棒性
- 扩展到更大规模模型的应用
- 研究与其他压缩技术的深度集成
- 开发专用硬件加速查找表操作
- 探索保持语义结构的压缩方法
- 创新性强: 首次将校正适配器与分组RVQ结合,解决嵌入层压缩难题
- 实用价值高: 针对边缘设备部署的实际需求,具有直接应用价值
- 实验充分: 涵盖7个模型、4类任务的全面评估
- 工程友好: 硬件兼容性好,易于部署
- 理论分析不足: 缺乏对为什么这种组合有效的深入理论解释
- 适用场景受限: 主要针对小型模型,对大型模型优势不明显
- 长期影响未知: 对模型微调、持续学习等下游任务的影响需要进一步研究
- 技术贡献: 为LLM边缘部署提供了新的技术路径
- 产业价值: 对移动设备、IoT设备上的LLM部署具有重要意义
- 研究启发: 可能催生更多嵌入层压缩和适配器设计的研究
- 边缘计算: 内存受限的移动设备、IoT设备
- 实时应用: 需要快速响应的对话系统、推荐系统
- 成本敏感场景: 需要在有限硬件资源下部署LLM的应用
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
总体评价: 这是一篇针对实际部署需求的高质量技术论文,提出的CARVQ方法在嵌入层压缩领域具有重要突破,为LLM边缘部署提供了有效解决方案。尽管存在一些局限性,但其创新性、实用性和工程价值使其成为该领域的重要贡献。