2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

基本信息

  • 论文ID: 2510.12721
  • 标题: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • 作者: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • 机构: LG Electronics USA
  • 分类: cs.LG
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12721v1

摘要

大型语言模型(LLMs)通常依赖大量参数进行token嵌入,导致巨大的存储需求和内存占用。特别是部署在边缘设备上的LLMs受内存限制,通过压缩嵌入层来减少内存占用不仅能释放内存带宽,还能加速推理。为此,本文提出CARVQ,一种后训练的新型校正适配器与分组残差向量量化的结合方法。CARVQ依赖线性和非线性映射的组合,模仿原始模型嵌入,在不需要专用硬件支持低位存储的情况下压缩至约1.6位。该方法在多个预训练LLMs上进行测试,在生成、判别、数学和推理任务上评估,表明CARVQ在保持合理困惑度和准确性的同时,能够实现更低的平均每参数位宽。

研究背景与动机

问题定义

  1. 核心问题: 大型语言模型的嵌入层占用大量内存,特别是在边缘设备部署时成为性能瓶颈
  2. 实际需求: 在内存受限的边缘设备上高效部署LLMs
  3. 技术挑战: 现有量化方法在极低位宽下性能急剧下降,且需要专用硬件支持

问题重要性

  • 内存占比问题: 当transformer层被量化后,嵌入层的相对内存占比显著增加(如LLaMA-3.2-1B的INT4模型中占52.06%)
  • 边缘计算需求: 边缘设备内存通常限制在几GB,节省0.5GB内存可以支持额外2B个4位参数或更长上下文
  • 硬件兼容性: 现有低位量化方法需要专用硬件支持,限制了部署灵活性

现有方法局限性

  1. 标量量化: 在2位以下性能急剧下降,且需要特殊硬件支持
  2. 量化感知训练(QAT): 需要原始训练数据和大量计算资源重训练
  3. 现有嵌入压缩方法: TensorGPT等线性方法在高压缩比下精度损失严重

核心贡献

  1. 提出CARVQ方法: 结合校正适配器和分组残差向量量化的新型后训练压缩技术,无需专用硬件支持
  2. 实现极低位宽压缩: 在平均1.6位每参数的压缩率下保持合理性能,而标量量化在3位以下失效
  3. 硬件兼容性: 与现有transformer层量化方法兼容,仅使用4位和16位数据类型
  4. 广泛验证: 在7个不同规模的预训练模型上验证,涵盖生成、判别、数学和推理四类任务

方法详解

任务定义

输入: 预训练LLM的嵌入矩阵 MRV×nM \in \mathbb{R}^{V \times n},其中VV为词汇表大小,nn为嵌入维度 输出: 压缩后的嵌入表示,包括量化查找表和校正适配器 目标: 最小化重构误差的同时实现最大压缩比

模型架构

1. 分组残差向量量化(Group RVQ)

  • 矩阵重塑: 将嵌入矩阵重塑为MRnV/h×hM' \in \mathbb{R}^{nV/h \times h},其中hh为子向量维度
  • 分组操作: 将MM'分为nV/ghnV/gh组,每组大小为g×hg \times h
  • 迭代量化: 对每组应用LL次RVQ,每次使用2κ2^κ个质心的码本
  • 存储方式: 码本以原精度pp位存储,索引以κκ位存储

2. 校正适配器(Corrective Adaptor)

设计理念: 采用收缩-扩张策略减少参数数量

  • 收缩映射: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m,将token映射到小维度向量(mnm \ll n)
  • 扩张映射: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n,通过多层感知机扩张回原维度

MLP结构: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} 其中hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. CARVQ整体框架

组合策略: 最终嵌入 = Group RVQ输出 + 校正适配器输出 训练目标: 最小化L1重构误差 L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

技术创新点

  1. 非线性补偿机制: 校正适配器通过非线性映射补偿RVQ的量化误差
  2. 硬件友好设计: 仅使用4位和16位数据类型,与现有硬件兼容
  3. 参数效率: 校正适配器参数量远小于RVQ,总体压缩比由RVQ主导
  4. 后训练特性: 无需重训练,直接应用于预训练模型

压缩比分析

平均每参数位宽: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} 其中: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

实验设置

数据集

  • 生成任务: WikiText-2困惑度评估
  • 判别任务: HellaSwag, WinoGrande, PIQA
  • 数学任务: GSM8K
  • 推理任务: ARC Challenge, ARC Easy

评价指标

  • 困惑度(Perplexity): 衡量生成质量
  • 准确率(Accuracy): 判别和推理任务性能
  • 平均每参数位宽: 压缩效率指标
  • 内存节省: 实际部署收益

对比方法

  • 标量量化: INT4, INT3, INT2标准量化
  • AWQ量化: 激活感知权重量化
  • 消融实验: CA+标量量化 vs CARVQ

实现细节

  • 超参数: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512]κ=4κ=4h=8h=8g=1024g=1024
  • 训练: Adam优化器,学习率1e-3,500次迭代
  • 硬件: RTX 4090,训练时间约2分钟

实验结果

主要结果

生成任务性能

方法平均位宽困惑度增加
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

判别任务性能

  • CARVQ-3: 平均准确率下降0.70%
  • CARVQ-2: 平均准确率下降2.75%
  • INT2: 平均准确率下降8.23%

消融实验

RVQ vs 标量量化对比:

  • CARVQ-2 (1.655位): WikiText-2困惑度16.34
  • CA+INT1 (1.155位): WikiText-2困惑度14528
  • 证明了RVQ相比标量量化的显著优势

兼容性验证

与AWQ结合:

  • LLaMA-3.2-3B: CARVQ-3+AWQ困惑度增加仅0.95
  • Qwen2.5-3B: CARVQ-3+AWQ困惑度增加仅0.30
  • 证明与现有量化方法的良好兼容性

实验发现

  1. 模型规模效应: 更大模型对嵌入层量化更鲁棒
  2. 任务敏感性: 数学任务对压缩最敏感,推理任务相对鲁棒
  3. 甜点配置: CARVQ-3在压缩比和性能间达到最佳平衡

相关工作

架构保持压缩

  • 量化方法: AWQ、SmoothQuant等激活感知量化
  • 剪枝方法: 结构化剪枝、注意力头剪枝
  • 本文优势: 专注嵌入层,与现有方法正交兼容

架构自适应压缩

  • LoRA: 低秩适配用于微调
  • 张量分解: 张量训练分解等方法
  • 本文区别: 后训练压缩,无需重训练

嵌入层压缩

  • TensorGPT: 基于张量训练分解,但线性特性限制高压缩性能
  • 动态词汇剪枝: 需要微调,泛化性差
  • 本文贡献: 首个高效的嵌入层后训练压缩方法

结论与讨论

主要结论

  1. CARVQ实现了1.6位平均压缩率,显著优于标量量化的3位下限
  2. 方法具有良好的硬件兼容性,仅需4位和16位数据类型支持
  3. 与现有transformer量化方法正交兼容,可无缝集成

局限性

  1. 适用范围: 主要适用于小型模型,大型模型中嵌入层占比相对较小
  2. 计算复杂度: 无法直接应用于连续激活的transformer层
  3. 语义信息: 可能丢失细粒度语义信息,影响依赖微妙表示的任务
  4. 误差传播: 与过度有损的transformer压缩结合可能影响整体鲁棒性

未来方向

  1. 扩展到更大规模模型的应用
  2. 研究与其他压缩技术的深度集成
  3. 开发专用硬件加速查找表操作
  4. 探索保持语义结构的压缩方法

深度评价

优点

  1. 创新性强: 首次将校正适配器与分组RVQ结合,解决嵌入层压缩难题
  2. 实用价值高: 针对边缘设备部署的实际需求,具有直接应用价值
  3. 实验充分: 涵盖7个模型、4类任务的全面评估
  4. 工程友好: 硬件兼容性好,易于部署

不足

  1. 理论分析不足: 缺乏对为什么这种组合有效的深入理论解释
  2. 适用场景受限: 主要针对小型模型,对大型模型优势不明显
  3. 长期影响未知: 对模型微调、持续学习等下游任务的影响需要进一步研究

影响力

  1. 技术贡献: 为LLM边缘部署提供了新的技术路径
  2. 产业价值: 对移动设备、IoT设备上的LLM部署具有重要意义
  3. 研究启发: 可能催生更多嵌入层压缩和适配器设计的研究

适用场景

  1. 边缘计算: 内存受限的移动设备、IoT设备
  2. 实时应用: 需要快速响应的对话系统、推荐系统
  3. 成本敏感场景: 需要在有限硬件资源下部署LLM的应用

参考文献

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

总体评价: 这是一篇针对实际部署需求的高质量技术论文,提出的CARVQ方法在嵌入层压缩领域具有重要突破,为LLM边缘部署提供了有效解决方案。尽管存在一些局限性,但其创新性、实用性和工程价值使其成为该领域的重要贡献。