Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic- 論文ID: 2510.12721
- タイトル: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- 著者: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- 所属機関: LG Electronics USA
- 分類: cs.LG
- 発表日: 2025年10月14日 (arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2510.12721v1
大規模言語モデル(LLMs)は通常、トークン埋め込みに大量のパラメータを必要とするため、膨大なストレージ要件とメモリ消費をもたらします。特にエッジデバイスに展開されるLLMはメモリ制限の影響を受けており、埋め込み層を圧縮してメモリ占有率を削減することは、メモリ帯域幅を解放し推論を加速させます。本論文では、後訓練型の新しい修正アダプタとグループ残差ベクトル量化を組み合わせた手法であるCARVQを提案します。CARVQは線形および非線形マッピングの組み合わせに依存して元のモデル埋め込みを模倣し、専用ハードウェアサポートなしで約1.6ビットまで圧縮します。本手法は複数の事前学習済みLLMで検証され、生成、判別、数学、推論タスクで評価され、CARVQが合理的な困惑度と精度を維持しながら、より低い平均パラメータあたりビット幅を実現できることを示しています。
- 中核的問題: 大規模言語モデルの埋め込み層は大量のメモリを占有し、特にエッジデバイス展開時にパフォーマンスのボトルネックとなります
- 実際の需要: メモリ制限のあるエッジデバイス上でのLLMの効率的な展開
- 技術的課題: 既存の量化手法は極めて低いビット幅では性能が急激に低下し、専用ハードウェアサポートが必要です
- メモリ占有率の問題: トランスフォーマー層が量化された場合、埋め込み層の相対的なメモリ占有率が大幅に増加します(例えば、LLaMA-3.2-1BのINT4モデルでは52.06%)
- エッジコンピューティング需要: エッジデバイスのメモリは通常数GBに制限されており、0.5GBのメモリ節約により、追加の2B個の4ビットパラメータまたはより長いコンテキストをサポートできます
- ハードウェア互換性: 既存の低ビット量化手法は専用ハードウェアサポートが必要であり、展開の柔軟性を制限します
- スカラー量化: 2ビット以下では性能が急激に低下し、特殊なハードウェアサポートが必要です
- 量化認識訓練(QAT): 元の訓練データと大量の計算リソースが必要です
- 既存の埋め込み圧縮手法: TensorGPTなどの線形手法は高圧縮率で精度損失が深刻です
- CARVQ手法の提案: 修正アダプタとグループ残差ベクトル量化を組み合わせた新しい後訓練圧縮技術で、専用ハードウェアサポートが不要です
- 極めて低いビット幅圧縮の実現: パラメータあたり平均1.6ビットの圧縮率で合理的なパフォーマンスを維持し、スカラー量化は3ビット以下で失効します
- ハードウェア互換性: 既存のトランスフォーマー層量化手法と互換性があり、4ビットと16ビットのデータ型のみを使用します
- 広範な検証: 7つの異なるスケールの事前学習済みモデルで検証され、生成、判別、数学、推論の4つのタスクカテゴリをカバーしています
入力: 事前学習済みLLMの埋め込み行列 M∈RV×n、ここでVは語彙サイズ、nは埋め込み次元です
出力: 量化ルックアップテーブルと修正アダプタを含む圧縮埋め込み表現
目標: 再構成誤差を最小化しながら最大圧縮率を実現します
- 行列再形成: 埋め込み行列をM′∈RnV/h×hに再形成します。ここでhは部分ベクトル次元です
- グループ化操作: M′をnV/ghグループに分割し、各グループサイズはg×hです
- 反復量化: 各グループにL回のRVQを適用し、毎回2κ個の重心を持つコードブックを使用します
- 保存方式: コードブックは元の精度pビットで保存され、インデックスはκビットで保存されます
設計理念: パラメータ数を削減するための収縮-拡張戦略を採用します
- 収縮マッピング: σ0:W→Rm、トークンを小さい次元ベクトルにマッピングします(m≪n)
- 拡張マッピング: σ1:Rm→Rn、多層パーセプトロンを通じて元の次元に拡張します
MLP構造:
σ1=hL∘hNLk∘⋯∘hNL1
ここでhNLi(x)=ReLU(Wi⋅x+bi)、hL(x)=WL⋅x+bL
組み合わせ戦略: 最終埋め込み = Group RVQ出力 + 修正アダプタ出力
訓練目標: L1再構成誤差を最小化します
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- 非線形補償メカニズム: 修正アダプタは非線形マッピングを通じてRVQの量化誤差を補償します
- ハードウェアフレンドリー設計: 4ビットと16ビットのデータ型のみを使用し、既存のハードウェアと互換性があります
- パラメータ効率: 修正アダプタのパラメータ数はRVQより大幅に少なく、全体的な圧縮率はRVQが主導します
- 後訓練特性: 再訓練が不要で、事前学習済みモデルに直接適用できます
パラメータあたり平均ビット幅:
BCARVQ=BCA+BRVQ
ここで:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- 生成タスク: WikiText-2困惑度評価
- 判別タスク: HellaSwag、WinoGrande、PIQA
- 数学タスク: GSM8K
- 推論タスク: ARC Challenge、ARC Easy
- 困惑度(Perplexity): 生成品質を測定します
- 精度(Accuracy): 判別および推論タスクのパフォーマンス
- パラメータあたり平均ビット幅: 圧縮効率指標
- メモリ節約: 実際の展開利益
- スカラー量化: INT4、INT3、INT2標準量化
- AWQ量化: 活性化認識重み量化
- アブレーション実験: CA+スカラー量化 vs CARVQ
- ハイパーパラメータ: [m1,m2,m3]=[16,384,512]、κ=4、h=8、g=1024
- 訓練: Adam最適化器、学習率1e-3、500イテレーション
- ハードウェア: RTX 4090、訓練時間約2分
| 手法 | 平均ビット幅 | 困惑度増加 |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: 平均精度低下0.70%
- CARVQ-2: 平均精度低下2.75%
- INT2: 平均精度低下8.23%
RVQ vs スカラー量化の比較:
- CARVQ-2 (1.655ビット): WikiText-2困惑度16.34
- CA+INT1 (1.155ビット): WikiText-2困惑度14528
- RVQがスカラー量化に比べて顕著な優位性があることを証明しています
AWQとの組み合わせ:
- LLaMA-3.2-3B: CARVQ-3+AWQ困惑度増加はわずか0.95
- Qwen2.5-3B: CARVQ-3+AWQ困惑度増加はわずか0.30
- 既存の量化手法との良好な互換性を証明しています
- モデルスケール効果: より大きなモデルは埋め込み層の量化に対してより堅牢です
- タスク感度: 数学タスクは圧縮に最も敏感で、推論タスクは相対的に堅牢です
- 最適な設定: CARVQ-3は圧縮率とパフォーマンスの間で最適なバランスを達成しています
- 量化手法: AWQ、SmoothQuantなどの活性化認識量化
- 剪定手法: 構造化剪定、注意ヘッド剪定
- 本論文の優位性: 埋め込み層に焦点を当て、既存手法と直交互換です
- LoRA: 微調整用の低ランク適応
- テンソル分解: テンソル訓練分解などの手法
- 本論文の相違点: 後訓練圧縮で、再訓練が不要です
- TensorGPT: テンソル訓練分解に基づきますが、線形特性が高圧縮性能を制限します
- 動的語彙剪定: 微調整が必要で、汎化性が低いです
- 本論文の貢献: 埋め込み層の最初の効率的な後訓練圧縮手法です
- CARVQは1.6ビット平均圧縮率を実現し、スカラー量化の3ビット下限を大幅に上回ります
- 手法は良好なハードウェア互換性を持ち、4ビットと16ビットのデータ型サポートのみが必要です
- 既存のトランスフォーマー量化手法と直交互換で、シームレスに統合できます
- 適用範囲: 主に小規模モデルに適用でき、大規模モデルでは埋め込み層の占有率が相対的に小さいです
- 計算複雑性: 連続活性化のトランスフォーマー層に直接適用できません
- 意味情報: 細粒度の意味情報が失われる可能性があり、微妙な表現に依存するタスクに影響します
- 誤差伝播: 過度に損失のあるトランスフォーマー圧縮と組み合わせると、全体的な堅牢性に影響する可能性があります
- より大規模モデルへの応用の拡張
- 他の圧縮技術との深い統合の研究
- ルックアップテーブル操作を加速する専用ハードウェアの開発
- 意味構造を保持する圧縮手法の探索
- 革新性が高い: 修正アダプタとグループRVQを初めて組み合わせ、埋め込み層圧縮の難題を解決しています
- 実用価値が高い: エッジデバイス展開の実際の需要に対応し、直接的な応用価値があります
- 実験が充分: 7つのモデル、4つのタスクカテゴリにわたる包括的な評価を含みます
- エンジニアリングフレンドリー: ハードウェア互換性が良く、展開が容易です
- 理論分析が不足: この組み合わせが有効である理由についての深い理論的説明が不足しています
- 適用シーンが限定: 主に小規模モデルを対象とし、大規模モデルでは利点が明らかではありません
- 長期的影響が未知: モデル微調整、継続学習などの下流タスクへの影響をさらに研究する必要があります
- 技術的貢献: LLMのエッジ展開に新しい技術パスを提供しています
- 産業価値: モバイルデバイス、IoTデバイス上のLLM展開に重要な意義があります
- 研究への示唆: 埋め込み層圧縮とアダプタ設計に関するさらなる研究を触発する可能性があります
- エッジコンピューティング: メモリが制限されたモバイルデバイス、IoTデバイス
- リアルタイムアプリケーション: 迅速な応答が必要な対話システム、推奨システム
- コスト敏感なシーン: 限定されたハードウェアリソースでLLMを展開する必要があるアプリケーション
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
総合評価: これは実際の展開ニーズに対応した高品質な技術論文です。提案されたCARVQ手法は埋め込み層圧縮分野で重要なブレークスルーを達成し、LLMのエッジ展開に対して有効なソリューションを提供しています。いくつかの限界がありますが、その革新性、実用性、エンジニアリング価値により、この分野における重要な貢献となっています。