2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: 大規模言語モデルの埋め込み圧縮のための修正アダプタとグループ残差ベクトル量化

基本情報

  • 論文ID: 2510.12721
  • タイトル: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • 著者: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • 所属機関: LG Electronics USA
  • 分類: cs.LG
  • 発表日: 2025年10月14日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.12721v1

要約

大規模言語モデル(LLMs)は通常、トークン埋め込みに大量のパラメータを必要とするため、膨大なストレージ要件とメモリ消費をもたらします。特にエッジデバイスに展開されるLLMはメモリ制限の影響を受けており、埋め込み層を圧縮してメモリ占有率を削減することは、メモリ帯域幅を解放し推論を加速させます。本論文では、後訓練型の新しい修正アダプタとグループ残差ベクトル量化を組み合わせた手法であるCARVQを提案します。CARVQは線形および非線形マッピングの組み合わせに依存して元のモデル埋め込みを模倣し、専用ハードウェアサポートなしで約1.6ビットまで圧縮します。本手法は複数の事前学習済みLLMで検証され、生成、判別、数学、推論タスクで評価され、CARVQが合理的な困惑度と精度を維持しながら、より低い平均パラメータあたりビット幅を実現できることを示しています。

研究背景と動機

問題定義

  1. 中核的問題: 大規模言語モデルの埋め込み層は大量のメモリを占有し、特にエッジデバイス展開時にパフォーマンスのボトルネックとなります
  2. 実際の需要: メモリ制限のあるエッジデバイス上でのLLMの効率的な展開
  3. 技術的課題: 既存の量化手法は極めて低いビット幅では性能が急激に低下し、専用ハードウェアサポートが必要です

問題の重要性

  • メモリ占有率の問題: トランスフォーマー層が量化された場合、埋め込み層の相対的なメモリ占有率が大幅に増加します(例えば、LLaMA-3.2-1BのINT4モデルでは52.06%)
  • エッジコンピューティング需要: エッジデバイスのメモリは通常数GBに制限されており、0.5GBのメモリ節約により、追加の2B個の4ビットパラメータまたはより長いコンテキストをサポートできます
  • ハードウェア互換性: 既存の低ビット量化手法は専用ハードウェアサポートが必要であり、展開の柔軟性を制限します

既存手法の限界

  1. スカラー量化: 2ビット以下では性能が急激に低下し、特殊なハードウェアサポートが必要です
  2. 量化認識訓練(QAT): 元の訓練データと大量の計算リソースが必要です
  3. 既存の埋め込み圧縮手法: TensorGPTなどの線形手法は高圧縮率で精度損失が深刻です

中核的貢献

  1. CARVQ手法の提案: 修正アダプタとグループ残差ベクトル量化を組み合わせた新しい後訓練圧縮技術で、専用ハードウェアサポートが不要です
  2. 極めて低いビット幅圧縮の実現: パラメータあたり平均1.6ビットの圧縮率で合理的なパフォーマンスを維持し、スカラー量化は3ビット以下で失効します
  3. ハードウェア互換性: 既存のトランスフォーマー層量化手法と互換性があり、4ビットと16ビットのデータ型のみを使用します
  4. 広範な検証: 7つの異なるスケールの事前学習済みモデルで検証され、生成、判別、数学、推論の4つのタスクカテゴリをカバーしています

手法の詳細

タスク定義

入力: 事前学習済みLLMの埋め込み行列 MRV×nM \in \mathbb{R}^{V \times n}、ここでVVは語彙サイズ、nnは埋め込み次元です 出力: 量化ルックアップテーブルと修正アダプタを含む圧縮埋め込み表現 目標: 再構成誤差を最小化しながら最大圧縮率を実現します

モデルアーキテクチャ

1. グループ残差ベクトル量化(Group RVQ)

  • 行列再形成: 埋め込み行列をMRnV/h×hM' \in \mathbb{R}^{nV/h \times h}に再形成します。ここでhhは部分ベクトル次元です
  • グループ化操作: MM'nV/ghnV/ghグループに分割し、各グループサイズはg×hg \times hです
  • 反復量化: 各グループにLL回のRVQを適用し、毎回2κ2^κ個の重心を持つコードブックを使用します
  • 保存方式: コードブックは元の精度ppビットで保存され、インデックスはκκビットで保存されます

2. 修正アダプタ(Corrective Adaptor)

設計理念: パラメータ数を削減するための収縮-拡張戦略を採用します

  • 収縮マッピング: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m、トークンを小さい次元ベクトルにマッピングします(mnm \ll n)
  • 拡張マッピング: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n、多層パーセプトロンを通じて元の次元に拡張します

MLP構造: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} ここでhNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. CARVQ全体フレームワーク

組み合わせ戦略: 最終埋め込み = Group RVQ出力 + 修正アダプタ出力 訓練目標: L1再構成誤差を最小化します L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

技術的革新点

  1. 非線形補償メカニズム: 修正アダプタは非線形マッピングを通じてRVQの量化誤差を補償します
  2. ハードウェアフレンドリー設計: 4ビットと16ビットのデータ型のみを使用し、既存のハードウェアと互換性があります
  3. パラメータ効率: 修正アダプタのパラメータ数はRVQより大幅に少なく、全体的な圧縮率はRVQが主導します
  4. 後訓練特性: 再訓練が不要で、事前学習済みモデルに直接適用できます

圧縮率分析

パラメータあたり平均ビット幅: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} ここで: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

実験設定

データセット

  • 生成タスク: WikiText-2困惑度評価
  • 判別タスク: HellaSwag、WinoGrande、PIQA
  • 数学タスク: GSM8K
  • 推論タスク: ARC Challenge、ARC Easy

評価指標

  • 困惑度(Perplexity): 生成品質を測定します
  • 精度(Accuracy): 判別および推論タスクのパフォーマンス
  • パラメータあたり平均ビット幅: 圧縮効率指標
  • メモリ節約: 実際の展開利益

比較手法

  • スカラー量化: INT4、INT3、INT2標準量化
  • AWQ量化: 活性化認識重み量化
  • アブレーション実験: CA+スカラー量化 vs CARVQ

実装詳細

  • ハイパーパラメータ: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512]κ=4κ=4h=8h=8g=1024g=1024
  • 訓練: Adam最適化器、学習率1e-3、500イテレーション
  • ハードウェア: RTX 4090、訓練時間約2分

実験結果

主要結果

生成タスクのパフォーマンス

手法平均ビット幅困惑度増加
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

判別タスクのパフォーマンス

  • CARVQ-3: 平均精度低下0.70%
  • CARVQ-2: 平均精度低下2.75%
  • INT2: 平均精度低下8.23%

アブレーション実験

RVQ vs スカラー量化の比較:

  • CARVQ-2 (1.655ビット): WikiText-2困惑度16.34
  • CA+INT1 (1.155ビット): WikiText-2困惑度14528
  • RVQがスカラー量化に比べて顕著な優位性があることを証明しています

互換性検証

AWQとの組み合わせ:

  • LLaMA-3.2-3B: CARVQ-3+AWQ困惑度増加はわずか0.95
  • Qwen2.5-3B: CARVQ-3+AWQ困惑度増加はわずか0.30
  • 既存の量化手法との良好な互換性を証明しています

実験的発見

  1. モデルスケール効果: より大きなモデルは埋め込み層の量化に対してより堅牢です
  2. タスク感度: 数学タスクは圧縮に最も敏感で、推論タスクは相対的に堅牢です
  3. 最適な設定: CARVQ-3は圧縮率とパフォーマンスの間で最適なバランスを達成しています

関連研究

アーキテクチャ保持圧縮

  • 量化手法: AWQ、SmoothQuantなどの活性化認識量化
  • 剪定手法: 構造化剪定、注意ヘッド剪定
  • 本論文の優位性: 埋め込み層に焦点を当て、既存手法と直交互換です

アーキテクチャ適応圧縮

  • LoRA: 微調整用の低ランク適応
  • テンソル分解: テンソル訓練分解などの手法
  • 本論文の相違点: 後訓練圧縮で、再訓練が不要です

埋め込み層圧縮

  • TensorGPT: テンソル訓練分解に基づきますが、線形特性が高圧縮性能を制限します
  • 動的語彙剪定: 微調整が必要で、汎化性が低いです
  • 本論文の貢献: 埋め込み層の最初の効率的な後訓練圧縮手法です

結論と考察

主要な結論

  1. CARVQは1.6ビット平均圧縮率を実現し、スカラー量化の3ビット下限を大幅に上回ります
  2. 手法は良好なハードウェア互換性を持ち、4ビットと16ビットのデータ型サポートのみが必要です
  3. 既存のトランスフォーマー量化手法と直交互換で、シームレスに統合できます

限界

  1. 適用範囲: 主に小規模モデルに適用でき、大規模モデルでは埋め込み層の占有率が相対的に小さいです
  2. 計算複雑性: 連続活性化のトランスフォーマー層に直接適用できません
  3. 意味情報: 細粒度の意味情報が失われる可能性があり、微妙な表現に依存するタスクに影響します
  4. 誤差伝播: 過度に損失のあるトランスフォーマー圧縮と組み合わせると、全体的な堅牢性に影響する可能性があります

今後の方向性

  1. より大規模モデルへの応用の拡張
  2. 他の圧縮技術との深い統合の研究
  3. ルックアップテーブル操作を加速する専用ハードウェアの開発
  4. 意味構造を保持する圧縮手法の探索

深い評価

長所

  1. 革新性が高い: 修正アダプタとグループRVQを初めて組み合わせ、埋め込み層圧縮の難題を解決しています
  2. 実用価値が高い: エッジデバイス展開の実際の需要に対応し、直接的な応用価値があります
  3. 実験が充分: 7つのモデル、4つのタスクカテゴリにわたる包括的な評価を含みます
  4. エンジニアリングフレンドリー: ハードウェア互換性が良く、展開が容易です

不足点

  1. 理論分析が不足: この組み合わせが有効である理由についての深い理論的説明が不足しています
  2. 適用シーンが限定: 主に小規模モデルを対象とし、大規模モデルでは利点が明らかではありません
  3. 長期的影響が未知: モデル微調整、継続学習などの下流タスクへの影響をさらに研究する必要があります

影響力

  1. 技術的貢献: LLMのエッジ展開に新しい技術パスを提供しています
  2. 産業価値: モバイルデバイス、IoTデバイス上のLLM展開に重要な意義があります
  3. 研究への示唆: 埋め込み層圧縮とアダプタ設計に関するさらなる研究を触発する可能性があります

適用シーン

  1. エッジコンピューティング: メモリが制限されたモバイルデバイス、IoTデバイス
  2. リアルタイムアプリケーション: 迅速な応答が必要な対話システム、推奨システム
  3. コスト敏感なシーン: 限定されたハードウェアリソースでLLMを展開する必要があるアプリケーション

参考文献

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

総合評価: これは実際の展開ニーズに対応した高品質な技術論文です。提案されたCARVQ手法は埋め込み層圧縮分野で重要なブレークスルーを達成し、LLMのエッジ展開に対して有効なソリューションを提供しています。いくつかの限界がありますが、その革新性、実用性、エンジニアリング価値により、この分野における重要な貢献となっています。