2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

基本情報

論文ID: 2509.06836
タイトル: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
著者: Eugene Kwek, Wenpeng Yin (ペンシルベニア州立大学)
分類: cs.CL cs.AI cs.LG
発表状況: プレプリント（査読中）
論文リンク: https://arxiv.org/abs/2509.06836v3

要約

本論文は、大規模言語モデル(LLM)のメモリ、レイテンシ、サービスコストの効率化を目的として、COMPACTプルーニング手法を提案している。本手法は語彙プルーニングと共通トークン加重に基づくFFNチャネルプルーニングを組み合わせ、標準的なTransformerアーキテクチャを維持しながらパラメータ圧縮を実現している。Qwen、LLaMA、Gemmaなどのモデルファミリー(0.5B～70Bパラメータ)での実験により、手法の有効性が検証されている。

研究背景と動機

問題定義

大規模言語モデルは様々なNLPタスクで優れた性能を示す一方で、膨大なパラメータ数(数十億から数千億)により、デプロイメントコストが高く、エッジデバイス、インタラクティブアプリケーション、大規模推論での応用が制限されている。

既存手法の限界

幅プルーニング(Width Pruning)：隠れ次元またはチャネルを削除するが、標準的なTransformerアーキテクチャを破壊し、カスタム推論コードが必要
深さプルーニング(Depth Pruning)：Transformerブロック全体を削除し、アーキテクチャは保持されるが、性能が急激に低下
スケーラビリティの欠如：既存手法は大規模モデルでは有効だが、小規模言語モデル(SLM)では性能が低い
言語特性の無視：トークンの重要性の差を考慮せず、すべてのトークンを平等に扱う

研究動機

著者の分析により以下が明らかになった：

異なる規模のモデル間でパラメータ分布に顕著な差異が存在：小規模モデルでは語彙パラメータの割合が大きく、大規模モデルではFFNパラメータが主導的
自然言語はZipf分布に従い、稀なトークンの出現頻度は極めて低く、下流タスクの性能への寄与は限定的

核心的貢献

体系的分析：異なる規模のLLMにおけるembedding、FFN、attentionパラメータの分布パターンを初めて体系的に分析
COMPACT手法：語彙プルーニングと共通トークン加重FFNプルーニングを組み合わせた新しいフレームワークを提案
アーキテクチャ互換性：標準的なTransformerアーキテクチャを維持し、既存の推論フレームワークと互換性を保持
スケール適応性：0.5Bから70Bパラメータの複数のモデルファミリーでSOTA性能を実現

手法の詳細

パラメータ分布分析

著者は最初に、モダンなdecoder-only Transformerのパラメータ分布を分析した：

語彙パラメータ： $N_{vocab} = 2VD$ （embeddingおよびLM headレイヤー）
FFNパラメータ： $N_{FFN} = 3LDI$ （L層、中間次元I）
注意パラメータ： $N_{attention} = 2LD^2(1 + \frac{1}{H})$ （Hはヘッド数比率）

モデル規模の増加に伴い、 $N_{FFN}$ と $N_{attention}$ は $O(LD^2)$ で増加する一方、 $N_{vocab}$ は $O(D)$ でのみ増加するため、小規模モデルでは語彙パラメータの割合がより大きい。

COMPACTアーキテクチャ

1. 語彙プルーニング(Vocabulary Pruning)

原理：BPEトークナイザーがZipf分布に従うという特性に基づき、最も稀な $V-V'$ 個のトークンを削除
実装：embeddingおよびLM headマトリックスの対応する行を直接削除し、トークナイザー内のマージルールも削除
利点：キャリブレーションデータが不要で、計算効率が高い

2. 共通トークン加重FFNプルーニング

従来のact²法は、チャネルの重要性を以下のように計算する： $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

COMPACTが提案するcommon act²法： $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{otherwise} \end{cases}$

ここで $S$ はプルーニングされる稀なトークンの集合である。

アルゴリズムフロー

アルゴリズム1 COMPACT
入力：モデルM、キャリブレーションデータセットD、目標語彙サイズV'、目標中間次元I'
1. 最も稀な V-V' 個のトークン集合 S を識別
2. データセット D 上で前向き伝播を実行し、二乗活性化を収集
3. 各チャネル k について、common act² を使用して重要性 Ik を計算
4. 各層について：最も重要でない I-I' 個のチャネルをプルーニング
5. 語彙パラメータをプルーニング：embedding および LM head マトリックスの最後の V-V' 行を削除
6. プルーニング後のモデル M' を返す

技術的革新点

二重プルーニング戦略：語彙プルーニングとFFNプルーニングを組み合わせ、異なる規模のモデルのパラメータ分布特性に対応
共通トークン加重：FFNプルーニング時にプルーニング後も有効なトークンのみを考慮し、稀なトークンによる誤導を回避
アーキテクチャ保持：語彙サイズと中間次元のみをプルーニングし、標準的なTransformer構造を保持
スケール適応性： $V'$ と $I'$ の2つのハイパーパラメータを調整することで、異なる規模のニーズに対応

実験設定

評価モデル

小規模言語モデル：Qwen 2.5-0.5B、LLaMA 3.2-1B、Gemma 3-1B
大規模言語モデル：LLaMA 3.1-8B、LLaMA 3.1-70B

データセットとタスク

キャリブレーションデータ：C4データセットの256サンプル
評価タスク：MMLU、HellaSwag、WinoGrande、ARC-C/E、PIQA、GSM8K

比較手法

深さプルーニング：ShortGPT、LaCo
幅プルーニング：SliceGPT、2SSP、FLAP

評価指標

パラメータプルーニング比率、平均精度、相対性能保持率
プルーニング時間、推論スループット、GPUメモリ使用量

実験結果

主要結果

小規模言語モデルの性能

Qwen 2.5-0.5B上で35%プルーニング比率の場合：

COMPACT：平均精度35.3%（相対性能70.4%）
最良baseline：31.4%（相対性能62.5%）

LLaMA 3.2-1B上で35%プルーニング比率の場合：

COMPACT：平均精度36.9%（相対性能76.4%）
最良baseline：33.6%（相対性能69.6%）

大規模言語モデルの性能

LLaMA 3.1-70B上で35%プルーニング比率の場合：

COMPACT：平均精度63.7%（相対性能80.2%）
2SSP：62.8%（相対性能79.1%）

効率分析

プルーニング時間の比較（LLaMA 3.1-8B、35%プルーニング）

COMPACT：0:32
2SSP：1:26
SliceGPT：10:48

推論効率（LLaMA 3.1-8B、35%プルーニング）

メモリ使用量：COMPACTは36%削減（最良）、ShortGPT/LaCoは25%削減
スループット向上：COMPACTは37%向上、ShortGPT/LaCoは57%向上

アブレーション実験

Common act²の有効性

Qwen 2.5-0.5B上で35%プルーニング：

Common act²：相対性能70.4%
標準act²：相対性能69.2%
|act|法：相対性能67.6%

語彙-FFNバランス分析

37%プルーニング比率を固定し、異なる $V'$ と $I'$ の組み合わせ：

純FFNプルーニング（V'=151936）：相対性能63.0%
最適な組み合わせ（V'=49536）：相対性能70.4%

重要な発見

平滑な性能低下：COMPACTは平滑な性能減衰を示す一方、深さプルーニング法には急激な性能ジャンプが存在
アーキテクチャ非依存性：COMPACTはGemma 3などの新しいアーキテクチャに直接適用可能であり、他の手法はアーキテクチャ固有の修正が必要
稀なトークンの影響は限定的：67%の語彙削減はテキストの再トークン化に4%の影響のみ

結論と考察

主要な結論

COMPACTは複数のモデルファミリーと規模でSOTAプルーニング性能を実現
手法は標準的なTransformerアーキテクチャを保持し、優れたデプロイメント互換性を有する
二重プルーニング戦略は異なる規模のモデルのパラメータ分布特性に効果的に対応

限界

スループット向上の限定性：深さプルーニング手法と比較して、推論スループット向上の面でまだ差がある
語彙プルーニングの領域適応性：特定領域では専門用語をより多く保持する必要がある場合がある
ハイパーパラメータ調整：異なるプルーニング比率に対して最適な $V'$ と $I'$ の組み合わせを見つける必要がある

今後の方向性

著者は幅プルーニングと深さプルーニングのスループット面での差を縮小する必要があることを指摘している。

深層的評価

強み

理論的基礎が堅実：パラメータ分布分析とZipf分布特性に基づく理論的指導
手法設計が巧妙：common act²がトークン語彙プルーニングとFFNプルーニングを巧みに結合
実験が包括的：複数のモデルファミリー、規模、タスクにわたる体系的評価
実用価値が高い：アーキテクチャ互換性を保持し、デプロイメントが容易

不足点

革新性が限定的：語彙プルーニングとFFNプルーニングは既存技術であり、主な貢献は組み合わせにある
理論分析が十分でない：なぜこの組み合わせが有効であるかについての深層的な理論的説明が欠ける
推論加速が限定的：重要な性能指標（スループット）では深さプルーニング手法に劣る

影響力

学術的貢献：LLMプルーニングに新しい視点を提供し、特にスケール適応性の考え方が有用
実用価値：手法が単純で有効であり、実装とデプロイメントが容易
再現性：著者がコードのオープンソース化を約束しており、手法の普及に有利

適用シーン

エッジデプロイメント：メモリが制限された環境でのモデル圧縮
マルチスケールデプロイメント：小規模モデルと大規模モデルの両方をサポートする必要がある場合
高速プルーニング：短時間でモデル圧縮を完了する必要があるアプリケーション

参考文献

論文は多くの関連研究を引用しており、主に以下を含む：

量子化法：GPTQ (Frantar et al., 2022)、AWQ (Lin et al., 2024)
深さプルーニング：Shortened LLaMA (Kim et al., 2024)、LaCo (Yang et al., 2024)
幅プルーニング：SliceGPT (Ashkboos et al., 2024)、FLAP (An et al., 2024)
語彙処理：関連する多言語および領域固有の語彙プルーニング研究

総合評価：これは技術的に堅実で実用性の高い論文である。理論的革新性は相対的に限定的であるが、巧妙な手法の組み合わせと包括的な実験検証により、LLMプルーニング分野に効果的でデプロイメント容易なソリューションを提供している。特に小規模言語モデルのプルーニングとアーキテクチャ互換性の面での優位性により、良好な応用見通しを有している。