2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff
Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
academic

TRIM: 対象行ごとの反復的メトリック駆動型剪定による極端スパース性の実現

基本情報

  • 論文ID: 2505.16743
  • タイトル: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
  • 著者: Florentin Beck (University of Tübingen)、William Rudman (University of Texas at Austin)、Carsten Eickhoff (University of Tübingen)
  • 分類: cs.CL cs.AI cs.LG
  • 発表日時: 2025年10月11日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2505.16743
  • コードリンク: https://github.com/flobk/TRIM

要約

大規模言語モデル(LLM)は膨大なパラメータ規模により、計算とメモリに関する大きな課題をもたらしており、効率的な展開のためにモデル剪定が不可欠である。既存のワンショット剪定方法は通常、層間または層内に統一されたスパース性制約を適用するため、高スパース率での性能が低下する。本論文では、TRIM(Targeted Row-wise Iterative Metric-driven pruning)を提案する。これは層内の各出力次元(行)に異なるスパース率を適用する新しい手法である。TRIMは品質メトリクスに導かれた反復的調整プロセスを採用して、次元レベルのスパース性配分を最適化し、出力間の品質保持の分散を減らすことに焦点を当てて重要な情報を保持する。TRIMは既存の層レベルの剪定戦略とシームレスに統合できる。複数のLLMファミリー(Qwen2.5、LLaMA-2、OPT)とスパース性レベルにおけるパープレキシティとゼロショットタスク評価により、TRIMは最先端の結果を達成し、安定性を向上させた。例えば、80%スパース率では、TRIMはQwen2.5-14Bのパープレキシティをベースライン方法比で48%削減し、OPT-13Bのパープレキシティを90%以上削減した。

研究背景と動機

問題定義

大規模言語モデルのパラメータ規模が指数関数的に増加するにつれて、モデル展開はメモリと計算リソースの深刻な課題に直面している。パラメータの増加は性能向上と創発能力をもたらす一方で、リソース制限環境での推論を困難にしている。

既存方法の限界

  1. 統一されたスパース性制約:既存のワンショット剪定方法(Wanda、OWL、AlphaPruningなど)は通常、すべての層または層内のすべての出力次元に同じスパース率を適用する
  2. 高スパース率での性能急落:極端なスパース性(>70%)では、統一戦略により性能が著しく低下する
  3. 次元の異質性を無視:異なる出力次元は剪定に対する感度と重要性が大きく異なる

研究動機

論文は、LLMが顕著な外れ値特性と高度に歪んだ活性化分布などの独特の重み付けと活性化特性を持つことを観察している。これらの特性は、層内の異なる出力次元が異なる剪定感度を持つことを示唆しており、より細粒度のスパース性配分戦略が必要である。

核心的貢献

  1. 次元レベルスパース性配分の初提案:各層内の個々の出力次元に対して異なるスパース率を計算する最初のアルゴリズムを提案
  2. 極端スパース性下でのSOTA性能:80%スパース率では、既存方法と比較してパープレキシティが大幅に削減(Qwen2.5-14Bで48%削減、OPT-13Bで90%以上削減)
  3. 深い実証分析:出力次元の剪定感度とダウンストリームタスク重要性における異質性を明らかにする
  4. プラグアンドプレイ設計:TRIMは任意の重要性スコアベースの剪定アルゴリズムと統合でき、優れた汎用性を持つ

方法の詳細

タスク定義

重み行列 W ∈ R^(D×N)が与えられた場合(Dは出力次元数、Nは入力次元数)、目標は各出力次元Wi,:に対して最適なスパース率Siを決定し、平均スパース率制約を満たしながら層全体の品質を最大化することである。

コアアルゴリズム:TRIM

次元レベルスパース性ベクトル

TRIMは次元レベルスパース性ベクトル S = S1, S2, ..., SDを定義する。ここでSi ∈ 0,1は第i出力次元の目標スパース率を指定する。制約条件は以下の通りである:

1/D * Σ(i=1 to D) Si = T

ここでTは層の目標スパース率である。

反復的調整アルゴリズム

アルゴリズム1:反復的次元ごとスパース性調整

  1. 初期化:未剪定出力 Y ← WXを計算し、Si = T(均一分布)で初期化
  2. 反復最適化(K回):
    • 現在のSに基づいて剪定して Wprunedを取得
    • 剪定出力 Ŷ ← WprunedXを計算
    • 全体的品質 qk ← Qmetric(Y, Ŷ)を評価
    • 最適な構成を更新(qk > qbestの場合)
    • 各次元の品質 ci ← QmetricDimwise(Yi,:, Ŷi,:)を計算
    • 品質スコアを0,1範囲に正規化
    • 学習率αに基づいてスパース率を調整:δi ← αc'i
    • 平均制約を維持するために再中心化:Si ← δi - (1/D)Σδj + T
  3. 返却:最適なスパース性配分 Sbest

品質メトリクス

  • 層レベル品質:コサイン類似度を使用して層全体の剪定品質を評価
  • 次元レベル品質:各出力次元のコサイン類似度を計算し、スパース率調整を指導

技術的革新点

  1. 適応的学習率:正と負の学習率をサポート。正の学習率は品質分散を削減し、負の学習率は外れ値が集中した層に適用
  2. 品質分散最小化:次元間の品質低下の分散を減らすことで全体性能を向上
  3. 互換性設計:既存の評点ルール(Wanda、Magnitude、SparseGPT、GBLM)と統合可能

実験設定

データセット

  • モデル:Qwen2.5 (3B/7B/14B/32B/72B)、LLaMA-2 (7B/13B)、OPT (6.7B/13B)
  • 評価データ:WikiText検証セット(パープレキシティ)、C4とPile(汎化性検証)
  • ダウンストリームタスク:BoolQ、RTE、HellaSwag、WinoGrande、ARC Easy/Challenge、OpenBookQA

評価指標

  • パープレキシティ:WikiText検証セットでの言語モデリング能力を評価
  • ゼロショット精度:7つのダウンストリームタスクでの平均性能

比較方法

  • ベースライン方法:OWL、AlphaPruning (Wandaベース)
  • アブレーション研究:異なる品質メトリクス、学習率設定、反復回数の影響

実装詳細

  • キャリブレーションサンプル:C4データセットからランダムに選択、シーケンス長2048
  • スパース率制限:過学習を防ぐため単一次元の最大95%
  • ハイパーパラメータ:K=10回の反復、学習率αはグリッドサーチで決定

実験結果

主要結果

パープレキシティ性能(80%スパース率)

モデルOWLベースラインOWL+TRIM改善幅
Qwen2.5-14B348.48180.67-48%
OPT-13B6461.43324.14-95%
LLaMA-2-13B225.04154.83-31%

ゼロショットタスク性能

TRIMはすべてのテストモデルとスパース率レベルで性能向上を実現し、80%スパース率では平均0.46~0.65ポイントの改善を達成した。

アブレーション実験

品質メトリクスの比較

  • 層レベル品質:コサイン類似度が最も安定した性能を示す
  • 次元レベル品質:コサイン類似度はMSEおよびPSNRと比較してより信頼性が高い

異なる剪定指標での汎化性

TRIMはMagnitude、SparseGPT、GBLMなどの異なる評点ルール上で改善効果を示し、方法の汎用性を検証した。

主要な発見

観察1:次元の異質性

ジニ係数分析を通じて、異なる出力次元の重要性スコア集中度に大きな差異があることが発見され、剪定感度の違いをもたらす。

観察2:非線形品質低下

スパース率の増加に伴い、品質低下は加速傾向を示し、細粒度配分がより重要になる。

観察3:次元重要性の差異

実験は単一次元の完全な削除の影響が巨大であることを示した:

  • 最小L2ノルム次元:パープレキシティはわずか0.16増加
  • 最大L2ノルム次元:パープレキシティは273.10に急増

関連研究

剪定方法の分類

  1. 勾配ベースの方法:SNIP、GraSP、SynFlowなど。勾配情報と再訓練が必要
  2. ワンショット剪定方法:SparseGPT、Wandaなど。再訓練不要だが性能に限界
  3. 層レベル適応方法:OWL、AlphaPruningなど。異なる層に異なるスパース率を配分

TRIMの位置付け

TRIMは層内で次元レベルのスパース性配分を行う最初の方法であり、既存方法の細粒度制御における空白を埋める。

結論と考察

主要な結論

  1. 次元レベルスパース性配分の必要性:極端なスパース性では、細粒度制御がモデル性能の維持に不可欠である
  2. 品質分散最小化の有効性:次元間の品質低下のバランスを取ることで全体性能を大幅に向上させることができる
  3. 方法の汎用性:TRIMは複数の既存剪定アルゴリズムと統合でき、優れた拡張性を持つ

限界

  1. 学習率選択の複雑性:外れ値が集中した層は負の学習率が必要で、ハイパーパラメータ調整の複雑性が増す
  2. 非構造化スパース性:現在の方法はn:mなどの構造化スパースパターンを直接サポートしない
  3. 計算オーバーヘッド:反復プロセスは実行時間を約8%増加させる

今後の方向

  1. 構造化スパース性サポート:ハードウェアフレンドリーなスパースパターンをサポートするようにTRIMを拡張
  2. 自動学習率選択:ハイパーパラメータ調整の必要性を減らすための適応的メカニズムの開発
  3. 理論分析:次元重要性と剪定感度の理論的フレームワークの構築

深い評価

利点

  1. 革新性が高い:次元レベルスパース性配分を初めて提案し、思想が新しい
  2. 実験が充分:複数のモデルファミリーとタスクで方法の有効性を検証
  3. 理論的支援:深い分析を通じて方法の有効性の根本的な原因を明らかにする
  4. 実用価値が高い:プラグアンドプレイ設計により既存システムへの統合が容易

不足点

  1. 方法の複雑性:ベースライン方法と比較してアルゴリズムの複雑性とハイパーパラメータが増加
  2. ハードウェア適応性:非構造化スパース性は専用ハードウェアでの加速効果を制限
  3. 理論分析の不足:最適なスパース性配分に対する理論的保証が欠ける

影響力

  1. 学術的貢献:LLM剪定分野に新しい研究方向を提供
  2. 実用価値:リソース制限環境での大規模モデル展開に重要な意義を持つ
  3. 再現性:オープンソースコードを提供し、後続研究を容易にする

適用シーン

  1. 極端なスパース性の必要性:特に>70%スパース率が必要なシーンに適している
  2. リソース制限環境:エッジデバイス、モバイルなど計算リソースが限定されたシーン
  3. 研究用途:剪定アルゴリズム研究に新しいベンチマークと思想を提供

参考文献

論文は剪定分野の重要な研究を引用している。以下を含む:

  • 古典的剪定方法:Le Cun et al. (1989)、Han et al. (2015)
  • 現代的LLM剪定:Sun et al. (2024) Wanda、Frantar and Alistarh (2023) SparseGPT
  • 層レベル適応方法:Yin et al. (2024) OWL、Lu et al. (2024) AlphaPruning

要約:TRIMは次元レベルスパース性配分を導入することで、極端なスパース性下でのLLM剪定性能を大幅に向上させた。この方法は重要な理論的価値と実用的意義を持ち、大規模モデル圧縮分野に新しい研究方向を開いた。いくつかの限界があるが、その革新性と有効性により、この分野への重要な貢献となっている。