2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: 対象行ごとの反復的メトリック駆動型剪定による極端スパース性の実現

基本情報

論文ID: 2505.16743
タイトル: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
著者: Florentin Beck (University of Tübingen)、William Rudman (University of Texas at Austin)、Carsten Eickhoff (University of Tübingen)
分類: cs.CL cs.AI cs.LG
発表日時: 2025年10月11日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2505.16743
コードリンク: https://github.com/flobk/TRIM

要約

大規模言語モデル(LLM)は膨大なパラメータ規模により、計算とメモリに関する大きな課題をもたらしており、効率的な展開のためにモデル剪定が不可欠である。既存のワンショット剪定方法は通常、層間または層内に統一されたスパース性制約を適用するため、高スパース率での性能が低下する。本論文では、TRIM(Targeted Row-wise Iterative Metric-driven pruning)を提案する。これは層内の各出力次元(行)に異なるスパース率を適用する新しい手法である。TRIMは品質メトリクスに導かれた反復的調整プロセスを採用して、次元レベルのスパース性配分を最適化し、出力間の品質保持の分散を減らすことに焦点を当てて重要な情報を保持する。TRIMは既存の層レベルの剪定戦略とシームレスに統合できる。複数のLLMファミリー(Qwen2.5、LLaMA-2、OPT)とスパース性レベルにおけるパープレキシティとゼロショットタスク評価により、TRIMは最先端の結果を達成し、安定性を向上させた。例えば、80%スパース率では、TRIMはQwen2.5-14Bのパープレキシティをベースライン方法比で48%削減し、OPT-13Bのパープレキシティを90%以上削減した。

研究背景と動機

問題定義

大規模言語モデルのパラメータ規模が指数関数的に増加するにつれて、モデル展開はメモリと計算リソースの深刻な課題に直面している。パラメータの増加は性能向上と創発能力をもたらす一方で、リソース制限環境での推論を困難にしている。

既存方法の限界

統一されたスパース性制約：既存のワンショット剪定方法(Wanda、OWL、AlphaPruningなど)は通常、すべての層または層内のすべての出力次元に同じスパース率を適用する
高スパース率での性能急落：極端なスパース性(>70%)では、統一戦略により性能が著しく低下する
次元の異質性を無視：異なる出力次元は剪定に対する感度と重要性が大きく異なる

研究動機

論文は、LLMが顕著な外れ値特性と高度に歪んだ活性化分布などの独特の重み付けと活性化特性を持つことを観察している。これらの特性は、層内の異なる出力次元が異なる剪定感度を持つことを示唆しており、より細粒度のスパース性配分戦略が必要である。

核心的貢献

次元レベルスパース性配分の初提案：各層内の個々の出力次元に対して異なるスパース率を計算する最初のアルゴリズムを提案
極端スパース性下でのSOTA性能：80%スパース率では、既存方法と比較してパープレキシティが大幅に削減(Qwen2.5-14Bで48%削減、OPT-13Bで90%以上削減)
深い実証分析：出力次元の剪定感度とダウンストリームタスク重要性における異質性を明らかにする
プラグアンドプレイ設計：TRIMは任意の重要性スコアベースの剪定アルゴリズムと統合でき、優れた汎用性を持つ

方法の詳細

タスク定義

重み行列 W ∈ R^(D×N)が与えられた場合(Dは出力次元数、Nは入力次元数)、目標は各出力次元Wi,:に対して最適なスパース率Siを決定し、平均スパース率制約を満たしながら層全体の品質を最大化することである。

コアアルゴリズム：TRIM

次元レベルスパース性ベクトル

TRIMは次元レベルスパース性ベクトル S = S1, S2, ..., SDを定義する。ここでSi ∈ 0,1は第i出力次元の目標スパース率を指定する。制約条件は以下の通りである：

1/D * Σ(i=1 to D) Si = T

ここでTは層の目標スパース率である。

反復的調整アルゴリズム

アルゴリズム1：反復的次元ごとスパース性調整

初期化：未剪定出力 Y ← WXを計算し、Si = T(均一分布)で初期化
反復最適化(K回)：
- 現在のSに基づいて剪定して Wprunedを取得
- 剪定出力 Ŷ ← WprunedXを計算
- 全体的品質 qk ← Qmetric(Y, Ŷ)を評価
- 最適な構成を更新(qk > qbestの場合)
- 各次元の品質 ci ← QmetricDimwise(Yi,:, Ŷi,:)を計算
- 品質スコアを0,1範囲に正規化
- 学習率αに基づいてスパース率を調整：δi ← αc'i
- 平均制約を維持するために再中心化：Si ← δi - (1/D)Σδj + T
返却：最適なスパース性配分 Sbest