2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

基本信息

论文ID: 2505.16743
标题: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
作者: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
分类: cs.CL cs.AI cs.LG
发表时间: 2025年10月11日 (arXiv v2)
论文链接: https://arxiv.org/abs/2505.16743
代码链接: https://github.com/flobk/TRIM

摘要

大型语言模型(LLMs)因其庞大的参数规模带来了巨大的计算和内存挑战，使得模型剪枝对其高效部署至关重要。现有的一次性剪枝方法通常在层间或层内应用统一的稀疏性约束，在高稀疏率下表现欠佳。本文提出了TRIM(Targeted Row-wise Iterative Metric-driven pruning)，这是一种对每层内各个输出维度(行)应用不同稀疏率的新方法。TRIM采用由质量指标引导的迭代调整过程来优化维度级稀疏性分配，专注于减少输出间质量保持的方差以保留关键信息。TRIM可与现有的层级剪枝策略无缝集成。在多个LLM系列(Qwen2.5、LLaMA-2和OPT)和稀疏性水平上的困惑度和零样本任务评估表明，TRIM达到了新的最先进结果并增强了稳定性。例如，在80%稀疏率下，TRIM相比基线方法将Qwen2.5-14B的困惑度降低了48%，将OPT-13B的困惑度降低了90%以上。

研究背景与动机

问题定义

随着大型语言模型参数规模的指数级增长，模型部署面临严重的内存和计算资源挑战。虽然参数增长带来了性能提升和涌现能力，但也使得在资源受限环境中的推理变得困难。

现有方法局限性

统一稀疏性约束：现有一次性剪枝方法(如Wanda、OWL、AlphaPruning)通常对所有层或层内所有输出维度应用相同的稀疏率
高稀疏率下性能急剧下降：在极端稀疏性(>70%)下，统一策略导致性能显著恶化
忽略维度异质性：不同输出维度对剪枝的敏感性和重要性存在显著差异

研究动机

论文观察到LLMs具有独特的权重和激活特征，如突出的离群特征和高度倾斜的激活分布。这些特性表明层内不同输出维度具有不同的剪枝敏感性，因此需要更细粒度的稀疏性分配策略。

核心贡献

首创维度级稀疏性分配：提出了第一个在每层内为各个输出维度计算不同稀疏率的算法
极端稀疏性下的SOTA性能：在80%稀疏率下，相比现有方法显著降低困惑度(Qwen2.5-14B降低48%，OPT-13B降低90%+)
深入的实证分析：揭示了输出维度在剪枝敏感性和下游任务重要性方面的异质性
即插即用的设计：TRIM可与任何基于重要性评分的剪枝算法集成，具有良好的通用性

方法详解

任务定义

给定权重矩阵 W ∈ R^(D×N)，其中D为输出维度数，N为输入维度数，目标是为每个输出维度Wi,:确定最优稀疏率Si，使得在满足平均稀疏率约束的同时最大化层的整体质量。

核心算法：TRIM

维度级稀疏性向量

TRIM定义维度级稀疏性向量 S = S1, S2, ..., SD，其中Si ∈ 0,1指定第i个输出维度的目标稀疏率。约束条件为：

1/D * Σ(i=1 to D) Si = T

其中T为层的目标稀疏率。

迭代调整算法

Algorithm 1: Iterative Dimension-Wise Sparsity Adjustment

初始化：计算未剪枝输出 Y ← WX，初始化 Si = T (均匀分布)
迭代优化（K次）：
- 根据当前S剪枝得到 Wpruned
- 计算剪枝输出 Ŷ ← WprunedX
- 评估整体质量 qk ← Qmetric(Y, Ŷ)
- 更新最佳配置（如果qk > qbest）
- 计算各维度质量 ci ← QmetricDimwise(Yi,:, Ŷi,:)
- 归一化质量分数到0,1范围
- 基于学习率α调整稀疏率：δi ← αc'i
- 重新中心化保持平均约束：Si ← δi - (1/D)Σδj + T
返回：最优稀疏性分配 Sbest