Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- 论文ID: 2505.16743
- 标题: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- 作者: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
- 分类: cs.CL cs.AI cs.LG
- 发表时间: 2025年10月11日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2505.16743
- 代码链接: https://github.com/flobk/TRIM
大型语言模型(LLMs)因其庞大的参数规模带来了巨大的计算和内存挑战,使得模型剪枝对其高效部署至关重要。现有的一次性剪枝方法通常在层间或层内应用统一的稀疏性约束,在高稀疏率下表现欠佳。本文提出了TRIM(Targeted Row-wise Iterative Metric-driven pruning),这是一种对每层内各个输出维度(行)应用不同稀疏率的新方法。TRIM采用由质量指标引导的迭代调整过程来优化维度级稀疏性分配,专注于减少输出间质量保持的方差以保留关键信息。TRIM可与现有的层级剪枝策略无缝集成。在多个LLM系列(Qwen2.5、LLaMA-2和OPT)和稀疏性水平上的困惑度和零样本任务评估表明,TRIM达到了新的最先进结果并增强了稳定性。例如,在80%稀疏率下,TRIM相比基线方法将Qwen2.5-14B的困惑度降低了48%,将OPT-13B的困惑度降低了90%以上。
随着大型语言模型参数规模的指数级增长,模型部署面临严重的内存和计算资源挑战。虽然参数增长带来了性能提升和涌现能力,但也使得在资源受限环境中的推理变得困难。
- 统一稀疏性约束:现有一次性剪枝方法(如Wanda、OWL、AlphaPruning)通常对所有层或层内所有输出维度应用相同的稀疏率
- 高稀疏率下性能急剧下降:在极端稀疏性(>70%)下,统一策略导致性能显著恶化
- 忽略维度异质性:不同输出维度对剪枝的敏感性和重要性存在显著差异
论文观察到LLMs具有独特的权重和激活特征,如突出的离群特征和高度倾斜的激活分布。这些特性表明层内不同输出维度具有不同的剪枝敏感性,因此需要更细粒度的稀疏性分配策略。
- 首创维度级稀疏性分配:提出了第一个在每层内为各个输出维度计算不同稀疏率的算法
- 极端稀疏性下的SOTA性能:在80%稀疏率下,相比现有方法显著降低困惑度(Qwen2.5-14B降低48%,OPT-13B降低90%+)
- 深入的实证分析:揭示了输出维度在剪枝敏感性和下游任务重要性方面的异质性
- 即插即用的设计:TRIM可与任何基于重要性评分的剪枝算法集成,具有良好的通用性
给定权重矩阵 W ∈ R^(D×N),其中D为输出维度数,N为输入维度数,目标是为每个输出维度Wi,:确定最优稀疏率Si,使得在满足平均稀疏率约束的同时最大化层的整体质量。
TRIM定义维度级稀疏性向量 S = S1, S2, ..., SD,其中Si ∈ 0,1指定第i个输出维度的目标稀疏率。约束条件为:
其中T为层的目标稀疏率。
Algorithm 1: Iterative Dimension-Wise Sparsity Adjustment
- 初始化:计算未剪枝输出 Y ← WX,初始化 Si = T (均匀分布)
- 迭代优化(K次):
- 根据当前S剪枝得到 Wpruned
- 计算剪枝输出 Ŷ ← WprunedX
- 评估整体质量 qk ← Qmetric(Y, Ŷ)
- 更新最佳配置(如果qk > qbest)
- 计算各维度质量 ci ← QmetricDimwise(Yi,:, Ŷi,:)
- 归一化质量分数到0,1范围
- 基于学习率α调整稀疏率:δi ← αc'i
- 重新中心化保持平均约束:Si ← δi - (1/D)Σδj + T
- 返回:最优稀疏性分配 Sbest
- 层级质量:使用余弦相似度评估整层剪枝质量
- 维度级质量:计算每个输出维度的余弦相似度,指导稀疏率调整
- 自适应学习率:支持正负学习率,正学习率减少质量方差,负学习率适用于离群值集中的层
- 质量方差最小化:通过减少维度间质量退化的方差来提升整体性能
- 兼容性设计:可与现有评分规则(Wanda、Magnitude、SparseGPT、GBLM)集成
- 模型:Qwen2.5 (3B/7B/14B/32B/72B)、LLaMA-2 (7B/13B)、OPT (6.7B/13B)
- 评估数据:WikiText验证集(困惑度)、C4和Pile(泛化性验证)
- 下游任务:BoolQ、RTE、HellaSwag、WinoGrande、ARC Easy/Challenge、OpenBookQA
- 困惑度:在WikiText验证集上评估语言建模能力
- 零样本准确率:在7个下游任务上的平均表现
- 基线方法:OWL、AlphaPruning (基于Wanda)
- 消融研究:不同质量指标、学习率设置、迭代次数的影响
- 校准样本:从C4数据集随机选择,序列长度2048
- 稀疏率限制:单维度最大95%以防过拟合
- 超参数:K=10次迭代,学习率α通过网格搜索确定
| 模型 | OWL基线 | OWL+TRIM | 改进幅度 |
|---|
| Qwen2.5-14B | 348.48 | 180.67 | -48% |
| OPT-13B | 6461.43 | 324.14 | -95% |
| LLaMA-2-13B | 225.04 | 154.83 | -31% |
TRIM在所有测试模型和稀疏率水平上都实现了性能提升,在80%稀疏率下平均提升0.46-0.65个百分点。
- 层级质量:余弦相似度表现最稳定
- 维度级质量:余弦相似度相比MSE和PSNR更可靠
TRIM在Magnitude、SparseGPT、GBLM等不同评分规则上都显示出改进效果,验证了方法的通用性。
通过Gini系数分析发现,不同输出维度的重要性分数集中度存在显著差异,导致剪枝敏感性不同。
随着稀疏率增加,质量退化呈加速趋势,使得精细化分配变得更加重要。
实验显示完全移除单个维度的影响差异巨大:
- 最小L2范数维度:困惑度仅增加0.16
- 最大L2范数维度:困惑度激增至273.10
- 基于梯度的方法:SNIP、GraSP、SynFlow等,需要梯度信息和重训练
- 一次性剪枝方法:SparseGPT、Wanda等,无需重训练但性能有限
- 层级自适应方法:OWL、AlphaPruning等,为不同层分配不同稀疏率
TRIM是首个在层内进行维度级稀疏性分配的方法,填补了现有方法在细粒度控制方面的空白。
- 维度级稀疏性分配的必要性:在极端稀疏性下,细粒度控制对保持模型性能至关重要
- 质量方差最小化的有效性:通过平衡维度间质量退化可显著提升整体性能
- 方法的通用性:TRIM可与多种现有剪枝算法集成,具有良好的扩展性
- 学习率选择的复杂性:离群值集中的层需要负学习率,增加了超参数调优的复杂性
- 非结构化稀疏性:当前方法不直接支持n:m等结构化稀疏模式
- 计算开销:迭代过程增加了约8%的运行时间
- 结构化稀疏性支持:扩展TRIM以支持硬件友好的稀疏模式
- 自动学习率选择:开发自适应机制减少超参数调优需求
- 理论分析:建立维度重要性和剪枝敏感性的理论框架
- 创新性强:首次提出维度级稀疏性分配,思路新颖
- 实验充分:在多个模型系列和任务上验证了方法的有效性
- 理论支撑:通过深入分析揭示了方法有效性的根本原因
- 实用价值高:即插即用的设计使其易于集成到现有系统中
- 方法复杂性:相比基线方法增加了算法复杂度和超参数
- 硬件适配性:非结构化稀疏性限制了在专用硬件上的加速效果
- 理论分析不足:缺乏对最优稀疏性分配的理论保证
- 学术贡献:为LLM剪枝领域提供了新的研究方向
- 实用价值:在资源受限环境下部署大模型具有重要意义
- 可复现性:提供开源代码,便于后续研究
- 极端稀疏性需求:特别适用于需要>70%稀疏率的场景
- 资源受限环境:边缘设备、移动端等计算资源有限的场景
- 研究用途:为剪枝算法研究提供新的基准和思路
论文引用了剪枝领域的重要工作,包括:
- 经典剪枝方法:Le Cun et al. (1989), Han et al. (2015)
- 现代LLM剪枝:Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
- 层级自适应方法:Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning
总结:TRIM通过引入维度级稀疏性分配,在极端稀疏性下显著提升了LLM剪枝性能。该方法具有重要的理论价值和实用意义,为大模型压缩领域开辟了新的研究方向。尽管存在一些局限性,但其创新性和有效性使其成为该领域的重要贡献。