2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

基本信息

  • 论文ID: 2510.10136
  • 标题: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
  • 作者: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (香港中文大学)
  • 分类: cs.LG cs.AI
  • 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • 论文链接: https://arxiv.org/abs/2510.10136
  • 代码链接: https://github.com/lanchengzou/PermLLM

摘要

通道置换是一种通过重新排序权重矩阵的通道来优先保留重要权重,从而提高N:M稀疏模型准确性的强大技术。然而,传统的通道置换方法依赖于手工设计的质量度量,往往无法准确捕捉剪枝对模型性能的真实影响。为了解决这一局限性,本文提出了PermLLM,一个引入可学习通道置换(LCP)的N:M稀疏性后训练剪枝框架。LCP利用Sinkhorn归一化将离散置换矩阵转换为可微分的软置换矩阵,实现端到端优化。此外,PermLLM采用了高效的分块通道置换策略,显著减少了可学习参数数量和计算复杂度。PermLLM与现有的一次性剪枝方法无缝集成,自适应优化通道置换,有效缓解剪枝引起的误差。

研究背景与动机

问题定义

  1. 核心问题: 传统通道置换方法使用手工设计的质量度量(如保留权重重要性之和)来评估置换方案,但这些度量与实际剪枝误差之间存在差距。
  2. 重要性: 随着大语言模型规模的快速增长,模型压缩技术(如剪枝)对于高效部署至关重要。N:M稀疏性因其硬件友好性(NVIDIA Sparse Tensor Core支持)而备受关注。
  3. 现有局限:
    • 手工设计的质量度量无法准确反映剪枝对模型性能的真实影响
    • 传统方法无法充分捕捉复杂的层间交互
    • 优化空间巨大(对于Cin个输入通道,有Cin!种可能的置换)

研究动机

论文通过一个具体例子(图1)展示了问题:最大化重要性分数的通道置换可能导致更大的输出误差,说明手工度量与实际性能之间存在本质性差异。

核心贡献

  1. 首次提出可学习通道置换(LCP): 将离散的通道置换问题转化为可微分的优化问题,实现端到端学习。
  2. Sinkhorn归一化技术: 利用Sinkhorn归一化将离散置换矩阵松弛为软置换矩阵,解决了置换矩阵的非可微性问题。
  3. 分块通道置换策略: 显著降低参数复杂度从O(C²ᵢₙ)到O(Cᵢₙ×B),计算复杂度从O(C³ᵢₙ)到O(Cᵢₙ×B²)。
  4. 通用框架设计: 可与现有一次性剪枝方法(Wanda、RIA等)无缝集成。
  5. 优异的实验表现: 在LLaMA系列、Qwen、OPT等多个模型上验证了方法的有效性。

方法详解

任务定义

给定预训练的权重矩阵W ∈ R^(Cout×Cin),目标是找到最优的置换矩阵P,使得重排序后的权重矩阵Ŵ = WP在应用N:M稀疏性后能够最小化与原始密集模型的输出差异。

核心技术架构

1. 软置换矩阵松弛

将硬置换矩阵P松弛为软置换矩阵P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

其中Tr和Tc分别表示行归一化和列归一化操作,τ为温度参数控制软置换矩阵的硬度。

2. 硬化过程与梯度近似

前向传播时,通过匈牙利算法将软置换矩阵硬化为严格的置换矩阵:

P = argmax P∈P Tr(P⊤P̂)

反向传播时使用直通估计器(STE)近似梯度:∂P/∂P̂ = 1。

3. 分块通道置换

为降低计算复杂度,将通道划分为多个大小为B的块,每个块内独立进行置换:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

参数数量从C²ᵢₙ降低到Cᵢₙ×B,计算复杂度从O(C³ᵢₙ)降低到O(Cᵢₙ×B²)。

优化目标

PermLLM直接最小化密集模型和稀疏模型输出之间的余弦相似度损失:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

与现有剪枝方法的集成

PermLLM可以与任何基于重要性度量的一次性剪枝方法集成。对于给定的重要性矩阵S,置换后的重要性矩阵为Ŝ = SPB,掩码通过以下方式获得:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

使用STE处理argmax的非可微性问题。

实验设置

数据集与模型

  • 模型: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
  • 校准数据: 从C4数据集随机选择128个样本,每个包含1024个token
  • 评估任务:
    • 语言建模:Wikitext2 (困惑度)
    • 零样本任务:HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

对比方法

  • 基线方法: SparseGPT, Wanda, RIA
  • 传统通道置换: Wanda+CP, RIA+CP
  • 本文方法: PermLLMWanda, PermLLMRIA

实现细节

  • 优化器: AdamW
  • 学习率: {1e-3, 5e-3}
  • Sinkhorn迭代次数: 5
  • 温度参数: 从1线性衰减到0.1
  • 块大小: 64
  • 训练时间: 7B模型约2.5小时(4 GPUs),13B模型约5.5小时(8 GPUs)

实验结果

主要结果

语言建模性能(Wikitext2困惑度)

方法LLaMA 7BLLaMA-2 7BLLaMA-3.1 8BQwen-2.5 7B
Dense5.685.476.247.74
Wanda11.5912.1623.4224.44
Wanda+CP11.0711.0021.0918.76
PermLLMWanda9.419.3914.0313.58
RIA+CP10.9910.2619.8017.58
PermLLMRIA9.959.6015.7915.93

零样本任务平均准确率

模型WandaWanda+CPPermLLMWanda提升
LLaMA 7B41.3743.9445.67+4.3%
LLaMA-2 7B42.1243.4446.59+4.47%
LLaMA-3.1 8B38.9140.7243.33+4.42%

推理加速效果

使用定制CUDA核心,通道置换操作相比PyTorch实现获得84×加速,整体推理速度提升约1.67×。

消融实验

Sinkhorn归一化迭代次数影响

实验表明,Sinkhorn归一化迭代次数为5时能够获得良好的性能平衡。

块大小影响

块大小平均准确率Wikitext2困惑度训练时间
3243.589.502h
6446.599.392.5h
12847.099.076h

块大小64提供了性能和效率的最佳平衡。

校准数据集鲁棒性

在不同校准数据集(Pile, Wikitext2, C4)上的实验表明方法具有良好的鲁棒性。

案例分析

论文提供了掩码可视化(图3),显示PermLLM学习到的置换与传统方法产生不同的权重保留模式,验证了端到端优化的有效性。

相关工作

大语言模型剪枝

  • 结构化剪枝: 移除粗粒度结构(通道、层、块)
  • 非结构化剪枝: 最灵活但硬件加速困难
  • 半结构化剪枝: N:M稀疏性平衡了灵活性和硬件友好性

通道置换技术

  • 早期工作主要关注小规模网络的穷举搜索
  • RIA提出启发式通道分配方法
  • 本文首次引入可学习的端到端优化方法

N:M稀疏性学习

  • SR-STE等方法从头训练N:M稀疏模型
  • MaskLLM等方法学习半结构化稀疏性
  • 本文专注于后训练剪枝场景

结论与讨论

主要结论

  1. 方法有效性: PermLLM在多个模型和任务上显著优于传统通道置换方法
  2. 通用性: 可与现有剪枝方法无缝集成
  3. 实用性: 通过分块策略和定制CUDA核心实现了实用的计算效率

局限性

  1. 计算开销: 尽管分块策略显著降低了复杂度,但相比传统方法仍需要更多计算资源
  2. 应用范围: 方法专门针对半结构化剪枝,在其他压缩任务(如量化)上的应用有待探索
  3. 收敛性: 大块尺寸需要更多迭代才能收敛

未来方向

  1. 探索在量化等其他模型压缩任务中的应用
  2. 进一步提高训练效率
  3. 研究更高效的部分层优化策略

深度评价

优点

  1. 技术创新性强: 首次将通道置换问题转化为端到端可学习问题,技术路线新颖
  2. 理论基础扎实: Sinkhorn归一化和STE的结合使用在理论上合理
  3. 实验充分: 在多个模型、数据集和任务上进行了全面评估
  4. 工程实现完善: 提供了定制CUDA核心,考虑了实际部署需求
  5. 写作清晰: 论文结构清晰,技术细节描述准确

不足

  1. 计算开销: 虽然有分块策略,但训练成本仍然较高
  2. 理论分析不足: 缺乏收敛性分析和理论保证
  3. 适用范围限制: 主要适用于N:M稀疏性,泛化性有待验证
  4. 基线比较: 与一些最新的剪枝方法比较不够充分

影响力

  1. 学术价值: 为通道置换研究开辟了新的技术路径
  2. 实用价值: 在大语言模型压缩领域具有直接应用价值
  3. 可复现性: 提供了完整的代码实现和详细的实验设置

适用场景

  1. 大语言模型部署: 特别适合需要硬件加速的N:M稀疏部署场景
  2. 资源受限环境: 在计算资源充足的情况下追求更高的压缩质量
  3. 研究原型: 为进一步的剪枝和压缩研究提供技术基础

参考文献

论文引用了66篇相关文献,主要涵盖:

  • 大语言模型基础工作(GPT、LLaMA等)
  • 网络剪枝经典方法(Magnitude Pruning、SparseGPT等)
  • N:M稀疏性相关研究(RIA、SR-STE等)
  • 优化理论基础(Sinkhorn归一化、匈牙利算法等)

总体评价: 这是一篇技术创新性强、实验充分、工程实现完善的高质量论文。通过将离散优化问题转化为连续优化问题,为通道置换技术带来了突破性进展。尽管存在计算开销和适用范围的局限性,但其在大语言模型压缩领域的贡献是显著的,具有重要的学术价值和实用价值。