PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
채널 순열은 가중치 행렬의 채널을 재정렬하여 중요한 가중치를 우선적으로 보존함으로써 N:M 희소 모델의 정확도를 향상시키는 강력한 기법입니다. 그러나 기존의 채널 순열 방법은 수작업으로 설계된 품질 지표에 의존하며, 종종 가지치기가 모델 성능에 미치는 실제 영향을 정확하게 포착하지 못합니다. 이러한 한계를 해결하기 위해 본 논문은 학습 가능한 채널 순열(LCP)을 도입한 N:M 희소성 사후 훈련 가지치기 프레임워크인 PermLLM을 제안합니다. LCP는 Sinkhorn 정규화를 활용하여 이산 순열 행렬을 미분 가능한 소프트 순열 행렬로 변환하여 엔드투엔드 최적화를 실현합니다. 또한 PermLLM은 효율적인 청크 채널 순열 전략을 채택하여 학습 가능한 매개변수 수와 계산 복잡도를 크게 감소시킵니다. PermLLM은 기존의 원샷 가지치기 방법과 원활하게 통합되어 채널 순열을 적응적으로 최적화하고 가지치기로 인한 오류를 효과적으로 완화합니다.
종합 평가: 이는 기술 혁신성이 강하고 실험이 충분하며 공학 구현이 완성도 높은 우수 논문입니다. 이산 최적화 문제를 연속 최적화 문제로 변환함으로써 채널 순열 기술에 획기적인 진전을 가져왔습니다. 계산 오버헤드와 적용 범위의 한계가 있지만, 대규모 언어 모델 압축 분야에서의 기여는 현저하며 중요한 학술적 가치와 실용적 가치를 지닙니다.