2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.

Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.

academic

PermLLM: N:M 희소 대규모 언어 모델을 위한 학습 가능한 채널 순열

기본 정보

논문 ID: 2510.10136
제목: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
저자: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (홍콩중문대학교)
분류: cs.LG cs.AI
발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
논문 링크: https://arxiv.org/abs/2510.10136
코드 링크: https://github.com/lanchengzou/PermLLM

초록

채널 순열은 가중치 행렬의 채널을 재정렬하여 중요한 가중치를 우선적으로 보존함으로써 N:M 희소 모델의 정확도를 향상시키는 강력한 기법입니다. 그러나 기존의 채널 순열 방법은 수작업으로 설계된 품질 지표에 의존하며, 종종 가지치기가 모델 성능에 미치는 실제 영향을 정확하게 포착하지 못합니다. 이러한 한계를 해결하기 위해 본 논문은 학습 가능한 채널 순열(LCP)을 도입한 N:M 희소성 사후 훈련 가지치기 프레임워크인 PermLLM을 제안합니다. LCP는 Sinkhorn 정규화를 활용하여 이산 순열 행렬을 미분 가능한 소프트 순열 행렬로 변환하여 엔드투엔드 최적화를 실현합니다. 또한 PermLLM은 효율적인 청크 채널 순열 전략을 채택하여 학습 가능한 매개변수 수와 계산 복잡도를 크게 감소시킵니다. PermLLM은 기존의 원샷 가지치기 방법과 원활하게 통합되어 채널 순열을 적응적으로 최적화하고 가지치기로 인한 오류를 효과적으로 완화합니다.

연구 배경 및 동기

문제 정의

핵심 문제: 기존 채널 순열 방법은 수작업으로 설계된 품질 지표(예: 가중치 중요도 합계 보존)를 사용하여 순열 방안을 평가하지만, 이러한 지표와 실제 가지치기 오류 사이에는 차이가 존재합니다.
중요성: 대규모 언어 모델의 규모가 빠르게 증가함에 따라 모델 압축 기술(예: 가지치기)은 효율적인 배포에 필수적입니다. N:M 희소성은 하드웨어 친화성(NVIDIA Sparse Tensor Core 지원)으로 인해 주목받고 있습니다.
기존 한계:
- 수작업으로 설계된 품질 지표는 가지치기가 모델 성능에 미치는 실제 영향을 정확하게 반영하지 못함
- 기존 방법은 복잡한 계층 간 상호작용을 충분히 포착하지 못함
- 최적화 공간이 거대함(Cin개의 입력 채널에 대해 Cin!개의 가능한 순열 존재)

연구 동기

논문은 구체적인 예시(그림1)를 통해 문제를 보여줍니다: 중요도 점수를 최대화하는 채널 순열이 더 큰 출력 오류를 초래할 수 있으며, 이는 수작업 지표와 실제 성능 사이의 본질적 차이를 나타냅니다.

핵심 기여

학습 가능한 채널 순열(LCP) 최초 제안: 이산 채널 순열 문제를 미분 가능한 최적화 문제로 변환하여 엔드투엔드 학습을 실현합니다.
Sinkhorn 정규화 기술: Sinkhorn 정규화를 활용하여 이산 순열 행렬을 소프트 순열 행렬로 완화하여 순열 행렬의 미분 불가능 문제를 해결합니다.
청크 채널 순열 전략: 매개변수 복잡도를 O(C²ᵢₙ)에서 O(Cᵢₙ×B)로, 계산 복잡도를 O(C³ᵢₙ)에서 O(Cᵢₙ×B²)로 크게 감소시킵니다.
범용 프레임워크 설계: 기존의 원샷 가지치기 방법(Wanda, RIA 등)과 원활하게 통합됩니다.
우수한 실험 성능: LLaMA 시리즈, Qwen, OPT 등 여러 모델에서 방법의 효과를 검증했습니다.

방법론 상세 설명

작업 정의

사전 훈련된 가중치 행렬 W ∈ R^(Cout×Cin)이 주어졌을 때, 목표는 최적의 순열 행렬 P를 찾아 재정렬된 가중치 행렬 Ŵ = WP가 N:M 희소성을 적용한 후 원본 밀집 모델과의 출력 차이를 최소화하는 것입니다.

핵심 기술 아키텍처

1. 소프트 순열 행렬 완화

하드 순열 행렬 P를 소프트 순열 행렬 P̂로 완화합니다:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

여기서 Tr과 Tc는 각각 행 정규화 및 열 정규화 연산을 나타내며, τ는 소프트 순열 행렬의 경도를 제어하는 온도 매개변수입니다.

2. 경화 과정 및 기울기 근사

정방향 전파 시 헝가리안 알고리즘을 통해 소프트 순열 행렬을 엄격한 순열 행렬로 경화합니다:

P = argmax P∈P Tr(P⊤P̂)

역방향 전파 시 직통 추정기(STE)를 사용하여 기울기를 근사합니다: ∂P/∂P̂ = 1.

3. 청크 채널 순열

계산 복잡도를 낮추기 위해 채널을 크기 B인 여러 청크로 분할하고 각 청크 내에서 독립적으로 순열을 수행합니다:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

매개변수 수를 C²ᵢₙ에서 Cᵢₙ×B로 감소시키고, 계산 복잡도를 O(C³ᵢₙ)에서 O(Cᵢₙ×B²)로 감소시킵니다.

최적화 목표

PermLLM은 밀집 모델과 희소 모델 출력 사이의 코사인 유사도 손실을 직접 최소화합니다:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

기존 가지치기 방법과의 통합

PermLLM은 중요도 지표 기반의 모든 원샷 가지치기 방법과 통합될 수 있습니다. 주어진 중요도 행렬 S에 대해 순열 후 중요도 행렬은 Ŝ = SPB이며, 마스크는 다음과 같이 획득됩니다:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

argmax의 미분 불가능성 문제를 처리하기 위해 STE를 사용합니다.

실험 설정

데이터셋 및 모델

모델: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
캘리브레이션 데이터: C4 데이터셋에서 무작위로 128개 샘플 선택, 각 샘플은 1024개 토큰 포함
평가 작업:
- 언어 모델링: Wikitext2 (혼란도)
- 제로샷 작업: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

비교 방법

기준 방법: SparseGPT, Wanda, RIA
기존 채널 순열: Wanda+CP, RIA+CP
본 논문 방법: PermLLMWanda, PermLLMRIA

구현 세부사항

최적화기: AdamW
학습률: {1e-3, 5e-3}
Sinkhorn 반복 횟수: 5
온도 매개변수: 1에서 0.1로 선형 감소
청크 크기: 64
훈련 시간: 7B 모델 약 2.5시간(4 GPU), 13B 모델 약 5.5시간(8 GPU)

실험 결과

주요 결과

언어 모델링 성능(Wikitext2 혼란도)

방법	LLaMA 7B	LLaMA-2 7B	LLaMA-3.1 8B	Qwen-2.5 7B
Dense	5.68	5.47	6.24	7.74
Wanda	11.59	12.16	23.42	24.44
Wanda+CP	11.07	11.00	21.09	18.76
PermLLMWanda	9.41	9.39	14.03	13.58
RIA+CP	10.99	10.26	19.80	17.58
PermLLMRIA	9.95	9.60	15.79	15.93

제로샷 작업 평균 정확도

모델	Wanda	Wanda+CP	PermLLMWanda	향상도
LLaMA 7B	41.37	43.94	45.67	+4.3%
LLaMA-2 7B	42.12	43.44	46.59	+4.47%
LLaMA-3.1 8B	38.91	40.72	43.33	+4.42%

추론 가속 효과

맞춤형 CUDA 커널을 사용하면 채널 순열 연산이 PyTorch 구현 대비 84배 가속되며, 전체 추론 속도는 약 1.67배 향상됩니다.

소거 실험

Sinkhorn 정규화 반복 횟수 영향

실험 결과 Sinkhorn 정규화 반복 횟수가 5일 때 양호한 성능 균형을 달성합니다.

청크 크기 영향

청크 크기	평균 정확도	Wikitext2 혼란도	훈련 시간
32	43.58	9.50	2h
64	46.59	9.39	2.5h
128	47.09	9.07	6h

청크 크기 64는 성능과 효율성의 최적 균형을 제공합니다.

캘리브레이션 데이터셋 견고성

다양한 캘리브레이션 데이터셋(Pile, Wikitext2, C4)에 대한 실험은 방법의 우수한 견고성을 보여줍니다.

사례 분석

논문은 마스크 시각화(그림3)를 제공하여 PermLLM이 학습한 순열이 기존 방법과 다른 가중치 보존 패턴을 생성함을 보여주며, 엔드투엔드 최적화의 효과를 검증합니다.

결론 및 논의

주요 결론

방법의 효과성: PermLLM은 여러 모델과 작업에서 기존 채널 순열 방법을 크게 능가합니다
범용성: 기존 가지치기 방법과 원활하게 통합 가능
실용성: 청크 전략과 맞춤형 CUDA 커널을 통해 실용적인 계산 효율성을 실현

한계

계산 오버헤드: 청크 전략이 복잡도를 크게 감소시키지만 기존 방법 대비 더 많은 계산 자원 필요
적용 범위: 방법은 반구조화된 가지치기에 특화되어 있으며, 양자화 등 다른 압축 작업에서의 적용은 탐색 필요
수렴성: 큰 청크 크기는 수렴을 위해 더 많은 반복 필요

향후 방향

양자화 등 다른 모델 압축 작업에서의 적용 탐색
훈련 효율성 추가 향상
더 효율적인 부분 계층 최적화 전략 연구

심층 평가

장점

기술 혁신성 강함: 채널 순열 문제를 엔드투엔드 학습 가능 문제로 최초 변환, 기술 경로 신규
이론적 기초 견고: Sinkhorn 정규화와 STE의 결합 사용이 이론적으로 합리적
실험 충분함: 여러 모델, 데이터셋, 작업에서 포괄적 평가 수행
공학 구현 완성도 높음: 맞춤형 CUDA 커널 제공, 실제 배포 필요성 고려
작문 명확함: 논문 구조 명확, 기술 세부사항 정확하게 기술

부족한 점

계산 오버헤드: 청크 전략이 있어도 훈련 비용이 여전히 높음
이론 분석 부족: 수렴성 분석 및 이론적 보장 부재
적용 범위 제한: 주로 N:M 희소성에 적용되며 일반화 가능성 검증 필요
기준선 비교 부족: 최신 가지치기 방법과의 비교 충분하지 않음

영향력

학술적 가치: 채널 순열 연구에 새로운 기술 경로 개척
실용적 가치: 대규모 언어 모델 압축 분야에 직접 적용 가능
재현성: 완전한 코드 구현 및 상세한 실험 설정 제공

적용 시나리오

대규모 언어 모델 배포: 특히 하드웨어 가속이 필요한 N:M 희소 배포 시나리오에 적합
자원 제약 환경: 계산 자원이 충분한 경우 더 높은 압축 품질 추구
연구 프로토타입: 추가 가지치기 및 압축 연구를 위한 기술 기초 제공

참고문헌

논문은 66편의 관련 문헌을 인용하며, 주로 다음을 포함합니다:

대규모 언어 모델 기초 연구(GPT, LLaMA 등)
네트워크 가지치기 고전 방법(Magnitude Pruning, SparseGPT 등)
N:M 희소성 관련 연구(RIA, SR-STE 등)
최적화 이론 기초(Sinkhorn 정규화, 헝가리안 알고리즘 등)

종합 평가: 이는 기술 혁신성이 강하고 실험이 충분하며 공학 구현이 완성도 높은 우수 논문입니다. 이산 최적화 문제를 연속 최적화 문제로 변환함으로써 채널 순열 기술에 획기적인 진전을 가져왔습니다. 계산 오버헤드와 적용 범위의 한계가 있지만, 대규모 언어 모델 압축 분야에서의 기여는 현저하며 중요한 학술적 가치와 실용적 가치를 지닙니다.