COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
본 논문은 대규모 언어 모델(LLM)의 메모리, 지연 시간 및 서비스 비용 효율성 최적화 문제를 해결하기 위해 COMPACT 剪枝 방법을 제안합니다. 이 방법은 어휘 剪枝와 공통 토큰 가중치 기반 FFN 채널 剪枝를 결합하여 표준 트랜스포머 아키텍처를 유지하면서 매개변수 압축을 달성합니다. 실험은 Qwen, LLaMA 및 Gemma 모델 계열(0.5B-70B 매개변수)에서 방법의 유효성을 검증했습니다.
알고리즘 1 COMPACT
입력: 모델 M, 보정 데이터셋 D, 목표 어휘 크기 V', 목표 중간 차원 I'
1. 가장 희귀한 V-V'개 토큰 집합 S 식별
2. 데이터셋 D에서 전방 전파 실행, 제곱 활성화 수집
3. 각 채널 k에 대해 common act²를 사용하여 중요도 Ik 계산
4. 각 레이어에 대해: 가장 중요하지 않은 I-I'개 채널 剪枝
5. 어휘 매개변수 剪枝: 임베딩 및 LM 헤드 행렬의 마지막 V-V'행 제거
6. 剪枝된 모델 M' 반환
양자화 방법: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
깊이 剪枝: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
너비 剪枝: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
어휘 처리: 관련 다국어 및 영역 특정 어휘 剪枝 연구
종합 평가: 이는 기술적으로 견고하고 실용성이 강한 논문입니다. 이론적 혁신 측면에서는 상대적으로 제한적이지만, 정교한 방법 조합과 포괄적인 실험 검증을 통해 LLM 剪枝 분야에 효과적이고 배포하기 쉬운 솔루션을 제공합니다. 특히 소형 언어 모델 剪枝 및 아키텍처 호환성 측면의 장점으로 인해 우수한 응용 전망을 가집니다.