2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: 채널 및 토큰 간 공통 토큰 최적화 모델 剪枝

기본 정보

논문 ID: 2509.06836
제목: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
저자: Eugene Kwek, Wenpeng Yin (Penn State University)
분류: cs.CL cs.AI cs.LG
발표 상태: 검토 중인 사전 인쇄본
논문 링크: https://arxiv.org/abs/2509.06836v3

초록

본 논문은 대규모 언어 모델(LLM)의 메모리, 지연 시간 및 서비스 비용 효율성 최적화 문제를 해결하기 위해 COMPACT 剪枝 방법을 제안합니다. 이 방법은 어휘 剪枝와 공통 토큰 가중치 기반 FFN 채널 剪枝를 결합하여 표준 트랜스포머 아키텍처를 유지하면서 매개변수 압축을 달성합니다. 실험은 Qwen, LLaMA 및 Gemma 모델 계열(0.5B-70B 매개변수)에서 방법의 유효성을 검증했습니다.

연구 배경 및 동기

문제 정의

대규모 언어 모델은 다양한 NLP 작업에서 우수한 성능을 보이지만, 수십억에서 수천억 개의 거대한 매개변수 수로 인해 배포 비용이 높아 엣지 디바이스, 대화형 애플리케이션 및 대규모 추론에서의 적용이 제한됩니다.

기존 방법의 한계

너비 剪枝(Width Pruning): 숨겨진 차원 또는 채널을 제거하지만 표준 트랜스포머 아키텍처를 손상시키며 맞춤형 추론 코드 필요
깊이 剪枝(Depth Pruning): 전체 트랜스포머 블록을 제거하여 아키텍처는 유지하지만 성능이 급격히 저하
규모 적응성 부족: 기존 방법은 대형 모델에서 효과적이지만 소형 언어 모델(SLM)에서는 성능 저하
언어 특성 무시: 토큰의 중요도 차이를 고려하지 않고 모든 토큰을 동등하게 취급

연구 동기

저자들의 분석을 통해 다음을 발견했습니다:

다양한 규모의 모델에서 매개변수 분포에 현저한 차이 존재: 소형 모델에서는 어휘 매개변수 비율이 크고, 대형 모델에서는 FFN 매개변수가 지배적
자연언어는 Zipf 분포를 따르며, 희귀 토큰의 출현 빈도는 극히 낮고 하위 성능에 대한 기여도 제한적

핵심 기여

체계적 분석: 다양한 규모의 LLM에서 임베딩, FFN 및 어텐션 매개변수의 분포 패턴을 최초로 체계적으로 분석
COMPACT 방법: 어휘 剪枝와 공통 토큰 가중치 기반 FFN 剪枝를 결합한 새로운 프레임워크 제안
아키텍처 호환성: 표준 트랜스포머 아키텍처를 유지하여 기존 추론 프레임워크와 호환
규모 자적응성: 0.5B에서 70B 매개변수의 여러 모델 계열에서 최첨단 성능 달성

방법 상세 설명

매개변수 분포 분석

저자들은 먼저 현대적 디코더 전용 트랜스포머의 매개변수 분포를 분석했습니다:

어휘 매개변수: $N_{vocab} = 2VD$ (임베딩 및 LM 헤드 레이어)
FFN 매개변수: $N_{FFN} = 3LDI$ (L개 레이어, 중간 차원 I)
어텐션 매개변수: $N_{attention} = 2LD^2(1 + \frac{1}{H})$ (H는 헤드 수 비율)

모델 규모가 증가함에 따라 $N_{FFN}$ 과 $N_{attention}$ 은 $O(LD^2)$ 로 증가하는 반면, $N_{vocab}$ 은 $O(D)$ 로만 증가하므로 소형 모델에서 어휘 매개변수 비율이 더 큽니다.

COMPACT 아키텍처

1. 어휘 剪枝(Vocabulary Pruning)

원리: BPE 토크나이저가 Zipf 분포를 따르는 특성을 기반으로 가장 희귀한 $V-V'$ 개 토큰 제거
구현: 임베딩 및 LM 헤드 행렬의 해당 행과 토크나이저의 병합 규칙 직접 삭제
장점: 보정 데이터 불필요, 계산 효율적

2. 공통 토큰 가중치 기반 FFN 剪枝

기존의 act² 방법은 채널 중요도를 다음과 같이 계산합니다: $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

COMPACT가 제안하는 common act² 방법: $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{otherwise} \end{cases}$

여기서 $S$ 는 剪枝된 희귀 토큰 집합입니다.

알고리즘 흐름

알고리즘 1 COMPACT
입력: 모델 M, 보정 데이터셋 D, 목표 어휘 크기 V', 목표 중간 차원 I'
1. 가장 희귀한 V-V'개 토큰 집합 S 식별
2. 데이터셋 D에서 전방 전파 실행, 제곱 활성화 수집
3. 각 채널 k에 대해 common act²를 사용하여 중요도 Ik 계산
4. 각 레이어에 대해: 가장 중요하지 않은 I-I'개 채널 剪枝
5. 어휘 매개변수 剪枝: 임베딩 및 LM 헤드 행렬의 마지막 V-V'행 제거
6. 剪枝된 모델 M' 반환

기술 혁신 포인트

이중 剪枝 전략: 어휘 剪枝와 FFN 剪枝를 결합하여 다양한 규모 모델의 매개변수 분포 특성에 대응
공통 토큰 가중치: FFN 剪枝 시 剪枝 후에도 유효한 토큰만 고려하여 희귀 토큰의 오도 방지
아키텍처 유지: 어휘 크기와 중간 차원만 剪枝하여 표준 트랜스포머 구조 유지
규모 자적응성: $V'$ 과 $I'$ 두 개의 하이퍼파라미터를 조정하여 다양한 규모 요구에 대응

실험 설정

평가 모델

소형 언어 모델: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
대형 언어 모델: LLaMA 3.1-8B, LLaMA 3.1-70B

데이터셋 및 작업

보정 데이터: C4 데이터셋의 256개 샘플
평가 작업: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

비교 방법

깊이 剪枝: ShortGPT, LaCo
너비 剪枝: SliceGPT, 2SSP, FLAP

평가 지표

매개변수 剪枝 비율, 평균 정확도, 상대 성능 유지율
剪枝 시간, 추론 처리량, GPU 메모리 사용량

실험 결과

주요 결과

소형 언어 모델 성능

Qwen 2.5-0.5B에서 35% 剪枝 비율:

COMPACT: 평균 정확도 35.3% (70.4% 상대 성능)
최고 기준선: 31.4% (62.5% 상대 성능)

LLaMA 3.2-1B에서 35% 剪枝 비율:

COMPACT: 평균 정확도 36.9% (76.4% 상대 성능)
최고 기준선: 33.6% (69.6% 상대 성능)

대형 언어 모델 성능

LLaMA 3.1-70B에서 35% 剪枝 비율:

COMPACT: 평균 정확도 63.7% (80.2% 상대 성능)
2SSP: 62.8% (79.1% 상대 성능)

효율성 분석

剪枝 시간 비교 (LLaMA 3.1-8B, 35% 剪枝)

COMPACT: 0:32
2SSP: 1:26
SliceGPT: 10:48

추론 효율성 (LLaMA 3.1-8B, 35% 剪枝)

메모리 사용: COMPACT 36% 감소 (최고), ShortGPT/LaCo 25% 감소
처리량 향상: COMPACT 37% 향상, ShortGPT/LaCo 57% 향상

소거 실험

Common act² 유효성

Qwen 2.5-0.5B에서 35% 剪枝:

Common act²: 70.4% 상대 성능
표준 act²: 69.2% 상대 성능
|act| 방법: 67.6% 상대 성능

어휘-FFN 균형 분석

37% 剪枝 비율 고정, 다양한 $V'$ 과 $I'$ 조합:

순수 FFN 剪枝 (V'=151936): 63.0% 상대 성능
최적 조합 (V'=49536): 70.4% 상대 성능

주요 발견

부드러운 성능 저하: COMPACT는 부드러운 성능 감소를 보이는 반면, 깊이 剪枝 방법은 갑작스러운 성능 변동 존재
아키텍처 무관성: COMPACT는 Gemma 3 등 새로운 아키텍처에 직접 적용 가능하며, 다른 방법은 아키텍처 특정 수정 필요
희귀 토큰 영향 제한적: 67%의 어휘 축소는 텍스트 재토큰화의 4%만 영향

결론 및 논의

주요 결론

COMPACT는 여러 모델 계열 및 규모에서 최첨단 剪枝 성능 달성
방법은 표준 트랜스포머 아키텍처를 유지하여 우수한 배포 호환성 보유
이중 剪枝 전략은 다양한 규모 모델의 매개변수 분포 특성에 효과적으로 대응

한계

처리량 향상 제한적: 깊이 剪枝 방법에 비해 추론 처리량 향상 측면에서 여전히 격차 존재
어휘 剪枝의 영역 적응성: 특정 영역에서는 더 많은 전문 용어 보존 필요 가능
하이퍼파라미터 조정: 다양한 剪枝 비율에 대해 최적의 $V'$ 과 $I'$ 조합 탐색 필요

향후 방향

저자들은 너비 剪枝과 깊이 剪枝 간의 처리량 측면 격차를 좁히기 위한 추가 연구 필요성을 제시합니다.

심층 평가

장점

견고한 이론적 기초: 매개변수 분포 분석 및 Zipf 분포 특성에 기반한 이론적 지도
정교한 방법 설계: common act²는 어휘 剪枝와 FFN 剪枝를 정교하게 결합
포괄적 실험: 여러 모델 계열, 규모 및 작업에 대한 체계적 평가
높은 실용 가치: 아키텍처 호환성 유지로 배포 용이

부족한 점

제한된 혁신도: 어휘 剪枝와 FFN 剪枝는 기존 기술이며, 주요 기여는 결합에 있음
불충분한 이론 분석: 이러한 결합이 효과적인 이유에 대한 심층 이론 설명 부족
제한된 추론 가속: 핵심 성능 지표(처리량)에서 깊이 剪枝 방법에 미치지 못함

영향력

학술적 기여: LLM 剪枝에 새로운 관점 제공, 특히 규모 자적응성 사고방식
실용적 가치: 방법이 단순하고 효과적이며 구현 및 배포 용이
재현성: 저자들이 코드 공개 약속으로 방법 확산에 유리

적용 시나리오

엣지 배포: 메모리 제약 환경에서의 모델 압축
다중 규모 배포: 소형 및 대형 모델을 동시에 지원해야 하는 시나리오
빠른 剪枝: 단시간 내 모델 압축 완료가 필요한 애플리케이션

참고 문헌

논문은 다양한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

양자화 방법: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
깊이 剪枝: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
너비 剪枝: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
어휘 처리: 관련 다국어 및 영역 특정 어휘 剪枝 연구

종합 평가: 이는 기술적으로 견고하고 실용성이 강한 논문입니다. 이론적 혁신 측면에서는 상대적으로 제한적이지만, 정교한 방법 조합과 포괄적인 실험 검증을 통해 LLM 剪枝 분야에 효과적이고 배포하기 쉬운 솔루션을 제공합니다. 특히 소형 언어 모델 剪枝 및 아키텍처 호환성 측면의 장점으로 인해 우수한 응용 전망을 가집니다.