Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- 논문 ID: 2505.16743
- 제목: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- 저자: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
- 분류: cs.CL cs.AI cs.LG
- 발표 시간: 2025년 10월 11일 (arXiv v2)
- 논문 링크: https://arxiv.org/abs/2505.16743
- 코드 링크: https://github.com/flobk/TRIM
대규모 언어 모델(LLMs)은 막대한 매개변수 규모로 인해 계산 및 메모리 측면에서 큰 도전 과제를 야기하며, 모델 剪枝는 효율적인 배포에 필수적입니다. 기존의 일회성 剪枝 방법은 일반적으로 계층 간 또는 계층 내에서 균일한 희소성 제약을 적용하며, 높은 희소율에서 성능이 저하됩니다. 본 논문은 각 계층 내의 개별 출력 차원(행)에 서로 다른 희소율을 적용하는 새로운 방법인 TRIM(목표 지정 행 단위 반복 메트릭 기반 剪枝)을 제안합니다. TRIM은 품질 메트릭에 의해 안내되는 반복적 조정 프로세스를 채택하여 차원 수준 희소성 할당을 최적화하며, 출력 간 품질 유지의 분산을 감소시켜 중요 정보를 보존하는 데 중점을 둡니다. TRIM은 기존의 계층 수준 剪枝 전략과 원활하게 통합될 수 있습니다. 여러 LLM 계열(Qwen2.5, LLaMA-2, OPT)과 희소성 수준에 대한 혼란도 및 영점 샷 작업 평가는 TRIM이 최첨단 결과를 달성하고 안정성을 향상시켰음을 보여줍니다. 예를 들어, 80% 희소율에서 TRIM은 기준선 방법과 비교하여 Qwen2.5-14B의 혼란도를 48% 감소시키고 OPT-13B의 혼란도를 90% 이상 감소시켰습니다.
대규모 언어 모델의 매개변수 규모가 지수적으로 증가함에 따라 모델 배포는 심각한 메모리 및 계산 자원 도전 과제에 직면하고 있습니다. 매개변수 증가는 성능 향상과 창발 능력을 가져오지만, 자원이 제한된 환경에서의 추론을 어렵게 만듭니다.
- 균일한 희소성 제약: 기존의 일회성 剪枝 방법(Wanda, OWL, AlphaPruning 등)은 일반적으로 모든 계층 또는 계층 내 모든 출력 차원에 동일한 희소율을 적용합니다.
- 높은 희소율에서의 성능 급격한 하락: 극단적 희소성(>70%)에서 균일 전략은 성능을 크게 악화시킵니다.
- 차원 이질성 무시: 서로 다른 출력 차원은 剪枝에 대한 민감도와 중요도가 크게 다릅니다.
논문은 LLM이 돌출된 이상치 특성 및 고도로 치우친 활성화 분포와 같은 독특한 가중치 및 활성화 특성을 가지고 있음을 관찰합니다. 이러한 특성은 계층 내 서로 다른 출력 차원이 서로 다른 剪枝 민감도를 가지고 있으며, 따라서 더 세분화된 희소성 할당 전략이 필요함을 시사합니다.
- 차원 수준 희소성 할당의 선구적 도입: 각 계층 내의 개별 출력 차원에 대해 서로 다른 희소율을 계산하는 첫 번째 알고리즘 제안
- 극단적 희소성에서의 최첨단 성능: 80% 희소율에서 기존 방법 대비 혼란도를 크게 감소(Qwen2.5-14B 48% 감소, OPT-13B 90% 이상 감소)
- 심층적 실증 분석: 출력 차원의 剪枝 민감도 및 하위 작업 중요도 측면에서의 이질성 규명
- 플러그 앤 플레이 설계: TRIM은 모든 중요도 점수 기반 剪枝 알고리즘과 통합 가능하며 우수한 범용성을 갖습니다.
가중치 행렬 W ∈ R^(D×N)이 주어졌을 때(D는 출력 차원 수, N은 입력 차원 수), 각 출력 차원 Wi,:에 대해 최적 희소율 Si를 결정하여 평균 희소율 제약을 만족하면서 계층의 전체 품질을 최대화하는 것이 목표입니다.
TRIM은 차원 수준 희소성 벡터 S = S1, S2, ..., SD를 정의하며, 여기서 Si ∈ 0,1은 i번째 출력 차원의 목표 희소율을 지정합니다. 제약 조건은 다음과 같습니다:
여기서 T는 계층의 목표 희소율입니다.
알고리즘 1: 반복적 차원 단위 희소성 조정
- 초기화: 剪枝되지 않은 출력 Y ← WX 계산, Si = T로 초기화 (균일 분포)
- 반복적 최적화(K회):
- 현재 S에 따라 剪枝하여 Wpruned 획득
- 剪枝된 출력 Ŷ ← WprunedX 계산
- 전체 품질 평가 qk ← Qmetric(Y, Ŷ)
- 최적 구성 업데이트 (qk > qbest인 경우)
- 각 차원의 품질 계산 ci ← QmetricDimwise(Yi,:, Ŷi,:)
- 품질 점수를 0,1 범위로 정규화
- 학습률 α에 따라 희소율 조정: δi ← αc'i
- 평균 제약 유지를 위해 재중심화: Si ← δi - (1/D)Σδj + T
- 반환: 최적 희소성 할당 Sbest
- 계층 수준 품질: 코사인 유사도를 사용하여 전체 계층 剪枝 품질 평가
- 차원 수준 품질: 각 출력 차원의 코사인 유사도를 계산하여 희소율 조정 안내
- 적응형 학습률: 양수 및 음수 학습률 지원, 양수 학습률은 품질 분산 감소, 음수 학습률은 이상치가 집중된 계층에 적용
- 품질 분산 최소화: 차원 간 품질 저하의 분산을 감소시켜 전체 성능 향상
- 호환성 설계: 기존 점수 규칙(Wanda, Magnitude, SparseGPT, GBLM)과 통합 가능
- 모델: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
- 평가 데이터: WikiText 검증 세트(혼란도), C4 및 Pile(일반화 검증)
- 하위 작업: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA
- 혼란도: WikiText 검증 세트에서 언어 모델링 능력 평가
- 영점 샷 정확도: 7개 하위 작업의 평균 성능
- 기준선 방법: OWL, AlphaPruning (Wanda 기반)
- 소거 연구: 서로 다른 품질 메트릭, 학습률 설정, 반복 횟수의 영향
- 보정 샘플: C4 데이터셋에서 무작위 선택, 시퀀스 길이 2048
- 희소율 제한: 과적합 방지를 위해 단일 차원 최대 95%
- 하이퍼파라미터: K=10회 반복, 학습률 α는 그리드 탐색으로 결정
| 모델 | OWL 기준선 | OWL+TRIM | 개선 폭 |
|---|
| Qwen2.5-14B | 348.48 | 180.67 | -48% |
| OPT-13B | 6461.43 | 324.14 | -95% |
| LLaMA-2-13B | 225.04 | 154.83 | -31% |
TRIM은 모든 테스트 모델 및 희소율 수준에서 성능 향상을 달성했으며, 80% 희소율에서 평균 0.46-0.65 백분포인트 개선을 보였습니다.
- 계층 수준 품질: 코사인 유사도가 가장 안정적인 성능 발휘
- 차원 수준 품질: 코사인 유사도가 MSE 및 PSNR 대비 더 신뢰할 수 있음
TRIM은 Magnitude, SparseGPT, GBLM 등 다양한 점수 규칙에서 개선 효과를 보여주며, 방법의 범용성을 검증합니다.
지니 계수 분석을 통해 서로 다른 출력 차원의 중요도 점수 집중도에 현저한 차이가 있음을 발견하여 剪枝 민감도가 다름을 보여줍니다.
희소율 증가에 따라 품질 저하가 가속화되는 경향을 보이므로, 세분화된 할당이 더욱 중요해집니다.
실험은 단일 차원을 완전히 제거하는 영향의 거대한 차이를 보여줍니다:
- 최소 L2 노름 차원: 혼란도 증가 0.16만
- 최대 L2 노름 차원: 혼란도 급증 273.10
- 그래디언트 기반 방법: SNIP, GraSP, SynFlow 등, 그래디언트 정보 및 재훈련 필요
- 일회성 剪枝 방법: SparseGPT, Wanda 등, 재훈련 불필요하지만 성능 제한
- 계층 수준 적응형 방법: OWL, AlphaPruning 등, 서로 다른 계층에 다양한 희소율 할당
TRIM은 계층 내에서 차원 수준 희소성 할당을 수행하는 첫 번째 방법으로, 기존 방법의 세분화된 제어 측면의 공백을 채웁니다.
- 차원 수준 희소성 할당의 필요성: 극단적 희소성에서 세분화된 제어는 모델 성능 유지에 필수적입니다.
- 품질 분산 최소화의 효과성: 차원 간 품질 저하의 균형을 통해 전체 성능을 크게 향상시킬 수 있습니다.
- 방법의 범용성: TRIM은 다양한 기존 剪枝 알고리즘과 통합 가능하며 우수한 확장성을 갖습니다.
- 학습률 선택의 복잡성: 이상치가 집중된 계층은 음수 학습률이 필요하여 하이퍼파라미터 조정의 복잡성이 증가합니다.
- 비구조화 희소성: 현재 방법은 n:m 등 구조화된 희소 패턴을 직접 지원하지 않습니다.
- 계산 오버헤드: 반복 프로세스는 약 8%의 실행 시간 증가를 야기합니다.
- 구조화 희소성 지원: TRIM을 확장하여 하드웨어 친화적인 희소 패턴 지원
- 자동 학습률 선택: 하이퍼파라미터 조정 필요성을 줄이기 위한 적응형 메커니즘 개발
- 이론적 분석: 차원 중요도와 剪枝 민감도의 이론적 프레임워크 구축
- 높은 혁신성: 차원 수준 희소성 할당을 처음 제안하며 사고가 신선합니다.
- 충분한 실험: 여러 모델 계열 및 작업에서 방법의 효과성을 검증했습니다.
- 이론적 지원: 심층 분석을 통해 방법 효과성의 근본 원인을 규명했습니다.
- 높은 실용 가치: 플러그 앤 플레이 설계로 기존 시스템에 쉽게 통합됩니다.
- 방법 복잡성: 기준선 방법 대비 알고리즘 복잡도 및 하이퍼파라미터 증가
- 하드웨어 적응성: 비구조화 희소성은 전용 하드웨어에서의 가속 효과를 제한합니다.
- 이론적 분석 부족: 최적 희소성 할당에 대한 이론적 보장 부족
- 학술 기여: LLM 剪枝 분야에 새로운 연구 방향 제공
- 실용 가치: 자원이 제한된 환경에서 대규모 모델 배포에 중요한 의미
- 재현성: 오픈 소스 코드 제공으로 후속 연구 용이
- 극단적 희소성 필요: 특히 >70% 희소율이 필요한 시나리오에 적합
- 자원 제한 환경: 엣지 디바이스, 모바일 등 계산 자원이 제한된 환경
- 연구 용도: 剪枝 알고리즘 연구를 위한 새로운 기준 및 사고 제공
논문은 剪枝 분야의 중요한 연구를 인용하며, 다음을 포함합니다:
- 고전 剪枝 방법: Le Cun et al. (1989), Han et al. (2015)
- 현대 LLM 剪枝: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
- 계층 수준 적응형 방법: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning
요약: TRIM은 차원 수준 희소성 할당을 도입하여 극단적 희소성에서 LLM 剪枝 성능을 크게 향상시킵니다. 이 방법은 중요한 이론적 가치와 실용적 의미를 가지며, 대규모 모델 압축 분야에 새로운 연구 방향을 개척했습니다. 일부 한계에도 불구하고, 그 혁신성과 효과성은 이 분야의 중요한 기여가 됩니다.