2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: 목표 지정 행 단위 반복 메트릭 기반 剪枝를 통한 극단적 희소성 달성

기본 정보

논문 ID: 2505.16743
제목: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
저자: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
분류: cs.CL cs.AI cs.LG
발표 시간: 2025년 10월 11일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2505.16743
코드 링크: https://github.com/flobk/TRIM

초록

대규모 언어 모델(LLMs)은 막대한 매개변수 규모로 인해 계산 및 메모리 측면에서 큰 도전 과제를 야기하며, 모델 剪枝는 효율적인 배포에 필수적입니다. 기존의 일회성 剪枝 방법은 일반적으로 계층 간 또는 계층 내에서 균일한 희소성 제약을 적용하며, 높은 희소율에서 성능이 저하됩니다. 본 논문은 각 계층 내의 개별 출력 차원(행)에 서로 다른 희소율을 적용하는 새로운 방법인 TRIM(목표 지정 행 단위 반복 메트릭 기반 剪枝)을 제안합니다. TRIM은 품질 메트릭에 의해 안내되는 반복적 조정 프로세스를 채택하여 차원 수준 희소성 할당을 최적화하며, 출력 간 품질 유지의 분산을 감소시켜 중요 정보를 보존하는 데 중점을 둡니다. TRIM은 기존의 계층 수준 剪枝 전략과 원활하게 통합될 수 있습니다. 여러 LLM 계열(Qwen2.5, LLaMA-2, OPT)과 희소성 수준에 대한 혼란도 및 영점 샷 작업 평가는 TRIM이 최첨단 결과를 달성하고 안정성을 향상시켰음을 보여줍니다. 예를 들어, 80% 희소율에서 TRIM은 기준선 방법과 비교하여 Qwen2.5-14B의 혼란도를 48% 감소시키고 OPT-13B의 혼란도를 90% 이상 감소시켰습니다.

연구 배경 및 동기

문제 정의

대규모 언어 모델의 매개변수 규모가 지수적으로 증가함에 따라 모델 배포는 심각한 메모리 및 계산 자원 도전 과제에 직면하고 있습니다. 매개변수 증가는 성능 향상과 창발 능력을 가져오지만, 자원이 제한된 환경에서의 추론을 어렵게 만듭니다.

기존 방법의 한계

균일한 희소성 제약: 기존의 일회성 剪枝 방법(Wanda, OWL, AlphaPruning 등)은 일반적으로 모든 계층 또는 계층 내 모든 출력 차원에 동일한 희소율을 적용합니다.
높은 희소율에서의 성능 급격한 하락: 극단적 희소성(>70%)에서 균일 전략은 성능을 크게 악화시킵니다.
차원 이질성 무시: 서로 다른 출력 차원은 剪枝에 대한 민감도와 중요도가 크게 다릅니다.

연구 동기

논문은 LLM이 돌출된 이상치 특성 및 고도로 치우친 활성화 분포와 같은 독특한 가중치 및 활성화 특성을 가지고 있음을 관찰합니다. 이러한 특성은 계층 내 서로 다른 출력 차원이 서로 다른 剪枝 민감도를 가지고 있으며, 따라서 더 세분화된 희소성 할당 전략이 필요함을 시사합니다.

핵심 기여

차원 수준 희소성 할당의 선구적 도입: 각 계층 내의 개별 출력 차원에 대해 서로 다른 희소율을 계산하는 첫 번째 알고리즘 제안
극단적 희소성에서의 최첨단 성능: 80% 희소율에서 기존 방법 대비 혼란도를 크게 감소(Qwen2.5-14B 48% 감소, OPT-13B 90% 이상 감소)
심층적 실증 분석: 출력 차원의 剪枝 민감도 및 하위 작업 중요도 측면에서의 이질성 규명
플러그 앤 플레이 설계: TRIM은 모든 중요도 점수 기반 剪枝 알고리즘과 통합 가능하며 우수한 범용성을 갖습니다.

방법 상세 설명

작업 정의

가중치 행렬 W ∈ R^(D×N)이 주어졌을 때(D는 출력 차원 수, N은 입력 차원 수), 각 출력 차원 Wi,:에 대해 최적 희소율 Si를 결정하여 평균 희소율 제약을 만족하면서 계층의 전체 품질을 최대화하는 것이 목표입니다.

핵심 알고리즘: TRIM

차원 수준 희소성 벡터

TRIM은 차원 수준 희소성 벡터 S = S1, S2, ..., SD를 정의하며, 여기서 Si ∈ 0,1은 i번째 출력 차원의 목표 희소율을 지정합니다. 제약 조건은 다음과 같습니다:

1/D * Σ(i=1 to D) Si = T

여기서 T는 계층의 목표 희소율입니다.

반복적 조정 알고리즘

알고리즘 1: 반복적 차원 단위 희소성 조정

초기화: 剪枝되지 않은 출력 Y ← WX 계산, Si = T로 초기화 (균일 분포)
반복적 최적화(K회):
- 현재 S에 따라 剪枝하여 Wpruned 획득
- 剪枝된 출력 Ŷ ← WprunedX 계산
- 전체 품질 평가 qk ← Qmetric(Y, Ŷ)
- 최적 구성 업데이트 (qk > qbest인 경우)
- 각 차원의 품질 계산 ci ← QmetricDimwise(Yi,:, Ŷi,:)
- 품질 점수를 0,1 범위로 정규화
- 학습률 α에 따라 희소율 조정: δi ← αc'i
- 평균 제약 유지를 위해 재중심화: Si ← δi - (1/D)Σδj + T
반환: 최적 희소성 할당 Sbest

품질 메트릭

계층 수준 품질: 코사인 유사도를 사용하여 전체 계층 剪枝 품질 평가
차원 수준 품질: 각 출력 차원의 코사인 유사도를 계산하여 희소율 조정 안내

기술 혁신 포인트

적응형 학습률: 양수 및 음수 학습률 지원, 양수 학습률은 품질 분산 감소, 음수 학습률은 이상치가 집중된 계층에 적용
품질 분산 최소화: 차원 간 품질 저하의 분산을 감소시켜 전체 성능 향상
호환성 설계: 기존 점수 규칙(Wanda, Magnitude, SparseGPT, GBLM)과 통합 가능

실험 설정

데이터셋

모델: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
평가 데이터: WikiText 검증 세트(혼란도), C4 및 Pile(일반화 검증)
하위 작업: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

평가 지표

혼란도: WikiText 검증 세트에서 언어 모델링 능력 평가
영점 샷 정확도: 7개 하위 작업의 평균 성능

비교 방법

기준선 방법: OWL, AlphaPruning (Wanda 기반)
소거 연구: 서로 다른 품질 메트릭, 학습률 설정, 반복 횟수의 영향

구현 세부사항

보정 샘플: C4 데이터셋에서 무작위 선택, 시퀀스 길이 2048
희소율 제한: 과적합 방지를 위해 단일 차원 최대 95%
하이퍼파라미터: K=10회 반복, 학습률 α는 그리드 탐색으로 결정

실험 결과

주요 결과

혼란도 성능(80% 희소율)

모델	OWL 기준선	OWL+TRIM	개선 폭
Qwen2.5-14B	348.48	180.67	-48%
OPT-13B	6461.43	324.14	-95%
LLaMA-2-13B	225.04	154.83	-31%

영점 샷 작업 성능

TRIM은 모든 테스트 모델 및 희소율 수준에서 성능 향상을 달성했으며, 80% 희소율에서 평균 0.46-0.65 백분포인트 개선을 보였습니다.

소거 실험

품질 메트릭 비교

계층 수준 품질: 코사인 유사도가 가장 안정적인 성능 발휘
차원 수준 품질: 코사인 유사도가 MSE 및 PSNR 대비 더 신뢰할 수 있음

서로 다른 剪枝 지표의 일반화 성능

TRIM은 Magnitude, SparseGPT, GBLM 등 다양한 점수 규칙에서 개선 효과를 보여주며, 방법의 범용성을 검증합니다.

주요 발견

관찰 1: 차원 이질성

지니 계수 분석을 통해 서로 다른 출력 차원의 중요도 점수 집중도에 현저한 차이가 있음을 발견하여 剪枝 민감도가 다름을 보여줍니다.

관찰 2: 비선형 품질 저하

희소율 증가에 따라 품질 저하가 가속화되는 경향을 보이므로, 세분화된 할당이 더욱 중요해집니다.

관찰 3: 차원 중요도 차이

실험은 단일 차원을 완전히 제거하는 영향의 거대한 차이를 보여줍니다:

최소 L2 노름 차원: 혼란도 증가 0.16만
최대 L2 노름 차원: 혼란도 급증 273.10

결론 및 논의

주요 결론

차원 수준 희소성 할당의 필요성: 극단적 희소성에서 세분화된 제어는 모델 성능 유지에 필수적입니다.
품질 분산 최소화의 효과성: 차원 간 품질 저하의 균형을 통해 전체 성능을 크게 향상시킬 수 있습니다.
방법의 범용성: TRIM은 다양한 기존 剪枝 알고리즘과 통합 가능하며 우수한 확장성을 갖습니다.

한계

학습률 선택의 복잡성: 이상치가 집중된 계층은 음수 학습률이 필요하여 하이퍼파라미터 조정의 복잡성이 증가합니다.
비구조화 희소성: 현재 방법은 n:m 등 구조화된 희소 패턴을 직접 지원하지 않습니다.
계산 오버헤드: 반복 프로세스는 약 8%의 실행 시간 증가를 야기합니다.

향후 방향

구조화 희소성 지원: TRIM을 확장하여 하드웨어 친화적인 희소 패턴 지원
자동 학습률 선택: 하이퍼파라미터 조정 필요성을 줄이기 위한 적응형 메커니즘 개발
이론적 분석: 차원 중요도와 剪枝 민감도의 이론적 프레임워크 구축

심층 평가

장점

높은 혁신성: 차원 수준 희소성 할당을 처음 제안하며 사고가 신선합니다.
충분한 실험: 여러 모델 계열 및 작업에서 방법의 효과성을 검증했습니다.
이론적 지원: 심층 분석을 통해 방법 효과성의 근본 원인을 규명했습니다.
높은 실용 가치: 플러그 앤 플레이 설계로 기존 시스템에 쉽게 통합됩니다.

부족한 점

방법 복잡성: 기준선 방법 대비 알고리즘 복잡도 및 하이퍼파라미터 증가
하드웨어 적응성: 비구조화 희소성은 전용 하드웨어에서의 가속 효과를 제한합니다.
이론적 분석 부족: 최적 희소성 할당에 대한 이론적 보장 부족

영향력

학술 기여: LLM 剪枝 분야에 새로운 연구 방향 제공
실용 가치: 자원이 제한된 환경에서 대규모 모델 배포에 중요한 의미
재현성: 오픈 소스 코드 제공으로 후속 연구 용이

적용 시나리오

극단적 희소성 필요: 특히 >70% 희소율이 필요한 시나리오에 적합
자원 제한 환경: 엣지 디바이스, 모바일 등 계산 자원이 제한된 환경
연구 용도: 剪枝 알고리즘 연구를 위한 새로운 기준 및 사고 제공

참고문헌

논문은 剪枝 분야의 중요한 연구를 인용하며, 다음을 포함합니다:

고전 剪枝 방법: Le Cun et al. (1989), Han et al. (2015)
현대 LLM 剪枝: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
계층 수준 적응형 방법: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

요약: TRIM은 차원 수준 희소성 할당을 도입하여 극단적 희소성에서 LLM 剪枝 성능을 크게 향상시킵니다. 이 방법은 중요한 이론적 가치와 실용적 의미를 가지며, 대규모 모델 압축 분야에 새로운 연구 방향을 개척했습니다. 일부 한계에도 불구하고, 그 혁신성과 효과성은 이 분야의 중요한 기여가 됩니다.