2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: LLM 임베딩 압축을 위한 교정 적응기와 그룹 잔차 벡터 양자화

기본 정보

논문 ID: 2510.12721
제목: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
저자: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
기관: LG Electronics USA
분류: cs.LG
발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.12721v1

초록

대규모 언어 모델(LLMs)은 일반적으로 토큰 임베딩을 위해 많은 매개변수에 의존하여 막대한 저장 요구사항과 메모리 점유를 초래합니다. 특히 엣지 디바이스에 배포된 LLMs은 메모리 제약을 받으며, 임베딩 계층을 압축하여 메모리 점유를 줄이면 메모리 대역폭을 해제할 뿐만 아니라 추론 속도를 가속화할 수 있습니다. 이를 위해 본 논문은 CARVQ를 제안합니다. 이는 교정 적응기와 그룹 잔차 벡터 양자화를 결합한 새로운 사후 훈련 방법입니다. CARVQ는 선형 및 비선형 매핑의 조합에 의존하여 원본 모델 임베딩을 모방하며, 전용 하드웨어 지원 없이 약 1.6비트로 압축합니다. 이 방법은 여러 사전 훈련된 LLMs에서 테스트되었으며, 생성, 판별, 수학 및 추론 작업에서 평가되어 CARVQ가 합리적인 혼란도와 정확성을 유지하면서 더 낮은 평균 매개변수당 비트폭을 달성할 수 있음을 보여줍니다.

연구 배경 및 동기

문제 정의

핵심 문제: 대규모 언어 모델의 임베딩 계층이 많은 메모리를 점유하며, 특히 엣지 디바이스 배포 시 성능 병목이 됨
실제 요구사항: 메모리 제약이 있는 엣지 디바이스에서 LLMs의 효율적인 배포
기술적 과제: 기존 양자화 방법은 극저 비트폭에서 성능이 급격히 저하되며, 전용 하드웨어 지원이 필요함

문제의 중요성

메모리 점유 문제: Transformer 계층이 양자화된 후, 임베딩 계층의 상대적 메모리 점유가 크게 증가함(예: LLaMA-3.2-1B의 INT4 모델에서 52.06%)
엣지 컴퓨팅 요구사항: 엣지 디바이스 메모리는 일반적으로 몇 GB로 제한되며, 0.5GB 메모리 절감은 추가 2B개의 4비트 매개변수 또는 더 긴 컨텍스트를 지원할 수 있음
하드웨어 호환성: 기존 저비트 양자화 방법은 전용 하드웨어 지원이 필요하여 배포 유연성을 제한함

기존 방법의 한계

스칼라 양자화: 2비트 이하에서 성능이 급격히 저하되며, 특수 하드웨어 지원이 필요함
양자화 인식 훈련(QAT): 원본 훈련 데이터와 대량의 계산 리소스를 통한 재훈련이 필요함
기존 임베딩 압축 방법: TensorGPT 등의 선형 방법은 높은 압축률에서 정확도 손실이 심각함

핵심 기여

CARVQ 방법 제안: 교정 적응기와 그룹 잔차 벡터 양자화를 결합한 새로운 사후 훈련 압축 기술로, 전용 하드웨어 지원이 필요 없음
극저 비트폭 압축 달성: 매개변수당 평균 1.6비트의 압축률에서 합리적인 성능 유지, 반면 스칼라 양자화는 3비트 이하에서 실패
하드웨어 호환성: 기존 Transformer 계층 양자화 방법과 호환되며, 4비트 및 16비트 데이터 유형만 사용
광범위한 검증: 7개의 서로 다른 규모의 사전 훈련된 모델에서 검증되며, 생성, 판별, 수학 및 추론의 4가지 작업 범주를 포함

방법 상세 설명

작업 정의

입력: 사전 훈련된 LLM의 임베딩 행렬 $M \in \mathbb{R}^{V \times n}$ , 여기서 $V$ 는 어휘 크기, $n$ 은 임베딩 차원 출력: 양자화된 조회 테이블과 교정 적응기를 포함한 압축된 임베딩 표현 목표: 최대 압축률을 달성하면서 재구성 오류 최소화

모델 아키텍처

1. 그룹 잔차 벡터 양자화(Group RVQ)

행렬 재형성: 임베딩 행렬을 $M' \in \mathbb{R}^{nV/h \times h}$ 로 재형성, 여기서 $h$ 는 부분 벡터 차원
그룹화 작업: $M'$ 을 $nV/gh$ 그룹으로 분할, 각 그룹 크기는 $g \times h$
반복 양자화: 각 그룹에 $L$ 번의 RVQ 적용, 매번 $2^κ$ 개의 중심점을 가진 코드북 사용
저장 방식: 코드북은 원본 정밀도 $p$ 비트로 저장, 인덱스는 $κ$ 비트로 저장

2. 교정 적응기(Corrective Adaptor)

설계 개념: 축소-확장 전략을 채택하여 매개변수 수 감소

축소 매핑: $\sigma_0: W \rightarrow \mathbb{R}^m$ , 토큰을 작은 차원 벡터로 매핑( $m \ll n$ )
확장 매핑: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , 다층 퍼셉트론을 통해 원본 차원으로 확장

MLP 구조: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ 여기서 $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

3. CARVQ 전체 프레임워크

결합 전략: 최종 임베딩 = Group RVQ 출력 + 교정 적응기 출력 훈련 목표: L1 재구성 오류 최소화 $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

기술 혁신점

비선형 보정 메커니즘: 교정 적응기는 비선형 매핑을 통해 RVQ의 양자화 오류를 보정
하드웨어 친화적 설계: 4비트 및 16비트 데이터 유형만 사용하여 기존 하드웨어와 호환
매개변수 효율성: 교정 적응기 매개변수는 RVQ보다 훨씬 작으며, 전체 압축률은 RVQ에 의해 주도됨
사후 훈련 특성: 재훈련이 필요 없으며, 사전 훈련된 모델에 직접 적용 가능

압축률 분석

매개변수당 평균 비트폭: $B_{CARVQ} = B_{CA} + B_{RVQ}$ 여기서: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

실험 설정

데이터셋

생성 작업: WikiText-2 혼란도 평가
판별 작업: HellaSwag, WinoGrande, PIQA
수학 작업: GSM8K
추론 작업: ARC Challenge, ARC Easy

평가 지표

혼란도(Perplexity): 생성 품질 측정
정확도(Accuracy): 판별 및 추론 작업 성능
매개변수당 평균 비트폭: 압축 효율 지표
메모리 절감: 실제 배포 이점

비교 방법

스칼라 양자화: INT4, INT3, INT2 표준 양자화
AWQ 양자화: 활성화 인식 가중치 양자화
소거 실험: CA+스칼라 양자화 vs CARVQ

구현 세부사항

하이퍼매개변수: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
훈련: Adam 최적화기, 학습률 1e-3, 500회 반복
하드웨어: RTX 4090, 훈련 시간 약 2분

실험 결과

주요 결과

생성 작업 성능

방법	평균 비트폭	혼란도 증가
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

판별 작업 성능

CARVQ-3: 평균 정확도 0.70% 감소
CARVQ-2: 평균 정확도 2.75% 감소
INT2: 평균 정확도 8.23% 감소

소거 실험

RVQ vs 스칼라 양자화 비교:

CARVQ-2 (1.655비트): WikiText-2 혼란도 16.34
CA+INT1 (1.155비트): WikiText-2 혼란도 14528
RVQ의 스칼라 양자화 대비 현저한 우월성 증명

호환성 검증

AWQ와의 결합:

LLaMA-3.2-3B: CARVQ-3+AWQ 혼란도 증가 0.95만
Qwen2.5-3B: CARVQ-3+AWQ 혼란도 증가 0.30만
기존 양자화 방법과의 우수한 호환성 증명

실험 발견

모델 규모 효과: 더 큰 모델이 임베딩 계층 양자화에 더 견고함
작업 민감도: 수학 작업이 압축에 가장 민감하며, 추론 작업은 상대적으로 견고함
최적 구성: CARVQ-3이 압축률과 성능 간의 최적 균형 달성

결론 및 토론

주요 결론

CARVQ는 1.6비트 평균 압축률을 달성하여 스칼라 양자화의 3비트 하한을 크게 초과
방법은 우수한 하드웨어 호환성을 가지며, 4비트 및 16비트 데이터 유형 지원만 필요
기존 Transformer 양자화 방법과 직교 호환되어 무결절 통합 가능

한계

적용 범위: 주로 소형 모델에 적용되며, 대형 모델에서 임베딩 계층 점유율이 상대적으로 작음
계산 복잡도: 연속 활성화 Transformer 계층에 직접 적용 불가
의미 정보: 세밀한 의미 정보 손실 가능성으로 미묘한 표현에 의존하는 작업에 영향
오류 전파: 과도하게 손실 있는 Transformer 압축과 결합 시 전체 견고성에 영향 가능

향후 방향

더 큰 규모 모델에 대한 적용 확대
다른 압축 기술과의 심층 통합 연구
조회 테이블 작업을 위한 전용 하드웨어 가속 개발
의미 구조를 보존하는 압축 방법 탐색

심층 평가

장점

혁신성 강함: 교정 적응기와 그룹 RVQ를 결합한 첫 시도로 임베딩 계층 압축 문제 해결
실용 가치 높음: 엣지 디바이스 배포의 실제 요구사항을 대상으로 직접 적용 가치 있음
실험 충분함: 7개 모델, 4가지 작업 범주의 포괄적 평가
공학 친화적: 하드웨어 호환성 우수, 배포 용이

부족한 점

이론 분석 부족: 이러한 조합이 효과적인 이유에 대한 심층 이론적 설명 부족
적용 시나리오 제한: 주로 소형 모델을 대상으로 하며, 대형 모델에 대한 우월성 불명확
장기 영향 미지수: 모델 미세 조정, 지속적 학습 등 하위 작업에 대한 영향 추가 연구 필요

영향력

기술 기여: LLM 엣지 배포를 위한 새로운 기술 경로 제공
산업 가치: 모바일 디바이스, IoT 디바이스에서의 LLM 배포에 중요한 의미
연구 영감: 임베딩 계층 압축 및 적응기 설계 연구를 촉발할 가능성

적용 시나리오

엣지 컴퓨팅: 메모리 제약이 있는 모바일 디바이스, IoT 디바이스
실시간 애플리케이션: 빠른 응답이 필요한 대화 시스템, 추천 시스템
비용 민감 시나리오: 제한된 하드웨어 리소스에서 LLM 배포가 필요한 애플리케이션

참고문헌

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

종합 평가: 이는 실제 배포 요구사항을 대상으로 한 고품질 기술 논문으로, 제안된 CARVQ 방법은 임베딩 계층 압축 분야에서 중요한 돌파구를 이루며 LLM 엣지 배포를 위한 효과적인 솔루션을 제공합니다. 일부 한계가 있지만, 혁신성, 실용성 및 공학적 가치로 인해 해당 분야의 중요한 기여가 됩니다.