2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

비전 인코더의 훈련 후 양자화를 위한 접두사 레지스터 필요성

기본 정보

논문 ID: 2510.04547
제목: Post-training quantization of vision encoders needs prefixing registers
저자: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
분류: cs.LG, cs.CV
발표 시간: 2025년 10월 (Preprint)
논문 링크: https://arxiv.org/abs/2510.04547v2

초록

CLIP과 같은 Transformer 기반 비전 인코더는 멀티모달 지능의 핵심으로, 자율 웹 에이전트부터 로봇 제어까지 다양한 애플리케이션을 지원합니다. 이러한 애플리케이션들은 종종 대규모 시각 데이터의 실시간 처리를 요구하므로, 비전 인코더의 추론 비용 감소가 중요합니다. 훈련 후 양자화(Post-training Quantization)는 실용적인 경로를 제공하지만, 대규모 활성화(즉, 이상치)로 인해 8비트 정밀도에서도 여전히 어려움이 있습니다. 본 연구에서는 비전 인코더의 이상치를 완화하기 위한 훈련 불필요 알고리즘인 $\textit{RegCache}$ 를 제안하여 훨씬 더 작은 정확도 손실로 양자화를 가능하게 합니다. 제안된 RegCache는 이상치 경향이 있지만 의미론적으로 무의미한 접두사 토큰을 목표 비전 인코더에 도입하여 다른 토큰이 이상치를 갖는 것을 방지합니다. 특히, 비전 인코더의 이상치가 언어 모델의 이상치와 다르게 작동함을 관찰하여, 중간층 접두사 및 토큰 삭제라는 두 가지 기술 혁신을 도출했습니다. 실험 결과는 텍스트 감독 및 자기 감독 비전 인코더 모두에서 양자화된 모델의 정확도를 일관되게 개선함을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구는 CLIP, DINOv2와 같은 Transformer 기반 비전 인코더의 훈련 후 양자화(Post-training Quantization, PTQ) 과정에서 활성화 이상치(outliers) 문제를 해결하는 것을 목표로 합니다. 이러한 이상치는 양자화 정확도 저하를 초래하며, 8비트 정밀도에서도 모델 성능에 상당한 영향을 미칩니다.

중요성 분석

실제 수요: 비전 인코더는 자율주행, 로봇 제어 등 엣지 디바이스 애플리케이션에서 대규모 시각 데이터의 실시간 처리 필요
계산 비용: 추론 비용 감소는 리소스 제한 디바이스에서 대규모 비전 모델 배포에 필수적
양자화 도전: 활성화 양자화는 가중치 양자화보다 더 도전적이며, 특히 계산 제약 환경에서 그러함

기존 방법의 한계

LLM 방법 부적용: 대규모 언어 모델의 이상치 완화 전략은 서로 다른 정밀도나 양자화 범위를 필요로 하며, 구현이 복잡하고 계산 오버헤드가 큼
정적 양자화의 어려움: 이러한 방법들은 정적 활성화 양자화에 적용하기 어려움
비전 인코더의 특수성: 언어 모델과 달리, 비전 인코더는 <BOS>, <SEP>와 같은 사전 정의된 의미론적으로 무의미한 토큰 부재

핵심 기여

RegCache 알고리즘 제안: 접두사 레지스터 토큰을 통해 비전 인코더의 이상치를 감소시키는 훈련 불필요 알고리즘
비전 인코더 이상치 특성 발견: 비전 인코더의 이상치 행동이 언어 모델과 현저히 다르며, 이상치가 초기층이 아닌 중간층에서 나타남을 증명
기술 혁신: 중간층 접두사 및 토큰 삭제라는 두 가지 핵심 기술 제안
광범위한 검증: 다양한 텍스트 감독 및 자기 감독 비전 인코더에서 방법의 효과성 검증

방법 상세 설명

작업 정의

사전 훈련된 비전 인코더가 주어졌을 때, 외부 레지스터 토큰을 도입하여 양자화 민감층의 이상치를 완화함으로써 양자화된 모델의 정확도를 향상시키면서 추론 효율성을 유지하는 것이 목표입니다.

핵심 관찰

논문은 세 가지 중요한 관찰을 기반으로 해결책을 제안합니다:

층별 양자화 민감성: 비전 인코더의 양자화 민감성은 초기층이 아닌 중간층에 집중
이상치 토큰의 보편성: 중간층에서 나타나는 이상치 토큰은 서로 다른 이미지 간에 높은 유사성 보유 (코사인 유사도 0.89 vs 0.26)
중간층 출현 메커니즘: 비전 인코더는 어떤 토큰이 의미론적으로 무의미한지 식별하기 위해 처음 몇 층이 필요

RegCache 알고리즘 아키텍처

RegCache는 세 가지 주요 단계로 구성됩니다:

1. 레지스터 후보 수집 (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

양자화 민감층 lq 식별 (층별 양자화 민감성 분석을 통해)
참조 이미지 풀에서 최대 ℓ∞ 노름을 가진 상위 k개 토큰을 레지스터 후보로 선택
ImageNet-1k 훈련 세트의 50,000개 무작위 이미지를 참조 풀로 사용

2. 캐싱 (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

각 레지스터 후보에 대해 키-값 캐시 계산
그리드 탐색을 통해 최적 레지스터 z와 반복 횟수 τ 결정
선택된 KV 캐시를 양자화 민감층 및 후속층에 삽입

3. 삭제 (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

양자화 민감층 입력에 토큰 삭제층 추가
추론 시 최대 ℓ∞ 노름을 가진 상위 k̃개의 내부 출현 싱크 토큰 삭제

기술 혁신점

중간층 접두사 전략: LLM의 초기층 접두사와 달리, 비전 인코더의 중간층 특성에 맞게 설계
보편적 레지스터 발견: 이상치 토큰이 서로 다른 이미지 간에 유사함을 활용하여 보편적 레지스터 구성
추가-삭제 메커니즘: 외부 사전 계산 캐시를 통해 내부 출현 싱크 토큰 대체, 활성화 양자화 범위 영향 회피

실험 설정

데이터셋

ImageNet-1k: 제로샷 이미지 분류 평가용
MS-COCO: 이미지-텍스트 검색 작업 평가용
기타 분류 데이터셋: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (일반화 성능 검증용)
참조 데이터: ImageNet-1k 훈련 세트 50,000개 이미지 (레지스터 탐색용)

평가 지표

제로샷 분류 정확도: ImageNet-1k의 상위-1 정확도
검색 성능: MS-COCO의 Recall@1 및 Recall@5
이상치 분석: 최대 토큰 노름 및 평균 토큰 노름

비교 방법

기본 양자화 알고리즘:
- PTQ4ViT: ViT용 이중 균등 양자화기
- RepQ-ViT: 스케일 재매개변수화 방법
- NoisyQuant: 노이즈 강화 활성화 양자화
정밀도 설정: W8A8 (8비트 가중치 8비트 활성화) 및 W6A6 (6비트 가중치 6비트 활성화)

구현 세부사항

1,024 및 32개 캘리브레이션 샘플 사용 (각각 NoisyQuant 및 RepQ-ViT용)
레지스터 후보 수 k=20, 반복 횟수 범위 τ∈{1,...,15}
삭제 토큰 수량 k̃는 참조 작업을 통해 조정

실험 결과

주요 결과

제로샷 이미지 분류 (ImageNet-1k)

모델	정밀도	기본 최고	RegCache 최고	개선
CLIP-B/16	W8A8	67.69%	67.78%	+0.09%
CLIP-B/16	W6A6	58.19%	66.65%	+13.40%
SigLIP2-B/16	W8A8	76.92%	77.26%	+0.34%
SigLIP2-B/16	W6A6	64.91%	70.88%	+5.97%

이미지-텍스트 검색 (MS-COCO)

CLIP-B/16: 모든 검색 지표에서 평균 3.76%-7.97% 개선
SigLIP-B/16: Recall@1 0.20% 개선, 전체 성능 안정적 개선

이상치 완화 효과

모델	최대 토큰 노름 (원본)	최대 토큰 노름 (RegCache)	감소 비율
CLIP	61.17	15.30	-75.0%
OpenCLIP	122.99	12.38	-89.9%
SigLIP2	244.78	30.45	-87.6%

절제 실험

SigLIP에서의 절제 연구 결과:

접두사 캐시만: 정확도 69.71%에서 74.21%로 개선
토큰 삭제만: 정확도 38.51%로 하락 (접두사 지원 필요 증명)
완전한 RegCache: 정확도 74.42% 달성

일반화 성능 검증

ImageNet-1k 탐색으로 얻은 접두사가 다른 데이터셋에서도 유효:

Stanford Cars: +1.78% ~ +47.47%
Food-101: +9.85% ~ +51.28%
CIFAR-100: +12.81% ~ +33.00%

결론 및 논의

주요 결론

RegCache 효과성: 다양한 비전 인코더 및 양자화 방법에서 일관된 성능 개선
이상치 완화 메커니즘: 이상치를 내부 토큰에서 외부 사전 계산 캐시로 성공적으로 이전
보편성: 텍스트 감독 및 자기 감독 비전 인코더 모두에 적용 가능

한계

하이퍼파라미터 조정: 최적 구성 결정을 위해 여러 접두사 후보 평가 필요
추가 하이퍼파라미터: 최대 삭제 토큰 수, 접두사 토큰 수 등 추가 하이퍼파라미터 도입
계산 오버헤드: FLOPs 증가가 0.2% 이하이지만 여전히 추가 계산 비용 존재

향후 방향

멀티모달 차이 연구: 텍스트 감독 vs 자기 감독 모델의 양자화 행동 차이 심화 이해
이상치 메커니즘 이해: ViT와 LLM의 이상치 행동 차이의 근본 원인 추가 연구
자동화 최적화: 최적 접두사 구성을 자동으로 결정하는 방법 개발

심층 평가

장점

문제의 중요성: 비전 인코더 양자화의 핵심 기술 도전 해결
방법 혁신성: 레지스터 개념을 비전 인코더 양자화에 처음 도입, 기술 경로 참신
이론적 통찰: 비전 인코더와 LLM의 이상치 행동 본질적 차이 심화 분석
실험 충분성: 5가지 주류 비전 인코더 및 다양한 양자화 알고리즘 포함, 결과 설득력 있음
실용적 가치: 재훈련 불필요, 기존 양자화 프로세스에 용이하게 통합 가능

부족점

이론 분석 제한: 중간층 접두사가 효과적인 이유에 대한 심층 이론 설명 부족
하이퍼파라미터 민감성: 방법이 여러 하이퍼파라미터를 포함하여 실제 배포 편의성에 영향 가능
계산 오버헤드 분석 부족: FLOPs 증가는 작지만 메모리 사용 및 지연 시간의 상세 분석 부재
적용 범위 제한: 주로 ViT 아키텍처 검증, 다른 비전 Transformer 아키텍처의 적용성 미충분 검증

영향력

학술 기여: 비전 인코더 양자화 분야에 새로운 기술 경로 및 이론적 통찰 제공
실용적 가치: 기존 비전 인코더 배포 최적화에 직접 적용 가능
재현성: 방법 설명이 명확하고 실험 설정이 상세하여 우수한 재현성 보유
영감 제공: 크로스모달 모델 최적화 기술 이전에 중요한 참고 자료 제공

적용 시나리오

엣지 배포: 리소스 제한 디바이스에서 대규모 비전 인코더 배포가 필요한 시나리오에 특히 적합
실시간 애플리케이션: 자율주행, 로봇 제어 등 저지연 시각 처리가 필요한 애플리케이션
멀티모달 시스템: CLIP 유형 모델의 다양한 다운스트림 작업에서의 양자화 배포
연구 도구: 비전 Transformer 양자화 연구를 위한 효과적인 기본 방법 제공

참고문헌

본 논문은 양자화, 주의 메커니즘, 비전 Transformer 등 다양한 분야의 중요 연구를 인용하고 있으며, 다음을 포함합니다:

CLIP, DINOv2 등 비전 인코더의 원본 논문
PTQ4ViT, RepQ-ViT 등 ViT 양자화 방법
주의 싱크 및 레지스터 토큰 관련 연구
LLM 양자화의 이상치 처리 방법

종합 평가: 이는 비전 인코더 양자화 분야에서 중요한 기여를 하는 고품질 논문입니다. 저자들은 효과적인 기술 해결책을 제시할 뿐만 아니라 비전 인코더와 언어 모델의 이상치 행동 본질적 차이를 심화 분석하여, 해당 분야의 발전에 귀중한 이론적 통찰과 실용적 도구를 제공합니다.