2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

दृश्य एनकोडर के प्रशिक्षण-पश्चात् परिमाणीकरण के लिए उपसर्ग रजिस्टर आवश्यक हैं

मूल जानकारी

पेपर ID: 2510.04547
शीर्षक: Post-training quantization of vision encoders needs prefixing registers
लेखक: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
वर्गीकरण: cs.LG, cs.CV
प्रकाशन समय: अक्टूबर 2025 (प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.04547v2

सारांश

Transformer-आधारित दृश्य एनकोडर -- जैसे CLIP -- बहुविध बुद्धिमत्ता के लिए केंद्रीय हैं, जो स्वायत्त वेब एजेंटों से लेकर रोबोटिक नियंत्रण तक के अनुप्रयोगों को शक्ति प्रदान करते हैं। चूंकि ये अनुप्रयोग अक्सर विशाल दृश्य डेटा के वास्तविक समय प्रसंस्करण की मांग करते हैं, दृश्य एनकोडर के अनुमान लागत को कम करना महत्वपूर्ण है। प्रशिक्षण-पश्चात् परिमाणीकरण एक व्यावहारिक मार्ग प्रदान करता है, लेकिन विशाल-पैमाने की सक्रियताओं (अर्थात्, बाहरी मान) के कारण 8-बिट सटीकता पर भी चुनौतीपूर्ण रहता है। इस कार्य में, हम RegCache प्रस्तावित करते हैं, दृश्य एनकोडर में बाहरी मानों को कम करने के लिए एक प्रशिक्षण-मुक्त एल्गोरिथ्म, जो महत्वपूर्ण रूप से छोटी सटीकता हानि के साथ परिमाणीकरण सक्षम करता है। प्रस्तावित RegCache लक्ष्य दृश्य एनकोडर में बाहरी-प्रवण लेकिन शब्दार्थ रूप से अर्थहीन उपसर्ग टोकन प्रस्तुत करता है, जो अन्य टोकन को बाहरी मान होने से रोकता है। विशेष रूप से, हम देखते हैं कि दृश्य एनकोडर में बाहरी मान भाषा मॉडल में उन लोगों से अलग तरीके से व्यवहार करते हैं, जो दो तकनीकी नवाचारों को प्रेरित करते हैं: मध्य-परत उपसर्ग और टोकन विलोपन। प्रयोग दिखाते हैं कि हमारी विधि पाठ-पर्यवेक्षित और स्व-पर्यवेक्षित दृश्य एनकोडर दोनों में परिमाणित मॉडल की सटीकता में लगातार सुधार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान Transformer-आधारित दृश्य एनकोडर (जैसे CLIP, DINOv2) में प्रशिक्षण-पश्चात् परिमाणीकरण (Post-training Quantization, PTQ) प्रक्रिया के दौरान सक्रियता विसंगति मानों (outliers) की समस्या को हल करने का लक्ष्य रखता है। ये विसंगति मान परिमाणीकरण सटीकता में कमी का कारण बनते हैं, यहां तक कि 8-बिट सटीकता पर भी मॉडल प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करते हैं।

महत्व विश्लेषण

व्यावहारिक आवश्यकता: दृश्य एनकोडर स्वचालित ड्राइविंग, रोबोटिक नियंत्रण आदि किनारे उपकरण अनुप्रयोगों में बड़ी मात्रा में दृश्य डेटा के वास्तविक समय प्रसंस्करण की आवश्यकता है
कम्प्यूटेशनल लागत: संसाधन-सीमित उपकरणों पर बड़े पैमाने के दृश्य मॉडल को तैनात करने के लिए अनुमान लागत को कम करना महत्वपूर्ण है
परिमाणीकरण चुनौती: सक्रियता परिमाणीकरण वजन परिमाणीकरण की तुलना में अधिक चुनौतीपूर्ण है, विशेष रूप से कम्प्यूटेशनल रूप से सीमित परिदृश्यों में

मौजूदा विधियों की सीमाएं

LLM विधि अनुपयुक्त: बड़े भाषा मॉडल के लिए मौजूदा विसंगति मान शमन रणनीतियों को विभिन्न सटीकता या परिमाणीकरण श्रेणियों की आवश्यकता है, जटिल कार्यान्वयन और उच्च कम्प्यूटेशनल ओवरहेड के साथ
स्थिर परिमाणीकरण कठिनाई: ये विधियां स्थिर सक्रियता परिमाणीकरण पर लागू करना कठिन हैं
दृश्य एनकोडर विशेषता: भाषा मॉडल के विपरीत, दृश्य एनकोडर में पूर्वनिर्धारित शब्दार्थ रूप से अर्थहीन टोकन (जैसे <BOS>, <SEP>) की कमी है

मुख्य योगदान

RegCache एल्गोरिथ्म प्रस्ताव: एक प्रशिक्षण-मुक्त विसंगति मान शमन एल्गोरिथ्म, जो उपसर्ग रजिस्टर टोकन के माध्यम से दृश्य एनकोडर में विसंगति मानों को कम करता है
दृश्य एनकोडर विसंगति मान विशेषता की खोज: यह साबित करता है कि दृश्य एनकोडर में विसंगति मान व्यवहार भाषा मॉडल से महत्वपूर्ण रूप से भिन्न है, विसंगति मान प्रारंभिक परतों के बजाय मध्य परतों में दिखाई देते हैं
तकनीकी नवाचार: मध्य-परत उपसर्ग और टोकन विलोपन दो मुख्य तकनीकें प्रस्तावित करता है
व्यापक सत्यापन: कई पाठ-पर्यवेक्षित और स्व-पर्यवेक्षित दृश्य एनकोडर पर विधि की प्रभावशीलता को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

एक पूर्व-प्रशिक्षित दृश्य एनकोडर को देखते हुए, लक्ष्य बाहरी रजिस्टर टोकन प्रस्तुत करके परिमाणीकरण-संवेदनशील परतों में विसंगति मानों को कम करना है, जिससे परिमाणित मॉडल की सटीकता में सुधार होता है, जबकि अनुमान दक्षता बनी रहती है।

मुख्य अवलोकन

पेपर तीन महत्वपूर्ण अवलोकनों के आधार पर समाधान प्रस्तावित करता है:

परत-स्तरीय परिमाणीकरण संवेदनशीलता: दृश्य एनकोडर की परिमाणीकरण संवेदनशीलता मुख्य रूप से मध्य परतों में केंद्रित है, प्रारंभिक परतों में नहीं
विसंगति मान टोकन सार्वभौमिकता: मध्य परत में दिखाई देने वाले विसंगति मान टोकन विभिन्न छवियों में उच्च समानता दिखाते हैं (कोसाइन समानता 0.89 बनाम 0.26)
मध्य परत उपस्थिति तंत्र: दृश्य एनकोडर को यह पहचानने के लिए पहली कुछ परतों की आवश्यकता है कि कौन से टोकन शब्दार्थ रूप से अर्थहीन हैं

RegCache एल्गोरिथ्म आर्किटेक्चर

RegCache में तीन मुख्य चरण हैं:

1. रजिस्टर उम्मीदवार संग्रह (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

परिमाणीकरण-संवेदनशील परत lq की पहचान करें (परत-दर-परत परिमाणीकरण संवेदनशीलता विश्लेषण के माध्यम से)
संदर्भ छवि पूल से सबसे बड़े ℓ∞ मानदंड वाले शीर्ष-k टोकन को रजिस्टर उम्मीदवार के रूप में चुनें
संदर्भ पूल के रूप में ImageNet-1k प्रशिक्षण सेट की 50,000 यादृच्छिक छवियों का उपयोग करें

2. कैशिंग (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

प्रत्येक रजिस्टर उम्मीदवार के लिए key-value कैश की गणना करें
ग्रिड खोज के माध्यम से इष्टतम रजिस्टर z* और पुनरावृत्ति संख्या τ* निर्धारित करें
चयनित KV कैश को परिमाणीकरण-संवेदनशील परत और बाद की परतों में सम्मिलित करें

3. विलोपन (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

परिमाणीकरण-संवेदनशील परत इनपुट पर टोकन विलोपन परत जोड़ें
अनुमान समय पर सबसे बड़े ℓ∞ मानदंड वाले शीर्ष-k̃ आंतरिक रूप से दिखाई देने वाले sink टोकन को हटाएं

तकनीकी नवाचार बिंदु

मध्य-परत उपसर्ग रणनीति: LLM के प्रारंभिक परत उपसर्ग के विपरीत, दृश्य एनकोडर की मध्य-परत विशेषताओं के लिए डिज़ाइन किया गया
सार्वभौमिक रजिस्टर खोज: विभिन्न छवियों में विसंगति मान टोकन की समानता का लाभ उठाते हुए, सार्वभौमिक रजिस्टर का निर्माण करें
जोड़ें-हटाएं तंत्र: आंतरिक रूप से दिखाई देने वाले sink टोकन को बाहरी रूप से पूर्व-गणना किए गए कैश से बदलें, सक्रियता परिमाणीकरण श्रेणी को प्रभावित करने से बचें

प्रयोगात्मक सेटअप

डेटासेट

ImageNet-1k: शून्य-शॉट छवि वर्गीकरण मूल्यांकन के लिए
MS-COCO: छवि-पाठ पुनः प्राप्ति कार्य मूल्यांकन के लिए
अन्य वर्गीकरण डेटासेट: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (सामान्यीकरण सत्यापन के लिए)
संदर्भ डेटा: रजिस्टर खोज के लिए ImageNet-1k प्रशिक्षण सेट की 50,000 छवियां

मूल्यांकन मेट्रिक्स

शून्य-शॉट वर्गीकरण सटीकता: ImageNet-1k पर top-1 सटीकता
पुनः प्राप्ति प्रदर्शन: MS-COCO पर Recall@1 और Recall@5
विसंगति मान विश्लेषण: अधिकतम टोकन मानदंड और औसत टोकन मानदंड

तुलनात्मक विधियां

मूल परिमाणीकरण एल्गोरिथ्म:
- PTQ4ViT: ViT के लिए दोहरी समान परिमाणकारी
- RepQ-ViT: स्केल पुनः पैरामीटराइजेशन विधि
- NoisyQuant: शोर-संवर्धित सक्रियता परिमाणीकरण
सटीकता सेटिंग: W8A8 (8-बिट वजन 8-बिट सक्रियता) और W6A6 (6-बिट वजन 6-बिट सक्रियता)

कार्यान्वयन विवरण

1,024 और 32 कैलिब्रेशन नमूने का उपयोग करें (क्रमशः NoisyQuant और RepQ-ViT के लिए)
रजिस्टर उम्मीदवार संख्या k=20, पुनरावृत्ति श्रेणी τ∈{1,...,15}
विलोपन टोकन संख्या k̃ संदर्भ कार्य द्वारा ट्यून की गई

प्रयोगात्मक परिणाम

मुख्य परिणाम

शून्य-शॉट छवि वर्गीकरण (ImageNet-1k)

मॉडल	सटीकता	आधारभूत सर्वश्रेष्ठ	RegCache सर्वश्रेष्ठ	सुधार
CLIP-B/16	W8A8	67.69%	67.78%	+0.09%
CLIP-B/16	W6A6	58.19%	66.65%	+13.40%
SigLIP2-B/16	W8A8	76.92%	77.26%	+0.34%
SigLIP2-B/16	W6A6	64.91%	70.88%	+5.97%

छवि-पाठ पुनः प्राप्ति (MS-COCO)

CLIP-B/16: सभी पुनः प्राप्ति मेट्रिक्स पर औसत 3.76%-7.97% सुधार
SigLIP-B/16: Recall@1 में 0.20% सुधार, समग्र प्रदर्शन में स्थिर सुधार

विसंगति मान शमन प्रभाव

मॉडल	अधिकतम टोकन मानदंड (मूल)	अधिकतम टोकन मानदंड (RegCache)	कमी अनुपात
CLIP	61.17	15.30	-75.0%
OpenCLIP	122.99	12.38	-89.9%
SigLIP2	244.78	30.45	-87.6%

विलोपन प्रयोग

SigLIP पर विलोपन अध्ययन दिखाता है:

केवल उपसर्ग कैश: सटीकता 69.71% से 74.21% तक सुधरी
केवल टोकन विलोपन: सटीकता 38.51% तक गिरी (उपसर्ग समर्थन की आवश्यकता साबित करता है)
पूर्ण RegCache: सटीकता 74.42% तक पहुंची

सामान्यीकरण सत्यापन

ImageNet-1k खोज का उपयोग करके खोजे गए उपसर्ग अन्य डेटासेट पर भी प्रभावी हैं:

Stanford Cars: +1.78% से +47.47%
Food-101: +9.85% से +51.28%
CIFAR-100: +12.81% से +33.00%

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RegCache प्रभावशीलता: कई दृश्य एनकोडर और परिमाणीकरण विधियों पर सुसंगत प्रदर्शन सुधार
विसंगति मान शमन तंत्र: विसंगति मानों को आंतरिक टोकन से बाहरी पूर्व-गणना किए गए कैश में सफलतापूर्वक स्थानांतरित करता है
सार्वभौमिकता: विधि पाठ-पर्यवेक्षित और स्व-पर्यवेक्षित दृश्य एनकोडर दोनों पर लागू होती है

सीमाएं

हाइपरपैरामीटर ट्यूनिंग: इष्टतम कॉन्फ़िगरेशन निर्धारित करने के लिए कई उपसर्ग उम्मीदवारों का मूल्यांकन करने की आवश्यकता है
अतिरिक्त हाइपरपैरामीटर: अधिकतम विलोपन टोकन संख्या, उपसर्ग टोकन संख्या आदि जैसे हाइपरपैरामीटर पेश करता है
कम्प्यूटेशनल ओवरहेड: हालांकि FLOPs वृद्धि 0.2% से अधिक नहीं है, फिर भी अतिरिक्त कम्प्यूटेशनल लागत है

भविष्य की दिशाएं

बहु-विधा अंतर अनुसंधान: पाठ-पर्यवेक्षित बनाम स्व-पर्यवेक्षित मॉडल के परिमाणीकरण व्यवहार में अंतर को गहराई से समझें
विसंगति मान तंत्र समझ: ViT और LLM विसंगति मान व्यवहार अंतर के मूल कारणों का आगे अनुसंधान करें
स्वचालित अनुकूलन: इष्टतम उपसर्ग कॉन्फ़िगरेशन निर्धारित करने के लिए स्वचालित विधियां विकसित करें

गहन मूल्यांकन

शक्तियां

समस्या महत्व: दृश्य एनकोडर परिमाणीकरण में मुख्य तकनीकी चुनौती को हल करता है
विधि नवाचार: दृश्य एनकोडर परिमाणीकरण में रजिस्टर अवधारणा को पहली बार पेश करता है, तकनीकी मार्ग नवीन है
सैद्धांतिक अंतर्दृष्टि: दृश्य एनकोडर और LLM विसंगति मान व्यवहार के मूल अंतर का गहन विश्लेषण
पर्याप्त प्रयोग: 5 मुख्य दृश्य एनकोडर और कई परिमाणीकरण एल्गोरिथ्म को कवर करता है, परिणाम प्रेरक हैं
व्यावहारिक मूल्य: पुनः प्रशिक्षण की आवश्यकता नहीं है, मौजूदा परिमाणीकरण प्रवाह में एकीकृत करना आसान है

कमियां

सीमित सैद्धांतिक विश्लेषण: मध्य-परत उपसर्ग प्रभावी क्यों है इसके गहरे सैद्धांतिक स्पष्टीकरण की कमी
हाइपरपैरामीटर संवेदनशीलता: विधि कई हाइपरपैरामीटर को शामिल करती है, जो वास्तविक तैनाती की सुविधा को प्रभावित कर सकता है
कम्प्यूटेशनल ओवरहेड विश्लेषण: हालांकि FLOPs वृद्धि छोटी है, मेमोरी उपयोग और विलंबता का विस्तृत विश्लेषण अनुपस्थित है
लागू श्रेणी: मुख्य रूप से ViT आर्किटेक्चर को सत्यापित करता है, अन्य दृश्य Transformer आर्किटेक्चर पर प्रयोज्यता पर्याप्त रूप से सत्यापित नहीं है

प्रभाव

शैक्षणिक योगदान: दृश्य एनकोडर परिमाणीकरण क्षेत्र के लिए नई तकनीकी मार्ग और सैद्धांतिक अंतर्दृष्टि प्रदान करता है
व्यावहारिक मूल्य: मौजूदा दृश्य एनकोडर तैनाती अनुकूलन पर सीधे लागू किया जा सकता है
पुनः उत्पादनशीलता: विधि विवरण स्पष्ट है, प्रयोगात्मक सेटअप विस्तृत है, अच्छी पुनः उत्पादनशीलता है
प्रेरणा: क्रॉस-मोडल मॉडल अनुकूलन तकनीकों के स्थानांतरण के लिए महत्वपूर्ण संदर्भ प्रदान करता है

लागू परिदृश्य

किनारे तैनाती: विशेष रूप से संसाधन-सीमित उपकरणों पर बड़े पैमाने के दृश्य एनकोडर तैनात करने की आवश्यकता वाले परिदृश्यों के लिए उपयुक्त
वास्तविक समय अनुप्रयोग: स्वचालित ड्राइविंग, रोबोटिक नियंत्रण आदि जैसे कम विलंबता दृश्य प्रसंस्करण की आवश्यकता वाले अनुप्रयोग
बहु-विधा प्रणाली: विभिन्न डाउनस्ट्रीम कार्यों में CLIP-जैसे मॉडल का परिमाणीकरण तैनाती
अनुसंधान उपकरण: दृश्य Transformer परिमाणीकरण अनुसंधान के लिए प्रभावी आधारभूत विधि प्रदान करता है

संदर्भ

यह पेपर परिमाणीकरण, ध्यान तंत्र, दृश्य Transformer आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

CLIP, DINOv2 आदि दृश्य एनकोडर के मूल पेपर
PTQ4ViT, RepQ-ViT आदि ViT परिमाणीकरण विधियां
ध्यान sink और रजिस्टर टोकन संबंधित अनुसंधान
LLM परिमाणीकरण में विसंगति मान प्रसंस्करण विधियां

समग्र मूल्यांकन: यह दृश्य एनकोडर परिमाणीकरण क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। लेखक न केवल एक प्रभावी तकनीकी समाधान प्रस्तावित करते हैं, बल्कि दृश्य एनकोडर और भाषा मॉडल के विसंगति मान व्यवहार में मूल अंतर का गहन विश्लेषण भी करते हैं, जो इस क्षेत्र के विकास के लिए मूल्यवान सैद्धांतिक अंतर्दृष्टि और व्यावहारिक उपकरण प्रदान करता है।