Post-training quantization of vision encoders needs prefixing registers
Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic
दृश्य एनकोडर के प्रशिक्षण-पश्चात् परिमाणीकरण के लिए उपसर्ग रजिस्टर आवश्यक हैं
Transformer-आधारित दृश्य एनकोडर -- जैसे CLIP -- बहुविध बुद्धिमत्ता के लिए केंद्रीय हैं, जो स्वायत्त वेब एजेंटों से लेकर रोबोटिक नियंत्रण तक के अनुप्रयोगों को शक्ति प्रदान करते हैं। चूंकि ये अनुप्रयोग अक्सर विशाल दृश्य डेटा के वास्तविक समय प्रसंस्करण की मांग करते हैं, दृश्य एनकोडर के अनुमान लागत को कम करना महत्वपूर्ण है। प्रशिक्षण-पश्चात् परिमाणीकरण एक व्यावहारिक मार्ग प्रदान करता है, लेकिन विशाल-पैमाने की सक्रियताओं (अर्थात्, बाहरी मान) के कारण 8-बिट सटीकता पर भी चुनौतीपूर्ण रहता है। इस कार्य में, हम RegCache प्रस्तावित करते हैं, दृश्य एनकोडर में बाहरी मानों को कम करने के लिए एक प्रशिक्षण-मुक्त एल्गोरिथ्म, जो महत्वपूर्ण रूप से छोटी सटीकता हानि के साथ परिमाणीकरण सक्षम करता है। प्रस्तावित RegCache लक्ष्य दृश्य एनकोडर में बाहरी-प्रवण लेकिन शब्दार्थ रूप से अर्थहीन उपसर्ग टोकन प्रस्तुत करता है, जो अन्य टोकन को बाहरी मान होने से रोकता है। विशेष रूप से, हम देखते हैं कि दृश्य एनकोडर में बाहरी मान भाषा मॉडल में उन लोगों से अलग तरीके से व्यवहार करते हैं, जो दो तकनीकी नवाचारों को प्रेरित करते हैं: मध्य-परत उपसर्ग और टोकन विलोपन। प्रयोग दिखाते हैं कि हमारी विधि पाठ-पर्यवेक्षित और स्व-पर्यवेक्षित दृश्य एनकोडर दोनों में परिमाणित मॉडल की सटीकता में लगातार सुधार करती है।
यह अनुसंधान Transformer-आधारित दृश्य एनकोडर (जैसे CLIP, DINOv2) में प्रशिक्षण-पश्चात् परिमाणीकरण (Post-training Quantization, PTQ) प्रक्रिया के दौरान सक्रियता विसंगति मानों (outliers) की समस्या को हल करने का लक्ष्य रखता है। ये विसंगति मान परिमाणीकरण सटीकता में कमी का कारण बनते हैं, यहां तक कि 8-बिट सटीकता पर भी मॉडल प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करते हैं।
व्यावहारिक आवश्यकता: दृश्य एनकोडर स्वचालित ड्राइविंग, रोबोटिक नियंत्रण आदि किनारे उपकरण अनुप्रयोगों में बड़ी मात्रा में दृश्य डेटा के वास्तविक समय प्रसंस्करण की आवश्यकता है
कम्प्यूटेशनल लागत: संसाधन-सीमित उपकरणों पर बड़े पैमाने के दृश्य मॉडल को तैनात करने के लिए अनुमान लागत को कम करना महत्वपूर्ण है
परिमाणीकरण चुनौती: सक्रियता परिमाणीकरण वजन परिमाणीकरण की तुलना में अधिक चुनौतीपूर्ण है, विशेष रूप से कम्प्यूटेशनल रूप से सीमित परिदृश्यों में
LLM विधि अनुपयुक्त: बड़े भाषा मॉडल के लिए मौजूदा विसंगति मान शमन रणनीतियों को विभिन्न सटीकता या परिमाणीकरण श्रेणियों की आवश्यकता है, जटिल कार्यान्वयन और उच्च कम्प्यूटेशनल ओवरहेड के साथ
स्थिर परिमाणीकरण कठिनाई: ये विधियां स्थिर सक्रियता परिमाणीकरण पर लागू करना कठिन हैं
दृश्य एनकोडर विशेषता: भाषा मॉडल के विपरीत, दृश्य एनकोडर में पूर्वनिर्धारित शब्दार्थ रूप से अर्थहीन टोकन (जैसे <BOS>, <SEP>) की कमी है
RegCache एल्गोरिथ्म प्रस्ताव: एक प्रशिक्षण-मुक्त विसंगति मान शमन एल्गोरिथ्म, जो उपसर्ग रजिस्टर टोकन के माध्यम से दृश्य एनकोडर में विसंगति मानों को कम करता है
दृश्य एनकोडर विसंगति मान विशेषता की खोज: यह साबित करता है कि दृश्य एनकोडर में विसंगति मान व्यवहार भाषा मॉडल से महत्वपूर्ण रूप से भिन्न है, विसंगति मान प्रारंभिक परतों के बजाय मध्य परतों में दिखाई देते हैं
तकनीकी नवाचार: मध्य-परत उपसर्ग और टोकन विलोपन दो मुख्य तकनीकें प्रस्तावित करता है
व्यापक सत्यापन: कई पाठ-पर्यवेक्षित और स्व-पर्यवेक्षित दृश्य एनकोडर पर विधि की प्रभावशीलता को सत्यापित करता है
एक पूर्व-प्रशिक्षित दृश्य एनकोडर को देखते हुए, लक्ष्य बाहरी रजिस्टर टोकन प्रस्तुत करके परिमाणीकरण-संवेदनशील परतों में विसंगति मानों को कम करना है, जिससे परिमाणित मॉडल की सटीकता में सुधार होता है, जबकि अनुमान दक्षता बनी रहती है।
मध्य-परत उपसर्ग रणनीति: LLM के प्रारंभिक परत उपसर्ग के विपरीत, दृश्य एनकोडर की मध्य-परत विशेषताओं के लिए डिज़ाइन किया गया
सार्वभौमिक रजिस्टर खोज: विभिन्न छवियों में विसंगति मान टोकन की समानता का लाभ उठाते हुए, सार्वभौमिक रजिस्टर का निर्माण करें
जोड़ें-हटाएं तंत्र: आंतरिक रूप से दिखाई देने वाले sink टोकन को बाहरी रूप से पूर्व-गणना किए गए कैश से बदलें, सक्रियता परिमाणीकरण श्रेणी को प्रभावित करने से बचें
यह पेपर परिमाणीकरण, ध्यान तंत्र, दृश्य Transformer आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:
CLIP, DINOv2 आदि दृश्य एनकोडर के मूल पेपर
PTQ4ViT, RepQ-ViT आदि ViT परिमाणीकरण विधियां
ध्यान sink और रजिस्टर टोकन संबंधित अनुसंधान
LLM परिमाणीकरण में विसंगति मान प्रसंस्करण विधियां
समग्र मूल्यांकन: यह दृश्य एनकोडर परिमाणीकरण क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। लेखक न केवल एक प्रभावी तकनीकी समाधान प्रस्तावित करते हैं, बल्कि दृश्य एनकोडर और भाषा मॉडल के विसंगति मान व्यवहार में मूल अंतर का गहन विश्लेषण भी करते हैं, जो इस क्षेत्र के विकास के लिए मूल्यवान सैद्धांतिक अंतर्दृष्टि और व्यावहारिक उपकरण प्रदान करता है।