Post-training quantization of vision encoders needs prefixing registers
Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic
تكميم ما بعد التدريب لمشفرات الرؤية يتطلب سجلات البادئة
العنوان: Post-training quantization of vision encoders needs prefixing registers
المؤلفون: Seunghyeon Kim (POSTECH)، Jinho Kim (Dankook University)، Taesun Yeom (POSTECH)، Wonpyo Park (Google)، Kyuyeun Kim (Google)، Jaeho Lee (POSTECH)
تعتبر مشفرات الرؤية القائمة على Transformer -- مثل CLIP -- محورية في الذكاء متعدد الأنماط، مما يدعم التطبيقات من وكلاء الويب المستقلة إلى التحكم الروبوتي. نظراً لأن هذه التطبيقات غالباً ما تتطلب معالجة فورية لكميات ضخمة من البيانات البصرية، فإن تقليل تكلفة الاستدلال لمشفرات الرؤية أمر حاسم. يوفر التكميم ما بعد التدريب مساراً عملياً، لكنه يظل صعباً حتى بدقة 8 بت بسبب التفعيلات واسعة النطاق (أي القيم الشاذة). في هذا العمل، نقترح RegCache، وهي خوارزمية خالية من التدريب للتخفيف من القيم الشاذة في مشفرات الرؤية، مما يتيح التكميم مع انخفاضات دقة أصغر بكثير. يقدم RegCache المقترح رموز بادئة عرضة للقيم الشاذة لكن غير ذات مغزى دلالي للمشفر البصري المستهدف، مما يمنع الرموز الأخرى من وجود قيم شاذة. بشكل ملحوظ، نلاحظ أن القيم الشاذة في مشفرات الرؤية تتصرف بشكل مختلف عن تلك الموجودة في نماذج اللغة، مما يحفز على اثنين من الابتكارات التقنية: البادئة في الطبقة الوسطى وحذف الرموز. تظهر التجارب أن طريقتنا تحسن باستمرار دقة النماذج المكممة عبر مشفرات الرؤية الخاضعة للإشراف بالنصوص والخاضعة للإشراف الذاتي.
يهدف هذا البحث إلى حل مشكلة القيم الشاذة في التفعيلات (Outliers) في مشفرات الرؤية القائمة على Transformer (مثل CLIP و DINOv2) أثناء عملية التكميم ما بعد التدريب (Post-training Quantization, PTQ). تؤدي هذه القيم الشاذة إلى انخفاض دقة التكميم، مما يؤثر بشكل كبير على أداء النموذج حتى بدقة 8 بت.
عدم قابلية تطبيق طرق نماذج اللغة الكبيرة: تتطلب الاستراتيجيات الحالية لتخفيف القيم الشاذة في نماذج اللغة الكبيرة دقة مختلفة أو نطاقات تكميم مختلفة، مما يجعل التنفيذ معقداً والتكلفة الحسابية عالية
صعوبة التكميم الثابت: يصعب تطبيق هذه الطرق على التكميم الثابت للتفعيلات
خصوصية مشفرات الرؤية: بخلاف نماذج اللغة، تفتقر مشفرات الرؤية إلى رموز دلالية غير ذات مغزى محددة مسبقاً (مثل <BOS>، <SEP>)
اقتراح خوارزمية RegCache: خوارزمية خالية من التدريب لتخفيف القيم الشاذة من خلال رموز سجل البادئة لتقليل القيم الشاذة في مشفرات الرؤية
اكتشاف خصائص القيم الشاذة في مشفرات الرؤية: إثبات أن سلوك القيم الشاذة في مشفرات الرؤية يختلف بشكل كبير عن نماذج اللغة، حيث تظهر القيم الشاذة في الطبقات الوسطى وليس الطبقات المبكرة
الابتكارات التقنية: اقتراح بادئة الطبقة الوسطى وحذف الرموز كتقنيتين رئيسيتين
التحقق الواسع: التحقق من فعالية الطريقة على عدة مشفرات رؤية خاضعة للإشراف بالنصوص والخاضعة للإشراف الذاتي
بالنظر إلى مشفر رؤية مدرب مسبقاً، الهدف هو تقليل القيم الشاذة في الطبقات الحساسة للتكميم من خلال إدخال رموز سجل خارجية، مما يحسن دقة النموذج المكمم مع الحفاظ على كفاءة الاستدلال.
تستشهد هذه الورقة بأعمال مهمة من عدة مجالات تشمل التكميم وآليات الانتباه و Transformer البصري، بما في ذلك:
الأوراق الأصلية لمشفرات الرؤية مثل CLIP و DINOv2
طرق تكميم ViT مثل PTQ4ViT و RepQ-ViT
الأبحاث المتعلقة بحوض الانتباه ورموز السجل
طرق معالجة القيم الشاذة في تكميم نماذج اللغة الكبيرة
التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال تكميم مشفرات الرؤية. لم يقدم المؤلفون فقط حلاً تقنياً فعالاً، بل قاموا أيضاً بتحليل عميق للاختلافات الجوهرية في سلوك القيم الشاذة بين مشفرات الرؤية ونماذج اللغة، مما يوفر رؤى نظرية وأدوات عملية قيمة لتطور هذا المجال.