2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

تكميم ما بعد التدريب لمشفرات الرؤية يتطلب سجلات البادئة

المعلومات الأساسية

معرّف الورقة: 2510.04547
العنوان: Post-training quantization of vision encoders needs prefixing registers
المؤلفون: Seunghyeon Kim (POSTECH)، Jinho Kim (Dankook University)، Taesun Yeom (POSTECH)، Wonpyo Park (Google)، Kyuyeun Kim (Google)، Jaeho Lee (POSTECH)
التصنيف: cs.LG, cs.CV
تاريخ النشر: أكتوبر 2025 (نسخة أولية)
رابط الورقة: https://arxiv.org/abs/2510.04547v2

الملخص

تعتبر مشفرات الرؤية القائمة على Transformer -- مثل CLIP -- محورية في الذكاء متعدد الأنماط، مما يدعم التطبيقات من وكلاء الويب المستقلة إلى التحكم الروبوتي. نظراً لأن هذه التطبيقات غالباً ما تتطلب معالجة فورية لكميات ضخمة من البيانات البصرية، فإن تقليل تكلفة الاستدلال لمشفرات الرؤية أمر حاسم. يوفر التكميم ما بعد التدريب مساراً عملياً، لكنه يظل صعباً حتى بدقة 8 بت بسبب التفعيلات واسعة النطاق (أي القيم الشاذة). في هذا العمل، نقترح RegCache، وهي خوارزمية خالية من التدريب للتخفيف من القيم الشاذة في مشفرات الرؤية، مما يتيح التكميم مع انخفاضات دقة أصغر بكثير. يقدم RegCache المقترح رموز بادئة عرضة للقيم الشاذة لكن غير ذات مغزى دلالي للمشفر البصري المستهدف، مما يمنع الرموز الأخرى من وجود قيم شاذة. بشكل ملحوظ، نلاحظ أن القيم الشاذة في مشفرات الرؤية تتصرف بشكل مختلف عن تلك الموجودة في نماذج اللغة، مما يحفز على اثنين من الابتكارات التقنية: البادئة في الطبقة الوسطى وحذف الرموز. تظهر التجارب أن طريقتنا تحسن باستمرار دقة النماذج المكممة عبر مشفرات الرؤية الخاضعة للإشراف بالنصوص والخاضعة للإشراف الذاتي.

خلفية البحث والدافع

تعريف المشكلة

يهدف هذا البحث إلى حل مشكلة القيم الشاذة في التفعيلات (Outliers) في مشفرات الرؤية القائمة على Transformer (مثل CLIP و DINOv2) أثناء عملية التكميم ما بعد التدريب (Post-training Quantization, PTQ). تؤدي هذه القيم الشاذة إلى انخفاض دقة التكميم، مما يؤثر بشكل كبير على أداء النموذج حتى بدقة 8 بت.

تحليل الأهمية

الاحتياجات العملية: تتطلب مشفرات الرؤية في تطبيقات الأجهزة الطرفية مثل القيادة الذاتية والتحكم الروبوتي معالجة فورية لكميات ضخمة من البيانات البصرية
تكلفة الحساب: يعتبر تقليل تكلفة الاستدلال أمراً حاسماً لنشر نماذج الرؤية واسعة النطاق على الأجهزة ذات الموارد المحدودة
تحديات التكميم: يعتبر تكميم التفعيلات أكثر صعوبة من تكميم الأوزان، خاصة في السيناريوهات المقيدة حسابياً

قيود الطرق الموجودة

عدم قابلية تطبيق طرق نماذج اللغة الكبيرة: تتطلب الاستراتيجيات الحالية لتخفيف القيم الشاذة في نماذج اللغة الكبيرة دقة مختلفة أو نطاقات تكميم مختلفة، مما يجعل التنفيذ معقداً والتكلفة الحسابية عالية
صعوبة التكميم الثابت: يصعب تطبيق هذه الطرق على التكميم الثابت للتفعيلات
خصوصية مشفرات الرؤية: بخلاف نماذج اللغة، تفتقر مشفرات الرؤية إلى رموز دلالية غير ذات مغزى محددة مسبقاً (مثل <BOS>، <SEP>)

المساهمات الأساسية

اقتراح خوارزمية RegCache: خوارزمية خالية من التدريب لتخفيف القيم الشاذة من خلال رموز سجل البادئة لتقليل القيم الشاذة في مشفرات الرؤية
اكتشاف خصائص القيم الشاذة في مشفرات الرؤية: إثبات أن سلوك القيم الشاذة في مشفرات الرؤية يختلف بشكل كبير عن نماذج اللغة، حيث تظهر القيم الشاذة في الطبقات الوسطى وليس الطبقات المبكرة
الابتكارات التقنية: اقتراح بادئة الطبقة الوسطى وحذف الرموز كتقنيتين رئيسيتين
التحقق الواسع: التحقق من فعالية الطريقة على عدة مشفرات رؤية خاضعة للإشراف بالنصوص والخاضعة للإشراف الذاتي

شرح الطريقة

تعريف المهمة

بالنظر إلى مشفر رؤية مدرب مسبقاً، الهدف هو تقليل القيم الشاذة في الطبقات الحساسة للتكميم من خلال إدخال رموز سجل خارجية، مما يحسن دقة النموذج المكمم مع الحفاظ على كفاءة الاستدلال.

الملاحظات الأساسية

تقترح الورقة حلاً بناءً على ثلاث ملاحظات مهمة:

حساسية التكميم على مستوى الطبقة: تتركز حساسية التكميم في مشفرات الرؤية بشكل أساسي في الطبقات الوسطى وليس الطبقات المبكرة
عمومية رموز القيم الشاذة: تتمتع رموز القيم الشاذة التي تظهر في الطبقات الوسطى بتشابه عالي جداً عبر صور مختلفة (تشابه جيب التمام 0.89 مقابل 0.26)
آلية الظهور في الطبقات الوسطى: تحتاج مشفرات الرؤية إلى عدة طبقات أولى لمعالجة الصور لتحديد الرموز التي لا تحمل معنى دلالياً

معمارية خوارزمية RegCache

تتضمن RegCache ثلاث خطوات رئيسية:

1. جمع المرشحين للسجل (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

تحديد الطبقات الحساسة للتكميم lq (من خلال تحليل حساسية التكميم على مستوى الطبقة)
اختيار أفضل k رموز بأكبر معايير ℓ∞ من مجموعة الصور المرجعية كمرشحين للسجل
استخدام 50,000 صورة عشوائية من مجموعة تدريب ImageNet-1k كمجموعة مرجعية

2. التخزين المؤقت (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

حساب ذاكرة التخزين المؤقت للمفتاح والقيمة لكل مرشح سجل
تحديد السجل الأمثل z* وعدد التكرارات τ* من خلال البحث الشامل
إدراج ذاكرة التخزين المؤقت المختارة في الطبقات الحساسة للتكميم والطبقات اللاحقة

3. الحذف (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

إضافة طبقة حذف الرموز عند إدخال الطبقة الحساسة للتكميم
حذف أفضل k̃ رموز بأكبر معايير ℓ∞ من الرموز الداخلية التي تظهر أثناء الاستدلال

نقاط الابتكار التقني

استراتيجية البادئة في الطبقة الوسطى: بخلاف بادئة الطبقة المبكرة في نماذج اللغة الكبيرة، تم تصميمها خصيصاً لخصائص الطبقات الوسطى في مشفرات الرؤية
اكتشاف السجل العام: الاستفادة من تشابه رموز القيم الشاذة عبر صور مختلفة لبناء سجل عام
آلية الإضافة والحذف: استبدال رموز الحوض الداخلية برموز مخزنة مؤقتاً محسوبة مسبقاً خارجياً، مما يتجنب التأثير على نطاق تكميم التفعيلات

إعداد التجارب

مجموعات البيانات

ImageNet-1k: للتقييم التصنيفي بدون عينات
MS-COCO: لتقييم مهام استرجاع الصور والنصوص
مجموعات بيانات تصنيفية أخرى: Stanford Cars و Flowers-102 و Food-101 و CIFAR-100 (للتحقق من القابلية للتعميم)
البيانات المرجعية: 50,000 صورة من مجموعة تدريب ImageNet-1k لبحث السجل

مقاييس التقييم

دقة التصنيف بدون عينات: دقة top-1 على ImageNet-1k
أداء الاسترجاع: Recall@1 و Recall@5 على MS-COCO
تحليل القيم الشاذة: أقصى معيار رموز وأوسط معيار رموز

طرق المقارنة

خوارزميات التكميم الأساسية:
- PTQ4ViT: مكمم موحد مزدوج لـ ViT
- RepQ-ViT: طريقة إعادة البارامترة على مستوى الحجم
- NoisyQuant: تكميم التفعيلات المحسّن بالضوضاء
إعدادات الدقة: W8A8 (8 بت للأوزان و 8 بت للتفعيلات) و W6A6 (6 بت للأوزان و 6 بت للتفعيلات)

تفاصيل التنفيذ

استخدام 1,024 و 32 عينة معايرة (على التوالي لـ NoisyQuant و RepQ-ViT)
عدد مرشحي السجل k=20، نطاق التكرارات τ∈{1,...,15}
يتم ضبط عدد رموز الحذف k̃ من خلال المهمة المرجعية

نتائج التجارب

النتائج الرئيسية

التصنيف البصري بدون عينات (ImageNet-1k)

النموذج	الدقة	أفضل خط أساس	أفضل RegCache	التحسن
CLIP-B/16	W8A8	67.69%	67.78%	+0.09%
CLIP-B/16	W6A6	58.19%	66.65%	+13.40%
SigLIP2-B/16	W8A8	76.92%	77.26%	+0.34%
SigLIP2-B/16	W6A6	64.91%	70.88%	+5.97%

استرجاع الصور والنصوص (MS-COCO)

CLIP-B/16: متوسط تحسن 3.76%-7.97% على جميع مقاييس الاسترجاع
SigLIP-B/16: تحسن Recall@1 بنسبة 0.20%، تحسن الأداء الإجمالي المستقر

تأثير تخفيف القيم الشاذة

النموذج	أقصى معيار رموز (الأصلي)	أقصى معيار رموز (RegCache)	نسبة الانخفاض
CLIP	61.17	15.30	-75.0%
OpenCLIP	122.99	12.38	-89.9%
SigLIP2	244.78	30.45	-87.6%

تجارب الاستئصال

تظهر الدراسات الاستئصالية على SigLIP:

البادئة والتخزين المؤقت فقط: تحسن الدقة من 69.71% إلى 74.21%
حذف الرموز فقط: انخفاض الدقة إلى 38.51% (يثبت الحاجة إلى دعم البادئة)
RegCache الكامل: تحقيق دقة 74.42%

التحقق من القابلية للتعميم

لا تزال البادئات المبحوث عنها على ImageNet-1k فعالة على مجموعات بيانات أخرى:

Stanford Cars: +1.78% إلى +47.47%
Food-101: +9.85% إلى +51.28%
CIFAR-100: +12.81% إلى +33.00%

الأعمال ذات الصلة

أبحاث القيم الشاذة في Transformer

الدراسات المنهجية للقيم الشاذة في التفعيلات في نماذج Transformer واسعة النطاق
سلوك القيم الشاذة للرموز المحددة (مثل <BOS>، <SEP>) في نماذج اللغة الكبيرة
عادة ما تتوافق القيم الشاذة في ViT مع رموز الخلفية غير المفيدة

التحكم في حوض الانتباه

Attention sink: رموز تجذب انتباهاً مفرطاً لكن تحتوي على معلومات دلالية قليلة
إضافة رموز السجل أثناء التدريب لامتصاص الانتباه والتخفيف من حوض الانتباه
تستخدم هذه الورقة رموز الحوض من منظور PTQ لتحسين أداء التكميم

تكميم ما بعد التدريب لـ ViT

الطرق المبكرة: تخصيص عرض بت ديناميكي للطبقات الحساسة للانتباه
الطرق الموجودة: عزل وتقليل تأثير القيم الشاذة من خلال مخططات تكميم خاصة
طريقة هذه الورقة: معالجة القيم الشاذة من خلال بادئة الرموز بدلاً من حبيبات المكمم

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية RegCache: تحسن متسق في الأداء عبر مشفرات رؤية متعددة وطرق تكميم
آلية تخفيف القيم الشاذة: نقل ناجح للقيم الشاذة من الرموز الداخلية إلى ذاكرة التخزين المؤقت المحسوبة مسبقاً خارجياً
العمومية: تنطبق الطريقة على مشفرات الرؤية الخاضعة للإشراف بالنصوص والخاضعة للإشراف الذاتي

القيود

ضبط المعاملات الفائقة: يتطلب تقييم عدة مرشحي بادئة لتحديد التكوين الأمثل
معاملات فائقة إضافية: يقدم معاملات فائقة مثل الحد الأقصى لعدد رموز الحذف وعدد رموز البادئة
التكلفة الحسابية: على الرغم من أن زيادة FLOPs لا تتجاوز 0.2%، لا تزال هناك تكلفة حسابية إضافية

الاتجاهات المستقبلية

بحث الاختلافات متعددة الأنماط: فهم أعمق للاختلافات في سلوك التكميم بين النماذج الخاضعة للإشراف بالنصوص والخاضعة للإشراف الذاتي
فهم آلية القيم الشاذة: البحث الإضافي عن الأسباب الجذرية لاختلافات سلوك القيم الشاذة بين ViT ونماذج اللغة الكبيرة
التحسين الآلي: تطوير طرق لتحديد التكوين الأمثل للبادئة تلقائياً

التقييم المتعمق

المميزات

أهمية المشكلة: حل التحديات التقنية الرئيسية في تكميم مشفرات الرؤية
ابتكار الطريقة: أول من يقدم مفهوم السجل في تكميم مشفرات الرؤية، مع مسار تقني جديد
الرؤى النظرية: تحليل عميق للاختلافات الجوهرية في سلوك القيم الشاذة بين مشفرات الرؤية ونماذج اللغة الكبيرة
التجارب الشاملة: تغطي 5 مشفرات رؤية رئيسية وعدة خوارزميات تكميم، مع نتائج مقنعة
القيمة العملية: لا يتطلب إعادة تدريب، سهل التكامل مع عمليات التكميم الموجودة

أوجه القصور

التحليل النظري المحدود: افتقار إلى شرح نظري عميق لسبب فعالية بادئة الطبقة الوسطى
حساسية المعاملات الفائقة: تتضمن الطريقة عدة معاملات فائقة، مما قد يؤثر على سهولة النشر العملي
تحليل التكلفة الحسابية: على الرغم من أن زيادة FLOPs صغيرة، يفتقد تحليل مفصل لاستخدام الذاكرة والكمون
نطاق التطبيق: التحقق الأساسي على معمارية ViT، مع عدم كفاية التحقق من القابلية للتطبيق على معماريات Transformer البصرية الأخرى

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد ورؤى نظرية لمجال تكميم مشفرات الرؤية
القيمة العملية: يمكن تطبيقها مباشرة على تحسين نشر مشفرات الرؤية الموجودة
قابلية الاستنساخ: وصف الطريقة واضح، وإعداد التجارب مفصل، مع قابلية استنساخ جيدة
الطبيعة الملهمة: توفير مرجع مهم لنقل تقنيات تحسين النماذج متعددة الأنماط

السيناريوهات المطبقة

نشر الأجهزة الطرفية: مناسب بشكل خاص للسيناريوهات التي تتطلب نشر مشفرات رؤية واسعة النطاق على أجهزة ذات موارد محدودة
التطبيقات في الوقت الفعلي: القيادة الذاتية والتحكم الروبوتي والتطبيقات الأخرى التي تتطلب معالجة رؤية منخفضة الكمون
الأنظمة متعددة الأنماط: نشر نماذج من نوع CLIP في مختلف المهام اللاحقة
أداة البحث: توفير طريقة خط أساس فعالة لأبحاث تكميم Transformer البصري

المراجع

تستشهد هذه الورقة بأعمال مهمة من عدة مجالات تشمل التكميم وآليات الانتباه و Transformer البصري، بما في ذلك:

الأوراق الأصلية لمشفرات الرؤية مثل CLIP و DINOv2
طرق تكميم ViT مثل PTQ4ViT و RepQ-ViT
الأبحاث المتعلقة بحوض الانتباه ورموز السجل
طرق معالجة القيم الشاذة في تكميم نماذج اللغة الكبيرة

التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال تكميم مشفرات الرؤية. لم يقدم المؤلفون فقط حلاً تقنياً فعالاً، بل قاموا أيضاً بتحليل عميق للاختلافات الجوهرية في سلوك القيم الشاذة بين مشفرات الرؤية ونماذج اللغة، مما يوفر رؤى نظرية وأدوات عملية قيمة لتطور هذا المجال.