Post-training quantization of vision encoders needs prefixing registers
Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic
Nachträgliche Quantisierung von Vision-Encodern benötigt Präfix-Register
Titel: Post-training quantization of vision encoders needs prefixing registers
Autoren: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Transformer-basierte Vision-Encoder – wie CLIP – sind zentral für multimodale Intelligenz und ermöglichen Anwendungen von autonomen Web-Agenten bis zur Robotersteuerung. Da diese Anwendungen häufig eine Echtzeitverarbeitung massiver visueller Daten erfordern, ist die Reduzierung der Inferenzkosten von Vision-Encodern kritisch. Nachträgliche Quantisierung bietet einen praktischen Weg, bleibt aber auch bei 8-Bit-Genauigkeit aufgrund von massiven Aktivierungswerten (d. h. Ausreißern) herausfordernd. In dieser Arbeit schlagen wir RegCache vor, einen trainingsfreien Algorithmus zur Minderung von Ausreißern in Vision-Encodern, der eine Quantisierung mit deutlich kleineren Genauigkeitsverlusten ermöglicht. Das vorgeschlagene RegCache führt ausreißeranfällige, aber semantisch bedeutungslose Präfix-Token in den Ziel-Vision-Encoder ein, was verhindert, dass andere Token Ausreißer aufweisen. Bemerkenswert ist, dass wir beobachten, dass sich Ausreißer in Vision-Encodern anders verhalten als in Sprachmodellen, was zwei technische Innovationen motiviert: Präfixierung auf mittlerer Ebene und Token-Löschung. Experimente zeigen, dass unsere Methode die Genauigkeit quantisierter Modelle über sowohl textüberwachte als auch selbstüberwachte Vision-Encoder hinweg konsistent verbessert.
Diese Forschung zielt darauf ab, das Problem von Aktivierungswert-Ausreißern (Outliers) bei der nachträglichen Quantisierung (Post-training Quantization, PTQ) von Transformer-basierten Vision-Encodern (wie CLIP, DINOv2) zu lösen. Diese Ausreißer führen zu einer Verringerung der Quantisierungsgenauigkeit und beeinflussen die Modellleistung erheblich, selbst bei 8-Bit-Genauigkeit.
Praktische Anforderungen: Vision-Encoder müssen in Anwendungen wie autonomem Fahren und Robotersteuerung auf Edge-Geräten Echtzeit-Verarbeitung großer Mengen visueller Daten durchführen
Rechenkosten: Die Reduzierung der Inferenzkosten ist entscheidend für die Bereitstellung großer Vision-Modelle auf ressourcenbeschränkten Geräten
Quantisierungsherausforderungen: Die Quantisierung von Aktivierungswerten ist schwieriger als die Gewichtsquantisierung, besonders in rechengestützten Szenarien
LLM-Methoden nicht anwendbar: Bestehende Strategien zur Ausreißerminderung für große Sprachmodelle erfordern unterschiedliche Genauigkeiten oder Quantisierungsbereiche, sind komplex in der Implementierung und rechenintensiv
Statische Quantisierung schwierig: Diese Methoden lassen sich schwer auf statische Aktivierungsquantisierung anwenden
Besonderheiten von Vision-Encodern: Im Gegensatz zu Sprachmodellen fehlen Vision-Encodern vordefinierte semantisch bedeutungslose Token (wie <BOS>, <SEP>)
Vorschlag des RegCache-Algorithmus: Ein trainingsfreier Algorithmus zur Ausreißerminderung, der durch Präfix-Register-Token die Ausreißer in Vision-Encodern reduziert
Entdeckung von Ausreißer-Charakteristiken in Vision-Encodern: Nachweis, dass sich Ausreißer in Vision-Encodern erheblich von denen in Sprachmodellen unterscheiden, wobei Ausreißer in mittleren Schichten statt in frühen Schichten auftreten
Technische Innovationen: Vorschlag von zwei Schlüsseltechniken: Präfixierung auf mittlerer Ebene und Token-Löschung
Umfangreiche Validierung: Validierung der Methode über mehrere textüberwachte und selbstüberwachte Vision-Encoder hinweg
Gegeben ein vortrainierter Vision-Encoder besteht das Ziel darin, durch die Einführung externer Register-Token die Ausreißer in quantisierungsempfindlichen Schichten zu mindern, um die Genauigkeit des quantisierten Modells zu verbessern und gleichzeitig die Inferenzeffizienz zu bewahren.
Das Paper basiert auf drei wichtigen Beobachtungen:
Schichtweise Quantisierungsempfindlichkeit: Die Quantisierungsempfindlichkeit von Vision-Encodern konzentriert sich hauptsächlich auf mittlere Schichten, nicht auf frühe Schichten
Universalität von Ausreißer-Token: Ausreißer-Token, die in mittleren Schichten auftreten, zeigen über verschiedene Bilder hinweg hohe Ähnlichkeit (Kosinus-Ähnlichkeit 0,89 vs. 0,26)
Mechanismus auf mittlerer Ebene: Vision-Encoder benötigen die ersten Schichten, um Bilder zu verarbeiten und zu erkennen, welche Token semantisch bedeutungslos sind
Präfixierungsstrategie auf mittlerer Ebene: Im Gegensatz zur Früh-Schicht-Präfixierung bei LLMs, speziell für die Charakteristiken mittlerer Schichten von Vision-Encodern konzipiert
Universelle Register-Entdeckung: Nutzung der Ähnlichkeit von Ausreißer-Token über verschiedene Bilder hinweg zur Konstruktion universeller Register
Hinzufügungs-Löschungs-Mechanismus: Ersetzung intern auftretender Sink-Token durch extern vorberechnete Zwischenspeicher, um die Auswirkung auf die Aktivierungsquantisierungsbereiche zu vermeiden
Multimodale Differenzforschung: Tieferes Verständnis der Unterschiede im Quantisierungsverhalten zwischen textüberwachten und selbstüberwachten Modellen
Ausreißer-Mechanismus-Verständnis: Weitere Untersuchung der grundlegenden Ursachen für Unterschiede im Ausreißer-Verhalten zwischen ViT und LLM
Automatisierte Optimierung: Entwicklung von Methoden zur automatischen Bestimmung optimaler Präfix-Konfigurationen
Das Paper zitiert wichtige Arbeiten aus mehreren Bereichen der Quantisierung, Aufmerksamkeitsmechanismen und Vision-Transformer, einschließlich:
Originalarbeiten zu Vision-Encodern wie CLIP und DINOv2
ViT-Quantisierungsmethoden wie PTQ4ViT und RepQ-ViT
Forschung zu Attention Sink und Register-Token
Ausreißer-Behandlungsmethoden in der LLM-Quantisierung
Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen im Bereich der Vision-Encoder-Quantisierung. Die Autoren präsentieren nicht nur eine effektive technische Lösung, sondern analysieren auch tiefgreifend die wesentlichen Unterschiede im Ausreißer-Verhalten zwischen Vision-Encodern und Sprachmodellen, was wertvolle theoretische Einsichten und praktische Werkzeuge für die Entwicklung dieses Forschungsbereichs bietet.