2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

Nachträgliche Quantisierung von Vision-Encodern benötigt Präfix-Register

Grundlegende Informationen

Paper-ID: 2510.04547
Titel: Post-training quantization of vision encoders needs prefixing registers
Autoren: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Klassifizierung: cs.LG, cs.CV
Veröffentlichungsdatum: Oktober 2025 (Preprint)
Paper-Link: https://arxiv.org/abs/2510.04547v2

Zusammenfassung

Transformer-basierte Vision-Encoder – wie CLIP – sind zentral für multimodale Intelligenz und ermöglichen Anwendungen von autonomen Web-Agenten bis zur Robotersteuerung. Da diese Anwendungen häufig eine Echtzeitverarbeitung massiver visueller Daten erfordern, ist die Reduzierung der Inferenzkosten von Vision-Encodern kritisch. Nachträgliche Quantisierung bietet einen praktischen Weg, bleibt aber auch bei 8-Bit-Genauigkeit aufgrund von massiven Aktivierungswerten (d. h. Ausreißern) herausfordernd. In dieser Arbeit schlagen wir $\textit{RegCache}$ vor, einen trainingsfreien Algorithmus zur Minderung von Ausreißern in Vision-Encodern, der eine Quantisierung mit deutlich kleineren Genauigkeitsverlusten ermöglicht. Das vorgeschlagene RegCache führt ausreißeranfällige, aber semantisch bedeutungslose Präfix-Token in den Ziel-Vision-Encoder ein, was verhindert, dass andere Token Ausreißer aufweisen. Bemerkenswert ist, dass wir beobachten, dass sich Ausreißer in Vision-Encodern anders verhalten als in Sprachmodellen, was zwei technische Innovationen motiviert: Präfixierung auf mittlerer Ebene und Token-Löschung. Experimente zeigen, dass unsere Methode die Genauigkeit quantisierter Modelle über sowohl textüberwachte als auch selbstüberwachte Vision-Encoder hinweg konsistent verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem von Aktivierungswert-Ausreißern (Outliers) bei der nachträglichen Quantisierung (Post-training Quantization, PTQ) von Transformer-basierten Vision-Encodern (wie CLIP, DINOv2) zu lösen. Diese Ausreißer führen zu einer Verringerung der Quantisierungsgenauigkeit und beeinflussen die Modellleistung erheblich, selbst bei 8-Bit-Genauigkeit.

Bedeutungsanalyse

Praktische Anforderungen: Vision-Encoder müssen in Anwendungen wie autonomem Fahren und Robotersteuerung auf Edge-Geräten Echtzeit-Verarbeitung großer Mengen visueller Daten durchführen
Rechenkosten: Die Reduzierung der Inferenzkosten ist entscheidend für die Bereitstellung großer Vision-Modelle auf ressourcenbeschränkten Geräten
Quantisierungsherausforderungen: Die Quantisierung von Aktivierungswerten ist schwieriger als die Gewichtsquantisierung, besonders in rechengestützten Szenarien

Einschränkungen bestehender Methoden

LLM-Methoden nicht anwendbar: Bestehende Strategien zur Ausreißerminderung für große Sprachmodelle erfordern unterschiedliche Genauigkeiten oder Quantisierungsbereiche, sind komplex in der Implementierung und rechenintensiv
Statische Quantisierung schwierig: Diese Methoden lassen sich schwer auf statische Aktivierungsquantisierung anwenden
Besonderheiten von Vision-Encodern: Im Gegensatz zu Sprachmodellen fehlen Vision-Encodern vordefinierte semantisch bedeutungslose Token (wie <BOS>, <SEP>)

Kernbeiträge

Vorschlag des RegCache-Algorithmus: Ein trainingsfreier Algorithmus zur Ausreißerminderung, der durch Präfix-Register-Token die Ausreißer in Vision-Encodern reduziert
Entdeckung von Ausreißer-Charakteristiken in Vision-Encodern: Nachweis, dass sich Ausreißer in Vision-Encodern erheblich von denen in Sprachmodellen unterscheiden, wobei Ausreißer in mittleren Schichten statt in frühen Schichten auftreten
Technische Innovationen: Vorschlag von zwei Schlüsseltechniken: Präfixierung auf mittlerer Ebene und Token-Löschung
Umfangreiche Validierung: Validierung der Methode über mehrere textüberwachte und selbstüberwachte Vision-Encoder hinweg

Methodische Details

Aufgabendefinition

Gegeben ein vortrainierter Vision-Encoder besteht das Ziel darin, durch die Einführung externer Register-Token die Ausreißer in quantisierungsempfindlichen Schichten zu mindern, um die Genauigkeit des quantisierten Modells zu verbessern und gleichzeitig die Inferenzeffizienz zu bewahren.

Kernbeobachtungen

Das Paper basiert auf drei wichtigen Beobachtungen:

Schichtweise Quantisierungsempfindlichkeit: Die Quantisierungsempfindlichkeit von Vision-Encodern konzentriert sich hauptsächlich auf mittlere Schichten, nicht auf frühe Schichten
Universalität von Ausreißer-Token: Ausreißer-Token, die in mittleren Schichten auftreten, zeigen über verschiedene Bilder hinweg hohe Ähnlichkeit (Kosinus-Ähnlichkeit 0,89 vs. 0,26)
Mechanismus auf mittlerer Ebene: Vision-Encoder benötigen die ersten Schichten, um Bilder zu verarbeiten und zu erkennen, welche Token semantisch bedeutungslos sind

RegCache-Algorithmus-Architektur

RegCache umfasst drei Hauptschritte:

1. Kuratierung von Register-Kandidaten

S = argtopk{||z||∞ | z ∈ Φlq(x), für einige x ∈ Iref}

Identifizierung quantisierungsempfindlicher Schichten lq (durch schichtweise Quantisierungsempfindlichkeitsanalyse)
Auswahl der top-k Token mit maximaler ℓ∞-Norm aus dem Referenzbilderpool als Register-Kandidaten
Verwendung von 50.000 zufälligen Bildern aus dem ImageNet-1k-Trainingssatz als Referenzpool

2. Zwischenspeicherung

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

Berechnung von Schlüssel-Wert-Zwischenspeichern für jeden Register-Kandidaten
Bestimmung des optimalen Registers z* und der Wiederholungsanzahl τ* durch Gittersuche
Einfügung der ausgewählten KV-Zwischenspeicher in die quantisierungsempfindliche Schicht und nachfolgende Schichten

3. Löschung

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

Hinzufügung einer Token-Löschungsschicht am Eingang der quantisierungsempfindlichen Schicht
Löschung der top-k̃ internen Sink-Token mit maximaler ℓ∞-Norm während der Inferenz

Technische Innovationen

Präfixierungsstrategie auf mittlerer Ebene: Im Gegensatz zur Früh-Schicht-Präfixierung bei LLMs, speziell für die Charakteristiken mittlerer Schichten von Vision-Encodern konzipiert
Universelle Register-Entdeckung: Nutzung der Ähnlichkeit von Ausreißer-Token über verschiedene Bilder hinweg zur Konstruktion universeller Register
Hinzufügungs-Löschungs-Mechanismus: Ersetzung intern auftretender Sink-Token durch extern vorberechnete Zwischenspeicher, um die Auswirkung auf die Aktivierungsquantisierungsbereiche zu vermeiden

Experimentelle Einrichtung

Datensätze

ImageNet-1k: Für die Evaluierung der Zero-Shot-Bildklassifizierung
MS-COCO: Für die Evaluierung von Bild-Text-Abrufaufgaben
Weitere Klassifizierungsdatensätze: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (für Generalisierungsvalidierung)
Referenzdaten: 50.000 Bilder aus dem ImageNet-1k-Trainingssatz für die Register-Suche

Bewertungsmetriken

Zero-Shot-Klassifizierungsgenauigkeit: Top-1-Genauigkeit auf ImageNet-1k
Abrufleistung: Recall@1 und Recall@5 auf MS-COCO
Ausreißeranalyse: Maximale Token-Norm und durchschnittliche Token-Norm

Vergleichsmethoden

Basis-Quantisierungsalgorithmen:
- PTQ4ViT: Duale einheitliche Quantisierer für ViT
- RepQ-ViT: Skalenneuparametrisierungsmethode
- NoisyQuant: Rausch-verstärkte Aktivierungsquantisierung
Genauigkeitseinstellungen: W8A8 (8-Bit-Gewichte, 8-Bit-Aktivierungen) und W6A6 (6-Bit-Gewichte, 6-Bit-Aktivierungen)

Implementierungsdetails

Verwendung von 1.024 und 32 Kalibrierungsproben (jeweils für NoisyQuant und RepQ-ViT)
Register-Kandidatenzahl k=20, Wiederholungsbereich τ∈{1,...,15}
Anzahl der zu löschenden Token k̃ wird durch Referenzaufgabe optimiert

Experimentelle Ergebnisse

Hauptergebnisse

Zero-Shot-Bildklassifizierung (ImageNet-1k)

Modell	Genauigkeit	Basis-Beste	RegCache-Beste	Verbesserung
CLIP-B/16	W8A8	67,69%	67,78%	+0,09%
CLIP-B/16	W6A6	58,19%	66,65%	+13,40%
SigLIP2-B/16	W8A8	76,92%	77,26%	+0,34%
SigLIP2-B/16	W6A6	64,91%	70,88%	+5,97%

Bild-Text-Abruf (MS-COCO)

CLIP-B/16: Durchschnittliche Verbesserung aller Abrufmetriken um 3,76%-7,97%
SigLIP-B/16: Recall@1-Verbesserung um 0,20%, insgesamt stabile Leistungssteigerung

Ausreißer-Minderungseffekt

Modell	Max. Token-Norm (Original)	Max. Token-Norm (RegCache)	Reduktionsquote
CLIP	61,17	15,30	-75,0%
OpenCLIP	122,99	12,38	-89,9%
SigLIP2	244,78	30,45	-87,6%

Ablationsstudien

Ablationsstudien auf SigLIP zeigen:

Nur Präfix-Zwischenspeicher: Genauigkeit verbessert sich von 69,71% auf 74,21%
Nur Token-Löschung: Genauigkeit sinkt auf 38,51% (zeigt Notwendigkeit von Präfix-Unterstützung)
Vollständiges RegCache: Genauigkeit erreicht 74,42%

Generalisierungsvalidierung

Mit ImageNet-1k gesuchte Präfixe bleiben auf anderen Datensätzen wirksam:

Stanford Cars: +1,78% bis +47,47%
Food-101: +9,85% bis +51,28%
CIFAR-100: +12,81% bis +33,00%

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RegCache-Effektivität: Konsistente Leistungssteigerung über mehrere Vision-Encoder und Quantisierungsmethoden hinweg
Ausreißer-Minderungsmechanismus: Erfolgreiche Verlagerung von Ausreißern von internen Token zu extern vorberechneten Zwischenspeichern
Universalität: Methode ist auf textüberwachte und selbstüberwachte Vision-Encoder anwendbar

Einschränkungen

Hyperparameter-Optimierung: Erfordert Evaluierung mehrerer Präfix-Kandidaten zur Bestimmung der optimalen Konfiguration
Zusätzliche Hyperparameter: Führt zusätzliche Hyperparameter wie maximale Anzahl zu löschender Token und Anzahl Präfix-Token ein
Rechenaufwand: Obwohl der FLOPs-Anstieg 0,2% nicht übersteigt, gibt es noch zusätzliche Rechenkosten

Zukünftige Richtungen

Multimodale Differenzforschung: Tieferes Verständnis der Unterschiede im Quantisierungsverhalten zwischen textüberwachten und selbstüberwachten Modellen
Ausreißer-Mechanismus-Verständnis: Weitere Untersuchung der grundlegenden Ursachen für Unterschiede im Ausreißer-Verhalten zwischen ViT und LLM
Automatisierte Optimierung: Entwicklung von Methoden zur automatischen Bestimmung optimaler Präfix-Konfigurationen

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Löst kritische technische Herausforderungen bei der Vision-Encoder-Quantisierung
Methodische Innovation: Erstmalige Einführung des Register-Konzepts in die Vision-Encoder-Quantisierung, neuartige technische Herangehensweise
Theoretische Einsichten: Tiefgehende Analyse der wesentlichen Unterschiede im Ausreißer-Verhalten zwischen Vision-Encodern und LLMs
Umfangreiche Experimente: Abdeckung von 5 gängigen Vision-Encodern und mehreren Quantisierungsalgorithmen mit überzeugenden Ergebnissen
Praktischer Wert: Trainingsfreie Methode, leicht in bestehende Quantisierungs-Workflows integrierbar

Schwächen

Begrenzte theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Präfixierung auf mittlerer Ebene wirksam ist
Hyperparameter-Sensitivität: Methode beinhaltet mehrere Hyperparameter, die die praktische Bereitstellungsfreundlichkeit beeinflussen können
Rechenaufwand-Analyse: Obwohl FLOPs-Anstieg gering ist, fehlen detaillierte Analysen von Speichernutzung und Latenz
Anwendungsbereich: Hauptsächlich ViT-Architektur validiert, Anwendbarkeit auf andere Vision-Transformer-Architekturen nicht ausreichend validiert

Auswirkungen

Akademischer Beitrag: Bietet neue technische Wege und theoretische Einsichten für die Vision-Encoder-Quantisierungsforschung
Praktischer Wert: Direkt anwendbar auf Bereitstellungsoptimierung bestehender Vision-Encoder
Reproduzierbarkeit: Klare Methodenbeschreibung, detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit
Inspirationswert: Bietet wichtige Referenzen für die Übertragung von Optimierungstechniken zwischen multimodalen Modellen

Anwendungsszenarien

Edge-Bereitstellung: Besonders geeignet für Szenarien, die die Bereitstellung großer Vision-Encoder auf ressourcenbeschränkten Geräten erfordern
Echtzeit-Anwendungen: Autonomes Fahren, Robotersteuerung und andere Anwendungen, die niedrige Latenz bei visueller Verarbeitung erfordern
Multimodale Systeme: Quantisierungs-Bereitstellung von CLIP-ähnlichen Modellen in verschiedenen nachgelagerten Aufgaben
Forschungswerkzeug: Bietet effektive Basis-Methode für Vision-Transformer-Quantisierungsforschung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus mehreren Bereichen der Quantisierung, Aufmerksamkeitsmechanismen und Vision-Transformer, einschließlich:

Originalarbeiten zu Vision-Encodern wie CLIP und DINOv2
ViT-Quantisierungsmethoden wie PTQ4ViT und RepQ-ViT
Forschung zu Attention Sink und Register-Token
Ausreißer-Behandlungsmethoden in der LLM-Quantisierung

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen im Bereich der Vision-Encoder-Quantisierung. Die Autoren präsentieren nicht nur eine effektive technische Lösung, sondern analysieren auch tiefgreifend die wesentlichen Unterschiede im Ausreißer-Verhalten zwischen Vision-Encodern und Sprachmodellen, was wertvolle theoretische Einsichten und praktische Werkzeuge für die Entwicklung dieses Forschungsbereichs bietet.