2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic

Nachträgliche Quantisierung von Vision-Encodern benötigt Präfix-Register

Grundlegende Informationen

  • Paper-ID: 2510.04547
  • Titel: Post-training quantization of vision encoders needs prefixing registers
  • Autoren: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
  • Klassifizierung: cs.LG, cs.CV
  • Veröffentlichungsdatum: Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.04547v2

Zusammenfassung

Transformer-basierte Vision-Encoder – wie CLIP – sind zentral für multimodale Intelligenz und ermöglichen Anwendungen von autonomen Web-Agenten bis zur Robotersteuerung. Da diese Anwendungen häufig eine Echtzeitverarbeitung massiver visueller Daten erfordern, ist die Reduzierung der Inferenzkosten von Vision-Encodern kritisch. Nachträgliche Quantisierung bietet einen praktischen Weg, bleibt aber auch bei 8-Bit-Genauigkeit aufgrund von massiven Aktivierungswerten (d. h. Ausreißern) herausfordernd. In dieser Arbeit schlagen wir RegCache\textit{RegCache} vor, einen trainingsfreien Algorithmus zur Minderung von Ausreißern in Vision-Encodern, der eine Quantisierung mit deutlich kleineren Genauigkeitsverlusten ermöglicht. Das vorgeschlagene RegCache führt ausreißeranfällige, aber semantisch bedeutungslose Präfix-Token in den Ziel-Vision-Encoder ein, was verhindert, dass andere Token Ausreißer aufweisen. Bemerkenswert ist, dass wir beobachten, dass sich Ausreißer in Vision-Encodern anders verhalten als in Sprachmodellen, was zwei technische Innovationen motiviert: Präfixierung auf mittlerer Ebene und Token-Löschung. Experimente zeigen, dass unsere Methode die Genauigkeit quantisierter Modelle über sowohl textüberwachte als auch selbstüberwachte Vision-Encoder hinweg konsistent verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem von Aktivierungswert-Ausreißern (Outliers) bei der nachträglichen Quantisierung (Post-training Quantization, PTQ) von Transformer-basierten Vision-Encodern (wie CLIP, DINOv2) zu lösen. Diese Ausreißer führen zu einer Verringerung der Quantisierungsgenauigkeit und beeinflussen die Modellleistung erheblich, selbst bei 8-Bit-Genauigkeit.

Bedeutungsanalyse

  1. Praktische Anforderungen: Vision-Encoder müssen in Anwendungen wie autonomem Fahren und Robotersteuerung auf Edge-Geräten Echtzeit-Verarbeitung großer Mengen visueller Daten durchführen
  2. Rechenkosten: Die Reduzierung der Inferenzkosten ist entscheidend für die Bereitstellung großer Vision-Modelle auf ressourcenbeschränkten Geräten
  3. Quantisierungsherausforderungen: Die Quantisierung von Aktivierungswerten ist schwieriger als die Gewichtsquantisierung, besonders in rechengestützten Szenarien

Einschränkungen bestehender Methoden

  1. LLM-Methoden nicht anwendbar: Bestehende Strategien zur Ausreißerminderung für große Sprachmodelle erfordern unterschiedliche Genauigkeiten oder Quantisierungsbereiche, sind komplex in der Implementierung und rechenintensiv
  2. Statische Quantisierung schwierig: Diese Methoden lassen sich schwer auf statische Aktivierungsquantisierung anwenden
  3. Besonderheiten von Vision-Encodern: Im Gegensatz zu Sprachmodellen fehlen Vision-Encodern vordefinierte semantisch bedeutungslose Token (wie <BOS>, <SEP>)

Kernbeiträge

  1. Vorschlag des RegCache-Algorithmus: Ein trainingsfreier Algorithmus zur Ausreißerminderung, der durch Präfix-Register-Token die Ausreißer in Vision-Encodern reduziert
  2. Entdeckung von Ausreißer-Charakteristiken in Vision-Encodern: Nachweis, dass sich Ausreißer in Vision-Encodern erheblich von denen in Sprachmodellen unterscheiden, wobei Ausreißer in mittleren Schichten statt in frühen Schichten auftreten
  3. Technische Innovationen: Vorschlag von zwei Schlüsseltechniken: Präfixierung auf mittlerer Ebene und Token-Löschung
  4. Umfangreiche Validierung: Validierung der Methode über mehrere textüberwachte und selbstüberwachte Vision-Encoder hinweg

Methodische Details

Aufgabendefinition

Gegeben ein vortrainierter Vision-Encoder besteht das Ziel darin, durch die Einführung externer Register-Token die Ausreißer in quantisierungsempfindlichen Schichten zu mindern, um die Genauigkeit des quantisierten Modells zu verbessern und gleichzeitig die Inferenzeffizienz zu bewahren.

Kernbeobachtungen

Das Paper basiert auf drei wichtigen Beobachtungen:

  1. Schichtweise Quantisierungsempfindlichkeit: Die Quantisierungsempfindlichkeit von Vision-Encodern konzentriert sich hauptsächlich auf mittlere Schichten, nicht auf frühe Schichten
  2. Universalität von Ausreißer-Token: Ausreißer-Token, die in mittleren Schichten auftreten, zeigen über verschiedene Bilder hinweg hohe Ähnlichkeit (Kosinus-Ähnlichkeit 0,89 vs. 0,26)
  3. Mechanismus auf mittlerer Ebene: Vision-Encoder benötigen die ersten Schichten, um Bilder zu verarbeiten und zu erkennen, welche Token semantisch bedeutungslos sind

RegCache-Algorithmus-Architektur

RegCache umfasst drei Hauptschritte:

1. Kuratierung von Register-Kandidaten

S = argtopk{||z||∞ | z ∈ Φlq(x), für einige x ∈ Iref}
  • Identifizierung quantisierungsempfindlicher Schichten lq (durch schichtweise Quantisierungsempfindlichkeitsanalyse)
  • Auswahl der top-k Token mit maximaler ℓ∞-Norm aus dem Referenzbilderpool als Register-Kandidaten
  • Verwendung von 50.000 zufälligen Bildern aus dem ImageNet-1k-Trainingssatz als Referenzpool

2. Zwischenspeicherung

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
  • Berechnung von Schlüssel-Wert-Zwischenspeichern für jeden Register-Kandidaten
  • Bestimmung des optimalen Registers z* und der Wiederholungsanzahl τ* durch Gittersuche
  • Einfügung der ausgewählten KV-Zwischenspeicher in die quantisierungsempfindliche Schicht und nachfolgende Schichten

3. Löschung

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
  • Hinzufügung einer Token-Löschungsschicht am Eingang der quantisierungsempfindlichen Schicht
  • Löschung der top-k̃ internen Sink-Token mit maximaler ℓ∞-Norm während der Inferenz

Technische Innovationen

  1. Präfixierungsstrategie auf mittlerer Ebene: Im Gegensatz zur Früh-Schicht-Präfixierung bei LLMs, speziell für die Charakteristiken mittlerer Schichten von Vision-Encodern konzipiert
  2. Universelle Register-Entdeckung: Nutzung der Ähnlichkeit von Ausreißer-Token über verschiedene Bilder hinweg zur Konstruktion universeller Register
  3. Hinzufügungs-Löschungs-Mechanismus: Ersetzung intern auftretender Sink-Token durch extern vorberechnete Zwischenspeicher, um die Auswirkung auf die Aktivierungsquantisierungsbereiche zu vermeiden

Experimentelle Einrichtung

Datensätze

  • ImageNet-1k: Für die Evaluierung der Zero-Shot-Bildklassifizierung
  • MS-COCO: Für die Evaluierung von Bild-Text-Abrufaufgaben
  • Weitere Klassifizierungsdatensätze: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (für Generalisierungsvalidierung)
  • Referenzdaten: 50.000 Bilder aus dem ImageNet-1k-Trainingssatz für die Register-Suche

Bewertungsmetriken

  • Zero-Shot-Klassifizierungsgenauigkeit: Top-1-Genauigkeit auf ImageNet-1k
  • Abrufleistung: Recall@1 und Recall@5 auf MS-COCO
  • Ausreißeranalyse: Maximale Token-Norm und durchschnittliche Token-Norm

Vergleichsmethoden

  • Basis-Quantisierungsalgorithmen:
    • PTQ4ViT: Duale einheitliche Quantisierer für ViT
    • RepQ-ViT: Skalenneuparametrisierungsmethode
    • NoisyQuant: Rausch-verstärkte Aktivierungsquantisierung
  • Genauigkeitseinstellungen: W8A8 (8-Bit-Gewichte, 8-Bit-Aktivierungen) und W6A6 (6-Bit-Gewichte, 6-Bit-Aktivierungen)

Implementierungsdetails

  • Verwendung von 1.024 und 32 Kalibrierungsproben (jeweils für NoisyQuant und RepQ-ViT)
  • Register-Kandidatenzahl k=20, Wiederholungsbereich τ∈{1,...,15}
  • Anzahl der zu löschenden Token k̃ wird durch Referenzaufgabe optimiert

Experimentelle Ergebnisse

Hauptergebnisse

Zero-Shot-Bildklassifizierung (ImageNet-1k)

ModellGenauigkeitBasis-BesteRegCache-BesteVerbesserung
CLIP-B/16W8A867,69%67,78%+0,09%
CLIP-B/16W6A658,19%66,65%+13,40%
SigLIP2-B/16W8A876,92%77,26%+0,34%
SigLIP2-B/16W6A664,91%70,88%+5,97%

Bild-Text-Abruf (MS-COCO)

  • CLIP-B/16: Durchschnittliche Verbesserung aller Abrufmetriken um 3,76%-7,97%
  • SigLIP-B/16: Recall@1-Verbesserung um 0,20%, insgesamt stabile Leistungssteigerung

Ausreißer-Minderungseffekt

ModellMax. Token-Norm (Original)Max. Token-Norm (RegCache)Reduktionsquote
CLIP61,1715,30-75,0%
OpenCLIP122,9912,38-89,9%
SigLIP2244,7830,45-87,6%

Ablationsstudien

Ablationsstudien auf SigLIP zeigen:

  • Nur Präfix-Zwischenspeicher: Genauigkeit verbessert sich von 69,71% auf 74,21%
  • Nur Token-Löschung: Genauigkeit sinkt auf 38,51% (zeigt Notwendigkeit von Präfix-Unterstützung)
  • Vollständiges RegCache: Genauigkeit erreicht 74,42%

Generalisierungsvalidierung

Mit ImageNet-1k gesuchte Präfixe bleiben auf anderen Datensätzen wirksam:

  • Stanford Cars: +1,78% bis +47,47%
  • Food-101: +9,85% bis +51,28%
  • CIFAR-100: +12,81% bis +33,00%

Verwandte Arbeiten

Transformer-Ausreißer-Forschung

  • Systematische Untersuchung von Aktivierungswert-Ausreißern in großen Transformern
  • Ausreißer-Verhalten spezifischer Token (wie <BOS>, <SEP>) in LLMs
  • Ausreißer in ViT entsprechen typischerweise uninformativen Hintergrund-Patches

Aufmerksamkeits-Sink-Kontrolle

  • Attention Sink: Token, die übermäßige Aufmerksamkeit anziehen, aber wenig semantische Information enthalten
  • Hinzufügung von Register-Token während des Trainings zur Aufmerksamkeitsabsorption und Minderung von Attention Sink
  • Diese Arbeit nutzt Sink-Token aus PTQ-Perspektive zur Verbesserung der Quantisierungsleistung

ViT-Nachträgliche Quantisierung

  • Frühe Methoden: Zuweisung dynamischer Bitbreiten für aufmerksamkeitsempfindliche Schichten
  • Bestehende Methoden: Isolierung und Minimierung von Ausreißerauswirkungen durch spezielle Quantisierungsschemata
  • Diese Arbeit: Behandlung von Ausreißern durch Token-Präfixierung statt Quantisierer-Granularität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RegCache-Effektivität: Konsistente Leistungssteigerung über mehrere Vision-Encoder und Quantisierungsmethoden hinweg
  2. Ausreißer-Minderungsmechanismus: Erfolgreiche Verlagerung von Ausreißern von internen Token zu extern vorberechneten Zwischenspeichern
  3. Universalität: Methode ist auf textüberwachte und selbstüberwachte Vision-Encoder anwendbar

Einschränkungen

  1. Hyperparameter-Optimierung: Erfordert Evaluierung mehrerer Präfix-Kandidaten zur Bestimmung der optimalen Konfiguration
  2. Zusätzliche Hyperparameter: Führt zusätzliche Hyperparameter wie maximale Anzahl zu löschender Token und Anzahl Präfix-Token ein
  3. Rechenaufwand: Obwohl der FLOPs-Anstieg 0,2% nicht übersteigt, gibt es noch zusätzliche Rechenkosten

Zukünftige Richtungen

  1. Multimodale Differenzforschung: Tieferes Verständnis der Unterschiede im Quantisierungsverhalten zwischen textüberwachten und selbstüberwachten Modellen
  2. Ausreißer-Mechanismus-Verständnis: Weitere Untersuchung der grundlegenden Ursachen für Unterschiede im Ausreißer-Verhalten zwischen ViT und LLM
  3. Automatisierte Optimierung: Entwicklung von Methoden zur automatischen Bestimmung optimaler Präfix-Konfigurationen

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst kritische technische Herausforderungen bei der Vision-Encoder-Quantisierung
  2. Methodische Innovation: Erstmalige Einführung des Register-Konzepts in die Vision-Encoder-Quantisierung, neuartige technische Herangehensweise
  3. Theoretische Einsichten: Tiefgehende Analyse der wesentlichen Unterschiede im Ausreißer-Verhalten zwischen Vision-Encodern und LLMs
  4. Umfangreiche Experimente: Abdeckung von 5 gängigen Vision-Encodern und mehreren Quantisierungsalgorithmen mit überzeugenden Ergebnissen
  5. Praktischer Wert: Trainingsfreie Methode, leicht in bestehende Quantisierungs-Workflows integrierbar

Schwächen

  1. Begrenzte theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Präfixierung auf mittlerer Ebene wirksam ist
  2. Hyperparameter-Sensitivität: Methode beinhaltet mehrere Hyperparameter, die die praktische Bereitstellungsfreundlichkeit beeinflussen können
  3. Rechenaufwand-Analyse: Obwohl FLOPs-Anstieg gering ist, fehlen detaillierte Analysen von Speichernutzung und Latenz
  4. Anwendungsbereich: Hauptsächlich ViT-Architektur validiert, Anwendbarkeit auf andere Vision-Transformer-Architekturen nicht ausreichend validiert

Auswirkungen

  1. Akademischer Beitrag: Bietet neue technische Wege und theoretische Einsichten für die Vision-Encoder-Quantisierungsforschung
  2. Praktischer Wert: Direkt anwendbar auf Bereitstellungsoptimierung bestehender Vision-Encoder
  3. Reproduzierbarkeit: Klare Methodenbeschreibung, detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit
  4. Inspirationswert: Bietet wichtige Referenzen für die Übertragung von Optimierungstechniken zwischen multimodalen Modellen

Anwendungsszenarien

  1. Edge-Bereitstellung: Besonders geeignet für Szenarien, die die Bereitstellung großer Vision-Encoder auf ressourcenbeschränkten Geräten erfordern
  2. Echtzeit-Anwendungen: Autonomes Fahren, Robotersteuerung und andere Anwendungen, die niedrige Latenz bei visueller Verarbeitung erfordern
  3. Multimodale Systeme: Quantisierungs-Bereitstellung von CLIP-ähnlichen Modellen in verschiedenen nachgelagerten Aufgaben
  4. Forschungswerkzeug: Bietet effektive Basis-Methode für Vision-Transformer-Quantisierungsforschung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus mehreren Bereichen der Quantisierung, Aufmerksamkeitsmechanismen und Vision-Transformer, einschließlich:

  • Originalarbeiten zu Vision-Encodern wie CLIP und DINOv2
  • ViT-Quantisierungsmethoden wie PTQ4ViT und RepQ-ViT
  • Forschung zu Attention Sink und Register-Token
  • Ausreißer-Behandlungsmethoden in der LLM-Quantisierung

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen im Bereich der Vision-Encoder-Quantisierung. Die Autoren präsentieren nicht nur eine effektive technische Lösung, sondern analysieren auch tiefgreifend die wesentlichen Unterschiede im Ausreißer-Verhalten zwischen Vision-Encodern und Sprachmodellen, was wertvolle theoretische Einsichten und praktische Werkzeuge für die Entwicklung dieses Forschungsbereichs bietet.