2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

La quantizzazione post-addestramento dei codificatori visivi richiede registri con prefisso

Informazioni Fondamentali

ID Articolo: 2510.04547
Titolo: Post-training quantization of vision encoders needs prefixing registers
Autori: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Classificazione: cs.LG, cs.CV
Data di Pubblicazione: Ottobre 2025 (Preprint)
Link Articolo: https://arxiv.org/abs/2510.04547v2

Riassunto

I codificatori visivi basati su Transformer -- come CLIP -- sono centrali nell'intelligenza multimodale, alimentando applicazioni che vanno dagli agenti web autonomi al controllo robotico. Poiché queste applicazioni spesso richiedono l'elaborazione in tempo reale di massicce quantità di dati visivi, ridurre il costo inferenziale dei codificatori visivi è critico. La quantizzazione post-addestramento offre un percorso pratico, ma rimane impegnativa anche a precisione 8-bit a causa di attivazioni su larga scala (cioè, outlier). In questo lavoro, proponiamo $\textit{RegCache}$ , un algoritmo senza addestramento per mitigare gli outlier nei codificatori visivi, abilitando la quantizzazione con riduzioni di accuratezza significativamente minori. RegCache proposto introduce token di prefisso propensi agli outlier ma semanticamente insignificanti al codificatore visivo target, il che impedisce ad altri token di avere outlier. Notevolmente, osserviamo che gli outlier nei codificatori visivi si comportano diversamente da quelli nei modelli linguistici, motivando due innovazioni tecniche: prefissazione a livello intermedio e cancellazione di token. Gli esperimenti mostrano che il nostro metodo migliora coerentemente l'accuratezza dei modelli quantizzati sia nei codificatori visivi supervisionati da testo che in quelli auto-supervisionati.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo studio mira a risolvere il problema dei valori anomali (outlier) nelle attivazioni dei codificatori visivi basati su Transformer (come CLIP, DINOv2) durante il processo di quantizzazione post-addestramento (Post-training Quantization, PTQ). Questi valori anomali causano una riduzione della precisione di quantizzazione, influenzando significativamente le prestazioni del modello anche a precisione 8-bit.

Analisi dell'Importanza

Esigenze Pratiche: I codificatori visivi nelle applicazioni su dispositivi edge come la guida autonoma e il controllo robotico necessitano di elaborare grandi volumi di dati visivi in tempo reale
Costo Computazionale: Ridurre il costo inferenziale è cruciale per il deployment di modelli visivi su larga scala su dispositivi con risorse limitate
Sfide di Quantizzazione: La quantizzazione delle attivazioni è più impegnativa della quantizzazione dei pesi, specialmente in scenari computazionalmente vincolati

Limitazioni dei Metodi Esistenti

Inapplicabilità dei Metodi LLM: Le strategie esistenti di mitigazione degli outlier per i grandi modelli linguistici richiedono precisioni diverse o intervalli di quantizzazione, con implementazione complessa e elevato overhead computazionale
Difficoltà di Quantizzazione Statica: Questi metodi sono difficili da applicare alla quantizzazione statica delle attivazioni
Specificità dei Codificatori Visivi: A differenza dei modelli linguistici, i codificatori visivi mancano di token semanticamente insignificanti predefiniti (come <BOS>, <SEP>)

Contributi Principali

Proposta dell'Algoritmo RegCache: Un algoritmo di mitigazione degli outlier senza addestramento che riduce gli outlier nei codificatori visivi attraverso token di registro con prefisso
Scoperta delle Caratteristiche degli Outlier nei Codificatori Visivi: Dimostrazione che il comportamento degli outlier nei codificatori visivi differisce significativamente dai modelli linguistici, con outlier che appaiono a livelli intermedi piuttosto che a livelli iniziali
Innovazioni Tecniche: Proposizione di due tecniche chiave: prefissazione a livello intermedio e cancellazione di token
Validazione Ampia: Verifica dell'efficacia del metodo su molteplici codificatori visivi supervisionati da testo e auto-supervisionati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un codificatore visivo pre-addestrato, l'obiettivo è mitigare gli outlier negli strati sensibili alla quantizzazione introducendo token di registro esterni, migliorando così la precisione del modello quantizzato mantenendo l'efficienza inferenziale.

Osservazioni Fondamentali

L'articolo propone la soluzione basata su tre osservazioni importanti:

Sensibilità di Quantizzazione a Livello di Strato: La sensibilità di quantizzazione del codificatore visivo è concentrata principalmente negli strati intermedi, non negli strati iniziali
Universalità dei Token con Outlier: I token con outlier che appaiono negli strati intermedi mostrano alta similarità tra diverse immagini (similarità coseno 0,89 vs 0,26)
Meccanismo di Apparizione a Livello Intermedio: I codificatori visivi necessitano dei primi strati per elaborare le immagini al fine di identificare quali token sono semanticamente insignificanti

Architettura dell'Algoritmo RegCache

RegCache comprende tre fasi principali:

1. Raccolta di Candidati di Registro (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

Identificazione degli strati sensibili alla quantizzazione lq (attraverso analisi della sensibilità di quantizzazione strato per strato)
Selezione dei token top-k con norma ℓ∞ massima dal pool di immagini di riferimento come candidati di registro
Utilizzo di 50.000 immagini casuali dal dataset di addestramento ImageNet-1k come pool di riferimento

2. Memorizzazione in Cache (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

Calcolo della cache key-value per ogni candidato di registro
Determinazione della configurazione ottimale di registro z* e numero di ripetizioni τ* attraverso ricerca a griglia
Inserimento della cache KV selezionata negli strati sensibili alla quantizzazione e negli strati successivi

3. Cancellazione (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

Aggiunta di uno strato di cancellazione di token all'ingresso dello strato sensibile alla quantizzazione
Cancellazione durante l'inferenza dei token sink top-k̃ con norma ℓ∞ massima che appaiono internamente

Punti di Innovazione Tecnica

Strategia di Prefisso a Livello Intermedio: A differenza del prefisso a livello iniziale degli LLM, progettato per le caratteristiche degli strati intermedi dei codificatori visivi
Scoperta di Registri Universali: Sfruttamento della similarità dei token con outlier tra diverse immagini per costruire registri universali
Meccanismo di Aggiunta-Cancellazione: Sostituzione dei token sink che appaiono internamente con cache pre-calcolate esterne, evitando di influenzare l'intervallo di quantizzazione delle attivazioni

Configurazione Sperimentale

Dataset

ImageNet-1k: Per la valutazione della classificazione di immagini zero-shot
MS-COCO: Per la valutazione dei compiti di recupero immagine-testo
Altri Dataset di Classificazione: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (per la verifica della generalizzazione)
Dati di Riferimento: 50.000 immagini dal dataset di addestramento ImageNet-1k per la ricerca di registri

Metriche di Valutazione

Accuratezza di Classificazione Zero-shot: Accuratezza top-1 su ImageNet-1k
Prestazioni di Recupero: Recall@1 e Recall@5 su MS-COCO
Analisi degli Outlier: Norma massima di token e norma media di token

Metodi di Confronto

Algoritmi di Quantizzazione di Base:
- PTQ4ViT: Quantizzatore uniforme duale per ViT
- RepQ-ViT: Metodo di reparametrizzazione di scala
- NoisyQuant: Quantizzazione di attivazione potenziata dal rumore
Configurazioni di Precisione: W8A8 (8-bit peso 8-bit attivazione) e W6A6 (6-bit peso 6-bit attivazione)

Dettagli di Implementazione

Utilizzo di 1.024 e 32 campioni di calibrazione (rispettivamente per NoisyQuant e RepQ-ViT)
Numero di candidati di registro k=20, intervallo di ripetizioni τ∈{1,...,15}
Numero di token da cancellare k̃ ottimizzato attraverso il compito di riferimento

Risultati Sperimentali

Risultati Principali

Classificazione di Immagini Zero-shot (ImageNet-1k)

Modello	Precisione	Baseline Migliore	RegCache Migliore	Miglioramento
CLIP-B/16	W8A8	67,69%	67,78%	+0,09%
CLIP-B/16	W6A6	58,19%	66,65%	+13,40%
SigLIP2-B/16	W8A8	76,92%	77,26%	+0,34%
SigLIP2-B/16	W6A6	64,91%	70,88%	+5,97%

Recupero Immagine-Testo (MS-COCO)

CLIP-B/16: Miglioramento medio del 3,76%-7,97% su tutte le metriche di recupero
SigLIP-B/16: Miglioramento di Recall@1 dello 0,20%, miglioramento complessivo stabile delle prestazioni

Effetto di Mitigazione degli Outlier

Modello	Norma Max Token (Originale)	Norma Max Token (RegCache)	Percentuale di Riduzione
CLIP	61,17	15,30	-75,0%
OpenCLIP	122,99	12,38	-89,9%
SigLIP2	244,78	30,45	-87,6%

Studi di Ablazione

Lo studio di ablazione su SigLIP mostra che:

Solo Cache di Prefisso: Accuratezza migliorata dal 69,71% al 74,21%
Solo Cancellazione di Token: Accuratezza ridotta al 38,51% (dimostrando la necessità del supporto di prefisso)
RegCache Completo: Accuratezza raggiunta del 74,42%

Verifica della Generalizzazione

I prefissi cercati su ImageNet-1k rimangono efficaci su altri dataset:

Stanford Cars: +1,78% a +47,47%
Food-101: +9,85% a +51,28%
CIFAR-100: +12,81% a +33,00%

Lavori Correlati

Ricerca su Outlier in Transformer

Studio sistematico degli outlier di attivazione nei Transformer su larga scala
Comportamento degli outlier di token specifici (come <BOS>, <SEP>) negli LLM
Gli outlier in ViT corrispondono tipicamente a patch di sfondo senza informazioni

Controllo dell'Attention Sink

Attention sink: Token che attirano eccessiva attenzione ma contengono poche informazioni semantiche
Aggiunta di token di registro durante l'addestramento per assorbire l'attenzione e mitigare l'attention sink
Questo articolo sfrutta i token sink dal punto di vista PTQ per migliorare le prestazioni di quantizzazione

Quantizzazione Post-Addestramento di ViT

Metodi iniziali: Allocazione di ampiezza di bit dinamica per strati sensibili all'attenzione
Metodi esistenti: Isolamento e minimizzazione dell'impatto degli outlier attraverso schemi di quantizzazione speciali
Metodo di questo articolo: Gestione degli outlier attraverso prefisso di token piuttosto che granularità del quantizzatore

Conclusioni e Discussione

Conclusioni Principali

Efficacia di RegCache: Miglioramento coerente delle prestazioni su molteplici codificatori visivi e metodi di quantizzazione
Meccanismo di Mitigazione degli Outlier: Trasferimento riuscito degli outlier dai token interni alla cache pre-calcolata esterna
Universalità: Il metodo è applicabile sia ai codificatori visivi supervisionati da testo che a quelli auto-supervisionati

Limitazioni

Ottimizzazione di Iperparametri: Richiede la valutazione di molteplici candidati di prefisso per determinare la configurazione ottimale
Iperparametri Aggiuntivi: Introduzione del numero massimo di token da cancellare, numero di token di prefisso e altri iperparametri
Overhead Computazionale: Sebbene l'aumento di FLOPs non superi lo 0,2%, vi è comunque un costo computazionale aggiuntivo

Direzioni Future

Ricerca su Differenze Multimodali: Comprensione approfondita delle differenze di comportamento di quantizzazione tra modelli supervisionati da testo e auto-supervisionati
Comprensione del Meccanismo degli Outlier: Ulteriore ricerca sulle cause fondamentali delle differenze di comportamento degli outlier tra ViT e LLM
Ottimizzazione Automatizzata: Sviluppo di metodi per determinare automaticamente la configurazione di prefisso ottimale

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Risolve una sfida tecnica critica nella quantizzazione dei codificatori visivi
Innovazione del Metodo: Primo a introdurre il concetto di register nella quantizzazione dei codificatori visivi, con percorso tecnico innovativo
Intuizioni Teoriche: Analisi approfondita delle differenze essenziali nel comportamento degli outlier tra codificatori visivi e LLM
Esperimenti Completi: Copertura di 5 codificatori visivi mainstream e molteplici algoritmi di quantizzazione, con risultati convincenti
Valore Pratico: Senza necessità di riaddestrare, facile da integrare nei flussi di quantizzazione esistenti

Carenze

Analisi Teorica Limitata: Manca una spiegazione teorica profonda del perché il prefisso a livello intermedio sia efficace
Sensibilità agli Iperparametri: Il metodo coinvolge molteplici iperparametri, che potrebbero influenzare la praticità del deployment
Analisi dell'Overhead Computazionale: Sebbene l'aumento di FLOPs sia minimo, manca un'analisi dettagliata dell'utilizzo di memoria e della latenza
Ambito di Applicabilità: La validazione principale riguarda l'architettura ViT, con applicabilità insufficientemente verificata ad altre architetture Transformer visive

Impatto

Contributo Accademico: Fornisce un nuovo percorso tecnico e intuizioni teoriche al campo della quantizzazione dei codificatori visivi
Valore Pratico: Applicabile direttamente all'ottimizzazione del deployment dei codificatori visivi esistenti
Riproducibilità: Descrizione del metodo chiara, configurazione sperimentale dettagliata, con buona riproducibilità
Ispirazione: Fornisce importanti riferimenti per il trasferimento di tecniche di ottimizzazione di modelli multimodali

Scenari Applicabili

Deployment su Edge: Particolarmente adatto per scenari che richiedono il deployment di codificatori visivi su larga scala su dispositivi con risorse limitate
Applicazioni in Tempo Reale: Guida autonoma, controllo robotico e altre applicazioni che richiedono elaborazione visiva a bassa latenza
Sistemi Multimodali: Deployment quantizzato di modelli di tipo CLIP in vari compiti downstream
Strumenti di Ricerca: Fornisce un metodo baseline efficace per la ricerca sulla quantizzazione di Transformer visivi

Bibliografia

L'articolo cita importanti lavori da molteplici domini, inclusi:

Articoli originali di codificatori visivi come CLIP, DINOv2
Metodi di quantizzazione ViT come PTQ4ViT, RepQ-ViT
Ricerca correlata su attention sink e token di registro
Metodi di gestione degli outlier nella quantizzazione di LLM

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della quantizzazione dei codificatori visivi. Gli autori non solo propongono una soluzione tecnica efficace, ma conducono anche un'analisi approfondita delle differenze essenziali nel comportamento degli outlier tra codificatori visivi e modelli linguistici, fornendo intuizioni teoriche preziose e strumenti pratici per lo sviluppo del campo.