2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic

La quantizzazione post-addestramento dei codificatori visivi richiede registri con prefisso

Informazioni Fondamentali

  • ID Articolo: 2510.04547
  • Titolo: Post-training quantization of vision encoders needs prefixing registers
  • Autori: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
  • Classificazione: cs.LG, cs.CV
  • Data di Pubblicazione: Ottobre 2025 (Preprint)
  • Link Articolo: https://arxiv.org/abs/2510.04547v2

Riassunto

I codificatori visivi basati su Transformer -- come CLIP -- sono centrali nell'intelligenza multimodale, alimentando applicazioni che vanno dagli agenti web autonomi al controllo robotico. Poiché queste applicazioni spesso richiedono l'elaborazione in tempo reale di massicce quantità di dati visivi, ridurre il costo inferenziale dei codificatori visivi è critico. La quantizzazione post-addestramento offre un percorso pratico, ma rimane impegnativa anche a precisione 8-bit a causa di attivazioni su larga scala (cioè, outlier). In questo lavoro, proponiamo RegCache\textit{RegCache}, un algoritmo senza addestramento per mitigare gli outlier nei codificatori visivi, abilitando la quantizzazione con riduzioni di accuratezza significativamente minori. RegCache proposto introduce token di prefisso propensi agli outlier ma semanticamente insignificanti al codificatore visivo target, il che impedisce ad altri token di avere outlier. Notevolmente, osserviamo che gli outlier nei codificatori visivi si comportano diversamente da quelli nei modelli linguistici, motivando due innovazioni tecniche: prefissazione a livello intermedio e cancellazione di token. Gli esperimenti mostrano che il nostro metodo migliora coerentemente l'accuratezza dei modelli quantizzati sia nei codificatori visivi supervisionati da testo che in quelli auto-supervisionati.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo studio mira a risolvere il problema dei valori anomali (outlier) nelle attivazioni dei codificatori visivi basati su Transformer (come CLIP, DINOv2) durante il processo di quantizzazione post-addestramento (Post-training Quantization, PTQ). Questi valori anomali causano una riduzione della precisione di quantizzazione, influenzando significativamente le prestazioni del modello anche a precisione 8-bit.

Analisi dell'Importanza

  1. Esigenze Pratiche: I codificatori visivi nelle applicazioni su dispositivi edge come la guida autonoma e il controllo robotico necessitano di elaborare grandi volumi di dati visivi in tempo reale
  2. Costo Computazionale: Ridurre il costo inferenziale è cruciale per il deployment di modelli visivi su larga scala su dispositivi con risorse limitate
  3. Sfide di Quantizzazione: La quantizzazione delle attivazioni è più impegnativa della quantizzazione dei pesi, specialmente in scenari computazionalmente vincolati

Limitazioni dei Metodi Esistenti

  1. Inapplicabilità dei Metodi LLM: Le strategie esistenti di mitigazione degli outlier per i grandi modelli linguistici richiedono precisioni diverse o intervalli di quantizzazione, con implementazione complessa e elevato overhead computazionale
  2. Difficoltà di Quantizzazione Statica: Questi metodi sono difficili da applicare alla quantizzazione statica delle attivazioni
  3. Specificità dei Codificatori Visivi: A differenza dei modelli linguistici, i codificatori visivi mancano di token semanticamente insignificanti predefiniti (come <BOS>, <SEP>)

Contributi Principali

  1. Proposta dell'Algoritmo RegCache: Un algoritmo di mitigazione degli outlier senza addestramento che riduce gli outlier nei codificatori visivi attraverso token di registro con prefisso
  2. Scoperta delle Caratteristiche degli Outlier nei Codificatori Visivi: Dimostrazione che il comportamento degli outlier nei codificatori visivi differisce significativamente dai modelli linguistici, con outlier che appaiono a livelli intermedi piuttosto che a livelli iniziali
  3. Innovazioni Tecniche: Proposizione di due tecniche chiave: prefissazione a livello intermedio e cancellazione di token
  4. Validazione Ampia: Verifica dell'efficacia del metodo su molteplici codificatori visivi supervisionati da testo e auto-supervisionati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un codificatore visivo pre-addestrato, l'obiettivo è mitigare gli outlier negli strati sensibili alla quantizzazione introducendo token di registro esterni, migliorando così la precisione del modello quantizzato mantenendo l'efficienza inferenziale.

Osservazioni Fondamentali

L'articolo propone la soluzione basata su tre osservazioni importanti:

  1. Sensibilità di Quantizzazione a Livello di Strato: La sensibilità di quantizzazione del codificatore visivo è concentrata principalmente negli strati intermedi, non negli strati iniziali
  2. Universalità dei Token con Outlier: I token con outlier che appaiono negli strati intermedi mostrano alta similarità tra diverse immagini (similarità coseno 0,89 vs 0,26)
  3. Meccanismo di Apparizione a Livello Intermedio: I codificatori visivi necessitano dei primi strati per elaborare le immagini al fine di identificare quali token sono semanticamente insignificanti

Architettura dell'Algoritmo RegCache

RegCache comprende tre fasi principali:

1. Raccolta di Candidati di Registro (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}
  • Identificazione degli strati sensibili alla quantizzazione lq (attraverso analisi della sensibilità di quantizzazione strato per strato)
  • Selezione dei token top-k con norma ℓ∞ massima dal pool di immagini di riferimento come candidati di registro
  • Utilizzo di 50.000 immagini casuali dal dataset di addestramento ImageNet-1k come pool di riferimento

2. Memorizzazione in Cache (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
  • Calcolo della cache key-value per ogni candidato di registro
  • Determinazione della configurazione ottimale di registro z* e numero di ripetizioni τ* attraverso ricerca a griglia
  • Inserimento della cache KV selezionata negli strati sensibili alla quantizzazione e negli strati successivi

3. Cancellazione (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
  • Aggiunta di uno strato di cancellazione di token all'ingresso dello strato sensibile alla quantizzazione
  • Cancellazione durante l'inferenza dei token sink top-k̃ con norma ℓ∞ massima che appaiono internamente

Punti di Innovazione Tecnica

  1. Strategia di Prefisso a Livello Intermedio: A differenza del prefisso a livello iniziale degli LLM, progettato per le caratteristiche degli strati intermedi dei codificatori visivi
  2. Scoperta di Registri Universali: Sfruttamento della similarità dei token con outlier tra diverse immagini per costruire registri universali
  3. Meccanismo di Aggiunta-Cancellazione: Sostituzione dei token sink che appaiono internamente con cache pre-calcolate esterne, evitando di influenzare l'intervallo di quantizzazione delle attivazioni

Configurazione Sperimentale

Dataset

  • ImageNet-1k: Per la valutazione della classificazione di immagini zero-shot
  • MS-COCO: Per la valutazione dei compiti di recupero immagine-testo
  • Altri Dataset di Classificazione: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (per la verifica della generalizzazione)
  • Dati di Riferimento: 50.000 immagini dal dataset di addestramento ImageNet-1k per la ricerca di registri

Metriche di Valutazione

  • Accuratezza di Classificazione Zero-shot: Accuratezza top-1 su ImageNet-1k
  • Prestazioni di Recupero: Recall@1 e Recall@5 su MS-COCO
  • Analisi degli Outlier: Norma massima di token e norma media di token

Metodi di Confronto

  • Algoritmi di Quantizzazione di Base:
    • PTQ4ViT: Quantizzatore uniforme duale per ViT
    • RepQ-ViT: Metodo di reparametrizzazione di scala
    • NoisyQuant: Quantizzazione di attivazione potenziata dal rumore
  • Configurazioni di Precisione: W8A8 (8-bit peso 8-bit attivazione) e W6A6 (6-bit peso 6-bit attivazione)

Dettagli di Implementazione

  • Utilizzo di 1.024 e 32 campioni di calibrazione (rispettivamente per NoisyQuant e RepQ-ViT)
  • Numero di candidati di registro k=20, intervallo di ripetizioni τ∈{1,...,15}
  • Numero di token da cancellare k̃ ottimizzato attraverso il compito di riferimento

Risultati Sperimentali

Risultati Principali

Classificazione di Immagini Zero-shot (ImageNet-1k)

ModelloPrecisioneBaseline MiglioreRegCache MiglioreMiglioramento
CLIP-B/16W8A867,69%67,78%+0,09%
CLIP-B/16W6A658,19%66,65%+13,40%
SigLIP2-B/16W8A876,92%77,26%+0,34%
SigLIP2-B/16W6A664,91%70,88%+5,97%

Recupero Immagine-Testo (MS-COCO)

  • CLIP-B/16: Miglioramento medio del 3,76%-7,97% su tutte le metriche di recupero
  • SigLIP-B/16: Miglioramento di Recall@1 dello 0,20%, miglioramento complessivo stabile delle prestazioni

Effetto di Mitigazione degli Outlier

ModelloNorma Max Token (Originale)Norma Max Token (RegCache)Percentuale di Riduzione
CLIP61,1715,30-75,0%
OpenCLIP122,9912,38-89,9%
SigLIP2244,7830,45-87,6%

Studi di Ablazione

Lo studio di ablazione su SigLIP mostra che:

  • Solo Cache di Prefisso: Accuratezza migliorata dal 69,71% al 74,21%
  • Solo Cancellazione di Token: Accuratezza ridotta al 38,51% (dimostrando la necessità del supporto di prefisso)
  • RegCache Completo: Accuratezza raggiunta del 74,42%

Verifica della Generalizzazione

I prefissi cercati su ImageNet-1k rimangono efficaci su altri dataset:

  • Stanford Cars: +1,78% a +47,47%
  • Food-101: +9,85% a +51,28%
  • CIFAR-100: +12,81% a +33,00%

Lavori Correlati

Ricerca su Outlier in Transformer

  • Studio sistematico degli outlier di attivazione nei Transformer su larga scala
  • Comportamento degli outlier di token specifici (come <BOS>, <SEP>) negli LLM
  • Gli outlier in ViT corrispondono tipicamente a patch di sfondo senza informazioni

Controllo dell'Attention Sink

  • Attention sink: Token che attirano eccessiva attenzione ma contengono poche informazioni semantiche
  • Aggiunta di token di registro durante l'addestramento per assorbire l'attenzione e mitigare l'attention sink
  • Questo articolo sfrutta i token sink dal punto di vista PTQ per migliorare le prestazioni di quantizzazione

Quantizzazione Post-Addestramento di ViT

  • Metodi iniziali: Allocazione di ampiezza di bit dinamica per strati sensibili all'attenzione
  • Metodi esistenti: Isolamento e minimizzazione dell'impatto degli outlier attraverso schemi di quantizzazione speciali
  • Metodo di questo articolo: Gestione degli outlier attraverso prefisso di token piuttosto che granularità del quantizzatore

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia di RegCache: Miglioramento coerente delle prestazioni su molteplici codificatori visivi e metodi di quantizzazione
  2. Meccanismo di Mitigazione degli Outlier: Trasferimento riuscito degli outlier dai token interni alla cache pre-calcolata esterna
  3. Universalità: Il metodo è applicabile sia ai codificatori visivi supervisionati da testo che a quelli auto-supervisionati

Limitazioni

  1. Ottimizzazione di Iperparametri: Richiede la valutazione di molteplici candidati di prefisso per determinare la configurazione ottimale
  2. Iperparametri Aggiuntivi: Introduzione del numero massimo di token da cancellare, numero di token di prefisso e altri iperparametri
  3. Overhead Computazionale: Sebbene l'aumento di FLOPs non superi lo 0,2%, vi è comunque un costo computazionale aggiuntivo

Direzioni Future

  1. Ricerca su Differenze Multimodali: Comprensione approfondita delle differenze di comportamento di quantizzazione tra modelli supervisionati da testo e auto-supervisionati
  2. Comprensione del Meccanismo degli Outlier: Ulteriore ricerca sulle cause fondamentali delle differenze di comportamento degli outlier tra ViT e LLM
  3. Ottimizzazione Automatizzata: Sviluppo di metodi per determinare automaticamente la configurazione di prefisso ottimale

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Risolve una sfida tecnica critica nella quantizzazione dei codificatori visivi
  2. Innovazione del Metodo: Primo a introdurre il concetto di register nella quantizzazione dei codificatori visivi, con percorso tecnico innovativo
  3. Intuizioni Teoriche: Analisi approfondita delle differenze essenziali nel comportamento degli outlier tra codificatori visivi e LLM
  4. Esperimenti Completi: Copertura di 5 codificatori visivi mainstream e molteplici algoritmi di quantizzazione, con risultati convincenti
  5. Valore Pratico: Senza necessità di riaddestrare, facile da integrare nei flussi di quantizzazione esistenti

Carenze

  1. Analisi Teorica Limitata: Manca una spiegazione teorica profonda del perché il prefisso a livello intermedio sia efficace
  2. Sensibilità agli Iperparametri: Il metodo coinvolge molteplici iperparametri, che potrebbero influenzare la praticità del deployment
  3. Analisi dell'Overhead Computazionale: Sebbene l'aumento di FLOPs sia minimo, manca un'analisi dettagliata dell'utilizzo di memoria e della latenza
  4. Ambito di Applicabilità: La validazione principale riguarda l'architettura ViT, con applicabilità insufficientemente verificata ad altre architetture Transformer visive

Impatto

  1. Contributo Accademico: Fornisce un nuovo percorso tecnico e intuizioni teoriche al campo della quantizzazione dei codificatori visivi
  2. Valore Pratico: Applicabile direttamente all'ottimizzazione del deployment dei codificatori visivi esistenti
  3. Riproducibilità: Descrizione del metodo chiara, configurazione sperimentale dettagliata, con buona riproducibilità
  4. Ispirazione: Fornisce importanti riferimenti per il trasferimento di tecniche di ottimizzazione di modelli multimodali

Scenari Applicabili

  1. Deployment su Edge: Particolarmente adatto per scenari che richiedono il deployment di codificatori visivi su larga scala su dispositivi con risorse limitate
  2. Applicazioni in Tempo Reale: Guida autonoma, controllo robotico e altre applicazioni che richiedono elaborazione visiva a bassa latenza
  3. Sistemi Multimodali: Deployment quantizzato di modelli di tipo CLIP in vari compiti downstream
  4. Strumenti di Ricerca: Fornisce un metodo baseline efficace per la ricerca sulla quantizzazione di Transformer visivi

Bibliografia

L'articolo cita importanti lavori da molteplici domini, inclusi:

  • Articoli originali di codificatori visivi come CLIP, DINOv2
  • Metodi di quantizzazione ViT come PTQ4ViT, RepQ-ViT
  • Ricerca correlata su attention sink e token di registro
  • Metodi di gestione degli outlier nella quantizzazione di LLM

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della quantizzazione dei codificatori visivi. Gli autori non solo propongono una soluzione tecnica efficace, ma conducono anche un'analisi approfondita delle differenze essenziali nel comportamento degli outlier tra codificatori visivi e modelli linguistici, fornendo intuizioni teoriche preziose e strumenti pratici per lo sviluppo del campo.