Post-training quantization of vision encoders needs prefixing registers
Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic
La quantizzazione post-addestramento dei codificatori visivi richiede registri con prefisso
Titolo: Post-training quantization of vision encoders needs prefixing registers
Autori: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
I codificatori visivi basati su Transformer -- come CLIP -- sono centrali nell'intelligenza multimodale, alimentando applicazioni che vanno dagli agenti web autonomi al controllo robotico. Poiché queste applicazioni spesso richiedono l'elaborazione in tempo reale di massicce quantità di dati visivi, ridurre il costo inferenziale dei codificatori visivi è critico. La quantizzazione post-addestramento offre un percorso pratico, ma rimane impegnativa anche a precisione 8-bit a causa di attivazioni su larga scala (cioè, outlier). In questo lavoro, proponiamo RegCache, un algoritmo senza addestramento per mitigare gli outlier nei codificatori visivi, abilitando la quantizzazione con riduzioni di accuratezza significativamente minori. RegCache proposto introduce token di prefisso propensi agli outlier ma semanticamente insignificanti al codificatore visivo target, il che impedisce ad altri token di avere outlier. Notevolmente, osserviamo che gli outlier nei codificatori visivi si comportano diversamente da quelli nei modelli linguistici, motivando due innovazioni tecniche: prefissazione a livello intermedio e cancellazione di token. Gli esperimenti mostrano che il nostro metodo migliora coerentemente l'accuratezza dei modelli quantizzati sia nei codificatori visivi supervisionati da testo che in quelli auto-supervisionati.
Questo studio mira a risolvere il problema dei valori anomali (outlier) nelle attivazioni dei codificatori visivi basati su Transformer (come CLIP, DINOv2) durante il processo di quantizzazione post-addestramento (Post-training Quantization, PTQ). Questi valori anomali causano una riduzione della precisione di quantizzazione, influenzando significativamente le prestazioni del modello anche a precisione 8-bit.
Esigenze Pratiche: I codificatori visivi nelle applicazioni su dispositivi edge come la guida autonoma e il controllo robotico necessitano di elaborare grandi volumi di dati visivi in tempo reale
Costo Computazionale: Ridurre il costo inferenziale è cruciale per il deployment di modelli visivi su larga scala su dispositivi con risorse limitate
Sfide di Quantizzazione: La quantizzazione delle attivazioni è più impegnativa della quantizzazione dei pesi, specialmente in scenari computazionalmente vincolati
Inapplicabilità dei Metodi LLM: Le strategie esistenti di mitigazione degli outlier per i grandi modelli linguistici richiedono precisioni diverse o intervalli di quantizzazione, con implementazione complessa e elevato overhead computazionale
Difficoltà di Quantizzazione Statica: Questi metodi sono difficili da applicare alla quantizzazione statica delle attivazioni
Specificità dei Codificatori Visivi: A differenza dei modelli linguistici, i codificatori visivi mancano di token semanticamente insignificanti predefiniti (come <BOS>, <SEP>)
Proposta dell'Algoritmo RegCache: Un algoritmo di mitigazione degli outlier senza addestramento che riduce gli outlier nei codificatori visivi attraverso token di registro con prefisso
Scoperta delle Caratteristiche degli Outlier nei Codificatori Visivi: Dimostrazione che il comportamento degli outlier nei codificatori visivi differisce significativamente dai modelli linguistici, con outlier che appaiono a livelli intermedi piuttosto che a livelli iniziali
Innovazioni Tecniche: Proposizione di due tecniche chiave: prefissazione a livello intermedio e cancellazione di token
Validazione Ampia: Verifica dell'efficacia del metodo su molteplici codificatori visivi supervisionati da testo e auto-supervisionati
Dato un codificatore visivo pre-addestrato, l'obiettivo è mitigare gli outlier negli strati sensibili alla quantizzazione introducendo token di registro esterni, migliorando così la precisione del modello quantizzato mantenendo l'efficienza inferenziale.
L'articolo propone la soluzione basata su tre osservazioni importanti:
Sensibilità di Quantizzazione a Livello di Strato: La sensibilità di quantizzazione del codificatore visivo è concentrata principalmente negli strati intermedi, non negli strati iniziali
Universalità dei Token con Outlier: I token con outlier che appaiono negli strati intermedi mostrano alta similarità tra diverse immagini (similarità coseno 0,89 vs 0,26)
Meccanismo di Apparizione a Livello Intermedio: I codificatori visivi necessitano dei primi strati per elaborare le immagini al fine di identificare quali token sono semanticamente insignificanti
Strategia di Prefisso a Livello Intermedio: A differenza del prefisso a livello iniziale degli LLM, progettato per le caratteristiche degli strati intermedi dei codificatori visivi
Scoperta di Registri Universali: Sfruttamento della similarità dei token con outlier tra diverse immagini per costruire registri universali
Meccanismo di Aggiunta-Cancellazione: Sostituzione dei token sink che appaiono internamente con cache pre-calcolate esterne, evitando di influenzare l'intervallo di quantizzazione delle attivazioni
Ricerca su Differenze Multimodali: Comprensione approfondita delle differenze di comportamento di quantizzazione tra modelli supervisionati da testo e auto-supervisionati
Comprensione del Meccanismo degli Outlier: Ulteriore ricerca sulle cause fondamentali delle differenze di comportamento degli outlier tra ViT e LLM
Ottimizzazione Automatizzata: Sviluppo di metodi per determinare automaticamente la configurazione di prefisso ottimale
Analisi Teorica Limitata: Manca una spiegazione teorica profonda del perché il prefisso a livello intermedio sia efficace
Sensibilità agli Iperparametri: Il metodo coinvolge molteplici iperparametri, che potrebbero influenzare la praticità del deployment
Analisi dell'Overhead Computazionale: Sebbene l'aumento di FLOPs sia minimo, manca un'analisi dettagliata dell'utilizzo di memoria e della latenza
Ambito di Applicabilità: La validazione principale riguarda l'architettura ViT, con applicabilità insufficientemente verificata ad altre architetture Transformer visive
Deployment su Edge: Particolarmente adatto per scenari che richiedono il deployment di codificatori visivi su larga scala su dispositivi con risorse limitate
Applicazioni in Tempo Reale: Guida autonoma, controllo robotico e altre applicazioni che richiedono elaborazione visiva a bassa latenza
Sistemi Multimodali: Deployment quantizzato di modelli di tipo CLIP in vari compiti downstream
Strumenti di Ricerca: Fornisce un metodo baseline efficace per la ricerca sulla quantizzazione di Transformer visivi
L'articolo cita importanti lavori da molteplici domini, inclusi:
Articoli originali di codificatori visivi come CLIP, DINOv2
Metodi di quantizzazione ViT come PTQ4ViT, RepQ-ViT
Ricerca correlata su attention sink e token di registro
Metodi di gestione degli outlier nella quantizzazione di LLM
Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della quantizzazione dei codificatori visivi. Gli autori non solo propongono una soluzione tecnica efficace, ma conducono anche un'analisi approfondita delle differenze essenziali nel comportamento degli outlier tra codificatori visivi e modelli linguistici, fornendo intuizioni teoriche preziose e strumenti pratici per lo sviluppo del campo.