2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

La quantification post-entraînement des encodeurs visuels nécessite des registres de préfixe

Informations de base

ID de l'article : 2510.04547
Titre : Post-training quantization of vision encoders needs prefixing registers
Auteurs : Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Classification : cs.LG, cs.CV
Date de publication : Octobre 2025 (Preprint)
Lien de l'article : https://arxiv.org/abs/2510.04547v2

Résumé

Les encodeurs visuels basés sur Transformer -- tels que CLIP -- sont au cœur de l'intelligence multimodale, alimentant des applications allant des agents web autonomes au contrôle robotique. Puisque ces applications exigent souvent un traitement en temps réel de données visuelles massives, réduire le coût d'inférence des encodeurs visuels est critique. La quantification post-entraînement offre une voie pratique, mais reste difficile même à 8 bits de précision en raison d'activations à grande échelle (c'est-à-dire des valeurs aberrantes). Dans ce travail, nous proposons $\textit{RegCache}$ , un algorithme sans entraînement pour atténuer les valeurs aberrantes dans les encodeurs visuels, permettant la quantification avec des chutes de précision significativement plus petites. Le RegCache proposé introduit des tokens de préfixe sémantiquement insignifiants mais sujets aux valeurs aberrantes dans l'encodeur visuel cible, ce qui empêche les autres tokens d'avoir des valeurs aberrantes. Notamment, nous observons que les valeurs aberrantes dans les encodeurs visuels se comportent différemment de celles dans les modèles de langage, motivant deux innovations techniques : le préfixage de couche intermédiaire et la suppression de tokens. Les expériences montrent que notre méthode améliore constamment la précision des modèles quantifiés sur les encodeurs visuels supervisés par texte et auto-supervisés.

Contexte de recherche et motivation

Définition du problème

Cette recherche vise à résoudre le problème des valeurs aberrantes d'activation (outliers) dans les encodeurs visuels basés sur Transformer (tels que CLIP, DINOv2) lors du processus de quantification post-entraînement (PTQ). Ces valeurs aberrantes entraînent une dégradation de la précision de quantification, affectant significativement les performances du modèle même à 8 bits de précision.

Analyse de l'importance

Besoins pratiques : Les encodeurs visuels dans les applications sur appareils périphériques tels que la conduite autonome et le contrôle robotique nécessitent un traitement en temps réel de grandes quantités de données visuelles
Coûts de calcul : Réduire les coûts d'inférence est crucial pour le déploiement de modèles visuels à grande échelle sur des appareils aux ressources limitées
Défis de quantification : La quantification des activations est plus difficile que celle des poids, particulièrement dans les scénarios de calcul limité

Limitations des méthodes existantes

Inadéquation des méthodes LLM : Les stratégies existantes d'atténuation des valeurs aberrantes pour les grands modèles de langage nécessitent des précisions ou des plages de quantification différentes, avec une implémentation complexe et des frais de calcul élevés
Difficulté de quantification statique : Ces méthodes sont difficiles à appliquer à la quantification statique des activations
Spécificité des encodeurs visuels : Contrairement aux modèles de langage, les encodeurs visuels manquent de tokens sémantiquement insignifiants prédéfinis (tels que <BOS>, <SEP>)

Contributions principales

Proposition de l'algorithme RegCache : Un algorithme d'atténuation des valeurs aberrantes sans entraînement qui réduit les valeurs aberrantes dans les encodeurs visuels grâce à des tokens de registre de préfixe
Découverte des caractéristiques des valeurs aberrantes dans les encodeurs visuels : Démonstration que le comportement des valeurs aberrantes dans les encodeurs visuels diffère significativement de celui des modèles de langage, avec des valeurs aberrantes apparaissant dans les couches intermédiaires plutôt que dans les couches précoces
Innovations techniques : Proposition de deux techniques clés : le préfixage de couche intermédiaire et la suppression de tokens
Validation étendue : Vérification de l'efficacité de la méthode sur plusieurs encodeurs visuels supervisés par texte et auto-supervisés

Détails de la méthode

Définition de la tâche

Étant donné un encodeur visuel pré-entraîné, l'objectif est d'atténuer les valeurs aberrantes dans les couches sensibles à la quantification en introduisant des tokens de registre externes, améliorant ainsi la précision du modèle quantifié tout en maintenant l'efficacité d'inférence.

Observations clés

L'article propose une solution basée sur trois observations importantes :

Sensibilité de quantification par couche : La sensibilité de quantification des encodeurs visuels est principalement concentrée dans les couches intermédiaires, non dans les couches précoces
Universalité des tokens de valeurs aberrantes : Les tokens de valeurs aberrantes apparaissant dans les couches intermédiaires présentent une similarité élevée entre différentes images (similarité cosinus 0,89 vs 0,26)
Mécanisme d'apparition en couche intermédiaire : Les encodeurs visuels ont besoin des premières couches pour traiter les images afin d'identifier quels tokens sont sémantiquement insignifiants

Architecture de l'algorithme RegCache

RegCache comprend trois étapes principales :

1. Collecte des candidats de registre (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

Identification de la couche sensible à la quantification lq (par analyse de sensibilité de quantification couche par couche)
Sélection des top-k tokens avec les normes ℓ∞ maximales à partir du pool d'images de référence comme candidats de registre
Utilisation de 50 000 images aléatoires de l'ensemble d'entraînement ImageNet-1k comme pool de référence

2. Mise en cache (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

Calcul du cache clé-valeur pour chaque candidat de registre
Détermination du registre optimal z* et du nombre de répétitions τ* par recherche en grille
Insertion du cache KV sélectionné dans la couche sensible à la quantification et les couches suivantes

3. Suppression (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

Ajout d'une couche de suppression de tokens à l'entrée de la couche sensible à la quantification
Suppression lors de l'inférence des top-k̃ tokens sink internes ayant les normes ℓ∞ maximales

Points d'innovation technique

Stratégie de préfixe de couche intermédiaire : Contrairement au préfixe de couche précoce des LLM, conçu pour les caractéristiques de couche intermédiaire des encodeurs visuels
Découverte de registres universels : Utilisation de la similarité des tokens de valeurs aberrantes entre différentes images pour construire des registres universels
Mécanisme d'ajout-suppression : Remplacement des tokens sink internes par des caches pré-calculés externes, évitant d'affecter la plage de quantification des activations

Configuration expérimentale

Ensembles de données

ImageNet-1k : Pour l'évaluation de la classification d'images zéro-shot
MS-COCO : Pour l'évaluation des tâches de récupération image-texte
Autres ensembles de données de classification : Stanford Cars, Flowers-102, Food-101, CIFAR-100 (pour la vérification de la généralisation)
Données de référence : 50 000 images de l'ensemble d'entraînement ImageNet-1k pour la recherche de registres

Métriques d'évaluation

Précision de classification zéro-shot : Précision top-1 sur ImageNet-1k
Performance de récupération : Recall@1 et Recall@5 sur MS-COCO
Analyse des valeurs aberrantes : Norme maximale de token et norme moyenne de token

Méthodes de comparaison

Algorithmes de quantification de base :
- PTQ4ViT : Quantificateur uniforme double pour ViT
- RepQ-ViT : Méthode de re-paramétrisation d'échelle
- NoisyQuant : Quantification d'activation améliorée par bruit
Configurations de précision : W8A8 (8 bits poids 8 bits activation) et W6A6 (6 bits poids 6 bits activation)

Détails d'implémentation

Utilisation de 1 024 et 32 échantillons d'étalonnage (respectivement pour NoisyQuant et RepQ-ViT)
Nombre de candidats de registre k=20, plage de répétitions τ∈{1,...,15}
Nombre de tokens à supprimer k̃ ajusté par la tâche de référence

Résultats expérimentaux

Résultats principaux

Classification d'images zéro-shot (ImageNet-1k)

Modèle	Précision	Meilleure ligne de base	Meilleur RegCache	Amélioration
CLIP-B/16	W8A8	67,69%	67,78%	+0,09%
CLIP-B/16	W6A6	58,19%	66,65%	+13,40%
SigLIP2-B/16	W8A8	76,92%	77,26%	+0,34%
SigLIP2-B/16	W6A6	64,91%	70,88%	+5,97%

Récupération image-texte (MS-COCO)

CLIP-B/16 : Amélioration moyenne de 3,76% à 7,97% sur tous les indicateurs de récupération
SigLIP-B/16 : Amélioration de Recall@1 de 0,20%, amélioration globale stable des performances

Effet d'atténuation des valeurs aberrantes

Modèle	Norme max de token (original)	Norme max de token (RegCache)	Réduction
CLIP	61,17	15,30	-75,0%
OpenCLIP	122,99	12,38	-89,9%
SigLIP2	244,78	30,45	-87,6%

Études d'ablation

Les études d'ablation sur SigLIP montrent que :

Cache de préfixe uniquement : Amélioration de la précision de 69,71% à 74,21%
Suppression de tokens uniquement : Baisse de la précision à 38,51% (prouvant le besoin de support de préfixe)
RegCache complet : Précision atteignant 74,42%

Vérification de la généralisation

Les préfixes recherchés sur ImageNet-1k restent efficaces sur d'autres ensembles de données :

Stanford Cars : +1,78% à +47,47%
Food-101 : +9,85% à +51,28%
CIFAR-100 : +12,81% à +33,00%

Travaux connexes

Recherche sur les valeurs aberrantes dans les Transformers

Étude systématique des valeurs aberrantes d'activation dans les Transformers à grande échelle
Comportement des valeurs aberrantes de tokens spécifiques dans les LLM (tels que <BOS>, <SEP>)
Les valeurs aberrantes dans ViT correspondent généralement à des patches d'arrière-plan sans information

Contrôle des attention sinks

Attention sink : Tokens qui attirent une attention excessive mais contiennent peu d'information sémantique
Ajout de tokens de registre pendant l'entraînement pour absorber l'attention et atténuer les attention sinks
Cet article exploite les tokens sink du point de vue de la PTQ pour améliorer les performances de quantification

Quantification post-entraînement de ViT

Méthodes précoces : Allocation de largeurs de bits dynamiques pour les couches sensibles à l'attention
Méthodes existantes : Isolation et minimisation de l'impact des valeurs aberrantes par des schémas de quantification spéciaux
Méthode de cet article : Traitement des valeurs aberrantes par préfixe de tokens plutôt que par granularité du quantificateur

Conclusion et discussion

Conclusions principales

Efficacité de RegCache : Amélioration constante des performances sur plusieurs encodeurs visuels et méthodes de quantification
Mécanisme d'atténuation des valeurs aberrantes : Transfert réussi des valeurs aberrantes des tokens internes vers le cache pré-calculé externe
Universalité : La méthode s'applique aux encodeurs visuels supervisés par texte et auto-supervisés

Limitations

Ajustement des hyperparamètres : Nécessité d'évaluer plusieurs candidats de préfixe pour déterminer la configuration optimale
Hyperparamètres supplémentaires : Introduction du nombre maximal de tokens à supprimer, du nombre de tokens de préfixe, etc.
Frais de calcul : Bien que l'augmentation des FLOPs ne dépasse pas 0,2%, il y a toujours un coût de calcul supplémentaire

Directions futures

Recherche sur les différences multimodales : Compréhension approfondie des différences de comportement de quantification entre les modèles supervisés par texte et auto-supervisés
Compréhension du mécanisme des valeurs aberrantes : Recherche supplémentaire sur les causes fondamentales des différences de comportement des valeurs aberrantes entre ViT et LLM
Optimisation automatisée : Développement de méthodes pour déterminer automatiquement la configuration de préfixe optimale

Évaluation approfondie

Avantages

Importance du problème : Résolution d'un défi technique clé dans la quantification des encodeurs visuels
Innovation de la méthode : Introduction novatrice du concept de registre dans la quantification des encodeurs visuels, avec une approche technique nouvelle
Intuitions théoriques : Analyse approfondie des différences essentielles de comportement des valeurs aberrantes entre les encodeurs visuels et les LLM
Expériences complètes : Couverture de 5 encodeurs visuels courants et plusieurs algorithmes de quantification, résultats convaincants
Valeur pratique : Sans réentraînement, facile à intégrer dans les flux de quantification existants

Insuffisances

Analyse théorique limitée : Manque d'explication théorique approfondie sur pourquoi le préfixe de couche intermédiaire est efficace
Sensibilité aux hyperparamètres : La méthode implique plusieurs hyperparamètres, ce qui peut affecter la commodité du déploiement pratique
Analyse des frais de calcul : Bien que l'augmentation des FLOPs soit faible, manque d'analyse détaillée de l'utilisation de la mémoire et de la latence
Portée d'application : Vérification principalement sur l'architecture ViT, applicabilité insuffisamment vérifiée sur d'autres architectures Transformer visuelles

Impact

Contribution académique : Fourniture d'une nouvelle voie technique et d'intuitions théoriques pour le domaine de la quantification des encodeurs visuels
Valeur pratique : Application directe à l'optimisation du déploiement des encodeurs visuels existants
Reproductibilité : Description claire de la méthode, configuration expérimentale détaillée, bonne reproductibilité
Inspirant : Fourniture de références importantes pour la migration de techniques d'optimisation de modèles multimodaux

Scénarios d'application

Déploiement sur appareils périphériques : Particulièrement adapté aux scénarios nécessitant le déploiement de grands encodeurs visuels sur des appareils aux ressources limitées
Applications en temps réel : Conduite autonome, contrôle robotique et autres applications nécessitant un traitement visuel à faible latence
Systèmes multimodaux : Déploiement quantifié de modèles de type CLIP dans diverses tâches en aval
Outil de recherche : Fourniture d'une méthode de base efficace pour la recherche sur la quantification de Transformers visuels

Références

Cet article cite des travaux importants dans plusieurs domaines, notamment la quantification, les mécanismes d'attention, les Transformers visuels, y compris :

Articles originaux des encodeurs visuels CLIP, DINOv2
Méthodes de quantification ViT telles que PTQ4ViT, RepQ-ViT
Recherche connexe sur les attention sinks et les tokens de registre
Méthodes de traitement des valeurs aberrantes dans la quantification des LLM

Évaluation globale : Ceci est un article de haute qualité avec des contributions importantes dans le domaine de la quantification des encodeurs visuels. Les auteurs non seulement proposent une solution technique efficace, mais analysent également en profondeur les différences essentielles de comportement des valeurs aberrantes entre les encodeurs visuels et les modèles de langage, fournissant des intuitions théoriques précieuses et des outils pratiques pour le développement du domaine.