2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic

La quantification post-entraînement des encodeurs visuels nécessite des registres de préfixe

Informations de base

  • ID de l'article : 2510.04547
  • Titre : Post-training quantization of vision encoders needs prefixing registers
  • Auteurs : Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
  • Classification : cs.LG, cs.CV
  • Date de publication : Octobre 2025 (Preprint)
  • Lien de l'article : https://arxiv.org/abs/2510.04547v2

Résumé

Les encodeurs visuels basés sur Transformer -- tels que CLIP -- sont au cœur de l'intelligence multimodale, alimentant des applications allant des agents web autonomes au contrôle robotique. Puisque ces applications exigent souvent un traitement en temps réel de données visuelles massives, réduire le coût d'inférence des encodeurs visuels est critique. La quantification post-entraînement offre une voie pratique, mais reste difficile même à 8 bits de précision en raison d'activations à grande échelle (c'est-à-dire des valeurs aberrantes). Dans ce travail, nous proposons RegCache\textit{RegCache}, un algorithme sans entraînement pour atténuer les valeurs aberrantes dans les encodeurs visuels, permettant la quantification avec des chutes de précision significativement plus petites. Le RegCache proposé introduit des tokens de préfixe sémantiquement insignifiants mais sujets aux valeurs aberrantes dans l'encodeur visuel cible, ce qui empêche les autres tokens d'avoir des valeurs aberrantes. Notamment, nous observons que les valeurs aberrantes dans les encodeurs visuels se comportent différemment de celles dans les modèles de langage, motivant deux innovations techniques : le préfixage de couche intermédiaire et la suppression de tokens. Les expériences montrent que notre méthode améliore constamment la précision des modèles quantifiés sur les encodeurs visuels supervisés par texte et auto-supervisés.

Contexte de recherche et motivation

Définition du problème

Cette recherche vise à résoudre le problème des valeurs aberrantes d'activation (outliers) dans les encodeurs visuels basés sur Transformer (tels que CLIP, DINOv2) lors du processus de quantification post-entraînement (PTQ). Ces valeurs aberrantes entraînent une dégradation de la précision de quantification, affectant significativement les performances du modèle même à 8 bits de précision.

Analyse de l'importance

  1. Besoins pratiques : Les encodeurs visuels dans les applications sur appareils périphériques tels que la conduite autonome et le contrôle robotique nécessitent un traitement en temps réel de grandes quantités de données visuelles
  2. Coûts de calcul : Réduire les coûts d'inférence est crucial pour le déploiement de modèles visuels à grande échelle sur des appareils aux ressources limitées
  3. Défis de quantification : La quantification des activations est plus difficile que celle des poids, particulièrement dans les scénarios de calcul limité

Limitations des méthodes existantes

  1. Inadéquation des méthodes LLM : Les stratégies existantes d'atténuation des valeurs aberrantes pour les grands modèles de langage nécessitent des précisions ou des plages de quantification différentes, avec une implémentation complexe et des frais de calcul élevés
  2. Difficulté de quantification statique : Ces méthodes sont difficiles à appliquer à la quantification statique des activations
  3. Spécificité des encodeurs visuels : Contrairement aux modèles de langage, les encodeurs visuels manquent de tokens sémantiquement insignifiants prédéfinis (tels que <BOS>, <SEP>)

Contributions principales

  1. Proposition de l'algorithme RegCache : Un algorithme d'atténuation des valeurs aberrantes sans entraînement qui réduit les valeurs aberrantes dans les encodeurs visuels grâce à des tokens de registre de préfixe
  2. Découverte des caractéristiques des valeurs aberrantes dans les encodeurs visuels : Démonstration que le comportement des valeurs aberrantes dans les encodeurs visuels diffère significativement de celui des modèles de langage, avec des valeurs aberrantes apparaissant dans les couches intermédiaires plutôt que dans les couches précoces
  3. Innovations techniques : Proposition de deux techniques clés : le préfixage de couche intermédiaire et la suppression de tokens
  4. Validation étendue : Vérification de l'efficacité de la méthode sur plusieurs encodeurs visuels supervisés par texte et auto-supervisés

Détails de la méthode

Définition de la tâche

Étant donné un encodeur visuel pré-entraîné, l'objectif est d'atténuer les valeurs aberrantes dans les couches sensibles à la quantification en introduisant des tokens de registre externes, améliorant ainsi la précision du modèle quantifié tout en maintenant l'efficacité d'inférence.

Observations clés

L'article propose une solution basée sur trois observations importantes :

  1. Sensibilité de quantification par couche : La sensibilité de quantification des encodeurs visuels est principalement concentrée dans les couches intermédiaires, non dans les couches précoces
  2. Universalité des tokens de valeurs aberrantes : Les tokens de valeurs aberrantes apparaissant dans les couches intermédiaires présentent une similarité élevée entre différentes images (similarité cosinus 0,89 vs 0,26)
  3. Mécanisme d'apparition en couche intermédiaire : Les encodeurs visuels ont besoin des premières couches pour traiter les images afin d'identifier quels tokens sont sémantiquement insignifiants

Architecture de l'algorithme RegCache

RegCache comprend trois étapes principales :

1. Collecte des candidats de registre (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}
  • Identification de la couche sensible à la quantification lq (par analyse de sensibilité de quantification couche par couche)
  • Sélection des top-k tokens avec les normes ℓ∞ maximales à partir du pool d'images de référence comme candidats de registre
  • Utilisation de 50 000 images aléatoires de l'ensemble d'entraînement ImageNet-1k comme pool de référence

2. Mise en cache (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
  • Calcul du cache clé-valeur pour chaque candidat de registre
  • Détermination du registre optimal z* et du nombre de répétitions τ* par recherche en grille
  • Insertion du cache KV sélectionné dans la couche sensible à la quantification et les couches suivantes

3. Suppression (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
  • Ajout d'une couche de suppression de tokens à l'entrée de la couche sensible à la quantification
  • Suppression lors de l'inférence des top-k̃ tokens sink internes ayant les normes ℓ∞ maximales

Points d'innovation technique

  1. Stratégie de préfixe de couche intermédiaire : Contrairement au préfixe de couche précoce des LLM, conçu pour les caractéristiques de couche intermédiaire des encodeurs visuels
  2. Découverte de registres universels : Utilisation de la similarité des tokens de valeurs aberrantes entre différentes images pour construire des registres universels
  3. Mécanisme d'ajout-suppression : Remplacement des tokens sink internes par des caches pré-calculés externes, évitant d'affecter la plage de quantification des activations

Configuration expérimentale

Ensembles de données

  • ImageNet-1k : Pour l'évaluation de la classification d'images zéro-shot
  • MS-COCO : Pour l'évaluation des tâches de récupération image-texte
  • Autres ensembles de données de classification : Stanford Cars, Flowers-102, Food-101, CIFAR-100 (pour la vérification de la généralisation)
  • Données de référence : 50 000 images de l'ensemble d'entraînement ImageNet-1k pour la recherche de registres

Métriques d'évaluation

  • Précision de classification zéro-shot : Précision top-1 sur ImageNet-1k
  • Performance de récupération : Recall@1 et Recall@5 sur MS-COCO
  • Analyse des valeurs aberrantes : Norme maximale de token et norme moyenne de token

Méthodes de comparaison

  • Algorithmes de quantification de base :
    • PTQ4ViT : Quantificateur uniforme double pour ViT
    • RepQ-ViT : Méthode de re-paramétrisation d'échelle
    • NoisyQuant : Quantification d'activation améliorée par bruit
  • Configurations de précision : W8A8 (8 bits poids 8 bits activation) et W6A6 (6 bits poids 6 bits activation)

Détails d'implémentation

  • Utilisation de 1 024 et 32 échantillons d'étalonnage (respectivement pour NoisyQuant et RepQ-ViT)
  • Nombre de candidats de registre k=20, plage de répétitions τ∈{1,...,15}
  • Nombre de tokens à supprimer k̃ ajusté par la tâche de référence

Résultats expérimentaux

Résultats principaux

Classification d'images zéro-shot (ImageNet-1k)

ModèlePrécisionMeilleure ligne de baseMeilleur RegCacheAmélioration
CLIP-B/16W8A867,69%67,78%+0,09%
CLIP-B/16W6A658,19%66,65%+13,40%
SigLIP2-B/16W8A876,92%77,26%+0,34%
SigLIP2-B/16W6A664,91%70,88%+5,97%

Récupération image-texte (MS-COCO)

  • CLIP-B/16 : Amélioration moyenne de 3,76% à 7,97% sur tous les indicateurs de récupération
  • SigLIP-B/16 : Amélioration de Recall@1 de 0,20%, amélioration globale stable des performances

Effet d'atténuation des valeurs aberrantes

ModèleNorme max de token (original)Norme max de token (RegCache)Réduction
CLIP61,1715,30-75,0%
OpenCLIP122,9912,38-89,9%
SigLIP2244,7830,45-87,6%

Études d'ablation

Les études d'ablation sur SigLIP montrent que :

  • Cache de préfixe uniquement : Amélioration de la précision de 69,71% à 74,21%
  • Suppression de tokens uniquement : Baisse de la précision à 38,51% (prouvant le besoin de support de préfixe)
  • RegCache complet : Précision atteignant 74,42%

Vérification de la généralisation

Les préfixes recherchés sur ImageNet-1k restent efficaces sur d'autres ensembles de données :

  • Stanford Cars : +1,78% à +47,47%
  • Food-101 : +9,85% à +51,28%
  • CIFAR-100 : +12,81% à +33,00%

Travaux connexes

Recherche sur les valeurs aberrantes dans les Transformers

  • Étude systématique des valeurs aberrantes d'activation dans les Transformers à grande échelle
  • Comportement des valeurs aberrantes de tokens spécifiques dans les LLM (tels que <BOS>, <SEP>)
  • Les valeurs aberrantes dans ViT correspondent généralement à des patches d'arrière-plan sans information

Contrôle des attention sinks

  • Attention sink : Tokens qui attirent une attention excessive mais contiennent peu d'information sémantique
  • Ajout de tokens de registre pendant l'entraînement pour absorber l'attention et atténuer les attention sinks
  • Cet article exploite les tokens sink du point de vue de la PTQ pour améliorer les performances de quantification

Quantification post-entraînement de ViT

  • Méthodes précoces : Allocation de largeurs de bits dynamiques pour les couches sensibles à l'attention
  • Méthodes existantes : Isolation et minimisation de l'impact des valeurs aberrantes par des schémas de quantification spéciaux
  • Méthode de cet article : Traitement des valeurs aberrantes par préfixe de tokens plutôt que par granularité du quantificateur

Conclusion et discussion

Conclusions principales

  1. Efficacité de RegCache : Amélioration constante des performances sur plusieurs encodeurs visuels et méthodes de quantification
  2. Mécanisme d'atténuation des valeurs aberrantes : Transfert réussi des valeurs aberrantes des tokens internes vers le cache pré-calculé externe
  3. Universalité : La méthode s'applique aux encodeurs visuels supervisés par texte et auto-supervisés

Limitations

  1. Ajustement des hyperparamètres : Nécessité d'évaluer plusieurs candidats de préfixe pour déterminer la configuration optimale
  2. Hyperparamètres supplémentaires : Introduction du nombre maximal de tokens à supprimer, du nombre de tokens de préfixe, etc.
  3. Frais de calcul : Bien que l'augmentation des FLOPs ne dépasse pas 0,2%, il y a toujours un coût de calcul supplémentaire

Directions futures

  1. Recherche sur les différences multimodales : Compréhension approfondie des différences de comportement de quantification entre les modèles supervisés par texte et auto-supervisés
  2. Compréhension du mécanisme des valeurs aberrantes : Recherche supplémentaire sur les causes fondamentales des différences de comportement des valeurs aberrantes entre ViT et LLM
  3. Optimisation automatisée : Développement de méthodes pour déterminer automatiquement la configuration de préfixe optimale

Évaluation approfondie

Avantages

  1. Importance du problème : Résolution d'un défi technique clé dans la quantification des encodeurs visuels
  2. Innovation de la méthode : Introduction novatrice du concept de registre dans la quantification des encodeurs visuels, avec une approche technique nouvelle
  3. Intuitions théoriques : Analyse approfondie des différences essentielles de comportement des valeurs aberrantes entre les encodeurs visuels et les LLM
  4. Expériences complètes : Couverture de 5 encodeurs visuels courants et plusieurs algorithmes de quantification, résultats convaincants
  5. Valeur pratique : Sans réentraînement, facile à intégrer dans les flux de quantification existants

Insuffisances

  1. Analyse théorique limitée : Manque d'explication théorique approfondie sur pourquoi le préfixe de couche intermédiaire est efficace
  2. Sensibilité aux hyperparamètres : La méthode implique plusieurs hyperparamètres, ce qui peut affecter la commodité du déploiement pratique
  3. Analyse des frais de calcul : Bien que l'augmentation des FLOPs soit faible, manque d'analyse détaillée de l'utilisation de la mémoire et de la latence
  4. Portée d'application : Vérification principalement sur l'architecture ViT, applicabilité insuffisamment vérifiée sur d'autres architectures Transformer visuelles

Impact

  1. Contribution académique : Fourniture d'une nouvelle voie technique et d'intuitions théoriques pour le domaine de la quantification des encodeurs visuels
  2. Valeur pratique : Application directe à l'optimisation du déploiement des encodeurs visuels existants
  3. Reproductibilité : Description claire de la méthode, configuration expérimentale détaillée, bonne reproductibilité
  4. Inspirant : Fourniture de références importantes pour la migration de techniques d'optimisation de modèles multimodaux

Scénarios d'application

  1. Déploiement sur appareils périphériques : Particulièrement adapté aux scénarios nécessitant le déploiement de grands encodeurs visuels sur des appareils aux ressources limitées
  2. Applications en temps réel : Conduite autonome, contrôle robotique et autres applications nécessitant un traitement visuel à faible latence
  3. Systèmes multimodaux : Déploiement quantifié de modèles de type CLIP dans diverses tâches en aval
  4. Outil de recherche : Fourniture d'une méthode de base efficace pour la recherche sur la quantification de Transformers visuels

Références

Cet article cite des travaux importants dans plusieurs domaines, notamment la quantification, les mécanismes d'attention, les Transformers visuels, y compris :

  • Articles originaux des encodeurs visuels CLIP, DINOv2
  • Méthodes de quantification ViT telles que PTQ4ViT, RepQ-ViT
  • Recherche connexe sur les attention sinks et les tokens de registre
  • Méthodes de traitement des valeurs aberrantes dans la quantification des LLM

Évaluation globale : Ceci est un article de haute qualité avec des contributions importantes dans le domaine de la quantification des encodeurs visuels. Les auteurs non seulement proposent une solution technique efficace, mais analysent également en profondeur les différences essentielles de comportement des valeurs aberrantes entre les encodeurs visuels et les modèles de langage, fournissant des intuitions théoriques précieuses et des outils pratiques pour le développement du domaine.