Post-training quantization of vision encoders needs prefixing registers
Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic
La quantification post-entraînement des encodeurs visuels nécessite des registres de préfixe
Titre : Post-training quantization of vision encoders needs prefixing registers
Auteurs : Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Les encodeurs visuels basés sur Transformer -- tels que CLIP -- sont au cœur de l'intelligence multimodale, alimentant des applications allant des agents web autonomes au contrôle robotique. Puisque ces applications exigent souvent un traitement en temps réel de données visuelles massives, réduire le coût d'inférence des encodeurs visuels est critique. La quantification post-entraînement offre une voie pratique, mais reste difficile même à 8 bits de précision en raison d'activations à grande échelle (c'est-à-dire des valeurs aberrantes). Dans ce travail, nous proposons RegCache, un algorithme sans entraînement pour atténuer les valeurs aberrantes dans les encodeurs visuels, permettant la quantification avec des chutes de précision significativement plus petites. Le RegCache proposé introduit des tokens de préfixe sémantiquement insignifiants mais sujets aux valeurs aberrantes dans l'encodeur visuel cible, ce qui empêche les autres tokens d'avoir des valeurs aberrantes. Notamment, nous observons que les valeurs aberrantes dans les encodeurs visuels se comportent différemment de celles dans les modèles de langage, motivant deux innovations techniques : le préfixage de couche intermédiaire et la suppression de tokens. Les expériences montrent que notre méthode améliore constamment la précision des modèles quantifiés sur les encodeurs visuels supervisés par texte et auto-supervisés.
Cette recherche vise à résoudre le problème des valeurs aberrantes d'activation (outliers) dans les encodeurs visuels basés sur Transformer (tels que CLIP, DINOv2) lors du processus de quantification post-entraînement (PTQ). Ces valeurs aberrantes entraînent une dégradation de la précision de quantification, affectant significativement les performances du modèle même à 8 bits de précision.
Besoins pratiques : Les encodeurs visuels dans les applications sur appareils périphériques tels que la conduite autonome et le contrôle robotique nécessitent un traitement en temps réel de grandes quantités de données visuelles
Coûts de calcul : Réduire les coûts d'inférence est crucial pour le déploiement de modèles visuels à grande échelle sur des appareils aux ressources limitées
Défis de quantification : La quantification des activations est plus difficile que celle des poids, particulièrement dans les scénarios de calcul limité
Inadéquation des méthodes LLM : Les stratégies existantes d'atténuation des valeurs aberrantes pour les grands modèles de langage nécessitent des précisions ou des plages de quantification différentes, avec une implémentation complexe et des frais de calcul élevés
Difficulté de quantification statique : Ces méthodes sont difficiles à appliquer à la quantification statique des activations
Spécificité des encodeurs visuels : Contrairement aux modèles de langage, les encodeurs visuels manquent de tokens sémantiquement insignifiants prédéfinis (tels que <BOS>, <SEP>)
Proposition de l'algorithme RegCache : Un algorithme d'atténuation des valeurs aberrantes sans entraînement qui réduit les valeurs aberrantes dans les encodeurs visuels grâce à des tokens de registre de préfixe
Découverte des caractéristiques des valeurs aberrantes dans les encodeurs visuels : Démonstration que le comportement des valeurs aberrantes dans les encodeurs visuels diffère significativement de celui des modèles de langage, avec des valeurs aberrantes apparaissant dans les couches intermédiaires plutôt que dans les couches précoces
Innovations techniques : Proposition de deux techniques clés : le préfixage de couche intermédiaire et la suppression de tokens
Validation étendue : Vérification de l'efficacité de la méthode sur plusieurs encodeurs visuels supervisés par texte et auto-supervisés
Étant donné un encodeur visuel pré-entraîné, l'objectif est d'atténuer les valeurs aberrantes dans les couches sensibles à la quantification en introduisant des tokens de registre externes, améliorant ainsi la précision du modèle quantifié tout en maintenant l'efficacité d'inférence.
L'article propose une solution basée sur trois observations importantes :
Sensibilité de quantification par couche : La sensibilité de quantification des encodeurs visuels est principalement concentrée dans les couches intermédiaires, non dans les couches précoces
Universalité des tokens de valeurs aberrantes : Les tokens de valeurs aberrantes apparaissant dans les couches intermédiaires présentent une similarité élevée entre différentes images (similarité cosinus 0,89 vs 0,26)
Mécanisme d'apparition en couche intermédiaire : Les encodeurs visuels ont besoin des premières couches pour traiter les images afin d'identifier quels tokens sont sémantiquement insignifiants
Stratégie de préfixe de couche intermédiaire : Contrairement au préfixe de couche précoce des LLM, conçu pour les caractéristiques de couche intermédiaire des encodeurs visuels
Découverte de registres universels : Utilisation de la similarité des tokens de valeurs aberrantes entre différentes images pour construire des registres universels
Mécanisme d'ajout-suppression : Remplacement des tokens sink internes par des caches pré-calculés externes, évitant d'affecter la plage de quantification des activations
Recherche sur les différences multimodales : Compréhension approfondie des différences de comportement de quantification entre les modèles supervisés par texte et auto-supervisés
Compréhension du mécanisme des valeurs aberrantes : Recherche supplémentaire sur les causes fondamentales des différences de comportement des valeurs aberrantes entre ViT et LLM
Optimisation automatisée : Développement de méthodes pour déterminer automatiquement la configuration de préfixe optimale
Importance du problème : Résolution d'un défi technique clé dans la quantification des encodeurs visuels
Innovation de la méthode : Introduction novatrice du concept de registre dans la quantification des encodeurs visuels, avec une approche technique nouvelle
Intuitions théoriques : Analyse approfondie des différences essentielles de comportement des valeurs aberrantes entre les encodeurs visuels et les LLM
Expériences complètes : Couverture de 5 encodeurs visuels courants et plusieurs algorithmes de quantification, résultats convaincants
Valeur pratique : Sans réentraînement, facile à intégrer dans les flux de quantification existants
Analyse théorique limitée : Manque d'explication théorique approfondie sur pourquoi le préfixe de couche intermédiaire est efficace
Sensibilité aux hyperparamètres : La méthode implique plusieurs hyperparamètres, ce qui peut affecter la commodité du déploiement pratique
Analyse des frais de calcul : Bien que l'augmentation des FLOPs soit faible, manque d'analyse détaillée de l'utilisation de la mémoire et de la latence
Portée d'application : Vérification principalement sur l'architecture ViT, applicabilité insuffisamment vérifiée sur d'autres architectures Transformer visuelles
Contribution académique : Fourniture d'une nouvelle voie technique et d'intuitions théoriques pour le domaine de la quantification des encodeurs visuels
Valeur pratique : Application directe à l'optimisation du déploiement des encodeurs visuels existants
Reproductibilité : Description claire de la méthode, configuration expérimentale détaillée, bonne reproductibilité
Inspirant : Fourniture de références importantes pour la migration de techniques d'optimisation de modèles multimodaux
Déploiement sur appareils périphériques : Particulièrement adapté aux scénarios nécessitant le déploiement de grands encodeurs visuels sur des appareils aux ressources limitées
Applications en temps réel : Conduite autonome, contrôle robotique et autres applications nécessitant un traitement visuel à faible latence
Systèmes multimodaux : Déploiement quantifié de modèles de type CLIP dans diverses tâches en aval
Outil de recherche : Fourniture d'une méthode de base efficace pour la recherche sur la quantification de Transformers visuels
Cet article cite des travaux importants dans plusieurs domaines, notamment la quantification, les mécanismes d'attention, les Transformers visuels, y compris :
Articles originaux des encodeurs visuels CLIP, DINOv2
Méthodes de quantification ViT telles que PTQ4ViT, RepQ-ViT
Recherche connexe sur les attention sinks et les tokens de registre
Méthodes de traitement des valeurs aberrantes dans la quantification des LLM
Évaluation globale : Ceci est un article de haute qualité avec des contributions importantes dans le domaine de la quantification des encodeurs visuels. Les auteurs non seulement proposent une solution technique efficace, mais analysent également en profondeur les différences essentielles de comportement des valeurs aberrantes entre les encodeurs visuels et les modèles de langage, fournissant des intuitions théoriques précieuses et des outils pratiques pour le développement du domaine.