Post-training quantization of vision encoders needs prefixing registers
Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic
Cuantificación post-entrenamiento de codificadores de visión requiere registros de prefijo
Título: Post-training quantization of vision encoders needs prefixing registers
Autores: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Clasificación: cs.LG, cs.CV
Fecha de Publicación: Octubre de 2025 (Preimpresión)
Los codificadores de visión basados en Transformer, como CLIP, son fundamentales para la inteligencia multimodal, potenciando aplicaciones que van desde agentes web autónomos hasta control robótico. Dado que estas aplicaciones frecuentemente demandan procesamiento en tiempo real de datos visuales masivos, reducir el costo de inferencia de los codificadores de visión es crítico. La cuantificación post-entrenamiento ofrece un camino práctico, pero sigue siendo desafiante incluso con precisión de 8 bits debido a activaciones de escala masiva (es decir, valores atípicos). En este trabajo, proponemos RegCache, un algoritmo sin entrenamiento para mitigar valores atípicos en codificadores de visión, permitiendo cuantificación con caídas de precisión significativamente menores. El RegCache propuesto introduce tokens de prefijo propensos a valores atípicos pero semánticamente sin sentido al codificador de visión objetivo, lo que impide que otros tokens tengan valores atípicos. Notablemente, observamos que los valores atípicos en codificadores de visión se comportan de manera diferente a los de modelos de lenguaje, motivando dos innovaciones técnicas: prefijado de capas intermedias y eliminación de tokens. Los experimentos muestran que nuestro método mejora consistentemente la precisión de modelos cuantificados en codificadores de visión tanto supervisados por texto como autosupervisados.
Esta investigación tiene como objetivo resolver el problema de valores atípicos de activación (outliers) durante la cuantificación post-entrenamiento (PTQ) en codificadores de visión basados en Transformer, como CLIP y DINOv2. Estos valores atípicos causan degradación de la precisión de cuantificación, afectando significativamente el rendimiento del modelo incluso con precisión de 8 bits.
Demanda Práctica: Los codificadores de visión en aplicaciones de dispositivos periféricos como conducción autónoma y control robótico requieren procesamiento en tiempo real de grandes volúmenes de datos visuales
Costo Computacional: Reducir el costo de inferencia es crítico para desplegar modelos de visión a gran escala en dispositivos con recursos limitados
Desafío de Cuantificación: La cuantificación de activaciones es más desafiante que la cuantificación de pesos, especialmente en escenarios computacionalmente restringidos
Inaplicabilidad de Métodos de LLM: Las estrategias existentes de mitigación de valores atípicos para grandes modelos de lenguaje requieren diferentes precisiones o rangos de cuantificación, con implementación compleja y gran sobrecarga computacional
Dificultad en Cuantificación Estática: Estos métodos son difíciles de aplicar a cuantificación estática de activaciones
Especificidad de Codificadores de Visión: A diferencia de modelos de lenguaje, los codificadores de visión carecen de tokens semánticamente sin sentido predefinidos (como <BOS>, <SEP>)
Propuesta del Algoritmo RegCache: Un algoritmo de mitigación de valores atípicos sin entrenamiento que reduce valores atípicos en codificadores de visión mediante tokens de registro de prefijo
Descubrimiento de Características de Valores Atípicos en Codificadores de Visión: Demuestra que el comportamiento de valores atípicos en codificadores de visión difiere significativamente de modelos de lenguaje, con valores atípicos que aparecen en capas intermedias en lugar de capas tempranas
Innovaciones Técnicas: Propone prefijado de capas intermedias y eliminación de tokens como dos técnicas clave
Validación Amplia: Verifica la efectividad del método en múltiples codificadores de visión supervisados por texto y autosupervisados
Dado un codificador de visión preentrenado, el objetivo es mitigar valores atípicos en capas sensibles a cuantificación mediante la introducción de tokens de registro externos, mejorando así la precisión del modelo cuantificado mientras se mantiene la eficiencia de inferencia.
El artículo propone una solución basada en tres observaciones importantes:
Sensibilidad de Cuantificación por Capas: La sensibilidad de cuantificación en codificadores de visión se concentra principalmente en capas intermedias, no en capas tempranas
Universalidad de Tokens con Valores Atípicos: Los tokens con valores atípicos que aparecen en capas intermedias muestran alta similitud entre diferentes imágenes (similitud de coseno 0.89 vs 0.26)
Mecanismo de Aparición en Capas Intermedias: Los codificadores de visión necesitan que las primeras capas procesen imágenes para identificar qué tokens carecen de significado semántico
Estrategia de Prefijo en Capas Intermedias: A diferencia del prefijo de capas tempranas en LLM, diseñado específicamente para características de capas intermedias en codificadores de visión
Descubrimiento de Registros Universales: Aprovecha la similitud de tokens con valores atípicos entre diferentes imágenes para construir registros universales
Mecanismo de Adición-Eliminación: Reemplaza tokens sumidero internos con caché precomputado externo, evitando afectar el rango de cuantificación de activaciones
Investigación de Diferencias Multimodales: Comprensión más profunda de diferencias de comportamiento de cuantificación entre modelos supervisados por texto vs autosupervisados
Comprensión del Mecanismo de Valores Atípicos: Investigación adicional de razones fundamentales de diferencias de comportamiento de valores atípicos entre ViT y LLM
Optimización Automática: Desarrollo de métodos para determinar automáticamente configuración óptima de prefijo
Análisis Teórico Limitado: Carece de explicación teórica profunda de por qué el prefijo de capas intermedias es efectivo
Sensibilidad de Hiperparámetros: El método implica múltiples hiperparámetros, potencialmente afectando conveniencia de despliegue práctico
Análisis de Sobrecarga Computacional: Aunque el aumento de FLOPs es pequeño, falta análisis detallado de uso de memoria y latencia
Rango de Aplicabilidad: Validación principal en arquitectura ViT, aplicabilidad a otras arquitecturas de Transformer de visión no suficientemente verificada
Despliegue en Periféricos: Especialmente adecuado para escenarios que requieren despliegue de codificadores de visión a gran escala en dispositivos con recursos limitados
Aplicaciones en Tiempo Real: Conducción autónoma, control robótico y otras aplicaciones que requieren procesamiento visual de baja latencia
Sistemas Multimodales: Despliegue de cuantificación de modelos tipo CLIP en diversas tareas descendentes
Herramienta de Investigación: Proporciona método de línea base efectivo para investigación de cuantificación de Transformers de visión
Este artículo cita trabajos importantes de múltiples campos incluyendo cuantificación, mecanismos de atención, Transformers de visión, entre otros:
Artículos originales de codificadores de visión como CLIP, DINOv2
Métodos de cuantificación de ViT como PTQ4ViT, RepQ-ViT
Investigación relacionada con attention sink y tokens de registro
Métodos de manejo de valores atípicos en cuantificación de LLM
Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de cuantificación de codificadores de visión. Los autores no solo proponen una solución técnica efectiva, sino que también proporcionan análisis profundo de diferencias esenciales en comportamiento de valores atípicos entre codificadores de visión y modelos de lenguaje, ofreciendo perspectivas teóricas valiosas y herramientas prácticas para el desarrollo del campo.