2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

Cuantificación post-entrenamiento de codificadores de visión requiere registros de prefijo

Información Básica

ID del Artículo: 2510.04547
Título: Post-training quantization of vision encoders needs prefixing registers
Autores: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Clasificación: cs.LG, cs.CV
Fecha de Publicación: Octubre de 2025 (Preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.04547v2

Resumen

Los codificadores de visión basados en Transformer, como CLIP, son fundamentales para la inteligencia multimodal, potenciando aplicaciones que van desde agentes web autónomos hasta control robótico. Dado que estas aplicaciones frecuentemente demandan procesamiento en tiempo real de datos visuales masivos, reducir el costo de inferencia de los codificadores de visión es crítico. La cuantificación post-entrenamiento ofrece un camino práctico, pero sigue siendo desafiante incluso con precisión de 8 bits debido a activaciones de escala masiva (es decir, valores atípicos). En este trabajo, proponemos $\textit{RegCache}$ , un algoritmo sin entrenamiento para mitigar valores atípicos en codificadores de visión, permitiendo cuantificación con caídas de precisión significativamente menores. El RegCache propuesto introduce tokens de prefijo propensos a valores atípicos pero semánticamente sin sentido al codificador de visión objetivo, lo que impide que otros tokens tengan valores atípicos. Notablemente, observamos que los valores atípicos en codificadores de visión se comportan de manera diferente a los de modelos de lenguaje, motivando dos innovaciones técnicas: prefijado de capas intermedias y eliminación de tokens. Los experimentos muestran que nuestro método mejora consistentemente la precisión de modelos cuantificados en codificadores de visión tanto supervisados por texto como autosupervisados.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación tiene como objetivo resolver el problema de valores atípicos de activación (outliers) durante la cuantificación post-entrenamiento (PTQ) en codificadores de visión basados en Transformer, como CLIP y DINOv2. Estos valores atípicos causan degradación de la precisión de cuantificación, afectando significativamente el rendimiento del modelo incluso con precisión de 8 bits.

Análisis de Importancia

Demanda Práctica: Los codificadores de visión en aplicaciones de dispositivos periféricos como conducción autónoma y control robótico requieren procesamiento en tiempo real de grandes volúmenes de datos visuales
Costo Computacional: Reducir el costo de inferencia es crítico para desplegar modelos de visión a gran escala en dispositivos con recursos limitados
Desafío de Cuantificación: La cuantificación de activaciones es más desafiante que la cuantificación de pesos, especialmente en escenarios computacionalmente restringidos

Limitaciones de Métodos Existentes

Inaplicabilidad de Métodos de LLM: Las estrategias existentes de mitigación de valores atípicos para grandes modelos de lenguaje requieren diferentes precisiones o rangos de cuantificación, con implementación compleja y gran sobrecarga computacional
Dificultad en Cuantificación Estática: Estos métodos son difíciles de aplicar a cuantificación estática de activaciones
Especificidad de Codificadores de Visión: A diferencia de modelos de lenguaje, los codificadores de visión carecen de tokens semánticamente sin sentido predefinidos (como <BOS>, <SEP>)

Contribuciones Principales

Propuesta del Algoritmo RegCache: Un algoritmo de mitigación de valores atípicos sin entrenamiento que reduce valores atípicos en codificadores de visión mediante tokens de registro de prefijo
Descubrimiento de Características de Valores Atípicos en Codificadores de Visión: Demuestra que el comportamiento de valores atípicos en codificadores de visión difiere significativamente de modelos de lenguaje, con valores atípicos que aparecen en capas intermedias en lugar de capas tempranas
Innovaciones Técnicas: Propone prefijado de capas intermedias y eliminación de tokens como dos técnicas clave
Validación Amplia: Verifica la efectividad del método en múltiples codificadores de visión supervisados por texto y autosupervisados

Explicación Detallada del Método

Definición de Tarea

Dado un codificador de visión preentrenado, el objetivo es mitigar valores atípicos en capas sensibles a cuantificación mediante la introducción de tokens de registro externos, mejorando así la precisión del modelo cuantificado mientras se mantiene la eficiencia de inferencia.

Observaciones Clave

El artículo propone una solución basada en tres observaciones importantes:

Sensibilidad de Cuantificación por Capas: La sensibilidad de cuantificación en codificadores de visión se concentra principalmente en capas intermedias, no en capas tempranas
Universalidad de Tokens con Valores Atípicos: Los tokens con valores atípicos que aparecen en capas intermedias muestran alta similitud entre diferentes imágenes (similitud de coseno 0.89 vs 0.26)
Mecanismo de Aparición en Capas Intermedias: Los codificadores de visión necesitan que las primeras capas procesen imágenes para identificar qué tokens carecen de significado semántico

Arquitectura del Algoritmo RegCache

RegCache contiene tres pasos principales:

1. Recopilación de Candidatos de Registro (Curación)

S = argtopk{||z||∞ | z ∈ Φlq(x), para algún x ∈ Iref}

Identifica la capa sensible a cuantificación lq (mediante análisis de sensibilidad capa por capa)
Selecciona los top-k tokens con mayor norma ℓ∞ del conjunto de imágenes de referencia como candidatos de registro
Utiliza 50,000 imágenes aleatorias del conjunto de entrenamiento ImageNet-1k como conjunto de referencia

2. Almacenamiento en Caché (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

Calcula caché clave-valor para cada candidato de registro
Determina el registro óptimo z* y número de repeticiones τ* mediante búsqueda en cuadrícula
Inserta el caché KV seleccionado en la capa sensible a cuantificación y capas posteriores

3. Eliminación (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

Añade una capa de eliminación de tokens en la entrada de la capa sensible a cuantificación
Durante la inferencia, elimina los top-k̃ tokens sumidero internos con mayor norma ℓ∞

Puntos de Innovación Técnica

Estrategia de Prefijo en Capas Intermedias: A diferencia del prefijo de capas tempranas en LLM, diseñado específicamente para características de capas intermedias en codificadores de visión
Descubrimiento de Registros Universales: Aprovecha la similitud de tokens con valores atípicos entre diferentes imágenes para construir registros universales
Mecanismo de Adición-Eliminación: Reemplaza tokens sumidero internos con caché precomputado externo, evitando afectar el rango de cuantificación de activaciones

Configuración Experimental

Conjuntos de Datos

ImageNet-1k: Para evaluación de clasificación de imagen de cero disparos
MS-COCO: Para evaluación de tareas de recuperación imagen-texto
Otros Conjuntos de Datos de Clasificación: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (para validación de generalización)
Datos de Referencia: 50,000 imágenes del conjunto de entrenamiento ImageNet-1k para búsqueda de registros

Métricas de Evaluación

Precisión de Clasificación de Cero Disparos: Precisión top-1 en ImageNet-1k
Rendimiento de Recuperación: Recall@1 y Recall@5 en MS-COCO
Análisis de Valores Atípicos: Norma máxima de token y norma promedio de token

Métodos de Comparación

Algoritmos de Cuantificación Base:
- PTQ4ViT: Cuantificador uniforme dual para ViT
- RepQ-ViT: Método de reparametrización de escala
- NoisyQuant: Cuantificación de activación mejorada con ruido
Configuraciones de Precisión: W8A8 (8 bits peso, 8 bits activación) y W6A6 (6 bits peso, 6 bits activación)

Detalles de Implementación

Utiliza 1,024 y 32 muestras de calibración (respectivamente para NoisyQuant y RepQ-ViT)
Número de candidatos de registro k=20, rango de repeticiones τ∈{1,...,15}
Número de tokens a eliminar k̃ ajustado mediante tarea de referencia

Resultados Experimentales

Resultados Principales

Clasificación de Imagen de Cero Disparos (ImageNet-1k)

Modelo	Precisión	Mejor Línea Base	Mejor RegCache	Mejora
CLIP-B/16	W8A8	67.69%	67.78%	+0.09%
CLIP-B/16	W6A6	58.19%	66.65%	+13.40%
SigLIP2-B/16	W8A8	76.92%	77.26%	+0.34%
SigLIP2-B/16	W6A6	64.91%	70.88%	+5.97%

Recuperación Imagen-Texto (MS-COCO)

CLIP-B/16: Mejora promedio de 3.76%-7.97% en todas las métricas de recuperación
SigLIP-B/16: Mejora de Recall@1 de 0.20%, mejora de rendimiento general estable

Efectos de Mitigación de Valores Atípicos

Modelo	Norma Máx. Token (Original)	Norma Máx. Token (RegCache)	Reducción
CLIP	61.17	15.30	-75.0%
OpenCLIP	122.99	12.38	-89.9%
SigLIP2	244.78	30.45	-87.6%

Estudios de Ablación

Los estudios de ablación en SigLIP muestran:

Solo Caché de Prefijo: Precisión mejora de 69.71% a 74.21%
Solo Eliminación de Token: Precisión cae a 38.51% (demuestra necesidad de soporte de prefijo)
RegCache Completo: Precisión alcanza 74.42%

Validación de Generalización

Los prefijos buscados en ImageNet-1k siguen siendo efectivos en otros conjuntos de datos:

Stanford Cars: +1.78% a +47.47%
Food-101: +9.85% a +51.28%
CIFAR-100: +12.81% a +33.00%

Trabajo Relacionado

Investigación de Valores Atípicos en Transformer

Investigación sistemática de valores atípicos de activación en Transformers a gran escala
Comportamiento de valores atípicos de tokens específicos (como <BOS>, <SEP>) en LLM
Los valores atípicos en ViT típicamente corresponden a parches de fondo sin información

Control de Sumideros de Atención

Attention sink: Tokens que atraen excesiva atención pero contienen poca información semántica
Adición de tokens de registro durante el entrenamiento para absorber atención y mitigar attention sink
Este trabajo aprovecha tokens sumidero desde la perspectiva de PTQ para mejorar rendimiento de cuantificación

Cuantificación Post-Entrenamiento de ViT

Métodos tempranos: Asignación de ancho de bits dinámico para capas sensibles a atención
Métodos existentes: Esquemas de cuantificación especiales para aislar y minimizar impacto de valores atípicos
Método de este trabajo: Manejo de valores atípicos mediante prefijo de token en lugar de granularidad de cuantificador

Conclusiones y Discusión

Conclusiones Principales

Efectividad de RegCache: Mejora consistente de rendimiento en múltiples codificadores de visión y métodos de cuantificación
Mecanismo de Mitigación de Valores Atípicos: Transferencia exitosa de valores atípicos de tokens internos a caché precomputado externo
Universalidad: El método es aplicable a codificadores de visión tanto supervisados por texto como autosupervisados

Limitaciones

Ajuste de Hiperparámetros: Requiere evaluación de múltiples candidatos de prefijo para determinar configuración óptima
Hiperparámetros Adicionales: Introduce número máximo de tokens a eliminar, cantidad de tokens de prefijo y otros hiperparámetros
Sobrecarga Computacional: Aunque el aumento de FLOPs no excede 0.2%, aún hay costo computacional adicional

Direcciones Futuras

Investigación de Diferencias Multimodales: Comprensión más profunda de diferencias de comportamiento de cuantificación entre modelos supervisados por texto vs autosupervisados
Comprensión del Mecanismo de Valores Atípicos: Investigación adicional de razones fundamentales de diferencias de comportamiento de valores atípicos entre ViT y LLM
Optimización Automática: Desarrollo de métodos para determinar automáticamente configuración óptima de prefijo

Evaluación Profunda

Fortalezas

Importancia del Problema: Resuelve desafío técnico clave en cuantificación de codificadores de visión
Innovación del Método: Primera introducción del concepto de registro en cuantificación de codificadores de visión, ruta técnica novedosa
Perspectiva Teórica: Análisis profundo de diferencias esenciales en comportamiento de valores atípicos entre codificadores de visión y LLM
Experimentos Completos: Abarca 5 codificadores de visión principales y múltiples algoritmos de cuantificación, resultados convincentes
Valor Práctico: Sin necesidad de reentrenamiento, fácil integración en flujos de cuantificación existentes

Deficiencias

Análisis Teórico Limitado: Carece de explicación teórica profunda de por qué el prefijo de capas intermedias es efectivo
Sensibilidad de Hiperparámetros: El método implica múltiples hiperparámetros, potencialmente afectando conveniencia de despliegue práctico
Análisis de Sobrecarga Computacional: Aunque el aumento de FLOPs es pequeño, falta análisis detallado de uso de memoria y latencia
Rango de Aplicabilidad: Validación principal en arquitectura ViT, aplicabilidad a otras arquitecturas de Transformer de visión no suficientemente verificada

Impacto

Contribución Académica: Proporciona nueva ruta técnica y perspectiva teórica para campo de cuantificación de codificadores de visión
Valor Práctico: Directamente aplicable a optimización de despliegue de codificadores de visión existentes
Reproducibilidad: Descripción clara del método, configuración experimental detallada, buena reproducibilidad
Inspiración: Proporciona referencia importante para transferencia de técnicas de optimización de modelos multimodales

Escenarios Aplicables

Despliegue en Periféricos: Especialmente adecuado para escenarios que requieren despliegue de codificadores de visión a gran escala en dispositivos con recursos limitados
Aplicaciones en Tiempo Real: Conducción autónoma, control robótico y otras aplicaciones que requieren procesamiento visual de baja latencia
Sistemas Multimodales: Despliegue de cuantificación de modelos tipo CLIP en diversas tareas descendentes
Herramienta de Investigación: Proporciona método de línea base efectivo para investigación de cuantificación de Transformers de visión

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo cuantificación, mecanismos de atención, Transformers de visión, entre otros:

Artículos originales de codificadores de visión como CLIP, DINOv2
Métodos de cuantificación de ViT como PTQ4ViT, RepQ-ViT
Investigación relacionada con attention sink y tokens de registro
Métodos de manejo de valores atípicos en cuantificación de LLM

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de cuantificación de codificadores de visión. Los autores no solo proponen una solución técnica efectiva, sino que también proporcionan análisis profundo de diferencias esenciales en comportamiento de valores atípicos entre codificadores de visión y modelos de lenguaje, ofreciendo perspectivas teóricas valiosas y herramientas prácticas para el desarrollo del campo.