2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic

Cuantificación post-entrenamiento de codificadores de visión requiere registros de prefijo

Información Básica

  • ID del Artículo: 2510.04547
  • Título: Post-training quantization of vision encoders needs prefixing registers
  • Autores: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
  • Clasificación: cs.LG, cs.CV
  • Fecha de Publicación: Octubre de 2025 (Preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.04547v2

Resumen

Los codificadores de visión basados en Transformer, como CLIP, son fundamentales para la inteligencia multimodal, potenciando aplicaciones que van desde agentes web autónomos hasta control robótico. Dado que estas aplicaciones frecuentemente demandan procesamiento en tiempo real de datos visuales masivos, reducir el costo de inferencia de los codificadores de visión es crítico. La cuantificación post-entrenamiento ofrece un camino práctico, pero sigue siendo desafiante incluso con precisión de 8 bits debido a activaciones de escala masiva (es decir, valores atípicos). En este trabajo, proponemos RegCache\textit{RegCache}, un algoritmo sin entrenamiento para mitigar valores atípicos en codificadores de visión, permitiendo cuantificación con caídas de precisión significativamente menores. El RegCache propuesto introduce tokens de prefijo propensos a valores atípicos pero semánticamente sin sentido al codificador de visión objetivo, lo que impide que otros tokens tengan valores atípicos. Notablemente, observamos que los valores atípicos en codificadores de visión se comportan de manera diferente a los de modelos de lenguaje, motivando dos innovaciones técnicas: prefijado de capas intermedias y eliminación de tokens. Los experimentos muestran que nuestro método mejora consistentemente la precisión de modelos cuantificados en codificadores de visión tanto supervisados por texto como autosupervisados.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación tiene como objetivo resolver el problema de valores atípicos de activación (outliers) durante la cuantificación post-entrenamiento (PTQ) en codificadores de visión basados en Transformer, como CLIP y DINOv2. Estos valores atípicos causan degradación de la precisión de cuantificación, afectando significativamente el rendimiento del modelo incluso con precisión de 8 bits.

Análisis de Importancia

  1. Demanda Práctica: Los codificadores de visión en aplicaciones de dispositivos periféricos como conducción autónoma y control robótico requieren procesamiento en tiempo real de grandes volúmenes de datos visuales
  2. Costo Computacional: Reducir el costo de inferencia es crítico para desplegar modelos de visión a gran escala en dispositivos con recursos limitados
  3. Desafío de Cuantificación: La cuantificación de activaciones es más desafiante que la cuantificación de pesos, especialmente en escenarios computacionalmente restringidos

Limitaciones de Métodos Existentes

  1. Inaplicabilidad de Métodos de LLM: Las estrategias existentes de mitigación de valores atípicos para grandes modelos de lenguaje requieren diferentes precisiones o rangos de cuantificación, con implementación compleja y gran sobrecarga computacional
  2. Dificultad en Cuantificación Estática: Estos métodos son difíciles de aplicar a cuantificación estática de activaciones
  3. Especificidad de Codificadores de Visión: A diferencia de modelos de lenguaje, los codificadores de visión carecen de tokens semánticamente sin sentido predefinidos (como <BOS>, <SEP>)

Contribuciones Principales

  1. Propuesta del Algoritmo RegCache: Un algoritmo de mitigación de valores atípicos sin entrenamiento que reduce valores atípicos en codificadores de visión mediante tokens de registro de prefijo
  2. Descubrimiento de Características de Valores Atípicos en Codificadores de Visión: Demuestra que el comportamiento de valores atípicos en codificadores de visión difiere significativamente de modelos de lenguaje, con valores atípicos que aparecen en capas intermedias en lugar de capas tempranas
  3. Innovaciones Técnicas: Propone prefijado de capas intermedias y eliminación de tokens como dos técnicas clave
  4. Validación Amplia: Verifica la efectividad del método en múltiples codificadores de visión supervisados por texto y autosupervisados

Explicación Detallada del Método

Definición de Tarea

Dado un codificador de visión preentrenado, el objetivo es mitigar valores atípicos en capas sensibles a cuantificación mediante la introducción de tokens de registro externos, mejorando así la precisión del modelo cuantificado mientras se mantiene la eficiencia de inferencia.

Observaciones Clave

El artículo propone una solución basada en tres observaciones importantes:

  1. Sensibilidad de Cuantificación por Capas: La sensibilidad de cuantificación en codificadores de visión se concentra principalmente en capas intermedias, no en capas tempranas
  2. Universalidad de Tokens con Valores Atípicos: Los tokens con valores atípicos que aparecen en capas intermedias muestran alta similitud entre diferentes imágenes (similitud de coseno 0.89 vs 0.26)
  3. Mecanismo de Aparición en Capas Intermedias: Los codificadores de visión necesitan que las primeras capas procesen imágenes para identificar qué tokens carecen de significado semántico

Arquitectura del Algoritmo RegCache

RegCache contiene tres pasos principales:

1. Recopilación de Candidatos de Registro (Curación)

S = argtopk{||z||∞ | z ∈ Φlq(x), para algún x ∈ Iref}
  • Identifica la capa sensible a cuantificación lq (mediante análisis de sensibilidad capa por capa)
  • Selecciona los top-k tokens con mayor norma ℓ∞ del conjunto de imágenes de referencia como candidatos de registro
  • Utiliza 50,000 imágenes aleatorias del conjunto de entrenamiento ImageNet-1k como conjunto de referencia

2. Almacenamiento en Caché (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
  • Calcula caché clave-valor para cada candidato de registro
  • Determina el registro óptimo z* y número de repeticiones τ* mediante búsqueda en cuadrícula
  • Inserta el caché KV seleccionado en la capa sensible a cuantificación y capas posteriores

3. Eliminación (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
  • Añade una capa de eliminación de tokens en la entrada de la capa sensible a cuantificación
  • Durante la inferencia, elimina los top-k̃ tokens sumidero internos con mayor norma ℓ∞

Puntos de Innovación Técnica

  1. Estrategia de Prefijo en Capas Intermedias: A diferencia del prefijo de capas tempranas en LLM, diseñado específicamente para características de capas intermedias en codificadores de visión
  2. Descubrimiento de Registros Universales: Aprovecha la similitud de tokens con valores atípicos entre diferentes imágenes para construir registros universales
  3. Mecanismo de Adición-Eliminación: Reemplaza tokens sumidero internos con caché precomputado externo, evitando afectar el rango de cuantificación de activaciones

Configuración Experimental

Conjuntos de Datos

  • ImageNet-1k: Para evaluación de clasificación de imagen de cero disparos
  • MS-COCO: Para evaluación de tareas de recuperación imagen-texto
  • Otros Conjuntos de Datos de Clasificación: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (para validación de generalización)
  • Datos de Referencia: 50,000 imágenes del conjunto de entrenamiento ImageNet-1k para búsqueda de registros

Métricas de Evaluación

  • Precisión de Clasificación de Cero Disparos: Precisión top-1 en ImageNet-1k
  • Rendimiento de Recuperación: Recall@1 y Recall@5 en MS-COCO
  • Análisis de Valores Atípicos: Norma máxima de token y norma promedio de token

Métodos de Comparación

  • Algoritmos de Cuantificación Base:
    • PTQ4ViT: Cuantificador uniforme dual para ViT
    • RepQ-ViT: Método de reparametrización de escala
    • NoisyQuant: Cuantificación de activación mejorada con ruido
  • Configuraciones de Precisión: W8A8 (8 bits peso, 8 bits activación) y W6A6 (6 bits peso, 6 bits activación)

Detalles de Implementación

  • Utiliza 1,024 y 32 muestras de calibración (respectivamente para NoisyQuant y RepQ-ViT)
  • Número de candidatos de registro k=20, rango de repeticiones τ∈{1,...,15}
  • Número de tokens a eliminar k̃ ajustado mediante tarea de referencia

Resultados Experimentales

Resultados Principales

Clasificación de Imagen de Cero Disparos (ImageNet-1k)

ModeloPrecisiónMejor Línea BaseMejor RegCacheMejora
CLIP-B/16W8A867.69%67.78%+0.09%
CLIP-B/16W6A658.19%66.65%+13.40%
SigLIP2-B/16W8A876.92%77.26%+0.34%
SigLIP2-B/16W6A664.91%70.88%+5.97%

Recuperación Imagen-Texto (MS-COCO)

  • CLIP-B/16: Mejora promedio de 3.76%-7.97% en todas las métricas de recuperación
  • SigLIP-B/16: Mejora de Recall@1 de 0.20%, mejora de rendimiento general estable

Efectos de Mitigación de Valores Atípicos

ModeloNorma Máx. Token (Original)Norma Máx. Token (RegCache)Reducción
CLIP61.1715.30-75.0%
OpenCLIP122.9912.38-89.9%
SigLIP2244.7830.45-87.6%

Estudios de Ablación

Los estudios de ablación en SigLIP muestran:

  • Solo Caché de Prefijo: Precisión mejora de 69.71% a 74.21%
  • Solo Eliminación de Token: Precisión cae a 38.51% (demuestra necesidad de soporte de prefijo)
  • RegCache Completo: Precisión alcanza 74.42%

Validación de Generalización

Los prefijos buscados en ImageNet-1k siguen siendo efectivos en otros conjuntos de datos:

  • Stanford Cars: +1.78% a +47.47%
  • Food-101: +9.85% a +51.28%
  • CIFAR-100: +12.81% a +33.00%

Trabajo Relacionado

Investigación de Valores Atípicos en Transformer

  • Investigación sistemática de valores atípicos de activación en Transformers a gran escala
  • Comportamiento de valores atípicos de tokens específicos (como <BOS>, <SEP>) en LLM
  • Los valores atípicos en ViT típicamente corresponden a parches de fondo sin información

Control de Sumideros de Atención

  • Attention sink: Tokens que atraen excesiva atención pero contienen poca información semántica
  • Adición de tokens de registro durante el entrenamiento para absorber atención y mitigar attention sink
  • Este trabajo aprovecha tokens sumidero desde la perspectiva de PTQ para mejorar rendimiento de cuantificación

Cuantificación Post-Entrenamiento de ViT

  • Métodos tempranos: Asignación de ancho de bits dinámico para capas sensibles a atención
  • Métodos existentes: Esquemas de cuantificación especiales para aislar y minimizar impacto de valores atípicos
  • Método de este trabajo: Manejo de valores atípicos mediante prefijo de token en lugar de granularidad de cuantificador

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de RegCache: Mejora consistente de rendimiento en múltiples codificadores de visión y métodos de cuantificación
  2. Mecanismo de Mitigación de Valores Atípicos: Transferencia exitosa de valores atípicos de tokens internos a caché precomputado externo
  3. Universalidad: El método es aplicable a codificadores de visión tanto supervisados por texto como autosupervisados

Limitaciones

  1. Ajuste de Hiperparámetros: Requiere evaluación de múltiples candidatos de prefijo para determinar configuración óptima
  2. Hiperparámetros Adicionales: Introduce número máximo de tokens a eliminar, cantidad de tokens de prefijo y otros hiperparámetros
  3. Sobrecarga Computacional: Aunque el aumento de FLOPs no excede 0.2%, aún hay costo computacional adicional

Direcciones Futuras

  1. Investigación de Diferencias Multimodales: Comprensión más profunda de diferencias de comportamiento de cuantificación entre modelos supervisados por texto vs autosupervisados
  2. Comprensión del Mecanismo de Valores Atípicos: Investigación adicional de razones fundamentales de diferencias de comportamiento de valores atípicos entre ViT y LLM
  3. Optimización Automática: Desarrollo de métodos para determinar automáticamente configuración óptima de prefijo

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Resuelve desafío técnico clave en cuantificación de codificadores de visión
  2. Innovación del Método: Primera introducción del concepto de registro en cuantificación de codificadores de visión, ruta técnica novedosa
  3. Perspectiva Teórica: Análisis profundo de diferencias esenciales en comportamiento de valores atípicos entre codificadores de visión y LLM
  4. Experimentos Completos: Abarca 5 codificadores de visión principales y múltiples algoritmos de cuantificación, resultados convincentes
  5. Valor Práctico: Sin necesidad de reentrenamiento, fácil integración en flujos de cuantificación existentes

Deficiencias

  1. Análisis Teórico Limitado: Carece de explicación teórica profunda de por qué el prefijo de capas intermedias es efectivo
  2. Sensibilidad de Hiperparámetros: El método implica múltiples hiperparámetros, potencialmente afectando conveniencia de despliegue práctico
  3. Análisis de Sobrecarga Computacional: Aunque el aumento de FLOPs es pequeño, falta análisis detallado de uso de memoria y latencia
  4. Rango de Aplicabilidad: Validación principal en arquitectura ViT, aplicabilidad a otras arquitecturas de Transformer de visión no suficientemente verificada

Impacto

  1. Contribución Académica: Proporciona nueva ruta técnica y perspectiva teórica para campo de cuantificación de codificadores de visión
  2. Valor Práctico: Directamente aplicable a optimización de despliegue de codificadores de visión existentes
  3. Reproducibilidad: Descripción clara del método, configuración experimental detallada, buena reproducibilidad
  4. Inspiración: Proporciona referencia importante para transferencia de técnicas de optimización de modelos multimodales

Escenarios Aplicables

  1. Despliegue en Periféricos: Especialmente adecuado para escenarios que requieren despliegue de codificadores de visión a gran escala en dispositivos con recursos limitados
  2. Aplicaciones en Tiempo Real: Conducción autónoma, control robótico y otras aplicaciones que requieren procesamiento visual de baja latencia
  3. Sistemas Multimodales: Despliegue de cuantificación de modelos tipo CLIP en diversas tareas descendentes
  4. Herramienta de Investigación: Proporciona método de línea base efectivo para investigación de cuantificación de Transformers de visión

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo cuantificación, mecanismos de atención, Transformers de visión, entre otros:

  • Artículos originales de codificadores de visión como CLIP, DINOv2
  • Métodos de cuantificación de ViT como PTQ4ViT, RepQ-ViT
  • Investigación relacionada con attention sink y tokens de registro
  • Métodos de manejo de valores atípicos en cuantificación de LLM

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de cuantificación de codificadores de visión. Los autores no solo proponen una solución técnica efectiva, sino que también proporcionan análisis profundo de diferencias esenciales en comportamiento de valores atípicos entre codificadores de visión y modelos de lenguaje, ofreciendo perspectivas teóricas valiosas y herramientas prácticas para el desarrollo del campo.