2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

Постквантизация кодировщиков зрения требует префиксных регистров

Основная информация

ID статьи: 2510.04547
Название: Post-training quantization of vision encoders needs prefixing registers
Авторы: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
Классификация: cs.LG, cs.CV
Дата публикации: Октябрь 2025 (Препринт)
Ссылка на статью: https://arxiv.org/abs/2510.04547v2

Аннотация

Кодировщики зрения на основе Transformer -- такие как CLIP -- являются центральными компонентами мультимодального интеллекта, обеспечивая приложения от автономных веб-агентов до робототехники. Поскольку эти приложения часто требуют обработки в реальном времени массивных визуальных данных, снижение стоимости вывода кодировщиков зрения критически важно. Постквантизация предлагает практический путь, но остаётся сложной даже при 8-битной точности из-за масштабных активаций (т.е. выбросов). В данной работе мы предлагаем $\textit{RegCache}$ -- алгоритм без обучения для смягчения выбросов в кодировщиках зрения, обеспечивающий квантизацию со значительно меньшими потерями точности. Предложенный RegCache вводит подверженные выбросам, но семантически бессмысленные префиксные токены в целевой кодировщик зрения, что предотвращает появление выбросов у других токенов. Примечательно, что мы наблюдаем, что выбросы в кодировщиках зрения ведут себя иначе, чем в языковых моделях, что мотивирует два технических инновации: префиксирование среднего слоя и удаление токенов. Эксперименты показывают, что наш метод последовательно улучшает точность квантованных моделей как для текстово-контролируемых, так и для самоконтролируемых кодировщиков зрения.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение проблемы выбросов значений активаций (outliers) в кодировщиках зрения на основе Transformer (таких как CLIP, DINOv2) при постквантизации (Post-training Quantization, PTQ). Эти выбросы приводят к снижению точности квантизации, значительно влияя на производительность модели даже при 8-битной точности.

Анализ важности

Практические требования: Кодировщики зрения в приложениях автономного вождения, робототехники и других требуют обработки больших объёмов визуальных данных в реальном времени
Вычислительные затраты: Снижение стоимости вывода критически важно для развёртывания крупномасштабных моделей зрения на устройствах с ограниченными ресурсами
Вызовы квантизации: Квантизация активаций более сложна, чем квантизация весов, особенно в сценариях с ограниченными вычислительными ресурсами

Ограничения существующих методов

Неприменимость методов LLM: Существующие стратегии смягчения выбросов для больших языковых моделей требуют различных точностей или диапазонов квантизации, сложны в реализации и требуют больших вычислительных затрат
Сложность статической квантизации: Эти методы сложно применять к статической квантизации активаций
Специфика кодировщиков зрения: В отличие от языковых моделей, кодировщики зрения не имеют предопределённых семантически бессмысленных токенов (таких как <BOS>, <SEP>)

Основные вклады

Предложение алгоритма RegCache: Алгоритм без обучения для смягчения выбросов путём введения префиксных токенов-регистров для снижения выбросов в кодировщиках зрения
Обнаружение характеристик выбросов в кодировщиках зрения: Доказано, что поведение выбросов в кодировщиках зрения существенно отличается от языковых моделей, с выбросами, появляющимися в средних слоях, а не в ранних
Технические инновации: Предложены два ключевых метода -- префиксирование среднего слоя и удаление токенов
Широкая валидация: Метод проверен на различных текстово-контролируемых и самоконтролируемых кодировщиках зрения

Подробное описание метода

Определение задачи

Дана предварительно обученная модель кодировщика зрения. Цель -- путём введения внешних токенов-регистров смягчить выбросы в слоях, чувствительных к квантизации, тем самым повысив точность квантованной модели при сохранении эффективности вывода.

Ключевые наблюдения

Решение основано на трёх важных наблюдениях:

Чувствительность слоёв к квантизации: Чувствительность кодировщика зрения к квантизации сосредоточена в средних слоях, а не в ранних
Универсальность токенов с выбросами: Токены с выбросами, появляющиеся в средних слоях, демонстрируют высокую схожесть между различными изображениями (косинусное сходство 0.89 против 0.26)
Механизм появления в средних слоях: Кодировщикам зрения требуются первые несколько слоёв для обработки изображения и определения, какие токены семантически бессмысленны

Архитектура алгоритма RegCache

RegCache состоит из трёх основных этапов:

1. Сбор кандидатов регистров (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

Определение слоя, чувствительного к квантизации lq (посредством анализа чувствительности слой за слоем)
Выбор top-k токенов с максимальной ℓ∞-нормой из пула эталонных изображений в качестве кандидатов регистров
Использование 50,000 случайных изображений из обучающего набора ImageNet-1k в качестве пула эталонов

2. Кэширование (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

Вычисление кэша ключ-значение для каждого кандидата регистра
Определение оптимального регистра z* и количества повторений τ* посредством поиска по сетке
Вставка выбранного кэша KV в слой, чувствительный к квантизации, и последующие слои

3. Удаление (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

Добавление слоя удаления токенов на входе слоя, чувствительного к квантизации
Удаление при выводе top-k̃ внутренних токенов-поглотителей с максимальной ℓ∞-нормой

Технические инновации

Стратегия префиксирования среднего слоя: В отличие от префиксирования ранних слоёв в LLM, разработана специально для характеристик средних слоёв кодировщиков зрения
Обнаружение универсальных регистров: Использование схожести токенов с выбросами между различными изображениями для построения универсальных регистров
Механизм добавления-удаления: Замена внутренних токенов-поглотителей внешним предвычисленным кэшем, избегая влияния на диапазон квантизации активаций

Экспериментальная установка

Наборы данных

ImageNet-1k: Для оценки классификации с нулевым обучением
MS-COCO: Для оценки задач поиска изображение-текст
Другие наборы данных классификации: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (для проверки обобщаемости)
Эталонные данные: 50,000 изображений из обучающего набора ImageNet-1k для поиска регистров

Метрики оценки

Точность классификации с нулевым обучением: Top-1 точность на ImageNet-1k
Производительность поиска: Recall@1 и Recall@5 на MS-COCO
Анализ выбросов: Максимальная норма токена и средняя норма токена

Методы сравнения

Базовые алгоритмы квантизации:
- PTQ4ViT: Двойной равномерный квантизатор для ViT
- RepQ-ViT: Метод переспециализации масштаба
- NoisyQuant: Квантизация активаций с усилением шума
Параметры точности: W8A8 (8-битные веса, 8-битные активации) и W6A6 (6-битные веса, 6-битные активации)

Детали реализации

Использование 1,024 и 32 образцов калибровки (соответственно для NoisyQuant и RepQ-ViT)
Количество кандидатов регистров k=20, диапазон повторений τ∈{1,...,15}
Количество удаляемых токенов k̃ оптимизировано на эталонной задаче

Результаты экспериментов

Основные результаты

Классификация изображений с нулевым обучением (ImageNet-1k)

Модель	Точность	Лучший базовый	Лучший RegCache	Улучшение
CLIP-B/16	W8A8	67.69%	67.78%	+0.09%
CLIP-B/16	W6A6	58.19%	66.65%	+13.40%
SigLIP2-B/16	W8A8	76.92%	77.26%	+0.34%
SigLIP2-B/16	W6A6	64.91%	70.88%	+5.97%

Поиск изображение-текст (MS-COCO)

CLIP-B/16: Среднее улучшение на 3.76%-7.97% по всем метрикам поиска
SigLIP-B/16: Улучшение Recall@1 на 0.20%, стабильное общее улучшение производительности

Эффективность смягчения выбросов

Модель	Макс. норма токена (исходная)	Макс. норма токена (RegCache)	Процент снижения
CLIP	61.17	15.30	-75.0%
OpenCLIP	122.99	12.38	-89.9%
SigLIP2	244.78	30.45	-87.6%

Абляционные исследования

Исследование абляции на SigLIP показывает:

Только префиксный кэш: Точность повышается с 69.71% до 74.21%
Только удаление токенов: Точность снижается до 38.51% (доказывает необходимость префиксной поддержки)
Полный RegCache: Точность достигает 74.42%

Проверка обобщаемости

Префиксы, найденные на ImageNet-1k, остаются эффективными на других наборах данных:

Stanford Cars: +1.78% до +47.47%
Food-101: +9.85% до +51.28%
CIFAR-100: +12.81% до +33.00%

Связанные работы

Исследования выбросов в Transformer

Систематическое исследование выбросов значений активаций в крупномасштабных Transformer
Поведение выбросов специфических токенов в LLM (таких как <BOS>, <SEP>)
Выбросы в ViT обычно соответствуют неинформативным патчам фона

Управление вниманием-поглотителем

Attention sink: Токены, привлекающие чрезмерное внимание, но содержащие мало семантической информации
Добавление токенов-регистров во время обучения для поглощения внимания и смягчения attention sink
Данная работа использует токены-поглотители с точки зрения PTQ для улучшения производительности квантизации

Постквантизация ViT

Ранние методы: Распределение динамической разрядности для слоёв, чувствительных к вниманию
Существующие методы: Изоляция и минимизация влияния выбросов посредством специальных схем квантизации
Метод данной работы: Обработка выбросов посредством префиксирования токенов, а не гранулярности квантизатора

Заключение и обсуждение

Основные выводы

Эффективность RegCache: Последовательное улучшение производительности на различных кодировщиках зрения и методах квантизации
Механизм смягчения выбросов: Успешная передача выбросов от внутренних токенов к внешнему предвычисленному кэшу
Универсальность: Метод применим как к текстово-контролируемым, так и к самоконтролируемым кодировщикам зрения

Ограничения

Оптимизация гиперпараметров: Требуется оценка нескольких кандидатов префиксов для определения оптимальной конфигурации
Дополнительные гиперпараметры: Введены гиперпараметры, такие как максимальное количество удаляемых токенов, количество префиксных токенов и т.д.
Вычислительные затраты: Хотя увеличение FLOPs не превышает 0.2%, всё ещё существуют дополнительные вычислительные затраты

Направления будущих исследований

Исследование мультимодальных различий: Углубленное понимание различий в поведении квантизации между текстово-контролируемыми и самоконтролируемыми моделями
Понимание механизма выбросов: Дальнейшее исследование коренных причин различий в поведении выбросов между ViT и LLM
Автоматизированная оптимизация: Разработка методов автоматического определения оптимальной конфигурации префиксов

Глубокая оценка

Преимущества

Важность проблемы: Решение критического технического вызова в квантизации кодировщиков зрения
Инновационность метода: Первое применение концепции register к квантизации кодировщиков зрения с новым техническим подходом
Теоретические инсайты: Глубокий анализ фундаментальных различий в поведении выбросов между кодировщиками зрения и LLM
Полнота экспериментов: Охват 5 основных кодировщиков зрения и различных алгоритмов квантизации с убедительными результатами
Практическая ценность: Не требует переобучения, легко интегрируется в существующие процессы квантизации

Недостатки

Ограниченный теоретический анализ: Отсутствует глубокое теоретическое объяснение того, почему префиксирование среднего слоя эффективно
Чувствительность к гиперпараметрам: Метод включает несколько гиперпараметров, что может влиять на удобство практического развёртывания
Анализ вычислительных затрат: Хотя увеличение FLOPs незначительно, отсутствует подробный анализ использования памяти и задержки
Область применения: Валидация проведена в основном для архитектуры ViT, применимость к другим архитектурам Vision Transformer недостаточно проверена

Влияние

Академический вклад: Предоставляет новый технический путь и теоретические инсайты для области квантизации кодировщиков зрения
Практическая ценность: Может быть непосредственно применён к оптимизации развёртывания существующих кодировщиков зрения
Воспроизводимость: Ясное описание метода и подробная экспериментальная установка обеспечивают хорошую воспроизводимость
Вдохновляющий характер: Предоставляет важный справочный материал для передачи технологий оптимизации кроссмодальных моделей

Применимые сценарии

Развёртывание на граничных устройствах: Особенно подходит для сценариев, требующих развёртывания крупномасштабных кодировщиков зрения на устройствах с ограниченными ресурсами
Приложения в реальном времени: Автономное вождение, робототехника и другие приложения, требующие низколатентной обработки визуальной информации
Мультимодальные системы: Развёртывание квантизации моделей типа CLIP в различных нижестоящих задачах
Исследовательский инструмент: Предоставляет эффективный базовый метод для исследований в области квантизации Vision Transformer

Библиография

Статья ссылается на важные работы из нескольких областей, включая квантизацию, механизмы внимания, Vision Transformer и т.д.:

Оригинальные статьи о кодировщиках зрения CLIP, DINOv2 и др.
Методы квантизации ViT, такие как PTQ4ViT, RepQ-ViT
Исследования, связанные с attention sink и токенами-регистрами
Методы обработки выбросов в квантизации LLM

Общая оценка: Это высококачественная статья с важным вкладом в область квантизации кодировщиков зрения. Авторы не только предложили эффективное техническое решение, но и провели глубокий анализ фундаментальных различий в поведении выбросов между кодировщиками зрения и языковыми моделями, предоставляя ценные теоретические инсайты и практические инструменты для развития этой области.