2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic

Post-training quantization of vision encoders needs prefixing registers

基本信息

  • 论文ID: 2510.04547
  • 标题: Post-training quantization of vision encoders needs prefixing registers
  • 作者: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
  • 分类: cs.LG, cs.CV
  • 发表时间: 2025年10月 (Preprint)
  • 论文链接: https://arxiv.org/abs/2510.04547v2

摘要

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose RegCache\textit{RegCache}, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

研究背景与动机

问题定义

本研究旨在解决Transformer-based视觉编码器(如CLIP、DINOv2)在训练后量化(Post-training Quantization, PTQ)过程中的激活值异常值(outliers)问题。这些异常值导致量化精度下降,即使在8位精度下也会显著影响模型性能。

重要性分析

  1. 实际需求:视觉编码器在自动驾驶、机器人控制等边缘设备应用中需要实时处理大量视觉数据
  2. 计算成本:降低推理成本对于在资源受限设备上部署大规模视觉模型至关重要
  3. 量化挑战:激活值量化比权重量化更具挑战性,特别是在计算受限的场景中

现有方法局限性

  1. LLM方法不适用:现有针对大语言模型的异常值缓解策略需要不同精度或量化范围,实现复杂且计算开销大
  2. 静态量化困难:这些方法难以应用于静态激活量化
  3. 视觉编码器特殊性:与语言模型不同,视觉编码器缺乏预定义的语义无意义token(如<BOS><SEP>

核心贡献

  1. 提出RegCache算法:一种无需训练的异常值缓解算法,通过前缀寄存器token来减少视觉编码器中的异常值
  2. 发现视觉编码器异常值特性:证明视觉编码器中的异常值行为与语言模型显著不同,异常值出现在中间层而非早期层
  3. 技术创新:提出中间层前缀和token删除两项关键技术
  4. 广泛验证:在多种文本监督和自监督视觉编码器上验证了方法的有效性

方法详解

任务定义

给定一个预训练的视觉编码器,目标是通过引入外部寄存器token来缓解量化敏感层中的异常值,从而提高量化后模型的精度,同时保持推理效率。

核心观察

论文基于三个重要观察提出解决方案:

  1. 层级量化敏感性:视觉编码器的量化敏感性主要集中在中间层,而非早期层
  2. 异常值token通用性:在中间层出现的异常值token在不同图像间具有高度相似性(余弦相似度0.89 vs 0.26)
  3. 中间层出现机制:视觉编码器需要前几层处理图像才能识别哪些token语义无意义

RegCache算法架构

RegCache包含三个主要步骤:

1. 寄存器候选收集(Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}
  • 识别量化敏感层lq(通过逐层量化敏感性分析)
  • 从参考图像池中选择具有最大ℓ∞范数的top-k个token作为寄存器候选
  • 使用ImageNet-1k训练集的50,000张随机图像作为参考池

2. 缓存(Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
  • 为每个寄存器候选计算key-value缓存
  • 通过网格搜索确定最优寄存器z和重复次数τ
  • 将选定的KV缓存插入到量化敏感层及后续层

3. 删除(Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
  • 在量化敏感层输入处添加token删除层
  • 推理时删除具有最大ℓ∞范数的top-k̃个内部出现的sink token

技术创新点

  1. 中间层前缀策略:与LLM的早期层前缀不同,针对视觉编码器的中间层特性设计
  2. 通用寄存器发现:利用异常值token在不同图像间的相似性,构建通用寄存器
  3. 添加-删除机制:通过外部预计算缓存替换内部出现的sink token,避免影响激活量化范围

实验设置

数据集

  • ImageNet-1k:用于零样本图像分类评估
  • MS-COCO:用于图像-文本检索任务评估
  • 其他分类数据集:Stanford Cars, Flowers-102, Food-101, CIFAR-100(用于泛化性验证)
  • 参考数据:ImageNet-1k训练集50,000张图像用于寄存器搜索

评价指标

  • 零样本分类准确率:ImageNet-1k上的top-1准确率
  • 检索性能:MS-COCO上的Recall@1和Recall@5
  • 异常值分析:最大token范数和平均token范数

对比方法

  • 基础量化算法
    • PTQ4ViT:针对ViT的双均匀量化器
    • RepQ-ViT:尺度重参数化方法
    • NoisyQuant:噪声增强的激活量化
  • 精度设置:W8A8(8位权重8位激活)和W6A6(6位权重6位激活)

实现细节

  • 使用1,024和32个校准样本(分别针对NoisyQuant和RepQ-ViT)
  • 寄存器候选数k=20,重复次数范围τ∈{1,...,15}
  • 删除token数量k̃通过参考任务调优

实验结果

主要结果

零样本图像分类(ImageNet-1k)

模型精度基线最佳RegCache最佳改进
CLIP-B/16W8A867.69%67.78%+0.09%
CLIP-B/16W6A658.19%66.65%+13.40%
SigLIP2-B/16W8A876.92%77.26%+0.34%
SigLIP2-B/16W6A664.91%70.88%+5.97%

图像-文本检索(MS-COCO)

  • CLIP-B/16:在所有检索指标上平均提升3.76%-7.97%
  • SigLIP-B/16:Recall@1提升0.20%,整体性能稳定提升

异常值缓解效果

模型最大token范数(原始)最大token范数(RegCache)减少比例
CLIP61.1715.30-75.0%
OpenCLIP122.9912.38-89.9%
SigLIP2244.7830.45-87.6%

消融实验

在SigLIP上的消融研究显示:

  • 仅前缀缓存:准确率从69.71%提升至74.21%
  • 仅token删除:准确率下降至38.51%(证明需要前缀支持)
  • 完整RegCache:准确率达到74.42%

泛化性验证

使用ImageNet-1k搜索的前缀在其他数据集上仍有效:

  • Stanford Cars:+1.78% to +47.47%
  • Food-101:+9.85% to +51.28%
  • CIFAR-100:+12.81% to +33.00%

相关工作

Transformer异常值研究

  • 大规模Transformer中激活值异常值的系统性研究
  • LLM中特定token(如<BOS><SEP>)的异常值行为
  • ViT中异常值通常对应无信息的背景patch

注意力sink控制

  • Attention sink:吸引过度注意力但语义信息很少的token
  • 训练时添加register token来吸收注意力并缓解attention sink
  • 本文从PTQ角度利用sink token改善量化性能

ViT训练后量化

  • 早期方法:为注意力敏感层分配动态位宽
  • 现有方法:通过特殊量化方案隔离和最小化异常值影响
  • 本文方法:通过token前缀而非量化器粒度控制处理异常值

结论与讨论

主要结论

  1. RegCache有效性:在多种视觉编码器和量化方法上一致提升性能
  2. 异常值缓解机制:成功将异常值从内部token转移到外部预计算缓存
  3. 通用性:方法适用于文本监督和自监督视觉编码器

局限性

  1. 超参数调优:需要评估多个前缀候选来确定最佳配置
  2. 额外超参数:引入了最大删除token数量、前缀token数量等超参数
  3. 计算开销:虽然FLOPs增加不超过0.2%,但仍有额外计算成本

未来方向

  1. 多模态差异研究:深入理解文本监督vs自监督模型的量化行为差异
  2. 异常值机制理解:进一步研究ViT与LLM异常值行为差异的根本原因
  3. 自动化优化:开发自动确定最优前缀配置的方法

深度评价

优点

  1. 问题重要性:解决了视觉编码器量化中的关键技术挑战
  2. 方法创新:首次将register概念引入视觉编码器量化,技术路径新颖
  3. 理论洞察:深入分析了视觉编码器与LLM异常值行为的本质差异
  4. 实验充分:涵盖5种主流视觉编码器和多种量化算法,结果具有说服力
  5. 实用价值:无需重训练,易于集成到现有量化流程

不足

  1. 理论分析有限:缺乏对为什么中间层前缀有效的深层理论解释
  2. 超参数敏感性:方法涉及多个超参数,可能影响实际部署的便利性
  3. 计算开销分析:虽然FLOPs增加很小,但缺乏内存使用和延迟的详细分析
  4. 适用范围:主要验证了ViT架构,对其他视觉Transformer架构的适用性未充分验证

影响力

  1. 学术贡献:为视觉编码器量化领域提供了新的技术路径和理论洞察
  2. 实用价值:可直接应用于现有视觉编码器的部署优化
  3. 可复现性:方法描述清晰,实验设置详细,具备良好的可复现性
  4. 启发性:为跨模态模型优化技术的迁移提供了重要参考

适用场景

  1. 边缘部署:特别适合需要在资源受限设备上部署大规模视觉编码器的场景
  2. 实时应用:自动驾驶、机器人控制等需要低延迟视觉处理的应用
  3. 多模态系统:CLIP类模型在各种下游任务中的量化部署
  4. 研究工具:为视觉Transformer量化研究提供有效的基线方法

参考文献

本文引用了量化、注意力机制、视觉Transformer等多个领域的重要工作,包括:

  • CLIP, DINOv2等视觉编码器的原始论文
  • PTQ4ViT, RepQ-ViT等ViT量化方法
  • 注意力sink和register token相关研究
  • LLM量化中的异常值处理方法

总体评价:这是一篇在视觉编码器量化领域具有重要贡献的高质量论文。作者不仅提出了有效的技术解决方案,还深入分析了视觉编码器与语言模型在异常值行为上的本质差异,为该领域的发展提供了有价值的理论洞察和实用工具。