2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.

academic

ビジョンエンコーダの学習後量化にはプレフィックスレジスタが必要

基本情報

論文ID: 2510.04547
タイトル: Post-training quantization of vision encoders needs prefixing registers
著者: Seunghyeon Kim (POSTECH)、Jinho Kim (Dankook University)、Taesun Yeom (POSTECH)、Wonpyo Park (Google)、Kyuyeun Kim (Google)、Jaeho Lee (POSTECH)
分類: cs.LG、cs.CV
発表時期: 2025年10月（プレプリント）
論文リンク: https://arxiv.org/abs/2510.04547v2

要約

Transformerベースのビジョンエンコーダ（CLIPなど）はマルチモーダルインテリジェンスの中核であり、自動Webエージェントからロボット制御まで、様々なアプリケーションを支えています。これらのアプリケーションは多くの場合、大規模な視覚データのリアルタイム処理を要求するため、ビジョンエンコーダの推論コストを削減することが重要です。学習後量化（Post-training Quantization, PTQ）は実用的な手段を提供しますが、大規模な活性化値（すなわち外れ値）のため、8ビット精度でも依然として困難です。本研究では、ビジョンエンコーダの外れ値を軽減するための訓練不要なアルゴリズムであるRegCacheを提案し、有意に小さい精度低下での量化を実現します。提案するRegCacheは、外れ値が発生しやすいが意味的に無意味なプレフィックストークンをターゲットビジョンエンコーダに導入し、他のトークンが外れ値を持つことを防止します。注目すべきことに、ビジョンエンコーダの外れ値は言語モデルのそれと異なる動作を示し、中間層プレフィックスとトークン削除という2つの技術的革新を動機付けます。実験により、提案手法は文本監督および自己監督ビジョンエンコーダの両方において、量化モデルの精度を一貫して向上させることが示されています。

研究背景と動機

問題定義

本研究は、Transformerベースのビジョンエンコーダ（CLIP、DINOv2など）の学習後量化（PTQ）プロセスにおける活性化値の外れ値（outliers）問題の解決を目指しています。これらの外れ値は量化精度の低下をもたらし、8ビット精度でさえモデル性能に大きな影響を与えます。

重要性分析

実用的需要：ビジョンエンコーダは自動運転、ロボット制御などのエッジデバイスアプリケーションで大量の視覚データをリアルタイムで処理する必要があります
計算コスト：推論コストの削減は、リソース制約のあるデバイスに大規模ビジョンモデルを展開する際に重要です
量化の課題：活性化値の量化は重み量化よりも困難であり、特に計算制約のあるシナリオでは顕著です

既存手法の限界

LLM手法の不適用性：大規模言語モデル向けの既存の外れ値軽減戦略は異なる精度または量化範囲を必要とし、実装が複雑で計算オーバーヘッドが大きいです
静的量化の困難性：これらの手法は静的活性化量化への適用が困難です
ビジョンエンコーダの特殊性：言語モデルと異なり、ビジョンエンコーダは事前定義された意味的に無意味なトークン（<BOS>、<SEP>など）を欠いています

核心的貢献

RegCacheアルゴリズムの提案：プレフィックスレジスタトークンを通じてビジョンエンコーダの外れ値を削減する訓練不要なアルゴリズム
ビジョンエンコーダの外れ値特性の発見：ビジョンエンコーダの外れ値動作が言語モデルと大きく異なり、外れ値が早期層ではなく中間層に出現することを証明
技術的革新：中間層プレフィックスとトークン削除という2つの重要な技術を提案
広範な検証：複数の文本監督および自己監督ビジョンエンコーダで手法の有効性を検証

方法の詳細

タスク定義

事前訓練されたビジョンエンコーダが与えられたとき、外部レジスタトークンを導入することで量化に敏感な層の外れ値を軽減し、推論効率を維持しながら量化後モデルの精度を向上させることが目標です。

核心的観察

論文は3つの重要な観察に基づいて解決策を提案しています：

層別量化感度：ビジョンエンコーダの量化感度は主に中間層に集中しており、早期層ではありません
外れ値トークンの汎用性：中間層に出現する外れ値トークンは異なる画像間で高度に類似しています（コサイン類似度0.89対0.26）
中間層出現メカニズム：ビジョンエンコーダはどのトークンが意味的に無意義かを識別するために最初の数層での処理が必要です

RegCacheアルゴリズムアーキテクチャ

RegCacheは3つの主要なステップを含みます：

1. レジスタ候補の収集（Curating）

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}

量化に敏感な層lqを識別します（層別量化感度分析を通じて）
参照画像プールから最大ℓ∞ノルムを持つ上位k個のトークンをレジスタ候補として選択
ImageNet-1k訓練セットの50,000枚のランダム画像を参照プールとして使用

2. キャッシング（Caching）

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}

各レジスタ候補のキー値キャッシュを計算
グリッドサーチを通じて最適なレジスタzと繰り返し回数τを決定
選択されたKVキャッシュを量化に敏感な層およびその後続層に挿入

3. 削除（Deleting）

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}

量化に敏感な層の入力にトークン削除層を追加
推論時に最大ℓ∞ノルムを持つ上位k̃個の内部出現シンクトークンを削除

技術的革新点

中間層プレフィックス戦略：LLMの早期層プレフィックスと異なり、ビジョンエンコーダの中間層特性に合わせて設計
汎用レジスタ発見：異なる画像間での外れ値トークンの類似性を利用して汎用レジスタを構築
追加削除メカニズム：外部で事前計算されたキャッシュを通じて内部出現するシンクトークンを置き換え、活性化量化範囲への影響を回避

実験設定

データセット

ImageNet-1k：ゼロショット画像分類評価用
MS-COCO：画像テキスト検索タスク評価用
その他の分類データセット：Stanford Cars、Flowers-102、Food-101、CIFAR-100（汎化性検証用）
参照データ：レジスタ検索用のImageNet-1k訓練セット50,000枚の画像

評価指標

ゼロショット分類精度：ImageNet-1kでのトップ1精度
検索性能：MS-COCOでのRecall@1およびRecall@5
外れ値分析：最大トークンノルムおよび平均トークンノルム

比較手法

基本量化アルゴリズム：
- PTQ4ViT：ViT用の双均一量化器
- RepQ-ViT：スケール再パラメータ化手法
- NoisyQuant：ノイズ強化活性化量化
精度設定：W8A8（8ビット重み8ビット活性化）およびW6A6（6ビット重み6ビット活性化）

実装の詳細

NoisyQuantおよびRepQ-ViT用にそれぞれ1,024および32個のキャリブレーションサンプルを使用
レジスタ候補数k=20、繰り返し回数範囲τ∈{1,...,15}
削除トークン数k̃は参照タスクを通じて調整

実験結果

主要な結果

ゼロショット画像分類（ImageNet-1k）

モデル	精度	ベースライン最良	RegCache最良	改善
CLIP-B/16	W8A8	67.69%	67.78%	+0.09%
CLIP-B/16	W6A6	58.19%	66.65%	+13.40%
SigLIP2-B/16	W8A8	76.92%	77.26%	+0.34%
SigLIP2-B/16	W6A6	64.91%	70.88%	+5.97%

画像テキスト検索（MS-COCO）

CLIP-B/16：すべての検索指標で平均3.76%-7.97%向上
SigLIP-B/16：Recall@1で0.20%向上、全体的に安定した性能向上

外れ値軽減効果

モデル	最大トークンノルム（元）	最大トークンノルム（RegCache）	削減率
CLIP	61.17	15.30	-75.0%
OpenCLIP	122.99	12.38	-89.9%
SigLIP2	244.78	30.45	-87.6%

アブレーション実験

SigLIP上のアブレーション研究により以下が示されました：

プレフィックスキャッシュのみ：精度が69.71%から74.21%に向上
トークン削除のみ：精度が38.51%に低下（プレフィックスサポートの必要性を証明）
完全なRegCache：精度が74.42%に達する

汎化性検証

ImageNet-1kで検索されたプレフィックスは他のデータセットでも有効です：

Stanford Cars：+1.78%～+47.47%
Food-101：+9.85%～+51.28%
CIFAR-100：+12.81%～+33.00%

結論と考察

主要な結論

RegCacheの有効性：複数のビジョンエンコーダと量化手法にわたって一貫した性能向上
外れ値軽減メカニズム：外れ値を内部トークンから外部で事前計算されたキャッシュへ成功裏に転送
汎用性：文本監督および自己監督ビジョンエンコーダに適用可能

限界

ハイパーパラメータ調整：最適な構成を決定するために複数のプレフィックス候補を評価する必要があります
追加のハイパーパラメータ：最大削除トークン数、プレフィックストークン数などのハイパーパラメータが導入されました
計算オーバーヘッド：FLOPsの増加は0.2%を超えませんが、依然として追加の計算コストがあります

将来の方向性

マルチモーダル差異研究：文本監督対自己監督モデルの量化動作の違いを深く理解
外れ値メカニズムの理解：ViTとLLMの外れ値動作の違いの根本原因をさらに研究
自動化最適化：最適なプレフィックス構成を自動的に決定する方法の開発

深層的評価

利点

問題の重要性：ビジョンエンコーダ量化における重要な技術的課題を解決
手法の革新性：レジスタ概念をビジョンエンコーダ量化に初めて導入、技術経路が新規
理論的洞察：ビジョンエンコーダとLLMの外れ値動作の本質的な違いを深く分析
実験の充実：5種類の主流ビジョンエンコーダと複数の量化アルゴリズムをカバー、結果に説得力あり
実用的価値：再訓練不要で、既存の量化パイプラインへの統合が容易

不足

理論分析の限定性：中間層プレフィックスが有効である理由の深層的な理論的説明が不足
ハイパーパラメータ感度：手法が複数のハイパーパラメータを含み、実際の展開の利便性に影響する可能性
計算オーバーヘッド分析：FLOPsの増加は小さいですが、メモリ使用量とレイテンシの詳細な分析が不足
適用範囲：主にViTアーキテクチャで検証、他のビジョンTransformerアーキテクチャへの適用性が十分に検証されていない

影響力

学術的貢献：ビジョンエンコーダ量化分野に新しい技術経路と理論的洞察を提供
実用的価値：既存ビジョンエンコーダの展開最適化に直接適用可能
再現性：手法の説明が明確で実験設定が詳細、優れた再現性を備えている
啓発性：クロスモーダルモデル最適化技術の移行に重要な参考を提供

適用シーン

エッジ展開：特にリソース制約のあるデバイスに大規模ビジョンエンコーダを展開する必要があるシーン
リアルタイムアプリケーション：自動運転、ロボット制御など低レイテンシ視覚処理が必要なアプリケーション
マルチモーダルシステム：CLIP類モデルの各種下流タスクでの量化展開
研究ツール：ビジョンTransformer量化研究に有効なベースライン手法を提供

参考文献

本論文は量化、注意メカニズム、ビジョンTransformerなど複数の分野の重要な研究を引用しており、以下を含みます：

CLIP、DINOv2などビジョンエンコーダの原論文
PTQ4ViT、RepQ-ViTなどViT量化手法
注意力シンクおよびレジスタトークン関連研究
LLM量化における外れ値処理手法

総合評価：これはビジョンエンコーダ量化分野において重要な貢献を持つ高品質な論文です。著者は有効な技術的解決策を提案するだけでなく、ビジョンエンコーダと言語モデルの外れ値動作の本質的な違いを深く分析し、この分野の発展に価値のある理論的洞察と実用的ツールを提供しています。