Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
論文ID : 2510.04547タイトル : Post-training quantization of vision encoders needs prefixing registers著者 : Seunghyeon Kim (POSTECH)、Jinho Kim (Dankook University)、Taesun Yeom (POSTECH)、Wonpyo Park (Google)、Kyuyeun Kim (Google)、Jaeho Lee (POSTECH)分類 : cs.LG、cs.CV発表時期 : 2025年10月(プレプリント)論文リンク : https://arxiv.org/abs/2510.04547v2 Transformerベースのビジョンエンコーダ(CLIPなど)はマルチモーダルインテリジェンスの中核であり、自動Webエージェントからロボット制御まで、様々なアプリケーションを支えています。これらのアプリケーションは多くの場合、大規模な視覚データのリアルタイム処理を要求するため、ビジョンエンコーダの推論コストを削減することが重要です。学習後量化(Post-training Quantization, PTQ)は実用的な手段を提供しますが、大規模な活性化値(すなわち外れ値)のため、8ビット精度でも依然として困難です。本研究では、ビジョンエンコーダの外れ値を軽減するための訓練不要なアルゴリズムであるRegCache を提案し、有意に小さい精度低下での量化を実現します。提案するRegCacheは、外れ値が発生しやすいが意味的に無意味なプレフィックストークンをターゲットビジョンエンコーダに導入し、他のトークンが外れ値を持つことを防止します。注目すべきことに、ビジョンエンコーダの外れ値は言語モデルのそれと異なる動作を示し、中間層プレフィックスとトークン削除という2つの技術的革新を動機付けます。実験により、提案手法は文本監督および自己監督ビジョンエンコーダの両方において、量化モデルの精度を一貫して向上させることが示されています。
本研究は、Transformerベースのビジョンエンコーダ(CLIP、DINOv2など)の学習後量化(PTQ)プロセスにおける活性化値の外れ値(outliers)問題の解決を目指しています。これらの外れ値は量化精度の低下をもたらし、8ビット精度でさえモデル性能に大きな影響を与えます。
実用的需要 :ビジョンエンコーダは自動運転、ロボット制御などのエッジデバイスアプリケーションで大量の視覚データをリアルタイムで処理する必要があります計算コスト :推論コストの削減は、リソース制約のあるデバイスに大規模ビジョンモデルを展開する際に重要です量化の課題 :活性化値の量化は重み量化よりも困難であり、特に計算制約のあるシナリオでは顕著ですLLM手法の不適用性 :大規模言語モデル向けの既存の外れ値軽減戦略は異なる精度または量化範囲を必要とし、実装が複雑で計算オーバーヘッドが大きいです静的量化の困難性 :これらの手法は静的活性化量化への適用が困難ですビジョンエンコーダの特殊性 :言語モデルと異なり、ビジョンエンコーダは事前定義された意味的に無意味なトークン(<BOS>、<SEP>など)を欠いていますRegCacheアルゴリズムの提案 :プレフィックスレジスタトークンを通じてビジョンエンコーダの外れ値を削減する訓練不要なアルゴリズムビジョンエンコーダの外れ値特性の発見 :ビジョンエンコーダの外れ値動作が言語モデルと大きく異なり、外れ値が早期層ではなく中間層に出現することを証明技術的革新 :中間層プレフィックスとトークン削除という2つの重要な技術を提案広範な検証 :複数の文本監督および自己監督ビジョンエンコーダで手法の有効性を検証事前訓練されたビジョンエンコーダが与えられたとき、外部レジスタトークンを導入することで量化に敏感な層の外れ値を軽減し、推論効率を維持しながら量化後モデルの精度を向上させることが目標です。
論文は3つの重要な観察に基づいて解決策を提案しています:
層別量化感度 :ビジョンエンコーダの量化感度は主に中間層に集中しており、早期層ではありません外れ値トークンの汎用性 :中間層に出現する外れ値トークンは異なる画像間で高度に類似しています(コサイン類似度0.89対0.26)中間層出現メカニズム :ビジョンエンコーダはどのトークンが意味的に無意義かを識別するために最初の数層での処理が必要ですRegCacheは3つの主要なステップを含みます:
S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}
量化に敏感な層lqを識別します(層別量化感度分析を通じて) 参照画像プールから最大ℓ∞ノルムを持つ上位k個のトークンをレジスタ候補として選択 ImageNet-1k訓練セットの50,000枚のランダム画像を参照プールとして使用 (z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
各レジスタ候補のキー値キャッシュを計算 グリッドサーチを通じて最適なレジスタzと繰り返し回数τ を決定 選択されたKVキャッシュを量化に敏感な層およびその後続層に挿入 D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
量化に敏感な層の入力にトークン削除層を追加 推論時に最大ℓ∞ノルムを持つ上位k̃個の内部出現シンクトークンを削除 中間層プレフィックス戦略 :LLMの早期層プレフィックスと異なり、ビジョンエンコーダの中間層特性に合わせて設計汎用レジスタ発見 :異なる画像間での外れ値トークンの類似性を利用して汎用レジスタを構築追加削除メカニズム :外部で事前計算されたキャッシュを通じて内部出現するシンクトークンを置き換え、活性化量化範囲への影響を回避ImageNet-1k :ゼロショット画像分類評価用MS-COCO :画像テキスト検索タスク評価用その他の分類データセット :Stanford Cars、Flowers-102、Food-101、CIFAR-100(汎化性検証用)参照データ :レジスタ検索用のImageNet-1k訓練セット50,000枚の画像ゼロショット分類精度 :ImageNet-1kでのトップ1精度検索性能 :MS-COCOでのRecall@1およびRecall@5外れ値分析 :最大トークンノルムおよび平均トークンノルム基本量化アルゴリズム :
PTQ4ViT:ViT用の双均一量化器 RepQ-ViT:スケール再パラメータ化手法 NoisyQuant:ノイズ強化活性化量化 精度設定 :W8A8(8ビット重み8ビット活性化)およびW6A6(6ビット重み6ビット活性化)NoisyQuantおよびRepQ-ViT用にそれぞれ1,024および32個のキャリブレーションサンプルを使用 レジスタ候補数k=20、繰り返し回数範囲τ∈{1,...,15} 削除トークン数k̃は参照タスクを通じて調整 モデル 精度 ベースライン最良 RegCache最良 改善 CLIP-B/16 W8A8 67.69% 67.78% +0.09% CLIP-B/16 W6A6 58.19% 66.65% +13.40% SigLIP2-B/16 W8A8 76.92% 77.26% +0.34% SigLIP2-B/16 W6A6 64.91% 70.88% +5.97%
CLIP-B/16 :すべての検索指標で平均3.76%-7.97%向上SigLIP-B/16 :Recall@1で0.20%向上、全体的に安定した性能向上モデル 最大トークンノルム(元) 最大トークンノルム(RegCache) 削減率 CLIP 61.17 15.30 -75.0% OpenCLIP 122.99 12.38 -89.9% SigLIP2 244.78 30.45 -87.6%
SigLIP上のアブレーション研究により以下が示されました:
プレフィックスキャッシュのみ :精度が69.71%から74.21%に向上トークン削除のみ :精度が38.51%に低下(プレフィックスサポートの必要性を証明)完全なRegCache :精度が74.42%に達するImageNet-1kで検索されたプレフィックスは他のデータセットでも有効です:
Stanford Cars:+1.78%~+47.47% Food-101:+9.85%~+51.28% CIFAR-100:+12.81%~+33.00% 大規模Transformerにおける活性化値外れ値の体系的研究 LLMにおける特定トークン(<BOS>、<SEP>など)の外れ値動作 ViTの外れ値は通常、情報量の少ない背景パッチに対応 Attention sink:過度な注意を引き付けるが意味情報がほとんどないトークン 訓練時にレジスタトークンを追加して注意力を吸収し、attention sinkを軽減 本論文はPTQの観点からシンクトークンを利用して量化性能を改善 初期手法:注意力に敏感な層に動的ビット幅を割り当て 既存手法:特殊な量化スキームを通じて外れ値の影響を隔離・最小化 本論文の手法:量化器の粒度ではなくトークンプレフィックスを通じて外れ値を処理 RegCacheの有効性 :複数のビジョンエンコーダと量化手法にわたって一貫した性能向上外れ値軽減メカニズム :外れ値を内部トークンから外部で事前計算されたキャッシュへ成功裏に転送汎用性 :文本監督および自己監督ビジョンエンコーダに適用可能ハイパーパラメータ調整 :最適な構成を決定するために複数のプレフィックス候補を評価する必要があります追加のハイパーパラメータ :最大削除トークン数、プレフィックストークン数などのハイパーパラメータが導入されました計算オーバーヘッド :FLOPsの増加は0.2%を超えませんが、依然として追加の計算コストがありますマルチモーダル差異研究 :文本監督対自己監督モデルの量化動作の違いを深く理解外れ値メカニズムの理解 :ViTとLLMの外れ値動作の違いの根本原因をさらに研究自動化最適化 :最適なプレフィックス構成を自動的に決定する方法の開発問題の重要性 :ビジョンエンコーダ量化における重要な技術的課題を解決手法の革新性 :レジスタ概念をビジョンエンコーダ量化に初めて導入、技術経路が新規理論的洞察 :ビジョンエンコーダとLLMの外れ値動作の本質的な違いを深く分析実験の充実 :5種類の主流ビジョンエンコーダと複数の量化アルゴリズムをカバー、結果に説得力あり実用的価値 :再訓練不要で、既存の量化パイプラインへの統合が容易理論分析の限定性 :中間層プレフィックスが有効である理由の深層的な理論的説明が不足ハイパーパラメータ感度 :手法が複数のハイパーパラメータを含み、実際の展開の利便性に影響する可能性計算オーバーヘッド分析 :FLOPsの増加は小さいですが、メモリ使用量とレイテンシの詳細な分析が不足適用範囲 :主にViTアーキテクチャで検証、他のビジョンTransformerアーキテクチャへの適用性が十分に検証されていない学術的貢献 :ビジョンエンコーダ量化分野に新しい技術経路と理論的洞察を提供実用的価値 :既存ビジョンエンコーダの展開最適化に直接適用可能再現性 :手法の説明が明確で実験設定が詳細、優れた再現性を備えている啓発性 :クロスモーダルモデル最適化技術の移行に重要な参考を提供エッジ展開 :特にリソース制約のあるデバイスに大規模ビジョンエンコーダを展開する必要があるシーンリアルタイムアプリケーション :自動運転、ロボット制御など低レイテンシ視覚処理が必要なアプリケーションマルチモーダルシステム :CLIP類モデルの各種下流タスクでの量化展開研究ツール :ビジョンTransformer量化研究に有効なベースライン手法を提供本論文は量化、注意メカニズム、ビジョンTransformerなど複数の分野の重要な研究を引用しており、以下を含みます:
CLIP、DINOv2などビジョンエンコーダの原論文 PTQ4ViT、RepQ-ViTなどViT量化手法 注意力シンクおよびレジスタトークン関連研究 LLM量化における外れ値処理手法 総合評価 :これはビジョンエンコーダ量化分野において重要な貢献を持つ高品質な論文です。著者は有効な技術的解決策を提案するだけでなく、ビジョンエンコーダと言語モデルの外れ値動作の本質的な違いを深く分析し、この分野の発展に価値のある理論的洞察と実用的ツールを提供しています。