2025-11-19T15:28:14.078632

Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition

Rios, Yuanda, Ghanz et al.
Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}
academic

超微細粒度画像認識におけるトークン削減のための層間キャッシュ集約

基本情報

  • 論文ID: 2501.00243
  • タイトル: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
  • 著者: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu
  • 分類: cs.CV
  • 発表日: 2024年12月31日
  • 論文リンク: https://arxiv.org/abs/2501.00243
  • コードリンク: https://github.com/arkel23/CLCA

要約

本論文は、超微細粒度画像認識(UFGIR)タスクにおける計算効率の問題に対して、新規な層間キャッシュ集約(CLCA)手法を提案している。UFGIRは極めて困難なタスクであり、植物品種の識別など、マクロカテゴリ内での分類を必要とする。Vision Transformerベースの手法はこのタスクで優れた性能を達成しているが、計算コストが著しく増加する。トークン削減プロセスにおける情報損失の問題を解決するため、本論文は層間集約分類ヘッド(CLA)と層間キャッシュ機構(CLC)を提案し、2000回以上の実験を通じて検証した結果、トークン保持率が10%という極端な条件下でも、既存の最先端手法と同等の精度を維持できることを示している。

研究背景と動機

問題定義

  1. 中核的問題: 超微細粒度画像認識(UFGIR)におけるVision Transformerの計算効率問題
  2. タスク特性: UFGIRは従来の微細粒度認識よりも困難であり、同一物種内の部分カテゴリ(例えば植物品種)を区別する必要がある
  3. 既存の課題:
    • ViTはFGIRタスクで優れた性能を示すが、計算複雑度はO(N²)またはO(N³)である
    • 高解像度画像は微細粒度認識に不可欠であるが、計算負荷をさらに増加させる
    • トークン削減技術は計算コストを低減できるが、微細粒度分類に重要な判別情報の損失を招く

研究動機

既存のトークン削減手法は、計算コストを低減する一方で、微細粒度分類に不可欠な情報を必然的に失っている。特にトークン保持率が低下する場合、この情報損失はより深刻となり、モデルの分類性能に影響を与える。

核心的貢献

  1. 層間集約(CLA)分類ヘッドの提案: Transformerの中間層の特徴を分類モジュールに直接統合し、より豊富な判別情報を提供する
  2. 層間キャッシュ(CLC)機構の設計: 先行層の重要情報を保存・復元し、トークン削減プロセスにおける情報損失を補償する
  3. プラグアンドプレイ型CLCAフレームワークの構築: CLAとCLCを組み合わせた完全な手法であり、複数のトークン削減技術と互換性がある
  4. 大規模実験検証: 5つのデータセット、9種類のバックボーン、7種類のトークン削減手法上で2000回以上の実験を実施し、手法の有効性と汎用性を実証している

手法の詳細

タスク定義

入力: 高解像度画像 I ∈ R^(H×W×3) 出力: 超微細粒度カテゴリ予測 y ∈ {1,2,...,C} 制約: 高精度を維持しながら計算コスト(FLOPs)を大幅に削減する

モデルアーキテクチャ

1. Vision Transformerエンコーダグループ

  • 画像をP×Pサイズのパッチに分割し、長さN=(S₁/P)×(S₂/P)の系列に平坦化する
  • 学習可能なCLSトークンと位置エンコーディングを追加する
  • L層のtransformerエンコーダをgグループに分割し、各グループは多頭自己注意(MHSA)と位置フィードフォワードネットワーク(PWFFN)を含む
  • 各グループの最後の層でトークン削減操作を適用する

2. 層間集約(CLA)分類ヘッド

CLAヘッドの中核設計は以下を含む:

入力: 各エンコーダグループのCLSトークン出力
1. 特徴連結と再形成: CLS ∈ R^(D×g)
2. バッチ正規化処理
3. 深度方向畳み込み集約: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. 非線形活性化: BatchNormとGELUを通じた複雑な関係のモデル化
5. ポイント畳み込み分類: preds = PWConv(GELU(BN(Agg)))

3. 層間キャッシュ(CLC)機構

CLCの動作フロー:

キャッシュ段階:

  • 各transformerエンコーダブロック後、局所特徴のグローバル平均プーリング(GAP)を保存する
  • 層間判別情報を集約する学習可能な層間レジスタ(CLR)トークンを導入する
  • GAP特徴とCLRトークンをキャッシュに保存する

復元段階:

  • トークン削減位置後または最後の層前にCLCから保存情報を復元する
  • 復元されたトークンを元の系列に追加する
  • 重複使用を避けるためキャッシュをクリアする

技術的革新点

  1. 情報保持戦略: キャッシュ機構を通じてトークン削減プロセスで失われた重要情報を保存する
  2. 層間特徴融合: 異なる深さの特徴を分類決定に直接統合する
  3. プラグアンドプレイ設計: 既存の複数のトークン削減手法とシームレスに統合できる
  4. 勾配最適化: スキップ接続に類似した設計により訓練の安定性を改善する

実験設定

データセット

5つの超微細粒度葉画像データセットを使用:

  • SoyGene: ダイズ遺伝子型分類
  • SoyLocal: 地域ダイズ品種
  • SoyAgeing: ダイズ老化段階
  • SoyGlobal: 世界的ダイズ品種
  • Cotton: 綿花品種

各カテゴリは遺伝資源ライブラリから取得した確認済み品種名を表す。

評価指標

  • 主要指標: Top-1精度(%)
  • 効率指標: FLOPs(浮動小数点演算数)
  • 統計手法: 3つのランダムシードの平均結果

比較手法

SOTA手法: ViT, DeiT, TransFG, SIM-Tr, CSDNet トークン削減手法:

  • 静的剪定: DynamicViT
  • 動的剪定: ATS
  • ソフトマージ: SiT, PatchMerger
  • ハードマージ: DPCKNN, ToMe
  • 注意駆動: EViT

実装詳細

  • オプティマイザ: AdamW
  • 訓練エポック: 50
  • 重み減衰: 0.05
  • バッチサイズ: 32
  • 画像サイズ: 224×224, 448×448
  • バックボーン: 9種類の事前学習モデル(ViT, DeiT3, MIIL, MoCov3, DINO, MAE, CLIPなど)
  • 保持率: 100%, 70%, 50%, 25%, 10%
  • トークン削減位置: 第4、7、10層(12層ViT B-16)

実験結果

主要結果

手法CottonSoyAgeingSoyGlobalFLOPs (10⁹)
ViT52.567.040.678.5
DeiT54.269.545.378.5
TransFG54.672.221.2447.9
CSDNet57.975.456.378.5
CLCA (10%)55.687.461.125.2
CLCA (70%)67.888.358.250.9

主要な発見:

  • CLCAは10%保持率でも完全なモデルと同等の性能を達成できる
  • SoyAgeingデータセットでは、CLCA(10%)が最良ベースライン手法を12%上回る
  • 計算コストは元の32%に削減される(25.2対78.5 FLOPs)

アブレーション実験

勾配分析を通じてCLCAの有効性を検証:

  • 訓練安定性: CLCAは勾配の安定性を著しく改善し、訓練プロセスの振動を減少させる
  • 特徴再利用: 層間接続は特徴再利用を促進し、ResNetのスキップ接続に類似している
  • 深度監視: 中間層特徴の直接利用は暗黙的な深度監視を提供する

汎化性検証

異なるトークン削減手法上での実験により以下を示唆:

  • CLCAは7種類の異なるパラダイムのトークン削減手法と互換性がある
  • 9種類の異なる事前学習バックボーン上でいずれも改善が見られる
  • 性能向上は異なる保持率(25%, 50%, 70%)下で一貫性を保つ

関連研究

微細粒度画像認識

  • 従来型FGIR: 主に物種レベルの分類を扱う
  • 超微細粒度認識: 物種内の部分カテゴリ分類に拡張、例えば植物品種
  • FGIRにおけるViTの応用: グローバル受容野の利点があるが、計算コストが高い

トークン削減技術

  • トークン剪定: 重要度スコアに基づいて重要でないトークンを破棄する
  • トークンマージ: 複数のトークンを1つにマージし、系列長を削減する
  • 既存の制限: 特に低保持率下で判別情報の損失を必然的に招く

結論と考察

主要な結論

  1. 効率向上: CLCAは極めて低いトークン保持率(10%)下で競争力のある性能を維持できる
  2. 汎用性: 手法は複数のトークン削減技術とバックボーンと互換性がある
  3. 実用的価値: リソース制約環境下での微細粒度認識に有効なソリューションを提供する

制限事項

  1. 追加ストレージオーバーヘッド: CLC機構は中間特徴の追加メモリ保存を必要とする
  2. ハイパーパラメータ感度: キャッシュ戦略と集約方式は異なるタスクに対して調整が必要な可能性がある
  3. データセット制限: 主に葉画像データセット上で検証されており、他の微細粒度領域への汎化性は今後の課題である

今後の方向性

  1. 適応的キャッシュ戦略: タスク特性に応じてキャッシュ内容とタイミングを動的に調整する
  2. より効率的な集約機構: より軽量な層間特徴融合手法を探索する
  3. マルチモーダル拡張: マルチモーダル微細粒度認識タスクへの手法拡張

深層的評価

利点

  1. 革新性が高い: トークン削減における情報損失問題を初めて体系的に解決する
  2. 実験が充分: 2000回以上の実験が複数の次元をカバーし、結果の信頼性が高い
  3. 実用的価値が高い: プラグアンドプレイ設計により実際の応用が容易である
  4. 理論的基礎が堅実: 勾配最適化と特徴再利用の観点から手法の有効性を説明している

不足点

  1. ストレージオーバーヘッド: CLC機構はメモリ使用量を増加させ、効率向上の一部を相殺する可能性がある
  2. 複雑性: 追加のハイパーパラメータと設計選択肢が導入される
  3. 領域特異性: 主に農業関連の葉認識上で検証されており、汎化性が限定的である

影響力

  1. 学術的価値: トークン削減領域に新しい思考と解決策を提供する
  2. 実用的意義: リソース制約のあるエッジコンピューティングとモバイルアプリケーションに重要な価値を持つ
  3. 再現性: 完全なコード実装が提供されており、後続研究が容易である

適用シーン

  1. エッジコンピューティング: 計算リソースが制限されたモバイルデバイスと組込みシステム
  2. リアルタイムアプリケーション: 迅速な応答が必要な微細粒度認識タスク
  3. 大規模展開: 多数のデバイスに展開する必要がある農業監視システム
  4. 研究プラットフォーム: 他のトークン削減手法の強化モジュールとして

参考文献

本論文は32篇の重要な文献を引用しており、微細粒度認識、Vision Transformer、トークン削減などの主要領域の古典的研究をカバーしており、研究に堅実な理論的基礎を提供している。