2025-11-19T15:28:14.078632

Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition

Rios, Yuanda, Ghanz et al.
Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}
academic

Aggregazione della Cache tra Strati per la Riduzione dei Token nel Riconoscimento di Immagini Ultra-Granulare

Informazioni Fondamentali

  • ID Articolo: 2501.00243
  • Titolo: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
  • Autori: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu
  • Classificazione: cs.CV
  • Data di Pubblicazione: 31 dicembre 2024
  • Link Articolo: https://arxiv.org/abs/2501.00243
  • Link Codice: https://github.com/arkel23/CLCA

Riassunto

Questo articolo propone un innovativo metodo di Aggregazione della Cache tra Strati (CLCA) per affrontare i problemi di efficienza computazionale nel riconoscimento di immagini ultra-granulare (UFGIR). L'UFGIR è un compito estremamente impegnativo che richiede la classificazione all'interno di macro-categorie, come l'identificazione di varietà vegetali. Sebbene i metodi basati su Vision Transformer abbiano ottenuto prestazioni eccellenti in questo compito, i costi computazionali sono significativamente aumentati. Per risolvere il problema della perdita di informazioni durante il processo di riduzione dei token, questo articolo propone una testa di classificazione con aggregazione tra strati (CLA) e un meccanismo di cache tra strati (CLC). Attraverso oltre 2000 esperimenti, il metodo dimostra di mantenere un'accuratezza comparabile ai metodi all'avanguardia attuali anche in condizioni estreme con un tasso di conservazione dei token ridotto al 10%.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Problemi di efficienza computazionale di Vision Transformer nel riconoscimento di immagini ultra-granulare (UFGIR)
  2. Caratteristiche del Compito: L'UFGIR è più difficile del riconoscimento granulare tradizionale, richiedendo la distinzione di sottocategorie all'interno della stessa specie (ad esempio, varietà vegetali)
  3. Sfide Esistenti:
    • ViT mostra prestazioni eccellenti nei compiti FGIR, ma con complessità computazionale O(N²) o addirittura O(N³)
    • Le immagini ad alta risoluzione sono cruciali per il riconoscimento granulare, ma aumentano ulteriormente il carico computazionale
    • Le tecniche di riduzione dei token possono ridurre i costi computazionali, ma causano la perdita di informazioni discriminative critiche

Motivazione della Ricerca

I metodi esistenti di riduzione dei token, nel ridurre i costi computazionali, inevitabilmente perdono informazioni cruciali per la classificazione granulare. In particolare, quando il tasso di conservazione dei token diminuisce, questa perdita di informazioni diventa più grave, influenzando le prestazioni di classificazione del modello.

Contributi Principali

  1. Propone una Testa di Classificazione con Aggregazione tra Strati (CLA): Integra direttamente le caratteristiche degli strati intermedi del Transformer nel modulo di classificazione, fornendo informazioni discriminative più ricche
  2. Progetta un Meccanismo di Cache tra Strati (CLC): Memorizza e ripristina le informazioni critiche dei strati precedenti, compensando la perdita di informazioni durante il processo di riduzione dei token
  3. Costruisce un Framework CLCA Plug-and-Play: Un metodo completo che combina CLA e CLC, compatibile con molteplici tecniche di riduzione dei token
  4. Verifica Sperimentale su Larga Scala: Conduce oltre 2000 esperimenti su 5 dataset, 9 architetture di backbone e 7 metodi di riduzione dei token, dimostrando l'efficacia e l'universalità del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Immagine ad alta risoluzione I ∈ R^(H×W×3) Output: Previsione di categoria ultra-granulare y ∈ {1,2,...,C} Vincoli: Ridurre significativamente i costi computazionali (FLOPs) mantenendo un'elevata accuratezza

Architettura del Modello

1. Gruppo di Encoder Vision Transformer

  • Divide l'immagine in patch di dimensione P×P, appiattiti in una sequenza di lunghezza N=(S₁/P)×(S₂/P)
  • Aggiunge un token CLS apprendibile e codifiche posizionali
  • Divide gli L strati dell'encoder transformer in g gruppi, ciascuno contenente attenzione multi-testa (MHSA) e rete feed-forward posizionale (PWFFN)
  • Applica operazioni di riduzione dei token all'ultimo strato di ogni gruppo

2. Testa di Classificazione con Aggregazione tra Strati (CLA)

Il design principale della testa CLA include:

Input: Output del token CLS da ciascun gruppo di encoder
1. Concatenazione e Rimodellamento delle Caratteristiche: CLS ∈ R^(D×g)
2. Elaborazione di Normalizzazione Batch
3. Aggregazione con Convoluzione Profonda: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. Attivazione Non-lineare: Modellazione di relazioni complesse tramite BatchNorm e GELU
5. Classificazione con Convoluzione Puntuale: preds = PWConv(GELU(BN(Agg)))

3. Meccanismo di Cache tra Strati (CLC)

Il flusso di lavoro del CLC:

Fase di Memorizzazione:

  • Dopo ogni blocco dell'encoder transformer, memorizza il pooling medio globale (GAP) delle caratteristiche locali
  • Introduce un token di registro tra strati apprendibile (CLR) che aggrega informazioni discriminative tra strati
  • Memorizza le caratteristiche GAP e il token CLR nella cache

Fase di Ripristino:

  • Nella posizione di riduzione dei token o prima dell'ultimo strato, ripristina le informazioni memorizzate dal CLC
  • Aggiunge i token ripristinati alla sequenza originale
  • Svuota la cache per evitare il riutilizzo

Punti di Innovazione Tecnica

  1. Strategia di Conservazione delle Informazioni: Preserva le informazioni critiche perse durante il processo di riduzione dei token attraverso un meccanismo di cache
  2. Fusione di Caratteristiche tra Strati: Integra direttamente caratteristiche di diverse profondità nella decisione di classificazione
  3. Design Plug-and-Play: Si integra perfettamente con molteplici metodi di riduzione dei token esistenti
  4. Ottimizzazione del Gradiente: Il design simile alle connessioni di salto migliora la stabilità dell'addestramento

Configurazione Sperimentale

Dataset

Utilizza 5 dataset di foglie ultra-granulari:

  • SoyGene: Classificazione del genotipo di soia
  • SoyLocal: Varietà di soia locale
  • SoyAgeing: Stadio di invecchiamento della soia
  • SoyGlobal: Varietà di soia globale
  • Cotton: Varietà di cotone

Ogni categoria rappresenta nomi di varietà confermati ottenuti da banche di risorse genetiche.

Metriche di Valutazione

  • Metrica Principale: Accuratezza Top-1 (%)
  • Metriche di Efficienza: FLOPs (numero di operazioni in virgola mobile)
  • Metodo Statistico: Risultati medi su 3 semi casuali

Metodi di Confronto

Metodi SOTA: ViT, DeiT, TransFG, SIM-Tr, CSDNet Metodi di Riduzione dei Token:

  • Potatura Statica: DynamicViT
  • Potatura Dinamica: ATS
  • Fusione Morbida: SiT, PatchMerger
  • Fusione Rigida: DPCKNN, ToMe
  • Guidata dall'Attenzione: EViT

Dettagli di Implementazione

  • Ottimizzatore: AdamW
  • Numero di Epoche: 50
  • Decadimento dei Pesi: 0.05
  • Dimensione del Batch: 32
  • Dimensione dell'Immagine: 224×224, 448×448
  • Reti Backbone: 9 modelli pre-addestrati (ViT, DeiT3, MIIL, MoCov3, DINO, MAE, CLIP, ecc.)
  • Tassi di Conservazione: 100%, 70%, 50%, 25%, 10%
  • Posizioni di Riduzione dei Token: Strati 4, 7, 10 (ViT B-16 a 12 strati)

Risultati Sperimentali

Risultati Principali

MetodoCottonSoyAgeingSoyGlobalFLOPs (10⁹)
ViT52.567.040.678.5
DeiT54.269.545.378.5
TransFG54.672.221.2447.9
CSDNet57.975.456.378.5
CLCA (10%)55.687.461.125.2
CLCA (70%)67.888.358.250.9

Scoperte Chiave:

  • CLCA mantiene prestazioni comparabili al modello completo anche con un tasso di conservazione del 10%
  • Nel dataset SoyAgeing, CLCA(10%) supera il miglior metodo di base del 12%
  • I costi computazionali si riducono al 32% dell'originale (25.2 vs 78.5 FLOPs)

Esperimenti di Ablazione

Attraverso l'analisi del gradiente viene verificata l'efficacia del CLCA:

  • Stabilità dell'Addestramento: CLCA migliora significativamente la stabilità del gradiente, riducendo le oscillazioni durante l'addestramento
  • Riutilizzo delle Caratteristiche: Le connessioni tra strati promuovono il riutilizzo delle caratteristiche, simile alle connessioni di salto in ResNet
  • Supervisione Profonda: L'utilizzo diretto delle caratteristiche degli strati intermedi fornisce una supervisione profonda implicita

Verifica della Generalizzazione

Gli esperimenti su diversi metodi di riduzione dei token dimostrano:

  • CLCA è compatibile con 7 diversi paradigmi di riduzione dei token
  • Miglioramenti su 9 diverse reti backbone pre-addestrate
  • I miglioramenti di prestazioni rimangono coerenti su diversi tassi di conservazione (25%, 50%, 70%)

Lavori Correlati

Riconoscimento di Immagini Granulare

  • FGIR Tradizionale: Principalmente focalizzato sulla classificazione a livello di specie
  • Riconoscimento Ultra-Granulare: Esteso alla classificazione di sottocategorie all'interno della specie, come varietà vegetali
  • Applicazione di ViT in FGIR: Vantaggi del campo ricettivo globale, ma costi computazionali elevati

Tecniche di Riduzione dei Token

  • Potatura dei Token: Scarta token non importanti basandosi su punteggi di importanza
  • Fusione dei Token: Unisce più token in uno, riducendo la lunghezza della sequenza
  • Limitazioni Esistenti: Inevitabilmente perdono informazioni discriminative, specialmente a bassi tassi di conservazione

Conclusioni e Discussione

Conclusioni Principali

  1. Miglioramento dell'Efficienza: CLCA mantiene prestazioni competitive anche con tassi di conservazione dei token estremamente bassi (10%)
  2. Universalità: Il metodo è compatibile con molteplici tecniche di riduzione dei token e reti backbone
  3. Valore Pratico: Fornisce una soluzione efficace per il riconoscimento granulare in ambienti con risorse limitate

Limitazioni

  1. Sovraccarico di Memoria Aggiuntivo: Il meccanismo CLC richiede memoria aggiuntiva per memorizzare le caratteristiche intermedie
  2. Sensibilità ai Iperparametri: La strategia di cache e il metodo di aggregazione potrebbero richiedere regolazioni per diversi compiti
  3. Limitazioni del Dataset: Principalmente verificato su dataset di foglie, la generalizzazione ad altri domini granulari rimane da verificare

Direzioni Future

  1. Strategie di Cache Adattive: Regolazione dinamica del contenuto e della tempistica della cache in base alle caratteristiche del compito
  2. Meccanismi di Aggregazione più Efficienti: Esplorazione di metodi di fusione delle caratteristiche tra strati più leggeri
  3. Estensione Multimodale: Estensione del metodo a compiti di riconoscimento granulare multimodale

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo approccio sistematico per affrontare la perdita di informazioni nella riduzione dei token
  2. Sperimentazione Completa: Oltre 2000 esperimenti che coprono molteplici dimensioni, risultati affidabili
  3. Elevato Valore Pratico: Il design plug-and-play facilita l'applicazione pratica
  4. Fondamento Teorico Solido: Spiegazione dell'efficacia del metodo da prospettive di ottimizzazione del gradiente e riutilizzo delle caratteristiche

Insufficienze

  1. Sovraccarico di Memoria: Il meccanismo CLC aumenta l'utilizzo della memoria, potenzialmente compensando parte dei benefici di efficienza
  2. Complessità: Introduce iperparametri aggiuntivi e scelte di design
  3. Specificità del Dominio: Principalmente verificato su riconoscimento di foglie correlato all'agricoltura, generalizzazione limitata

Impatto

  1. Valore Accademico: Fornisce nuove prospettive e soluzioni al campo della riduzione dei token
  2. Significato Pratico: Importanza significativa per il calcolo edge e le applicazioni mobili con risorse limitate
  3. Riproducibilità: Fornisce implementazione di codice completa, facilitando ricerche successive

Scenari Applicabili

  1. Calcolo Edge: Dispositivi mobili e sistemi embedded con risorse computazionali limitate
  2. Applicazioni in Tempo Reale: Compiti di riconoscimento granulare che richiedono risposte rapide
  3. Distribuzione su Larga Scala: Sistemi di monitoraggio agricolo che richiedono distribuzione su numerosi dispositivi
  4. Piattaforma di Ricerca: Come modulo di potenziamento per altri metodi di riduzione dei token

Bibliografia

Questo articolo cita 32 importanti riferimenti che coprono i campi chiave del riconoscimento granulare, Vision Transformer e riduzione dei token, fornendo una base teorica solida per la ricerca.