Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
Rios, Yuanda, Ghanz et al.
Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}
academic
Aggregazione della Cache tra Strati per la Riduzione dei Token nel Riconoscimento di Immagini Ultra-Granulare
Questo articolo propone un innovativo metodo di Aggregazione della Cache tra Strati (CLCA) per affrontare i problemi di efficienza computazionale nel riconoscimento di immagini ultra-granulare (UFGIR). L'UFGIR è un compito estremamente impegnativo che richiede la classificazione all'interno di macro-categorie, come l'identificazione di varietà vegetali. Sebbene i metodi basati su Vision Transformer abbiano ottenuto prestazioni eccellenti in questo compito, i costi computazionali sono significativamente aumentati. Per risolvere il problema della perdita di informazioni durante il processo di riduzione dei token, questo articolo propone una testa di classificazione con aggregazione tra strati (CLA) e un meccanismo di cache tra strati (CLC). Attraverso oltre 2000 esperimenti, il metodo dimostra di mantenere un'accuratezza comparabile ai metodi all'avanguardia attuali anche in condizioni estreme con un tasso di conservazione dei token ridotto al 10%.
Problema Centrale: Problemi di efficienza computazionale di Vision Transformer nel riconoscimento di immagini ultra-granulare (UFGIR)
Caratteristiche del Compito: L'UFGIR è più difficile del riconoscimento granulare tradizionale, richiedendo la distinzione di sottocategorie all'interno della stessa specie (ad esempio, varietà vegetali)
Sfide Esistenti:
ViT mostra prestazioni eccellenti nei compiti FGIR, ma con complessità computazionale O(N²) o addirittura O(N³)
Le immagini ad alta risoluzione sono cruciali per il riconoscimento granulare, ma aumentano ulteriormente il carico computazionale
Le tecniche di riduzione dei token possono ridurre i costi computazionali, ma causano la perdita di informazioni discriminative critiche
I metodi esistenti di riduzione dei token, nel ridurre i costi computazionali, inevitabilmente perdono informazioni cruciali per la classificazione granulare. In particolare, quando il tasso di conservazione dei token diminuisce, questa perdita di informazioni diventa più grave, influenzando le prestazioni di classificazione del modello.
Propone una Testa di Classificazione con Aggregazione tra Strati (CLA): Integra direttamente le caratteristiche degli strati intermedi del Transformer nel modulo di classificazione, fornendo informazioni discriminative più ricche
Progetta un Meccanismo di Cache tra Strati (CLC): Memorizza e ripristina le informazioni critiche dei strati precedenti, compensando la perdita di informazioni durante il processo di riduzione dei token
Costruisce un Framework CLCA Plug-and-Play: Un metodo completo che combina CLA e CLC, compatibile con molteplici tecniche di riduzione dei token
Verifica Sperimentale su Larga Scala: Conduce oltre 2000 esperimenti su 5 dataset, 9 architetture di backbone e 7 metodi di riduzione dei token, dimostrando l'efficacia e l'universalità del metodo
Input: Immagine ad alta risoluzione I ∈ R^(H×W×3)
Output: Previsione di categoria ultra-granulare y ∈ {1,2,...,C}
Vincoli: Ridurre significativamente i costi computazionali (FLOPs) mantenendo un'elevata accuratezza
Input: Output del token CLS da ciascun gruppo di encoder
1. Concatenazione e Rimodellamento delle Caratteristiche: CLS ∈ R^(D×g)
2. Elaborazione di Normalizzazione Batch
3. Aggregazione con Convoluzione Profonda: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. Attivazione Non-lineare: Modellazione di relazioni complesse tramite BatchNorm e GELU
5. Classificazione con Convoluzione Puntuale: preds = PWConv(GELU(BN(Agg)))
Strategia di Conservazione delle Informazioni: Preserva le informazioni critiche perse durante il processo di riduzione dei token attraverso un meccanismo di cache
Fusione di Caratteristiche tra Strati: Integra direttamente caratteristiche di diverse profondità nella decisione di classificazione
Design Plug-and-Play: Si integra perfettamente con molteplici metodi di riduzione dei token esistenti
Ottimizzazione del Gradiente: Il design simile alle connessioni di salto migliora la stabilità dell'addestramento
Questo articolo cita 32 importanti riferimenti che coprono i campi chiave del riconoscimento granulare, Vision Transformer e riduzione dei token, fornendo una base teorica solida per la ricerca.