2025-11-19T15:28:14.078632

Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition

Rios, Yuanda, Ghanz et al.

Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}

academic

Aggregazione della Cache tra Strati per la Riduzione dei Token nel Riconoscimento di Immagini Ultra-Granulare

Informazioni Fondamentali

ID Articolo: 2501.00243
Titolo: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
Autori: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu
Classificazione: cs.CV
Data di Pubblicazione: 31 dicembre 2024
Link Articolo: https://arxiv.org/abs/2501.00243
Link Codice: https://github.com/arkel23/CLCA

Riassunto

Questo articolo propone un innovativo metodo di Aggregazione della Cache tra Strati (CLCA) per affrontare i problemi di efficienza computazionale nel riconoscimento di immagini ultra-granulare (UFGIR). L'UFGIR è un compito estremamente impegnativo che richiede la classificazione all'interno di macro-categorie, come l'identificazione di varietà vegetali. Sebbene i metodi basati su Vision Transformer abbiano ottenuto prestazioni eccellenti in questo compito, i costi computazionali sono significativamente aumentati. Per risolvere il problema della perdita di informazioni durante il processo di riduzione dei token, questo articolo propone una testa di classificazione con aggregazione tra strati (CLA) e un meccanismo di cache tra strati (CLC). Attraverso oltre 2000 esperimenti, il metodo dimostra di mantenere un'accuratezza comparabile ai metodi all'avanguardia attuali anche in condizioni estreme con un tasso di conservazione dei token ridotto al 10%.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Problemi di efficienza computazionale di Vision Transformer nel riconoscimento di immagini ultra-granulare (UFGIR)
Caratteristiche del Compito: L'UFGIR è più difficile del riconoscimento granulare tradizionale, richiedendo la distinzione di sottocategorie all'interno della stessa specie (ad esempio, varietà vegetali)
Sfide Esistenti:
- ViT mostra prestazioni eccellenti nei compiti FGIR, ma con complessità computazionale O(N²) o addirittura O(N³)
- Le immagini ad alta risoluzione sono cruciali per il riconoscimento granulare, ma aumentano ulteriormente il carico computazionale
- Le tecniche di riduzione dei token possono ridurre i costi computazionali, ma causano la perdita di informazioni discriminative critiche

Motivazione della Ricerca

I metodi esistenti di riduzione dei token, nel ridurre i costi computazionali, inevitabilmente perdono informazioni cruciali per la classificazione granulare. In particolare, quando il tasso di conservazione dei token diminuisce, questa perdita di informazioni diventa più grave, influenzando le prestazioni di classificazione del modello.

Contributi Principali

Propone una Testa di Classificazione con Aggregazione tra Strati (CLA): Integra direttamente le caratteristiche degli strati intermedi del Transformer nel modulo di classificazione, fornendo informazioni discriminative più ricche
Progetta un Meccanismo di Cache tra Strati (CLC): Memorizza e ripristina le informazioni critiche dei strati precedenti, compensando la perdita di informazioni durante il processo di riduzione dei token
Costruisce un Framework CLCA Plug-and-Play: Un metodo completo che combina CLA e CLC, compatibile con molteplici tecniche di riduzione dei token
Verifica Sperimentale su Larga Scala: Conduce oltre 2000 esperimenti su 5 dataset, 9 architetture di backbone e 7 metodi di riduzione dei token, dimostrando l'efficacia e l'universalità del metodo

Divide l'immagine in patch di dimensione P×P, appiattiti in una sequenza di lunghezza N=(S₁/P)×(S₂/P)
Aggiunge un token CLS apprendibile e codifiche posizionali
Divide gli L strati dell'encoder transformer in g gruppi, ciascuno contenente attenzione multi-testa (MHSA) e rete feed-forward posizionale (PWFFN)
Applica operazioni di riduzione dei token all'ultimo strato di ogni gruppo

2. Testa di Classificazione con Aggregazione tra Strati (CLA)

Il design principale della testa CLA include:

Input: Output del token CLS da ciascun gruppo di encoder
1. Concatenazione e Rimodellamento delle Caratteristiche: CLS ∈ R^(D×g)
2. Elaborazione di Normalizzazione Batch
3. Aggregazione con Convoluzione Profonda: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. Attivazione Non-lineare: Modellazione di relazioni complesse tramite BatchNorm e GELU
5. Classificazione con Convoluzione Puntuale: preds = PWConv(GELU(BN(Agg)))

3. Meccanismo di Cache tra Strati (CLC)

Il flusso di lavoro del CLC:

Fase di Memorizzazione:

Dopo ogni blocco dell'encoder transformer, memorizza il pooling medio globale (GAP) delle caratteristiche locali
Introduce un token di registro tra strati apprendibile (CLR) che aggrega informazioni discriminative tra strati
Memorizza le caratteristiche GAP e il token CLR nella cache

Fase di Ripristino:

Nella posizione di riduzione dei token o prima dell'ultimo strato, ripristina le informazioni memorizzate dal CLC
Aggiunge i token ripristinati alla sequenza originale
Svuota la cache per evitare il riutilizzo

Punti di Innovazione Tecnica

Strategia di Conservazione delle Informazioni: Preserva le informazioni critiche perse durante il processo di riduzione dei token attraverso un meccanismo di cache
Fusione di Caratteristiche tra Strati: Integra direttamente caratteristiche di diverse profondità nella decisione di classificazione
Design Plug-and-Play: Si integra perfettamente con molteplici metodi di riduzione dei token esistenti
Ottimizzazione del Gradiente: Il design simile alle connessioni di salto migliora la stabilità dell'addestramento

Configurazione Sperimentale

Dataset

Utilizza 5 dataset di foglie ultra-granulari:

SoyGene: Classificazione del genotipo di soia
SoyLocal: Varietà di soia locale
SoyAgeing: Stadio di invecchiamento della soia
SoyGlobal: Varietà di soia globale
Cotton: Varietà di cotone

Ogni categoria rappresenta nomi di varietà confermati ottenuti da banche di risorse genetiche.

Metriche di Valutazione

Metrica Principale: Accuratezza Top-1 (%)
Metriche di Efficienza: FLOPs (numero di operazioni in virgola mobile)
Metodo Statistico: Risultati medi su 3 semi casuali

Metodi di Confronto

Metodi SOTA: ViT, DeiT, TransFG, SIM-Tr, CSDNet Metodi di Riduzione dei Token:

Potatura Statica: DynamicViT
Potatura Dinamica: ATS
Fusione Morbida: SiT, PatchMerger
Fusione Rigida: DPCKNN, ToMe
Guidata dall'Attenzione: EViT

Dettagli di Implementazione

Ottimizzatore: AdamW
Numero di Epoche: 50
Decadimento dei Pesi: 0.05
Dimensione del Batch: 32
Dimensione dell'Immagine: 224×224, 448×448
Reti Backbone: 9 modelli pre-addestrati (ViT, DeiT3, MIIL, MoCov3, DINO, MAE, CLIP, ecc.)
Tassi di Conservazione: 100%, 70%, 50%, 25%, 10%
Posizioni di Riduzione dei Token: Strati 4, 7, 10 (ViT B-16 a 12 strati)

Risultati Sperimentali

Risultati Principali

Metodo	Cotton	SoyAgeing	SoyGlobal	FLOPs (10⁹)
ViT	52.5	67.0	40.6	78.5
DeiT	54.2	69.5	45.3	78.5
TransFG	54.6	72.2	21.2	447.9
CSDNet	57.9	75.4	56.3	78.5
CLCA (10%)	55.6	87.4	61.1	25.2
CLCA (70%)	67.8	88.3	58.2	50.9

Scoperte Chiave:

CLCA mantiene prestazioni comparabili al modello completo anche con un tasso di conservazione del 10%
Nel dataset SoyAgeing, CLCA(10%) supera il miglior metodo di base del 12%
I costi computazionali si riducono al 32% dell'originale (25.2 vs 78.5 FLOPs)

Esperimenti di Ablazione

Attraverso l'analisi del gradiente viene verificata l'efficacia del CLCA:

Stabilità dell'Addestramento: CLCA migliora significativamente la stabilità del gradiente, riducendo le oscillazioni durante l'addestramento
Riutilizzo delle Caratteristiche: Le connessioni tra strati promuovono il riutilizzo delle caratteristiche, simile alle connessioni di salto in ResNet
Supervisione Profonda: L'utilizzo diretto delle caratteristiche degli strati intermedi fornisce una supervisione profonda implicita

Verifica della Generalizzazione

Gli esperimenti su diversi metodi di riduzione dei token dimostrano:

CLCA è compatibile con 7 diversi paradigmi di riduzione dei token
Miglioramenti su 9 diverse reti backbone pre-addestrate
I miglioramenti di prestazioni rimangono coerenti su diversi tassi di conservazione (25%, 50%, 70%)

Lavori Correlati

Riconoscimento di Immagini Granulare

FGIR Tradizionale: Principalmente focalizzato sulla classificazione a livello di specie
Riconoscimento Ultra-Granulare: Esteso alla classificazione di sottocategorie all'interno della specie, come varietà vegetali
Applicazione di ViT in FGIR: Vantaggi del campo ricettivo globale, ma costi computazionali elevati

Tecniche di Riduzione dei Token

Potatura dei Token: Scarta token non importanti basandosi su punteggi di importanza
Fusione dei Token: Unisce più token in uno, riducendo la lunghezza della sequenza
Limitazioni Esistenti: Inevitabilmente perdono informazioni discriminative, specialmente a bassi tassi di conservazione

Conclusioni e Discussione

Conclusioni Principali

Miglioramento dell'Efficienza: CLCA mantiene prestazioni competitive anche con tassi di conservazione dei token estremamente bassi (10%)
Universalità: Il metodo è compatibile con molteplici tecniche di riduzione dei token e reti backbone
Valore Pratico: Fornisce una soluzione efficace per il riconoscimento granulare in ambienti con risorse limitate

Limitazioni

Sovraccarico di Memoria Aggiuntivo: Il meccanismo CLC richiede memoria aggiuntiva per memorizzare le caratteristiche intermedie
Sensibilità ai Iperparametri: La strategia di cache e il metodo di aggregazione potrebbero richiedere regolazioni per diversi compiti
Limitazioni del Dataset: Principalmente verificato su dataset di foglie, la generalizzazione ad altri domini granulari rimane da verificare

Direzioni Future

Strategie di Cache Adattive: Regolazione dinamica del contenuto e della tempistica della cache in base alle caratteristiche del compito
Meccanismi di Aggregazione più Efficienti: Esplorazione di metodi di fusione delle caratteristiche tra strati più leggeri
Estensione Multimodale: Estensione del metodo a compiti di riconoscimento granulare multimodale

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo approccio sistematico per affrontare la perdita di informazioni nella riduzione dei token
Sperimentazione Completa: Oltre 2000 esperimenti che coprono molteplici dimensioni, risultati affidabili
Elevato Valore Pratico: Il design plug-and-play facilita l'applicazione pratica
Fondamento Teorico Solido: Spiegazione dell'efficacia del metodo da prospettive di ottimizzazione del gradiente e riutilizzo delle caratteristiche

Insufficienze

Sovraccarico di Memoria: Il meccanismo CLC aumenta l'utilizzo della memoria, potenzialmente compensando parte dei benefici di efficienza
Complessità: Introduce iperparametri aggiuntivi e scelte di design
Specificità del Dominio: Principalmente verificato su riconoscimento di foglie correlato all'agricoltura, generalizzazione limitata

Impatto

Valore Accademico: Fornisce nuove prospettive e soluzioni al campo della riduzione dei token
Significato Pratico: Importanza significativa per il calcolo edge e le applicazioni mobili con risorse limitate
Riproducibilità: Fornisce implementazione di codice completa, facilitando ricerche successive

Scenari Applicabili

Calcolo Edge: Dispositivi mobili e sistemi embedded con risorse computazionali limitate
Applicazioni in Tempo Reale: Compiti di riconoscimento granulare che richiedono risposte rapide
Distribuzione su Larga Scala: Sistemi di monitoraggio agricolo che richiedono distribuzione su numerosi dispositivi
Piattaforma di Ricerca: Come modulo di potenziamento per altri metodi di riduzione dei token

Bibliografia

Questo articolo cita 32 importanti riferimenti che coprono i campi chiave del riconoscimento granulare, Vision Transformer e riduzione dei token, fornendo una base teorica solida per la ricerca.