2025-11-19T15:28:14.078632

Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition

Rios, Yuanda, Ghanz et al.

Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}

academic

Agregación de Caché Entre Capas para Reducción de Tokens en Reconocimiento de Imágenes Ultra-Fino

Información Básica

ID del Artículo: 2501.00243
Título: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
Autores: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu
Clasificación: cs.CV
Fecha de Publicación: 31 de diciembre de 2024
Enlace del Artículo: https://arxiv.org/abs/2501.00243
Enlace del Código: https://github.com/arkel23/CLCA

Resumen

Este artículo propone un método novedoso de Agregación de Caché Entre Capas (CLCA) para abordar los problemas de eficiencia computacional en tareas de reconocimiento de imágenes ultra-fino (UFGIR). UFGIR es una tarea extremadamente desafiante que requiere clasificación dentro de macrocategorías, como la identificación de variedades de plantas. Aunque los métodos basados en Vision Transformer han logrado un desempeño excepcional en esta tarea, los costos computacionales se incrementan significativamente. Para resolver el problema de pérdida de información durante el proceso de reducción de tokens, este artículo propone una cabeza de clasificación de agregación entre capas (CLA) y un mecanismo de caché entre capas (CLC). Validado mediante más de 2000 experimentos, el método mantiene una precisión comparable a los métodos de última generación incluso en casos extremos donde la tasa de retención de tokens desciende al 10%.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Eficiencia computacional de Vision Transformer en reconocimiento de imágenes ultra-fino (UFGIR)
Características de la Tarea: UFGIR es más difícil que el reconocimiento de grano fino tradicional, requiriendo distinguir subcategorías dentro de la misma especie (como variedades de plantas)
Desafíos Existentes:
- ViT muestra un desempeño excepcional en tareas FGIR, pero con complejidad computacional O(N²) u O(N³)
- Las imágenes de alta resolución son cruciales para el reconocimiento de grano fino, pero aumentan aún más la carga computacional
- Las técnicas de reducción de tokens pueden reducir costos computacionales, pero causan pérdida de información discriminativa crítica

Motivación de la Investigación

Los métodos existentes de reducción de tokens inevitablemente pierden información crucial para la clasificación de grano fino mientras reducen costos computacionales. Particularmente cuando la tasa de retención de tokens disminuye, esta pérdida de información se vuelve más grave, afectando el desempeño de clasificación del modelo.

Contribuciones Principales

Propone Agregación Entre Capas (CLA): Integra directamente características de capas intermedias del Transformer en el módulo de clasificación, proporcionando información discriminativa más rica
Diseña Mecanismo de Caché Entre Capas (CLC): Almacena y recupera información crítica de capas anteriores, compensando la pérdida de información durante la reducción de tokens
Construye Marco CLCA Plug-and-Play: Método completo que combina CLA y CLC, compatible con múltiples técnicas de reducción de tokens
Validación Experimental a Gran Escala: Más de 2000 experimentos en 5 conjuntos de datos, 9 arquitecturas base y 7 métodos de reducción de tokens, demostrando la efectividad y generalidad del método

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imagen de alta resolución I ∈ R^(H×W×3) Salida: Predicción de categoría ultra-fina y ∈ {1,2,...,C} Restricción: Reducir significativamente los costos computacionales (FLOPs) mientras se mantiene alta precisión

Arquitectura del Modelo

1. Grupo de Codificadores Vision Transformer

Divide la imagen en parches de tamaño P×P, aplanados en una secuencia de longitud N=(S₁/P)×(S₂/P)
Añade token CLS aprendible y codificación de posición
Divide los L codificadores transformer en g grupos, cada grupo contiene atención multiencabezada (MHSA) y red de retroalimentación posicional (PWFFN)
Aplica operación de reducción de tokens en la última capa de cada grupo

2. Cabeza de Clasificación de Agregación Entre Capas (CLA)

El diseño central de la cabeza CLA incluye:

Entrada: Salidas de token CLS de cada grupo de codificadores
1. Concatenación y reformateo de características: CLS ∈ R^(D×g)
2. Procesamiento de normalización por lotes
3. Agregación de convolución profunda: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. Activación no lineal: Modelado de relaciones complejas mediante BatchNorm y GELU
5. Clasificación de convolución puntual: preds = PWConv(GELU(BN(Agg)))

3. Mecanismo de Caché Entre Capas (CLC)

Flujo de trabajo del CLC:

Fase de Almacenamiento:

Después de cada bloque codificador transformer, almacena el promedio global (GAP) de características locales
Introduce token de registro entre capas (CLR) aprendible, que agrega información discriminativa entre capas
Almacena características GAP y token CLR en el caché

Fase de Recuperación:

En la posición de reducción de tokens o antes de la última capa, recupera información almacenada del CLC
Añade tokens recuperados a la secuencia original
Vacía el caché para evitar reutilización

Puntos de Innovación Técnica

Estrategia de Preservación de Información: Preserva información crítica perdida durante la reducción de tokens mediante mecanismo de caché
Fusión de Características Entre Capas: Integra directamente características de diferentes profundidades en la decisión de clasificación
Diseño Plug-and-Play: Se integra sin problemas con múltiples métodos de reducción de tokens existentes
Optimización de Gradientes: Diseño similar a conexiones de salto que mejora la estabilidad del entrenamiento

Configuración Experimental

Conjuntos de Datos

Utiliza 5 conjuntos de datos de hojas ultra-finas:

SoyGene: Clasificación de genotipos de soja
SoyLocal: Variedades locales de soja
SoyAgeing: Etapas de envejecimiento de soja
SoyGlobal: Variedades globales de soja
Cotton: Variedades de algodón

Cada categoría representa nombres de variedades confirmadas obtenidas de bancos de recursos genéticos.

Métricas de Evaluación

Métrica Principal: Precisión Top-1 (%)
Métricas de Eficiencia: FLOPs (número de operaciones de punto flotante)
Método Estadístico: Resultados promediados de 3 semillas aleatorias

Métodos de Comparación

Métodos SOTA: ViT, DeiT, TransFG, SIM-Tr, CSDNet Métodos de Reducción de Tokens:

Poda estática: DynamicViT
Poda dinámica: ATS
Fusión suave: SiT, PatchMerger
Fusión dura: DPCKNN, ToMe
Impulsada por atención: EViT

Detalles de Implementación

Optimizador: AdamW
Épocas de Entrenamiento: 50
Decaimiento de Pesos: 0.05
Tamaño de Lote: 32
Tamaño de Imagen: 224×224, 448×448
Redes Base: 9 modelos preentrenados (ViT, DeiT3, MIIL, MoCov3, DINO, MAE, CLIP, etc.)
Tasas de Retención: 100%, 70%, 50%, 25%, 10%
Posiciones de Reducción de Tokens: Capas 4, 7, 10 (ViT B-16 de 12 capas)

Resultados Experimentales

Resultados Principales

Método	Cotton	SoyAgeing	SoyGlobal	FLOPs (10⁹)
ViT	52.5	67.0	40.6	78.5
DeiT	54.2	69.5	45.3	78.5
TransFG	54.6	72.2	21.2	447.9
CSDNet	57.9	75.4	56.3	78.5
CLCA (10%)	55.6	87.4	61.1	25.2
CLCA (70%)	67.8	88.3	58.2	50.9

Hallazgos Clave:

CLCA logra desempeño comparable al modelo completo incluso con 10% de retención
En el conjunto de datos SoyAgeing, CLCA (10%) mejora en 12% respecto al mejor método base
Costo computacional reducido al 32% del original (25.2 vs 78.5 FLOPs)

Experimentos de Ablación

Validación de la efectividad de CLCA mediante análisis de gradientes:

Estabilidad del Entrenamiento: CLCA mejora significativamente la estabilidad de gradientes, reduciendo oscilaciones durante el entrenamiento
Reutilización de Características: Las conexiones entre capas promueven la reutilización de características, similar a conexiones de salto en ResNet
Supervisión Profunda: La utilización directa de características de capas intermedias proporciona supervisión profunda implícita

Verificación de Generalización

Experimentos en diferentes métodos de reducción de tokens demuestran:

CLCA es compatible con 7 paradigmas diferentes de reducción de tokens
Mejora consistente en 9 redes base preentrenadas diferentes
Mejoras de desempeño consistentes en diferentes tasas de retención (25%, 50%, 70%)

Trabajo Relacionado

Reconocimiento de Imágenes de Grano Fino

FGIR Tradicional: Principalmente clasificación a nivel de especie
Reconocimiento Ultra-Fino: Extensión a clasificación de subcategorías dentro de especies, como variedades de plantas
Aplicación de ViT en FGIR: Ventaja de campo receptivo global, pero con altos costos computacionales

Técnicas de Reducción de Tokens

Poda de Tokens: Descarta tokens no importantes basado en puntuaciones de importancia
Fusión de Tokens: Fusiona múltiples tokens en uno, reduciendo la longitud de secuencia
Limitaciones Existentes: Inevitablemente pierden información discriminativa, especialmente con bajas tasas de retención

Conclusiones y Discusión

Conclusiones Principales

Mejora de Eficiencia: CLCA mantiene desempeño competitivo con tasas de retención de tokens extremadamente bajas (10%)
Generalidad: El método es compatible con múltiples técnicas de reducción de tokens y redes base
Valor Práctico: Proporciona una solución efectiva para reconocimiento de grano fino en entornos con recursos limitados

Limitaciones

Sobrecarga de Almacenamiento Adicional: El mecanismo CLC requiere memoria adicional para almacenar características intermedias
Sensibilidad a Hiperparámetros: La estrategia de caché y el método de agregación pueden requerir ajuste según la tarea específica
Limitaciones del Conjunto de Datos: Principalmente validado en conjuntos de datos de hojas, la generalización a otros dominios de grano fino requiere verificación

Direcciones Futuras

Estrategias de Caché Adaptativo: Ajustar dinámicamente el contenido y tiempo del caché según características de la tarea
Mecanismos de Agregación Más Eficientes: Explorar métodos más ligeros de fusión de características entre capas
Extensión Multimodal: Extender el método a tareas de reconocimiento de grano fino multimodal

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera solución sistemática al problema de pérdida de información en reducción de tokens
Experimentación Exhaustiva: Más de 2000 experimentos cubriendo múltiples dimensiones, resultados confiables
Alto Valor Práctico: Diseño plug-and-play facilita aplicación práctica
Base Teórica Sólida: Explicación de la efectividad del método desde perspectivas de optimización de gradientes y reutilización de características

Deficiencias

Sobrecarga de Almacenamiento: El mecanismo CLC aumenta el uso de memoria, potencialmente compensando parte de las ganancias de eficiencia
Complejidad: Introduce hiperparámetros adicionales y opciones de diseño
Especificidad del Dominio: Principalmente validado en reconocimiento de hojas relacionado con agricultura, generalización limitada

Impacto

Valor Académico: Proporciona nuevas perspectivas y soluciones al campo de reducción de tokens
Significado Práctico: Importancia significativa para computación perimetral con recursos limitados y aplicaciones móviles
Reproducibilidad: Proporciona implementación de código completa, facilitando investigación posterior

Escenarios Aplicables

Computación Perimetral: Dispositivos móviles y sistemas embebidos con recursos computacionales limitados
Aplicaciones en Tiempo Real: Tareas de reconocimiento de grano fino que requieren respuesta rápida
Despliegue a Gran Escala: Sistemas de monitoreo agrícola que requieren despliegue en múltiples dispositivos
Plataforma de Investigación: Como módulo de mejora para otros métodos de reducción de tokens

Referencias

Este artículo cita 32 referencias importantes que abarcan trabajos clásicos en reconocimiento de grano fino, Vision Transformer, reducción de tokens y otros campos clave, proporcionando una base teórica sólida para la investigación.