2025-11-19T15:28:14.078632

Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition

Rios, Yuanda, Ghanz et al.
Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}
academic

Agregación de Caché Entre Capas para Reducción de Tokens en Reconocimiento de Imágenes Ultra-Fino

Información Básica

  • ID del Artículo: 2501.00243
  • Título: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
  • Autores: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu
  • Clasificación: cs.CV
  • Fecha de Publicación: 31 de diciembre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2501.00243
  • Enlace del Código: https://github.com/arkel23/CLCA

Resumen

Este artículo propone un método novedoso de Agregación de Caché Entre Capas (CLCA) para abordar los problemas de eficiencia computacional en tareas de reconocimiento de imágenes ultra-fino (UFGIR). UFGIR es una tarea extremadamente desafiante que requiere clasificación dentro de macrocategorías, como la identificación de variedades de plantas. Aunque los métodos basados en Vision Transformer han logrado un desempeño excepcional en esta tarea, los costos computacionales se incrementan significativamente. Para resolver el problema de pérdida de información durante el proceso de reducción de tokens, este artículo propone una cabeza de clasificación de agregación entre capas (CLA) y un mecanismo de caché entre capas (CLC). Validado mediante más de 2000 experimentos, el método mantiene una precisión comparable a los métodos de última generación incluso en casos extremos donde la tasa de retención de tokens desciende al 10%.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Eficiencia computacional de Vision Transformer en reconocimiento de imágenes ultra-fino (UFGIR)
  2. Características de la Tarea: UFGIR es más difícil que el reconocimiento de grano fino tradicional, requiriendo distinguir subcategorías dentro de la misma especie (como variedades de plantas)
  3. Desafíos Existentes:
    • ViT muestra un desempeño excepcional en tareas FGIR, pero con complejidad computacional O(N²) u O(N³)
    • Las imágenes de alta resolución son cruciales para el reconocimiento de grano fino, pero aumentan aún más la carga computacional
    • Las técnicas de reducción de tokens pueden reducir costos computacionales, pero causan pérdida de información discriminativa crítica

Motivación de la Investigación

Los métodos existentes de reducción de tokens inevitablemente pierden información crucial para la clasificación de grano fino mientras reducen costos computacionales. Particularmente cuando la tasa de retención de tokens disminuye, esta pérdida de información se vuelve más grave, afectando el desempeño de clasificación del modelo.

Contribuciones Principales

  1. Propone Agregación Entre Capas (CLA): Integra directamente características de capas intermedias del Transformer en el módulo de clasificación, proporcionando información discriminativa más rica
  2. Diseña Mecanismo de Caché Entre Capas (CLC): Almacena y recupera información crítica de capas anteriores, compensando la pérdida de información durante la reducción de tokens
  3. Construye Marco CLCA Plug-and-Play: Método completo que combina CLA y CLC, compatible con múltiples técnicas de reducción de tokens
  4. Validación Experimental a Gran Escala: Más de 2000 experimentos en 5 conjuntos de datos, 9 arquitecturas base y 7 métodos de reducción de tokens, demostrando la efectividad y generalidad del método

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imagen de alta resolución I ∈ R^(H×W×3) Salida: Predicción de categoría ultra-fina y ∈ {1,2,...,C} Restricción: Reducir significativamente los costos computacionales (FLOPs) mientras se mantiene alta precisión

Arquitectura del Modelo

1. Grupo de Codificadores Vision Transformer

  • Divide la imagen en parches de tamaño P×P, aplanados en una secuencia de longitud N=(S₁/P)×(S₂/P)
  • Añade token CLS aprendible y codificación de posición
  • Divide los L codificadores transformer en g grupos, cada grupo contiene atención multiencabezada (MHSA) y red de retroalimentación posicional (PWFFN)
  • Aplica operación de reducción de tokens en la última capa de cada grupo

2. Cabeza de Clasificación de Agregación Entre Capas (CLA)

El diseño central de la cabeza CLA incluye:

Entrada: Salidas de token CLS de cada grupo de codificadores
1. Concatenación y reformateo de características: CLS ∈ R^(D×g)
2. Procesamiento de normalización por lotes
3. Agregación de convolución profunda: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. Activación no lineal: Modelado de relaciones complejas mediante BatchNorm y GELU
5. Clasificación de convolución puntual: preds = PWConv(GELU(BN(Agg)))

3. Mecanismo de Caché Entre Capas (CLC)

Flujo de trabajo del CLC:

Fase de Almacenamiento:

  • Después de cada bloque codificador transformer, almacena el promedio global (GAP) de características locales
  • Introduce token de registro entre capas (CLR) aprendible, que agrega información discriminativa entre capas
  • Almacena características GAP y token CLR en el caché

Fase de Recuperación:

  • En la posición de reducción de tokens o antes de la última capa, recupera información almacenada del CLC
  • Añade tokens recuperados a la secuencia original
  • Vacía el caché para evitar reutilización

Puntos de Innovación Técnica

  1. Estrategia de Preservación de Información: Preserva información crítica perdida durante la reducción de tokens mediante mecanismo de caché
  2. Fusión de Características Entre Capas: Integra directamente características de diferentes profundidades en la decisión de clasificación
  3. Diseño Plug-and-Play: Se integra sin problemas con múltiples métodos de reducción de tokens existentes
  4. Optimización de Gradientes: Diseño similar a conexiones de salto que mejora la estabilidad del entrenamiento

Configuración Experimental

Conjuntos de Datos

Utiliza 5 conjuntos de datos de hojas ultra-finas:

  • SoyGene: Clasificación de genotipos de soja
  • SoyLocal: Variedades locales de soja
  • SoyAgeing: Etapas de envejecimiento de soja
  • SoyGlobal: Variedades globales de soja
  • Cotton: Variedades de algodón

Cada categoría representa nombres de variedades confirmadas obtenidas de bancos de recursos genéticos.

Métricas de Evaluación

  • Métrica Principal: Precisión Top-1 (%)
  • Métricas de Eficiencia: FLOPs (número de operaciones de punto flotante)
  • Método Estadístico: Resultados promediados de 3 semillas aleatorias

Métodos de Comparación

Métodos SOTA: ViT, DeiT, TransFG, SIM-Tr, CSDNet Métodos de Reducción de Tokens:

  • Poda estática: DynamicViT
  • Poda dinámica: ATS
  • Fusión suave: SiT, PatchMerger
  • Fusión dura: DPCKNN, ToMe
  • Impulsada por atención: EViT

Detalles de Implementación

  • Optimizador: AdamW
  • Épocas de Entrenamiento: 50
  • Decaimiento de Pesos: 0.05
  • Tamaño de Lote: 32
  • Tamaño de Imagen: 224×224, 448×448
  • Redes Base: 9 modelos preentrenados (ViT, DeiT3, MIIL, MoCov3, DINO, MAE, CLIP, etc.)
  • Tasas de Retención: 100%, 70%, 50%, 25%, 10%
  • Posiciones de Reducción de Tokens: Capas 4, 7, 10 (ViT B-16 de 12 capas)

Resultados Experimentales

Resultados Principales

MétodoCottonSoyAgeingSoyGlobalFLOPs (10⁹)
ViT52.567.040.678.5
DeiT54.269.545.378.5
TransFG54.672.221.2447.9
CSDNet57.975.456.378.5
CLCA (10%)55.687.461.125.2
CLCA (70%)67.888.358.250.9

Hallazgos Clave:

  • CLCA logra desempeño comparable al modelo completo incluso con 10% de retención
  • En el conjunto de datos SoyAgeing, CLCA (10%) mejora en 12% respecto al mejor método base
  • Costo computacional reducido al 32% del original (25.2 vs 78.5 FLOPs)

Experimentos de Ablación

Validación de la efectividad de CLCA mediante análisis de gradientes:

  • Estabilidad del Entrenamiento: CLCA mejora significativamente la estabilidad de gradientes, reduciendo oscilaciones durante el entrenamiento
  • Reutilización de Características: Las conexiones entre capas promueven la reutilización de características, similar a conexiones de salto en ResNet
  • Supervisión Profunda: La utilización directa de características de capas intermedias proporciona supervisión profunda implícita

Verificación de Generalización

Experimentos en diferentes métodos de reducción de tokens demuestran:

  • CLCA es compatible con 7 paradigmas diferentes de reducción de tokens
  • Mejora consistente en 9 redes base preentrenadas diferentes
  • Mejoras de desempeño consistentes en diferentes tasas de retención (25%, 50%, 70%)

Trabajo Relacionado

Reconocimiento de Imágenes de Grano Fino

  • FGIR Tradicional: Principalmente clasificación a nivel de especie
  • Reconocimiento Ultra-Fino: Extensión a clasificación de subcategorías dentro de especies, como variedades de plantas
  • Aplicación de ViT en FGIR: Ventaja de campo receptivo global, pero con altos costos computacionales

Técnicas de Reducción de Tokens

  • Poda de Tokens: Descarta tokens no importantes basado en puntuaciones de importancia
  • Fusión de Tokens: Fusiona múltiples tokens en uno, reduciendo la longitud de secuencia
  • Limitaciones Existentes: Inevitablemente pierden información discriminativa, especialmente con bajas tasas de retención

Conclusiones y Discusión

Conclusiones Principales

  1. Mejora de Eficiencia: CLCA mantiene desempeño competitivo con tasas de retención de tokens extremadamente bajas (10%)
  2. Generalidad: El método es compatible con múltiples técnicas de reducción de tokens y redes base
  3. Valor Práctico: Proporciona una solución efectiva para reconocimiento de grano fino en entornos con recursos limitados

Limitaciones

  1. Sobrecarga de Almacenamiento Adicional: El mecanismo CLC requiere memoria adicional para almacenar características intermedias
  2. Sensibilidad a Hiperparámetros: La estrategia de caché y el método de agregación pueden requerir ajuste según la tarea específica
  3. Limitaciones del Conjunto de Datos: Principalmente validado en conjuntos de datos de hojas, la generalización a otros dominios de grano fino requiere verificación

Direcciones Futuras

  1. Estrategias de Caché Adaptativo: Ajustar dinámicamente el contenido y tiempo del caché según características de la tarea
  2. Mecanismos de Agregación Más Eficientes: Explorar métodos más ligeros de fusión de características entre capas
  3. Extensión Multimodal: Extender el método a tareas de reconocimiento de grano fino multimodal

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera solución sistemática al problema de pérdida de información en reducción de tokens
  2. Experimentación Exhaustiva: Más de 2000 experimentos cubriendo múltiples dimensiones, resultados confiables
  3. Alto Valor Práctico: Diseño plug-and-play facilita aplicación práctica
  4. Base Teórica Sólida: Explicación de la efectividad del método desde perspectivas de optimización de gradientes y reutilización de características

Deficiencias

  1. Sobrecarga de Almacenamiento: El mecanismo CLC aumenta el uso de memoria, potencialmente compensando parte de las ganancias de eficiencia
  2. Complejidad: Introduce hiperparámetros adicionales y opciones de diseño
  3. Especificidad del Dominio: Principalmente validado en reconocimiento de hojas relacionado con agricultura, generalización limitada

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas y soluciones al campo de reducción de tokens
  2. Significado Práctico: Importancia significativa para computación perimetral con recursos limitados y aplicaciones móviles
  3. Reproducibilidad: Proporciona implementación de código completa, facilitando investigación posterior

Escenarios Aplicables

  1. Computación Perimetral: Dispositivos móviles y sistemas embebidos con recursos computacionales limitados
  2. Aplicaciones en Tiempo Real: Tareas de reconocimiento de grano fino que requieren respuesta rápida
  3. Despliegue a Gran Escala: Sistemas de monitoreo agrícola que requieren despliegue en múltiples dispositivos
  4. Plataforma de Investigación: Como módulo de mejora para otros métodos de reducción de tokens

Referencias

Este artículo cita 32 referencias importantes que abarcan trabajos clásicos en reconocimiento de grano fino, Vision Transformer, reducción de tokens y otros campos clave, proporcionando una base teórica sólida para la investigación.