Less is More: Token Context-aware Learning for Object Tracking
Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic
Menos es Más: Aprendizaje Consciente del Contexto de Tokens para Seguimiento de Objetos
Este artículo propone un nuevo método de seguimiento de objetos basado en aprendizaje consciente del contexto de tokens denominado LMTrack. Los métodos existentes de seguimiento consciente del contexto típicamente capturan el contexto mediante información de múltiples fotogramas, pero estos enfoques ingenuos de contexto a nivel de fotograma ignoran las diferencias de importancia entre los parches dentro del fotograma de referencia, siendo susceptibles al ruido y a tokens redundantes. LMTrack sigue el principio de "menos es más", analizando la distribución de importancia de todos los tokens de referencia, recopilando, manteniendo la atención continua y actualizando tokens importantes. El método contiene dos componentes principales: el módulo Token Context Memory (TCM) y un mecanismo de atención de tokens unidireccional, logrando rendimiento de última generación en múltiples puntos de referencia de seguimiento.
La tarea de seguimiento de objetos tiene como objetivo localizar y rastrear objetos arbitrarios en secuencias de video basándose en su posición inicial. Investigaciones recientes demuestran que la utilización de información contextual consciente del estado del objeto es crucial para el seguimiento efectivo.
Granularidad Gruesa del Contexto a Nivel de Fotograma: Los métodos existentes utilizan fotogramas como unidad mínima de contexto, ignorando las diferencias de importancia entre parches dentro del fotograma de referencia para la localización de objetos en el fotograma de búsqueda
Interferencia de Información Redundante: Tratar todos los tokens de referencia de manera equivalente aumenta la carga perceptiva y computacional del modelo, especialmente en escenas complejas
Falta de Adaptabilidad: El uso de estrategias manuales hace que el rastreador acepte pasivamente fotogramas de referencia, en lugar de permitir que el rastreador tome decisiones autónomas sobre la información de referencia del objeto
Mediante el análisis de un rastreador Transformer simple diseñado, se descubrió que la mayoría de tokens de fondo rara vez se consultan durante el proceso de seguimiento, teniendo un impacto mínimo en los resultados, mientras que los tokens de objeto se conservan ampliamente como pistas de referencia a largo plazo. Esto valida la hipótesis de que un pequeño número de tokens de alta calidad juegan un papel clave en el proceso de seguimiento.
Se propone una nueva canalización de seguimiento consciente del contexto de tokens LMTrack: Basada en el módulo Token Context Memory, a diferencia de los métodos de seguimiento existentes basados en contexto a nivel de fotograma, LMTrack recopila y actualiza automáticamente contexto de tokens de alta calidad para seguimiento visual
Se introduce un mecanismo de atención unidireccional efectivo: Establece relaciones de dependencia entre tokens de referencia y fotogramas de búsqueda mediante propagación unidireccional, realizando asociación robusta entre fotogramas y localización
Se logra rendimiento de seguimiento de última generación: Obtiene nuevos resultados óptimos en cinco puntos de referencia de seguimiento visual: LaSOT, TrackingNet, GOT10K, LaSOText y VOT2020
Dada la posición inicial del objeto, localizar y rastrear continuamente ese objeto en una secuencia de video. La entrada es una secuencia de fotogramas de video y la salida es el cuadro delimitador del objeto en cada fotograma.
Solo permite que los tokens de referencia influyan en los tokens de búsqueda, manteniendo la consistencia de la representación de tokens de referencia.
De Contexto a Nivel de Fotograma a Nivel de Token: Abandona el contexto tradicional a nivel de fotograma, utilizando representación de contexto a nivel de token de grano fino para pistas de referencia importantes
Análisis de Importancia Adaptativo: Combina la matriz de atención y resultados de clasificación para analizar la importancia de tokens, en lugar de usar estrategias fijas
Flujo de Información Unidireccional: Previene la contaminación de la representación de tokens de referencia por tokens de búsqueda, mejorando la eficiencia de fusión
Datos de Entrenamiento: LaSOT, GOT-10k, TrackingNet, COCO
Puntos de Referencia de Prueba: GOT-10K (180 secuencias de prueba), TrackingNet (511 videos), LaSOT (280 videos de prueba), LaSOText (150 videos), VOT2020 (60 secuencias de desafío)
Optimizador: AdamW, tasa de aprendizaje 4×10⁻⁵ (troncal), 4×10⁻⁴ (otros)
Entrenamiento: 300 épocas, tamaño de lote 16, GPU Tesla A100
Inferencia: Verificación de actualización de referencia cada 400 fotogramas por defecto, longitud máxima de tokens de referencia es el doble de la longitud de tokens de búsqueda
Atención Unidireccional: Mejora de 0.9% AO en comparación con atención bidireccional, previniendo la propagación de ruido desde la búsqueda hacia la referencia
Seguimiento Autorregresivo: Mejora de 1.3-1.5% AO en comparación con métodos tradicionales
Módulo TCM: Mejora de 0.7-0.9% AO en comparación con estrategia de actualización de plantilla
Muestra el proceso de extracción de tokens de referencia importantes por el módulo TCM a lo largo del tiempo, donde la mayoría de tokens de fondo se vuelven menos importantes, conservando principalmente tokens que describen la apariencia del objeto.
La comparación con OSTrack muestra que LMTrack, utilizando tokens de referencia, puede resistir mejor los cambios de apariencia e interferencias, manteniendo la atención en el objeto.
Los métodos tempranos se basaban principalmente en métodos de plantilla inicial, como redes Siamese que coinciden con la plantilla de objeto inicial y regiones candidatas, pero tienen dificultades para adaptarse a cambios significativos en la apariencia del objeto.
Métodos conscientes del contexto (STMTrack, SeqTrack, OSTrack)
Mecanismos de atención (Transformer, ViT)
Evaluación General: Este es un artículo de alta calidad en visión por computadora que demuestra excelencia tanto en innovación teórica como en verificación experimental. El concepto de diseño "menos es más" y la conciencia contextual a nivel de token proporcionan nuevas perspectivas de investigación para el campo del seguimiento de objetos, poseyendo importante valor académico y significado práctico.