2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

Menos es Más: Aprendizaje Consciente del Contexto de Tokens para Seguimiento de Objetos

Información Básica

ID del Artículo: 2501.00758
Título: Less is More: Token Context-aware Learning for Object Tracking
Autores: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación/Conferencia: AAAI 2025
Enlace del Artículo: https://arxiv.org/abs/2501.00758
Enlace del Código: https://github.com/XuChenLong/LMTrack

Resumen

Este artículo propone un nuevo método de seguimiento de objetos basado en aprendizaje consciente del contexto de tokens denominado LMTrack. Los métodos existentes de seguimiento consciente del contexto típicamente capturan el contexto mediante información de múltiples fotogramas, pero estos enfoques ingenuos de contexto a nivel de fotograma ignoran las diferencias de importancia entre los parches dentro del fotograma de referencia, siendo susceptibles al ruido y a tokens redundantes. LMTrack sigue el principio de "menos es más", analizando la distribución de importancia de todos los tokens de referencia, recopilando, manteniendo la atención continua y actualizando tokens importantes. El método contiene dos componentes principales: el módulo Token Context Memory (TCM) y un mecanismo de atención de tokens unidireccional, logrando rendimiento de última generación en múltiples puntos de referencia de seguimiento.

Antecedentes de Investigación y Motivación

Definición del Problema

La tarea de seguimiento de objetos tiene como objetivo localizar y rastrear objetos arbitrarios en secuencias de video basándose en su posición inicial. Investigaciones recientes demuestran que la utilización de información contextual consciente del estado del objeto es crucial para el seguimiento efectivo.

Limitaciones de Métodos Existentes

Granularidad Gruesa del Contexto a Nivel de Fotograma: Los métodos existentes utilizan fotogramas como unidad mínima de contexto, ignorando las diferencias de importancia entre parches dentro del fotograma de referencia para la localización de objetos en el fotograma de búsqueda
Interferencia de Información Redundante: Tratar todos los tokens de referencia de manera equivalente aumenta la carga perceptiva y computacional del modelo, especialmente en escenas complejas
Falta de Adaptabilidad: El uso de estrategias manuales hace que el rastreador acepte pasivamente fotogramas de referencia, en lugar de permitir que el rastreador tome decisiones autónomas sobre la información de referencia del objeto

Motivación de la Investigación

Mediante el análisis de un rastreador Transformer simple diseñado, se descubrió que la mayoría de tokens de fondo rara vez se consultan durante el proceso de seguimiento, teniendo un impacto mínimo en los resultados, mientras que los tokens de objeto se conservan ampliamente como pistas de referencia a largo plazo. Esto valida la hipótesis de que un pequeño número de tokens de alta calidad juegan un papel clave en el proceso de seguimiento.

Contribuciones Principales

Se propone una nueva canalización de seguimiento consciente del contexto de tokens LMTrack: Basada en el módulo Token Context Memory, a diferencia de los métodos de seguimiento existentes basados en contexto a nivel de fotograma, LMTrack recopila y actualiza automáticamente contexto de tokens de alta calidad para seguimiento visual
Se introduce un mecanismo de atención unidireccional efectivo: Establece relaciones de dependencia entre tokens de referencia y fotogramas de búsqueda mediante propagación unidireccional, realizando asociación robusta entre fotogramas y localización
Se logra rendimiento de seguimiento de última generación: Obtiene nuevos resultados óptimos en cinco puntos de referencia de seguimiento visual: LaSOT, TrackingNet, GOT10K, LaSOText y VOT2020

Explicación Detallada del Método

Definición de la Tarea

Dada la posición inicial del objeto, localizar y rastrear continuamente ese objeto en una secuencia de video. La entrada es una secuencia de fotogramas de video y la salida es el cuadro delimitador del objeto en cada fotograma.

Arquitectura del Modelo

Marco General

LMTrack adopta un marco de seguimiento consciente del contexto de tokens autorregresivo, que contiene tres componentes principales:

Red troncal con mecanismo de atención unidireccional
Módulo Token Context Memory (TCM)
Cabeza de predicción

Proceso de Seguimiento Autorregresivo

El proceso de seguimiento se define como:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Donde R representa tokens de referencia, I representa fotogramas de imagen y B representa cuadros delimitadores predichos.

Módulo Token Context Memory (TCM)

El módulo TCM se divide en tres pasos:

Paso 1: Recopilación de Tokens Importantes de Tokens de Referencia

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Donde A es la matriz de atención cruzada, C es el mapa de puntuación de clasificación y W representa la distribución de importancia.

Paso 2: Integración del Mapa de Clasificación y Tokens de Búsqueda

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Paso 3: Actualización de Tokens de Referencia Fusionar los resultados del Paso 1 y Paso 2 para formar nuevos tokens de referencia Rₜ.

Mecanismo de Atención Unidireccional

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Solo permite que los tokens de referencia influyan en los tokens de búsqueda, manteniendo la consistencia de la representación de tokens de referencia.

Puntos de Innovación Técnica

De Contexto a Nivel de Fotograma a Nivel de Token: Abandona el contexto tradicional a nivel de fotograma, utilizando representación de contexto a nivel de token de grano fino para pistas de referencia importantes
Análisis de Importancia Adaptativo: Combina la matriz de atención y resultados de clasificación para analizar la importancia de tokens, en lugar de usar estrategias fijas
Flujo de Información Unidireccional: Previene la contaminación de la representación de tokens de referencia por tokens de búsqueda, mejorando la eficiencia de fusión

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento: LaSOT, GOT-10k, TrackingNet, COCO
Puntos de Referencia de Prueba: GOT-10K (180 secuencias de prueba), TrackingNet (511 videos), LaSOT (280 videos de prueba), LaSOText (150 videos), VOT2020 (60 secuencias de desafío)

Métricas de Evaluación

GOT-10K: Superposición Promedio (AO), Tasa de Éxito (SR)
LaSOT/LaSOText: Área Bajo la Curva (AUC), Precisión (P), Precisión Normalizada (PNorm)
TrackingNet: AUC, P, PNorm
VOT2020: Superposición Promedio Esperada (EAO), Precisión, Robustez

Detalles de Implementación

Red Troncal: ViT-base
Optimizador: AdamW, tasa de aprendizaje 4×10⁻⁵ (troncal), 4×10⁻⁴ (otros)
Entrenamiento: 300 épocas, tamaño de lote 16, GPU Tesla A100
Inferencia: Verificación de actualización de referencia cada 400 fotogramas por defecto, longitud máxima de tokens de referencia es el doble de la longitud de tokens de búsqueda

Resultados Experimentales

Resultados Principales

Punto de Referencia GOT-10K

LMTrack384 logra 80.1% AO en GOT-10K, mejorando 2.6% en comparación con el método anterior más óptimo ARTrackV2 con 77.5% AO.

Rendimiento en Otros Puntos de Referencia

TrackingNet: 85.7% AUC
LaSOT: 73.2% AUC
LaSOText: 53.6% AUC, mejora de 0.7% en comparación con ARTrackV2
VOT2020: 58.6% EAO (LMTrack384), 55.0% EAO (LMTrack256)

Comparación de Eficiencia

En comparación con SeqTrack a la misma resolución:

Cantidad de Parámetros: 92M vs 89M
Cantidad de Cálculo: 69G vs 148G FLOPs
Velocidad de Inferencia: 47fps vs 21fps

Experimentos de Ablación

#	Atención	Autorregresivo	Actualización	AO(%)
1	bidireccional	×	-	73.0
2	unidireccional	×	-	73.9
3	unidireccional	×	actualizar plantilla	74.1
4	unidireccional	×	TCM	75.0
5	unidireccional	✓	actualizar plantilla	75.6
6	unidireccional	✓	TCM	76.3

Hallazgos Clave:

Atención Unidireccional: Mejora de 0.9% AO en comparación con atención bidireccional, previniendo la propagación de ruido desde la búsqueda hacia la referencia
Seguimiento Autorregresivo: Mejora de 1.3-1.5% AO en comparación con métodos tradicionales
Módulo TCM: Mejora de 0.7-0.9% AO en comparación con estrategia de actualización de plantilla

Análisis de Visualización

Visualización del Módulo TCM

Muestra el proceso de extracción de tokens de referencia importantes por el módulo TCM a lo largo del tiempo, donde la mayoría de tokens de fondo se vuelven menos importantes, conservando principalmente tokens que describen la apariencia del objeto.

Comparación de Atención

La comparación con OSTrack muestra que LMTrack, utilizando tokens de referencia, puede resistir mejor los cambios de apariencia e interferencias, manteniendo la atención en el objeto.

Trabajo Relacionado

Marcos de Seguimiento Tradicionales

Los métodos tempranos se basaban principalmente en métodos de plantilla inicial, como redes Siamese que coinciden con la plantilla de objeto inicial y regiones candidatas, pero tienen dificultades para adaptarse a cambios significativos en la apariencia del objeto.

Seguimiento de Contexto Temporal

Para manejar cambios de apariencia, muchos rastreadores modelan el seguimiento visual como un problema de aprendizaje en línea:

UpdateNet: Utiliza una red personalizada para fusionar plantillas acumuladas
ATOM: Añade rama de predicción IoU para restringir selección de plantilla
STMTrack: Actualiza plantilla dinámica a intervalos fijos
SeqTrack: Utiliza estrategia basada en probabilidad para seleccionar plantilla dinámica

Limitaciones de estos métodos:

Actualizar plantilla basada en recorte de cuadro delimitador, fácilmente introduce ruido
Usar métodos manuales o modelos discriminativos adicionales para actualizar plantilla, sin distinguir qué contexto es importante para el seguimiento

Conclusiones y Discusión

Conclusiones Principales

LMTrack mejora significativamente el rendimiento de seguimiento mediante conciencia contextual a nivel de token
El módulo TCM puede recopilar y actualizar efectivamente tokens de referencia importantes
El mecanismo de atención unidireccional mejora la eficiencia y precisión de la fusión de características
Logra rendimiento de última generación en múltiples puntos de referencia, mientras mejora la eficiencia computacional

Limitaciones

Complejidad Computacional: Aunque es más eficiente que SeqTrack, aún requiere mantener y actualizar tokens de referencia
Sensibilidad de Hiperparámetros: La selección del valor k y la frecuencia de actualización pueden afectar el rendimiento
Seguimiento a Largo Plazo: La estrategia de gestión de tokens de referencia en secuencias extremadamente largas necesita optimización adicional

Direcciones Futuras

Explorar métodos más eficientes de evaluación de importancia de tokens
Investigar estrategias de control de longitud de tokens de referencia adaptativas
Extender a escenarios de seguimiento de múltiples objetos

Evaluación Profunda

Ventajas

Innovación Fuerte: La transición de contexto a nivel de fotograma a nivel de token es una innovación importante
Fundamento Teórico Sólido: Valida experimentalmente la hipótesis de distribución de tokens importantes
Experimentación Completa: Evaluación integral en múltiples puntos de referencia y experimentos de ablación detallados
Alto Valor Práctico: Mejora el rendimiento mientras aumenta la eficiencia computacional
Visualización Clara: Demuestra efectivamente el principio de funcionamiento del método

Insuficiencias

Complejidad del Método: El diseño del módulo TCM es relativamente complejo, pudiendo afectar la implementación y ajuste
Sensibilidad de Parámetros: Múltiples hiperparámetros (valor k, frecuencia de actualización, etc.) requieren ajuste cuidadoso
Análisis Teórico Insuficiente: Carece de análisis teórico sobre convergencia y estabilidad del método
Rango de Aplicabilidad: Principalmente dirigido a seguimiento de objeto único, la aplicabilidad en escenarios multiobjeto no está verificada

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para seguimiento consciente del contexto
Valor Práctico: El método mantiene alto rendimiento mientras mejora la eficiencia
Reproducibilidad: Proporciona detalles de implementación completos y código

Escenarios Aplicables

Aplicaciones de Seguimiento en Tiempo Real: La velocidad de inferencia eficiente es adecuada para escenarios en tiempo real
Tareas de Seguimiento a Largo Plazo: La gestión adaptativa de tokens es adecuada para seguimiento de secuencias largas
Seguimiento en Entornos Complejos: Puede manejar efectivamente cambios de apariencia e interferencias

Referencias

Este artículo cita trabajos importantes en el campo del seguimiento de objetos, incluyendo:

Serie de redes Siamese (SiamRPN++, SiamFC++)
Rastreadores Transformer (TransT, STARK, Mixformer)
Métodos conscientes del contexto (STMTrack, SeqTrack, OSTrack)
Mecanismos de atención (Transformer, ViT)

Evaluación General: Este es un artículo de alta calidad en visión por computadora que demuestra excelencia tanto en innovación teórica como en verificación experimental. El concepto de diseño "menos es más" y la conciencia contextual a nivel de token proporcionan nuevas perspectivas de investigación para el campo del seguimiento de objetos, poseyendo importante valor académico y significado práctico.