2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic

Menos es Más: Aprendizaje Consciente del Contexto de Tokens para Seguimiento de Objetos

Información Básica

  • ID del Artículo: 2501.00758
  • Título: Less is More: Token Context-aware Learning for Object Tracking
  • Autores: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación/Conferencia: AAAI 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.00758
  • Enlace del Código: https://github.com/XuChenLong/LMTrack

Resumen

Este artículo propone un nuevo método de seguimiento de objetos basado en aprendizaje consciente del contexto de tokens denominado LMTrack. Los métodos existentes de seguimiento consciente del contexto típicamente capturan el contexto mediante información de múltiples fotogramas, pero estos enfoques ingenuos de contexto a nivel de fotograma ignoran las diferencias de importancia entre los parches dentro del fotograma de referencia, siendo susceptibles al ruido y a tokens redundantes. LMTrack sigue el principio de "menos es más", analizando la distribución de importancia de todos los tokens de referencia, recopilando, manteniendo la atención continua y actualizando tokens importantes. El método contiene dos componentes principales: el módulo Token Context Memory (TCM) y un mecanismo de atención de tokens unidireccional, logrando rendimiento de última generación en múltiples puntos de referencia de seguimiento.

Antecedentes de Investigación y Motivación

Definición del Problema

La tarea de seguimiento de objetos tiene como objetivo localizar y rastrear objetos arbitrarios en secuencias de video basándose en su posición inicial. Investigaciones recientes demuestran que la utilización de información contextual consciente del estado del objeto es crucial para el seguimiento efectivo.

Limitaciones de Métodos Existentes

  1. Granularidad Gruesa del Contexto a Nivel de Fotograma: Los métodos existentes utilizan fotogramas como unidad mínima de contexto, ignorando las diferencias de importancia entre parches dentro del fotograma de referencia para la localización de objetos en el fotograma de búsqueda
  2. Interferencia de Información Redundante: Tratar todos los tokens de referencia de manera equivalente aumenta la carga perceptiva y computacional del modelo, especialmente en escenas complejas
  3. Falta de Adaptabilidad: El uso de estrategias manuales hace que el rastreador acepte pasivamente fotogramas de referencia, en lugar de permitir que el rastreador tome decisiones autónomas sobre la información de referencia del objeto

Motivación de la Investigación

Mediante el análisis de un rastreador Transformer simple diseñado, se descubrió que la mayoría de tokens de fondo rara vez se consultan durante el proceso de seguimiento, teniendo un impacto mínimo en los resultados, mientras que los tokens de objeto se conservan ampliamente como pistas de referencia a largo plazo. Esto valida la hipótesis de que un pequeño número de tokens de alta calidad juegan un papel clave en el proceso de seguimiento.

Contribuciones Principales

  1. Se propone una nueva canalización de seguimiento consciente del contexto de tokens LMTrack: Basada en el módulo Token Context Memory, a diferencia de los métodos de seguimiento existentes basados en contexto a nivel de fotograma, LMTrack recopila y actualiza automáticamente contexto de tokens de alta calidad para seguimiento visual
  2. Se introduce un mecanismo de atención unidireccional efectivo: Establece relaciones de dependencia entre tokens de referencia y fotogramas de búsqueda mediante propagación unidireccional, realizando asociación robusta entre fotogramas y localización
  3. Se logra rendimiento de seguimiento de última generación: Obtiene nuevos resultados óptimos en cinco puntos de referencia de seguimiento visual: LaSOT, TrackingNet, GOT10K, LaSOText y VOT2020

Explicación Detallada del Método

Definición de la Tarea

Dada la posición inicial del objeto, localizar y rastrear continuamente ese objeto en una secuencia de video. La entrada es una secuencia de fotogramas de video y la salida es el cuadro delimitador del objeto en cada fotograma.

Arquitectura del Modelo

Marco General

LMTrack adopta un marco de seguimiento consciente del contexto de tokens autorregresivo, que contiene tres componentes principales:

  • Red troncal con mecanismo de atención unidireccional
  • Módulo Token Context Memory (TCM)
  • Cabeza de predicción

Proceso de Seguimiento Autorregresivo

El proceso de seguimiento se define como:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Donde R representa tokens de referencia, I representa fotogramas de imagen y B representa cuadros delimitadores predichos.

Módulo Token Context Memory (TCM)

El módulo TCM se divide en tres pasos:

Paso 1: Recopilación de Tokens Importantes de Tokens de Referencia

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Donde A es la matriz de atención cruzada, C es el mapa de puntuación de clasificación y W representa la distribución de importancia.

Paso 2: Integración del Mapa de Clasificación y Tokens de Búsqueda

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Paso 3: Actualización de Tokens de Referencia Fusionar los resultados del Paso 1 y Paso 2 para formar nuevos tokens de referencia Rₜ.

Mecanismo de Atención Unidireccional

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Solo permite que los tokens de referencia influyan en los tokens de búsqueda, manteniendo la consistencia de la representación de tokens de referencia.

Puntos de Innovación Técnica

  1. De Contexto a Nivel de Fotograma a Nivel de Token: Abandona el contexto tradicional a nivel de fotograma, utilizando representación de contexto a nivel de token de grano fino para pistas de referencia importantes
  2. Análisis de Importancia Adaptativo: Combina la matriz de atención y resultados de clasificación para analizar la importancia de tokens, en lugar de usar estrategias fijas
  3. Flujo de Información Unidireccional: Previene la contaminación de la representación de tokens de referencia por tokens de búsqueda, mejorando la eficiencia de fusión

Configuración Experimental

Conjuntos de Datos

  • Datos de Entrenamiento: LaSOT, GOT-10k, TrackingNet, COCO
  • Puntos de Referencia de Prueba: GOT-10K (180 secuencias de prueba), TrackingNet (511 videos), LaSOT (280 videos de prueba), LaSOText (150 videos), VOT2020 (60 secuencias de desafío)

Métricas de Evaluación

  • GOT-10K: Superposición Promedio (AO), Tasa de Éxito (SR)
  • LaSOT/LaSOText: Área Bajo la Curva (AUC), Precisión (P), Precisión Normalizada (PNorm)
  • TrackingNet: AUC, P, PNorm
  • VOT2020: Superposición Promedio Esperada (EAO), Precisión, Robustez

Detalles de Implementación

  • Red Troncal: ViT-base
  • Optimizador: AdamW, tasa de aprendizaje 4×10⁻⁵ (troncal), 4×10⁻⁴ (otros)
  • Entrenamiento: 300 épocas, tamaño de lote 16, GPU Tesla A100
  • Inferencia: Verificación de actualización de referencia cada 400 fotogramas por defecto, longitud máxima de tokens de referencia es el doble de la longitud de tokens de búsqueda

Resultados Experimentales

Resultados Principales

Punto de Referencia GOT-10K

LMTrack384 logra 80.1% AO en GOT-10K, mejorando 2.6% en comparación con el método anterior más óptimo ARTrackV2 con 77.5% AO.

Rendimiento en Otros Puntos de Referencia

  • TrackingNet: 85.7% AUC
  • LaSOT: 73.2% AUC
  • LaSOText: 53.6% AUC, mejora de 0.7% en comparación con ARTrackV2
  • VOT2020: 58.6% EAO (LMTrack384), 55.0% EAO (LMTrack256)

Comparación de Eficiencia

En comparación con SeqTrack a la misma resolución:

  • Cantidad de Parámetros: 92M vs 89M
  • Cantidad de Cálculo: 69G vs 148G FLOPs
  • Velocidad de Inferencia: 47fps vs 21fps

Experimentos de Ablación

#AtenciónAutorregresivoActualizaciónAO(%)
1bidireccional×-73.0
2unidireccional×-73.9
3unidireccional×actualizar plantilla74.1
4unidireccional×TCM75.0
5unidireccionalactualizar plantilla75.6
6unidireccionalTCM76.3

Hallazgos Clave:

  1. Atención Unidireccional: Mejora de 0.9% AO en comparación con atención bidireccional, previniendo la propagación de ruido desde la búsqueda hacia la referencia
  2. Seguimiento Autorregresivo: Mejora de 1.3-1.5% AO en comparación con métodos tradicionales
  3. Módulo TCM: Mejora de 0.7-0.9% AO en comparación con estrategia de actualización de plantilla

Análisis de Visualización

Visualización del Módulo TCM

Muestra el proceso de extracción de tokens de referencia importantes por el módulo TCM a lo largo del tiempo, donde la mayoría de tokens de fondo se vuelven menos importantes, conservando principalmente tokens que describen la apariencia del objeto.

Comparación de Atención

La comparación con OSTrack muestra que LMTrack, utilizando tokens de referencia, puede resistir mejor los cambios de apariencia e interferencias, manteniendo la atención en el objeto.

Trabajo Relacionado

Marcos de Seguimiento Tradicionales

Los métodos tempranos se basaban principalmente en métodos de plantilla inicial, como redes Siamese que coinciden con la plantilla de objeto inicial y regiones candidatas, pero tienen dificultades para adaptarse a cambios significativos en la apariencia del objeto.

Seguimiento de Contexto Temporal

Para manejar cambios de apariencia, muchos rastreadores modelan el seguimiento visual como un problema de aprendizaje en línea:

  • UpdateNet: Utiliza una red personalizada para fusionar plantillas acumuladas
  • ATOM: Añade rama de predicción IoU para restringir selección de plantilla
  • STMTrack: Actualiza plantilla dinámica a intervalos fijos
  • SeqTrack: Utiliza estrategia basada en probabilidad para seleccionar plantilla dinámica

Limitaciones de estos métodos:

  1. Actualizar plantilla basada en recorte de cuadro delimitador, fácilmente introduce ruido
  2. Usar métodos manuales o modelos discriminativos adicionales para actualizar plantilla, sin distinguir qué contexto es importante para el seguimiento

Conclusiones y Discusión

Conclusiones Principales

  1. LMTrack mejora significativamente el rendimiento de seguimiento mediante conciencia contextual a nivel de token
  2. El módulo TCM puede recopilar y actualizar efectivamente tokens de referencia importantes
  3. El mecanismo de atención unidireccional mejora la eficiencia y precisión de la fusión de características
  4. Logra rendimiento de última generación en múltiples puntos de referencia, mientras mejora la eficiencia computacional

Limitaciones

  1. Complejidad Computacional: Aunque es más eficiente que SeqTrack, aún requiere mantener y actualizar tokens de referencia
  2. Sensibilidad de Hiperparámetros: La selección del valor k y la frecuencia de actualización pueden afectar el rendimiento
  3. Seguimiento a Largo Plazo: La estrategia de gestión de tokens de referencia en secuencias extremadamente largas necesita optimización adicional

Direcciones Futuras

  1. Explorar métodos más eficientes de evaluación de importancia de tokens
  2. Investigar estrategias de control de longitud de tokens de referencia adaptativas
  3. Extender a escenarios de seguimiento de múltiples objetos

Evaluación Profunda

Ventajas

  1. Innovación Fuerte: La transición de contexto a nivel de fotograma a nivel de token es una innovación importante
  2. Fundamento Teórico Sólido: Valida experimentalmente la hipótesis de distribución de tokens importantes
  3. Experimentación Completa: Evaluación integral en múltiples puntos de referencia y experimentos de ablación detallados
  4. Alto Valor Práctico: Mejora el rendimiento mientras aumenta la eficiencia computacional
  5. Visualización Clara: Demuestra efectivamente el principio de funcionamiento del método

Insuficiencias

  1. Complejidad del Método: El diseño del módulo TCM es relativamente complejo, pudiendo afectar la implementación y ajuste
  2. Sensibilidad de Parámetros: Múltiples hiperparámetros (valor k, frecuencia de actualización, etc.) requieren ajuste cuidadoso
  3. Análisis Teórico Insuficiente: Carece de análisis teórico sobre convergencia y estabilidad del método
  4. Rango de Aplicabilidad: Principalmente dirigido a seguimiento de objeto único, la aplicabilidad en escenarios multiobjeto no está verificada

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para seguimiento consciente del contexto
  2. Valor Práctico: El método mantiene alto rendimiento mientras mejora la eficiencia
  3. Reproducibilidad: Proporciona detalles de implementación completos y código

Escenarios Aplicables

  1. Aplicaciones de Seguimiento en Tiempo Real: La velocidad de inferencia eficiente es adecuada para escenarios en tiempo real
  2. Tareas de Seguimiento a Largo Plazo: La gestión adaptativa de tokens es adecuada para seguimiento de secuencias largas
  3. Seguimiento en Entornos Complejos: Puede manejar efectivamente cambios de apariencia e interferencias

Referencias

Este artículo cita trabajos importantes en el campo del seguimiento de objetos, incluyendo:

  • Serie de redes Siamese (SiamRPN++, SiamFC++)
  • Rastreadores Transformer (TransT, STARK, Mixformer)
  • Métodos conscientes del contexto (STMTrack, SeqTrack, OSTrack)
  • Mecanismos de atención (Transformer, ViT)

Evaluación General: Este es un artículo de alta calidad en visión por computadora que demuestra excelencia tanto en innovación teórica como en verificación experimental. El concepto de diseño "menos es más" y la conciencia contextual a nivel de token proporcionan nuevas perspectivas de investigación para el campo del seguimiento de objetos, poseyendo importante valor académico y significado práctico.