2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic

Moins c'est plus : Apprentissage conscient du contexte des tokens pour le suivi d'objets

Informations de base

  • ID de l'article : 2501.00758
  • Titre : Less is More: Token Context-aware Learning for Object Tracking
  • Auteurs : Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
  • Classification : cs.CV (Vision par ordinateur)
  • Date de publication/Conférence : AAAI 2025
  • Lien de l'article : https://arxiv.org/abs/2501.00758
  • Lien du code : https://github.com/XuChenLong/LMTrack

Résumé

Cet article propose une nouvelle méthode de suivi d'objets basée sur l'apprentissage conscient du contexte des tokens, appelée LMTrack. Les méthodes existantes de suivi conscient du contexte capturent généralement le contexte par des informations multi-images, mais ces approches naïves au niveau des images ignorent les différences d'importance entre les patches au sein des images de référence et sont facilement affectées par le bruit et les tokens redondants. LMTrack suit le principe « moins c'est plus » en analysant la distribution d'importance de tous les tokens de référence, en collectant, en maintenant l'attention et en mettant à jour les tokens importants. La méthode comprend deux composants principaux : le module Token Context Memory (TCM) et un mécanisme d'attention unidirectionnel des tokens, atteignant des performances de pointe sur plusieurs repères de suivi.

Contexte et motivation de la recherche

Définition du problème

La tâche de suivi d'objets vise à localiser et suivre des objets arbitraires dans une séquence vidéo en fonction de leur position initiale. Des recherches récentes montrent que l'utilisation d'informations contextuelles pour percevoir l'état de l'objet est cruciale pour le suivi d'objets.

Limitations des méthodes existantes

  1. Granularité grossière du contexte au niveau des images : Les méthodes existantes utilisent l'image comme unité minimale du contexte, ignorant les différences d'importance entre les patches d'une image de référence pour la localisation de l'objet dans l'image de recherche
  2. Interférence d'informations redondantes : Traiter tous les tokens de référence de manière égale augmente la charge perceptive et computationnelle du modèle, particulièrement dans les scènes complexes
  3. Manque d'adaptabilité : Utiliser des stratégies manuelles fait que le suivi accepte passivement les images de référence, plutôt que de laisser le suivi décider activement des informations de référence de l'objet

Motivation de la recherche

L'analyse d'un simple suivi Transformer révèle que la plupart des tokens d'arrière-plan sont rarement référencés pendant le suivi et ont un impact minimal sur les résultats, tandis que les tokens d'objet sont largement conservés comme indices de référence à long terme. Cela valide l'hypothèse selon laquelle un petit nombre de tokens de haute qualité jouent un rôle clé dans le processus de suivi.

Contributions principales

  1. Proposition d'un nouveau pipeline de suivi conscient du contexte des tokens LMTrack : Basé sur le module Token Context Memory, contrairement aux méthodes de suivi existantes basées sur le contexte au niveau des images, LMTrack collecte et met à jour automatiquement un contexte de tokens de haute qualité pour le suivi visuel
  2. Introduction d'un mécanisme d'attention unidirectionnel efficace : Établit les dépendances entre les tokens de référence et l'image de recherche par propagation unidirectionnelle, réalisant une association et une localisation robustes entre images
  3. Réalisation de performances de suivi de pointe : Obtient de nouveaux résultats optimaux sur cinq repères de suivi visuel : LaSOT, TrackingNet, GOT10K, LaSOText et VOT2020

Explication détaillée de la méthode

Définition de la tâche

Étant donné la position initiale de l'objet, localiser et suivre continuellement cet objet dans une séquence vidéo. L'entrée est une séquence d'images vidéo, la sortie est la boîte englobante de l'objet dans chaque image.

Architecture du modèle

Cadre général

LMTrack adopte un cadre de suivi autorégressif conscient du contexte des tokens, comprenant trois composants principaux :

  • Réseau de base avec mécanisme d'attention unidirectionnel
  • Module Token Context Memory (TCM)
  • Tête de prédiction

Processus de suivi autorégressif

Le processus de suivi est défini comme :

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Où R représente les tokens de référence, I représente l'image, et B représente la boîte englobante prédite.

Module Token Context Memory (TCM)

Le module TCM se divise en trois étapes :

Étape 1 : Collecte des tokens importants à partir des tokens de référence

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Où A est la matrice d'attention croisée, C est la carte de score de classification, et W représente la distribution d'importance.

Étape 2 : Intégration de la carte de classification et des tokens de recherche

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Étape 3 : Mise à jour des tokens de référence Fusionner les résultats des étapes 1 et 2 pour former les nouveaux tokens de référence Rₜ.

Mécanisme d'attention unidirectionnel

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Permet uniquement aux tokens de référence d'influencer les tokens de recherche, maintenant la cohérence de la représentation des tokens de référence.

Points d'innovation technique

  1. Du contexte au niveau des images au contexte au niveau des tokens : Abandonne le contexte traditionnel au niveau des images et utilise une représentation contextuelle à grain fin au niveau des tokens pour les indices de référence importants
  2. Analyse d'importance adaptative : Combine la matrice d'attention et les résultats de classification pour analyser l'importance des tokens, plutôt que d'utiliser une stratégie fixe
  3. Flux d'information unidirectionnel : Prévient la pollution de la représentation des tokens de référence par les tokens de recherche, améliorant l'efficacité de la fusion

Configuration expérimentale

Ensembles de données

  • Données d'entraînement : LaSOT, GOT-10k, TrackingNet, COCO
  • Repères de test : GOT-10K (180 séquences de test), TrackingNet (511 vidéos), LaSOT (280 vidéos de test), LaSOText (150 vidéos), VOT2020 (60 séquences de défi)

Métriques d'évaluation

  • GOT-10K : Average Overlap (AO), Success Rate (SR)
  • LaSOT/LaSOText : Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
  • TrackingNet : AUC, P, PNorm
  • VOT2020 : Expected Average Overlap (EAO), Accuracy, Robustness

Détails d'implémentation

  • Réseau de base : ViT-base
  • Optimiseur : AdamW, taux d'apprentissage 4×10⁻⁵ (base), 4×10⁻⁴ (autres)
  • Entraînement : 300 epochs, taille de batch 16, GPU Tesla A100
  • Inférence : Vérification de mise à jour de référence par défaut tous les 400 images, longueur maximale des tokens de référence égale à 2 fois la longueur des tokens de recherche

Résultats expérimentaux

Résultats principaux

Repère GOT-10K

LMTrack384 atteint 80,1% AO sur GOT-10K, une amélioration de 2,6% par rapport à la meilleure méthode précédente ARTrackV2 avec 77,5% AO.

Performance sur d'autres repères

  • TrackingNet : 85,7% AUC
  • LaSOT : 73,2% AUC
  • LaSOText : 53,6% AUC, amélioration de 0,7% par rapport à ARTrackV2
  • VOT2020 : 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Comparaison d'efficacité

Par rapport à SeqTrack à résolution identique :

  • Nombre de paramètres : 92M vs 89M
  • Quantité de calcul : 69G vs 148G FLOPs
  • Vitesse d'inférence : 47fps vs 21fps

Expériences d'ablation

#AttentionAutorégressifMise à jourAO(%)
1bidirectionnelle×-73,0
2unidirectionnelle×-73,9
3unidirectionnelle×mise à jour modèle74,1
4unidirectionnelle×TCM75,0
5unidirectionnellemise à jour modèle75,6
6unidirectionnelleTCM76,3

Découvertes clés :

  1. Attention unidirectionnelle : Amélioration de 0,9% AO par rapport à l'attention bidirectionnelle, prévenant la propagation du bruit de la recherche vers la référence
  2. Suivi autorégressif : Amélioration de 1,3-1,5% AO par rapport aux méthodes traditionnelles
  3. Module TCM : Amélioration de 0,7-0,9% AO par rapport à la stratégie de mise à jour du modèle

Analyse de visualisation

Visualisation du module TCM

Montre le processus d'extraction des tokens de référence importants par le module TCM au fil du temps, la plupart des tokens d'arrière-plan devenant non importants, conservant principalement les tokens décrivant l'apparence de l'objet.

Comparaison d'attention

La comparaison avec OSTrack montre que LMTrack utilisant les tokens de référence peut mieux résister aux changements d'apparence et aux objets perturbateurs, maintenant l'attention sur l'objet.

Travaux connexes

Cadres de suivi traditionnels

Les méthodes anciennes dépendaient principalement de méthodes de modèle initial, comme les réseaux Siamese appariement du modèle d'objet initial avec les régions candidates, mais ont du mal à s'adapter aux changements significatifs d'apparence de l'objet.

Suivi du contexte temporel

Pour traiter les changements d'apparence, de nombreux suivis modélisent le suivi visuel comme un problème d'apprentissage en ligne :

  • UpdateNet : Utilise un réseau personnalisé pour fusionner les modèles accumulés
  • ATOM : Ajoute une branche de prédiction IoU pour contraindre la sélection du modèle
  • STMTrack : Met à jour le modèle dynamique à intervalles fixes
  • SeqTrack : Utilise une stratégie basée sur la vraisemblance pour sélectionner le modèle dynamique

Limitations de ces méthodes :

  1. Mise à jour du modèle basée sur le rognage de la boîte englobante, facilement source de bruit
  2. Utilisation de méthodes manuelles ou de modèles discriminants supplémentaires pour mettre à jour le modèle, sans distinguer quel contexte est important pour le suivi

Conclusion et discussion

Conclusions principales

  1. LMTrack améliore significativement les performances de suivi grâce à la conscience contextuelle au niveau des tokens
  2. Le module TCM peut efficacement collecter et mettre à jour les tokens de référence importants
  3. Le mécanisme d'attention unidirectionnel améliore l'efficacité et la précision de la fusion des caractéristiques
  4. Atteint des performances de pointe sur plusieurs repères tout en améliorant l'efficacité computationnelle

Limitations

  1. Complexité computationnelle : Bien que plus efficace que SeqTrack, nécessite toujours la maintenance et la mise à jour des tokens de référence
  2. Sensibilité aux hyperparamètres : Le choix de la valeur k et la fréquence de mise à jour peuvent affecter les performances
  3. Suivi à long terme : La stratégie de gestion des tokens de référence dans les séquences extrêmement longues nécessite une optimisation supplémentaire

Directions futures

  1. Explorer des méthodes plus efficaces d'évaluation de l'importance des tokens
  2. Étudier des stratégies de contrôle de longueur des tokens de référence adaptatives
  3. Étendre à des scénarios de suivi multi-objets

Évaluation approfondie

Avantages

  1. Innovation forte : La transition du contexte au niveau des images au contexte au niveau des tokens est une innovation importante
  2. Fondation théorique solide : Valide l'hypothèse de distribution des tokens importants par l'expérience
  3. Expérimentation complète : Évaluation complète sur plusieurs repères et expériences d'ablation détaillées
  4. Valeur pratique élevée : Améliore les performances tout en augmentant l'efficacité computationnelle
  5. Visualisation claire : Démontre efficacement le fonctionnement de la méthode

Insuffisances

  1. Complexité de la méthode : La conception du module TCM est relativement complexe, pouvant affecter l'implémentation et l'ajustement
  2. Sensibilité aux paramètres : Plusieurs hyperparamètres (valeur k, fréquence de mise à jour, etc.) nécessitent un ajustement minutieux
  3. Analyse théorique insuffisante : Manque d'analyse théorique sur la convergence et la stabilité de la méthode
  4. Portée d'application : Principalement orientée vers le suivi mono-objet, l'applicabilité aux scénarios multi-objets n'a pas été vérifiée

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche pour le suivi conscient du contexte
  2. Valeur pratique : La méthode maintient des performances élevées tout en améliorant l'efficacité
  3. Reproductibilité : Fournit des détails d'implémentation complets et du code

Scénarios d'application

  1. Applications de suivi en temps réel : La vitesse d'inférence élevée convient aux scénarios en temps réel
  2. Tâches de suivi à long terme : La gestion adaptative des tokens convient au suivi de longues séquences
  3. Suivi en environnement complexe : Peut gérer efficacement les changements d'apparence et les objets perturbateurs

Références

Cet article cite des travaux importants dans le domaine du suivi d'objets, notamment :

  • Série de réseaux Siamese (SiamRPN++, SiamFC++)
  • Suivis basés sur Transformer (TransT, STARK, Mixformer)
  • Méthodes conscientes du contexte (STMTrack, SeqTrack, OSTrack)
  • Mécanismes d'attention (Transformer, ViT)

Évaluation globale : Ceci est un article de haute qualité en vision par ordinateur, la méthode LMTrack proposée démontrant une excellente performance à la fois en innovation théorique et en vérification expérimentale. Le concept de conception « moins c'est plus » et la conscience contextuelle au niveau des tokens fournissent une nouvelle direction de recherche pour le domaine du suivi d'objets, possédant une valeur académique et une signification pratique importantes.