2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

Moins c'est plus : Apprentissage conscient du contexte des tokens pour le suivi d'objets

Informations de base

ID de l'article : 2501.00758
Titre : Less is More: Token Context-aware Learning for Object Tracking
Auteurs : Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
Classification : cs.CV (Vision par ordinateur)
Date de publication/Conférence : AAAI 2025
Lien de l'article : https://arxiv.org/abs/2501.00758
Lien du code : https://github.com/XuChenLong/LMTrack

Résumé

Cet article propose une nouvelle méthode de suivi d'objets basée sur l'apprentissage conscient du contexte des tokens, appelée LMTrack. Les méthodes existantes de suivi conscient du contexte capturent généralement le contexte par des informations multi-images, mais ces approches naïves au niveau des images ignorent les différences d'importance entre les patches au sein des images de référence et sont facilement affectées par le bruit et les tokens redondants. LMTrack suit le principe « moins c'est plus » en analysant la distribution d'importance de tous les tokens de référence, en collectant, en maintenant l'attention et en mettant à jour les tokens importants. La méthode comprend deux composants principaux : le module Token Context Memory (TCM) et un mécanisme d'attention unidirectionnel des tokens, atteignant des performances de pointe sur plusieurs repères de suivi.

Contexte et motivation de la recherche

Définition du problème

La tâche de suivi d'objets vise à localiser et suivre des objets arbitraires dans une séquence vidéo en fonction de leur position initiale. Des recherches récentes montrent que l'utilisation d'informations contextuelles pour percevoir l'état de l'objet est cruciale pour le suivi d'objets.

Limitations des méthodes existantes

Granularité grossière du contexte au niveau des images : Les méthodes existantes utilisent l'image comme unité minimale du contexte, ignorant les différences d'importance entre les patches d'une image de référence pour la localisation de l'objet dans l'image de recherche
Interférence d'informations redondantes : Traiter tous les tokens de référence de manière égale augmente la charge perceptive et computationnelle du modèle, particulièrement dans les scènes complexes
Manque d'adaptabilité : Utiliser des stratégies manuelles fait que le suivi accepte passivement les images de référence, plutôt que de laisser le suivi décider activement des informations de référence de l'objet

Motivation de la recherche

L'analyse d'un simple suivi Transformer révèle que la plupart des tokens d'arrière-plan sont rarement référencés pendant le suivi et ont un impact minimal sur les résultats, tandis que les tokens d'objet sont largement conservés comme indices de référence à long terme. Cela valide l'hypothèse selon laquelle un petit nombre de tokens de haute qualité jouent un rôle clé dans le processus de suivi.

Contributions principales

Proposition d'un nouveau pipeline de suivi conscient du contexte des tokens LMTrack : Basé sur le module Token Context Memory, contrairement aux méthodes de suivi existantes basées sur le contexte au niveau des images, LMTrack collecte et met à jour automatiquement un contexte de tokens de haute qualité pour le suivi visuel
Introduction d'un mécanisme d'attention unidirectionnel efficace : Établit les dépendances entre les tokens de référence et l'image de recherche par propagation unidirectionnelle, réalisant une association et une localisation robustes entre images
Réalisation de performances de suivi de pointe : Obtient de nouveaux résultats optimaux sur cinq repères de suivi visuel : LaSOT, TrackingNet, GOT10K, LaSOText et VOT2020

Explication détaillée de la méthode

Définition de la tâche

Étant donné la position initiale de l'objet, localiser et suivre continuellement cet objet dans une séquence vidéo. L'entrée est une séquence d'images vidéo, la sortie est la boîte englobante de l'objet dans chaque image.

Architecture du modèle

Cadre général

LMTrack adopte un cadre de suivi autorégressif conscient du contexte des tokens, comprenant trois composants principaux :

Réseau de base avec mécanisme d'attention unidirectionnel
Module Token Context Memory (TCM)
Tête de prédiction

Processus de suivi autorégressif

Le processus de suivi est défini comme :

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Où R représente les tokens de référence, I représente l'image, et B représente la boîte englobante prédite.

Module Token Context Memory (TCM)

Le module TCM se divise en trois étapes :

Étape 1 : Collecte des tokens importants à partir des tokens de référence

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Où A est la matrice d'attention croisée, C est la carte de score de classification, et W représente la distribution d'importance.

Étape 2 : Intégration de la carte de classification et des tokens de recherche

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Étape 3 : Mise à jour des tokens de référence Fusionner les résultats des étapes 1 et 2 pour former les nouveaux tokens de référence Rₜ.

Mécanisme d'attention unidirectionnel

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Permet uniquement aux tokens de référence d'influencer les tokens de recherche, maintenant la cohérence de la représentation des tokens de référence.

Points d'innovation technique

Du contexte au niveau des images au contexte au niveau des tokens : Abandonne le contexte traditionnel au niveau des images et utilise une représentation contextuelle à grain fin au niveau des tokens pour les indices de référence importants
Analyse d'importance adaptative : Combine la matrice d'attention et les résultats de classification pour analyser l'importance des tokens, plutôt que d'utiliser une stratégie fixe
Flux d'information unidirectionnel : Prévient la pollution de la représentation des tokens de référence par les tokens de recherche, améliorant l'efficacité de la fusion

Configuration expérimentale

Ensembles de données

Données d'entraînement : LaSOT, GOT-10k, TrackingNet, COCO
Repères de test : GOT-10K (180 séquences de test), TrackingNet (511 vidéos), LaSOT (280 vidéos de test), LaSOText (150 vidéos), VOT2020 (60 séquences de défi)

Métriques d'évaluation

GOT-10K : Average Overlap (AO), Success Rate (SR)
LaSOT/LaSOText : Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
TrackingNet : AUC, P, PNorm
VOT2020 : Expected Average Overlap (EAO), Accuracy, Robustness

Détails d'implémentation

Réseau de base : ViT-base
Optimiseur : AdamW, taux d'apprentissage 4×10⁻⁵ (base), 4×10⁻⁴ (autres)
Entraînement : 300 epochs, taille de batch 16, GPU Tesla A100
Inférence : Vérification de mise à jour de référence par défaut tous les 400 images, longueur maximale des tokens de référence égale à 2 fois la longueur des tokens de recherche

Résultats expérimentaux

Résultats principaux

Repère GOT-10K

LMTrack384 atteint 80,1% AO sur GOT-10K, une amélioration de 2,6% par rapport à la meilleure méthode précédente ARTrackV2 avec 77,5% AO.

Performance sur d'autres repères

TrackingNet : 85,7% AUC
LaSOT : 73,2% AUC
LaSOText : 53,6% AUC, amélioration de 0,7% par rapport à ARTrackV2
VOT2020 : 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Comparaison d'efficacité

Par rapport à SeqTrack à résolution identique :

Nombre de paramètres : 92M vs 89M
Quantité de calcul : 69G vs 148G FLOPs
Vitesse d'inférence : 47fps vs 21fps

Expériences d'ablation

#	Attention	Autorégressif	Mise à jour	AO(%)
1	bidirectionnelle	×	-	73,0
2	unidirectionnelle	×	-	73,9
3	unidirectionnelle	×	mise à jour modèle	74,1
4	unidirectionnelle	×	TCM	75,0
5	unidirectionnelle	✓	mise à jour modèle	75,6
6	unidirectionnelle	✓	TCM	76,3

Découvertes clés :

Attention unidirectionnelle : Amélioration de 0,9% AO par rapport à l'attention bidirectionnelle, prévenant la propagation du bruit de la recherche vers la référence
Suivi autorégressif : Amélioration de 1,3-1,5% AO par rapport aux méthodes traditionnelles
Module TCM : Amélioration de 0,7-0,9% AO par rapport à la stratégie de mise à jour du modèle

Analyse de visualisation

Visualisation du module TCM

Montre le processus d'extraction des tokens de référence importants par le module TCM au fil du temps, la plupart des tokens d'arrière-plan devenant non importants, conservant principalement les tokens décrivant l'apparence de l'objet.

Comparaison d'attention

La comparaison avec OSTrack montre que LMTrack utilisant les tokens de référence peut mieux résister aux changements d'apparence et aux objets perturbateurs, maintenant l'attention sur l'objet.

Travaux connexes

Cadres de suivi traditionnels

Les méthodes anciennes dépendaient principalement de méthodes de modèle initial, comme les réseaux Siamese appariement du modèle d'objet initial avec les régions candidates, mais ont du mal à s'adapter aux changements significatifs d'apparence de l'objet.

Suivi du contexte temporel

Pour traiter les changements d'apparence, de nombreux suivis modélisent le suivi visuel comme un problème d'apprentissage en ligne :

UpdateNet : Utilise un réseau personnalisé pour fusionner les modèles accumulés
ATOM : Ajoute une branche de prédiction IoU pour contraindre la sélection du modèle
STMTrack : Met à jour le modèle dynamique à intervalles fixes
SeqTrack : Utilise une stratégie basée sur la vraisemblance pour sélectionner le modèle dynamique

Limitations de ces méthodes :

Mise à jour du modèle basée sur le rognage de la boîte englobante, facilement source de bruit
Utilisation de méthodes manuelles ou de modèles discriminants supplémentaires pour mettre à jour le modèle, sans distinguer quel contexte est important pour le suivi

Conclusion et discussion

Conclusions principales

LMTrack améliore significativement les performances de suivi grâce à la conscience contextuelle au niveau des tokens
Le module TCM peut efficacement collecter et mettre à jour les tokens de référence importants
Le mécanisme d'attention unidirectionnel améliore l'efficacité et la précision de la fusion des caractéristiques
Atteint des performances de pointe sur plusieurs repères tout en améliorant l'efficacité computationnelle

Limitations

Complexité computationnelle : Bien que plus efficace que SeqTrack, nécessite toujours la maintenance et la mise à jour des tokens de référence
Sensibilité aux hyperparamètres : Le choix de la valeur k et la fréquence de mise à jour peuvent affecter les performances
Suivi à long terme : La stratégie de gestion des tokens de référence dans les séquences extrêmement longues nécessite une optimisation supplémentaire

Directions futures

Explorer des méthodes plus efficaces d'évaluation de l'importance des tokens
Étudier des stratégies de contrôle de longueur des tokens de référence adaptatives
Étendre à des scénarios de suivi multi-objets

Évaluation approfondie

Avantages

Innovation forte : La transition du contexte au niveau des images au contexte au niveau des tokens est une innovation importante
Fondation théorique solide : Valide l'hypothèse de distribution des tokens importants par l'expérience
Expérimentation complète : Évaluation complète sur plusieurs repères et expériences d'ablation détaillées
Valeur pratique élevée : Améliore les performances tout en augmentant l'efficacité computationnelle
Visualisation claire : Démontre efficacement le fonctionnement de la méthode

Insuffisances

Complexité de la méthode : La conception du module TCM est relativement complexe, pouvant affecter l'implémentation et l'ajustement
Sensibilité aux paramètres : Plusieurs hyperparamètres (valeur k, fréquence de mise à jour, etc.) nécessitent un ajustement minutieux
Analyse théorique insuffisante : Manque d'analyse théorique sur la convergence et la stabilité de la méthode
Portée d'application : Principalement orientée vers le suivi mono-objet, l'applicabilité aux scénarios multi-objets n'a pas été vérifiée

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour le suivi conscient du contexte
Valeur pratique : La méthode maintient des performances élevées tout en améliorant l'efficacité
Reproductibilité : Fournit des détails d'implémentation complets et du code

Scénarios d'application

Applications de suivi en temps réel : La vitesse d'inférence élevée convient aux scénarios en temps réel
Tâches de suivi à long terme : La gestion adaptative des tokens convient au suivi de longues séquences
Suivi en environnement complexe : Peut gérer efficacement les changements d'apparence et les objets perturbateurs

Références

Cet article cite des travaux importants dans le domaine du suivi d'objets, notamment :

Série de réseaux Siamese (SiamRPN++, SiamFC++)
Suivis basés sur Transformer (TransT, STARK, Mixformer)
Méthodes conscientes du contexte (STMTrack, SeqTrack, OSTrack)
Mécanismes d'attention (Transformer, ViT)

Évaluation globale : Ceci est un article de haute qualité en vision par ordinateur, la méthode LMTrack proposée démontrant une excellente performance à la fois en innovation théorique et en vérification expérimentale. Le concept de conception « moins c'est plus » et la conscience contextuelle au niveau des tokens fournissent une nouvelle direction de recherche pour le domaine du suivi d'objets, possédant une valeur académique et une signification pratique importantes.