Less is More: Token Context-aware Learning for Object Tracking
Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic
Moins c'est plus : Apprentissage conscient du contexte des tokens pour le suivi d'objets
Cet article propose une nouvelle méthode de suivi d'objets basée sur l'apprentissage conscient du contexte des tokens, appelée LMTrack. Les méthodes existantes de suivi conscient du contexte capturent généralement le contexte par des informations multi-images, mais ces approches naïves au niveau des images ignorent les différences d'importance entre les patches au sein des images de référence et sont facilement affectées par le bruit et les tokens redondants. LMTrack suit le principe « moins c'est plus » en analysant la distribution d'importance de tous les tokens de référence, en collectant, en maintenant l'attention et en mettant à jour les tokens importants. La méthode comprend deux composants principaux : le module Token Context Memory (TCM) et un mécanisme d'attention unidirectionnel des tokens, atteignant des performances de pointe sur plusieurs repères de suivi.
La tâche de suivi d'objets vise à localiser et suivre des objets arbitraires dans une séquence vidéo en fonction de leur position initiale. Des recherches récentes montrent que l'utilisation d'informations contextuelles pour percevoir l'état de l'objet est cruciale pour le suivi d'objets.
Granularité grossière du contexte au niveau des images : Les méthodes existantes utilisent l'image comme unité minimale du contexte, ignorant les différences d'importance entre les patches d'une image de référence pour la localisation de l'objet dans l'image de recherche
Interférence d'informations redondantes : Traiter tous les tokens de référence de manière égale augmente la charge perceptive et computationnelle du modèle, particulièrement dans les scènes complexes
Manque d'adaptabilité : Utiliser des stratégies manuelles fait que le suivi accepte passivement les images de référence, plutôt que de laisser le suivi décider activement des informations de référence de l'objet
L'analyse d'un simple suivi Transformer révèle que la plupart des tokens d'arrière-plan sont rarement référencés pendant le suivi et ont un impact minimal sur les résultats, tandis que les tokens d'objet sont largement conservés comme indices de référence à long terme. Cela valide l'hypothèse selon laquelle un petit nombre de tokens de haute qualité jouent un rôle clé dans le processus de suivi.
Proposition d'un nouveau pipeline de suivi conscient du contexte des tokens LMTrack : Basé sur le module Token Context Memory, contrairement aux méthodes de suivi existantes basées sur le contexte au niveau des images, LMTrack collecte et met à jour automatiquement un contexte de tokens de haute qualité pour le suivi visuel
Introduction d'un mécanisme d'attention unidirectionnel efficace : Établit les dépendances entre les tokens de référence et l'image de recherche par propagation unidirectionnelle, réalisant une association et une localisation robustes entre images
Réalisation de performances de suivi de pointe : Obtient de nouveaux résultats optimaux sur cinq repères de suivi visuel : LaSOT, TrackingNet, GOT10K, LaSOText et VOT2020
Étant donné la position initiale de l'objet, localiser et suivre continuellement cet objet dans une séquence vidéo. L'entrée est une séquence d'images vidéo, la sortie est la boîte englobante de l'objet dans chaque image.
Du contexte au niveau des images au contexte au niveau des tokens : Abandonne le contexte traditionnel au niveau des images et utilise une représentation contextuelle à grain fin au niveau des tokens pour les indices de référence importants
Analyse d'importance adaptative : Combine la matrice d'attention et les résultats de classification pour analyser l'importance des tokens, plutôt que d'utiliser une stratégie fixe
Flux d'information unidirectionnel : Prévient la pollution de la représentation des tokens de référence par les tokens de recherche, améliorant l'efficacité de la fusion
Repères de test : GOT-10K (180 séquences de test), TrackingNet (511 vidéos), LaSOT (280 vidéos de test), LaSOText (150 vidéos), VOT2020 (60 séquences de défi)
Entraînement : 300 epochs, taille de batch 16, GPU Tesla A100
Inférence : Vérification de mise à jour de référence par défaut tous les 400 images, longueur maximale des tokens de référence égale à 2 fois la longueur des tokens de recherche
Attention unidirectionnelle : Amélioration de 0,9% AO par rapport à l'attention bidirectionnelle, prévenant la propagation du bruit de la recherche vers la référence
Suivi autorégressif : Amélioration de 1,3-1,5% AO par rapport aux méthodes traditionnelles
Module TCM : Amélioration de 0,7-0,9% AO par rapport à la stratégie de mise à jour du modèle
Montre le processus d'extraction des tokens de référence importants par le module TCM au fil du temps, la plupart des tokens d'arrière-plan devenant non importants, conservant principalement les tokens décrivant l'apparence de l'objet.
La comparaison avec OSTrack montre que LMTrack utilisant les tokens de référence peut mieux résister aux changements d'apparence et aux objets perturbateurs, maintenant l'attention sur l'objet.
Les méthodes anciennes dépendaient principalement de méthodes de modèle initial, comme les réseaux Siamese appariement du modèle d'objet initial avec les régions candidates, mais ont du mal à s'adapter aux changements significatifs d'apparence de l'objet.
Pour traiter les changements d'apparence, de nombreux suivis modélisent le suivi visuel comme un problème d'apprentissage en ligne :
UpdateNet : Utilise un réseau personnalisé pour fusionner les modèles accumulés
ATOM : Ajoute une branche de prédiction IoU pour contraindre la sélection du modèle
STMTrack : Met à jour le modèle dynamique à intervalles fixes
SeqTrack : Utilise une stratégie basée sur la vraisemblance pour sélectionner le modèle dynamique
Limitations de ces méthodes :
Mise à jour du modèle basée sur le rognage de la boîte englobante, facilement source de bruit
Utilisation de méthodes manuelles ou de modèles discriminants supplémentaires pour mettre à jour le modèle, sans distinguer quel contexte est important pour le suivi
Cet article cite des travaux importants dans le domaine du suivi d'objets, notamment :
Série de réseaux Siamese (SiamRPN++, SiamFC++)
Suivis basés sur Transformer (TransT, STARK, Mixformer)
Méthodes conscientes du contexte (STMTrack, SeqTrack, OSTrack)
Mécanismes d'attention (Transformer, ViT)
Évaluation globale : Ceci est un article de haute qualité en vision par ordinateur, la méthode LMTrack proposée démontrant une excellente performance à la fois en innovation théorique et en vérification expérimentale. Le concept de conception « moins c'est plus » et la conscience contextuelle au niveau des tokens fournissent une nouvelle direction de recherche pour le domaine du suivi d'objets, possédant une valeur académique et une signification pratique importantes.