Less is More: Token Context-aware Learning for Object Tracking
Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic
Meno è Più: Apprendimento Consapevole del Contesto dei Token per il Tracciamento di Oggetti
Questo articolo propone un nuovo metodo di tracciamento di oggetti basato sulla consapevolezza del contesto dei token denominato LMTrack. I metodi di tracciamento consapevoli del contesto esistenti catturano solitamente il contesto attraverso informazioni multi-frame, ma questi metodi ingenui a livello di frame ignorano le differenze di importanza tra i patch all'interno del frame di riferimento, risultando vulnerabili al rumore e ai token ridondanti. LMTrack segue il principio del "meno è più", analizzando la distribuzione di importanza di tutti i token di riferimento, raccogliendo, mantenendo l'attenzione e aggiornando i token importanti. Il metodo contiene due componenti fondamentali: il modulo Token Context Memory (TCM) e il meccanismo di attenzione unidirezionale dei token, raggiungendo prestazioni all'avanguardia su molteplici benchmark di tracciamento.
Il compito di tracciamento di oggetti mira a localizzare e tracciare un oggetto arbitrario in una sequenza video basandosi sulla posizione iniziale. Ricerche recenti hanno dimostrato che l'utilizzo di informazioni di contesto consapevoli dello stato dell'oggetto è cruciale per il tracciamento di oggetti.
Granularità grossolana del contesto a livello di frame: I metodi esistenti utilizzano il frame come unità minima di contesto, ignorando le differenze di importanza tra i vari patch all'interno del frame di riferimento per la localizzazione dell'oggetto nel frame di ricerca
Interferenza da informazioni ridondanti: Trattare equamente tutti i token di riferimento aumenta il carico percettivo e computazionale del modello, specialmente in scene complesse
Mancanza di adattabilità: L'utilizzo di strategie manuali rende il tracker passivo nell'accettazione dei frame di riferimento, piuttosto che permettergli di decidere autonomamente le informazioni di riferimento dell'oggetto
Attraverso l'analisi di un semplice tracker Transformer è stato scoperto che la maggior parte dei token di sfondo viene raramente referenziata durante il tracciamento e ha un impatto minimo sui risultati, mentre i token dell'oggetto come indizi di riferimento a lungo termine vengono ampiamente conservati. Questo verifica l'ipotesi che un numero ridotto di token di alta qualità gioca un ruolo cruciale nel processo di tracciamento.
Propone una nuova pipeline di tracciamento consapevole del contesto dei token LMTrack: Basato sul modulo Token Context Memory, diversamente dai metodi di tracciamento basati su contesto a livello di frame esistenti, LMTrack raccoglie e aggiorna automaticamente il contesto dei token di alta qualità per il tracciamento visivo
Introduce un efficace meccanismo di attenzione unidirezionale: Stabilisce relazioni di dipendenza tra i token di riferimento e il frame di ricerca attraverso propagazione unidirezionale, realizzando un'associazione robusta tra frame e localizzazione
Raggiunge prestazioni di tracciamento all'avanguardia: Ottiene nuovi risultati ottimali su cinque benchmark di tracciamento visivo: LaSOT, TrackingNet, GOT10K, LaSOText e VOT2020
Dato un oggetto target iniziale, localizzare e tracciare continuamente tale oggetto in una sequenza video. L'input è una sequenza di frame video, l'output è il riquadro di delimitazione dell'oggetto target in ogni frame.
Dal contesto a livello di frame al contesto a livello di token: Abbandona il contesto tradizionale a livello di frame, utilizzando una rappresentazione del contesto a livello di token a grana fine per gli indizi di riferimento importanti
Analisi adattiva dell'importanza: Combina la matrice di attenzione e i risultati di classificazione per analizzare l'importanza dei token, piuttosto che utilizzare strategie fisse
Flusso di informazioni unidirezionale: Previene l'inquinamento della rappresentazione dei token di riferimento da parte dei token di ricerca, migliorando l'efficienza della fusione
Dati di addestramento: LaSOT, GOT-10k, TrackingNet, COCO
Benchmark di test: GOT-10K (180 sequenze di test), TrackingNet (511 video), LaSOT (280 video di test), LaSOText (150 video), VOT2020 (60 sequenze di sfida)
Ottimizzatore: AdamW, tasso di apprendimento 4×10⁻⁵ (backbone), 4×10⁻⁴ (altri)
Addestramento: 300 epoch, dimensione batch 16, GPU Tesla A100
Inferenza: Controllo dell'aggiornamento di riferimento ogni 400 frame per impostazione predefinita, lunghezza massima dei token di riferimento pari al doppio della lunghezza dei token di ricerca
Attenzione unidirezionale: Migliora dello 0,9% AO rispetto all'attenzione bidirezionale, prevenendo la propagazione del rumore dalla ricerca al riferimento
Tracciamento autoregressivo: Migliora dell'1,3-1,5% AO rispetto ai metodi tradizionali
Modulo TCM: Migliora dello 0,7-0,9% AO rispetto alla strategia di aggiornamento del template
Mostra il processo di estrazione dei token di riferimento importanti nel tempo da parte del modulo TCM, con la maggior parte dei token di sfondo che diventano non importanti, mantenendo principalmente i token che descrivono l'apparenza dell'oggetto.
Il confronto con OSTrack mostra che LMTrack, utilizzando token di riferimento, può resistere meglio ai cambiamenti di apparenza e agli oggetti di disturbo, mantenendo l'attenzione sull'oggetto target.
I metodi iniziali si basavano principalmente su metodi di template iniziale, come le reti Siamese che abbinano il template dell'oggetto iniziale con le regioni candidate, ma hanno difficoltà ad adattarsi ai cambiamenti significativi nell'apparenza dell'oggetto.
Per affrontare i cambiamenti di apparenza, molti tracker modellano il tracciamento visivo come un problema di apprendimento online:
UpdateNet: Utilizza una rete personalizzata per fondere template cumulativi
ATOM: Aggiunge un ramo di predizione IoU per vincolare la selezione del template
STMTrack: Aggiorna il template dinamico a intervalli fissi
SeqTrack: Utilizza una strategia basata sulla verosimiglianza per selezionare il template dinamico
Limitazioni di questi metodi:
Aggiornare il template basato sul ritaglio del riquadro di delimitazione introduce facilmente rumore
Utilizzare metodi manuali o modelli discriminativi aggiuntivi per aggiornare il template, senza distinguere quale contesto sia importante per il tracciamento
Questo articolo cita importanti lavori nel campo del tracciamento di oggetti, inclusi:
Serie di reti Siamese (SiamRPN++, SiamFC++)
Tracker basati su Transformer (TransT, STARK, Mixformer)
Metodi consapevoli del contesto (STMTrack, SeqTrack, OSTrack)
Meccanismi di attenzione (Transformer, ViT)
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, dove il metodo LMTrack proposto dimostra eccellenza sia nell'innovazione teorica che nella verifica sperimentale. Il principio di progettazione del "meno è più" e la consapevolezza del contesto a livello di token forniscono nuove prospettive di ricerca per il campo del tracciamento di oggetti, possedendo importante valore accademico e significato pratico.