2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

Meno è Più: Apprendimento Consapevole del Contesto dei Token per il Tracciamento di Oggetti

Informazioni Fondamentali

ID Articolo: 2501.00758
Titolo: Less is More: Token Context-aware Learning for Object Tracking
Autori: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
Classificazione: cs.CV (Visione Artificiale)
Data di Pubblicazione/Conferenza: AAAI 2025
Link Articolo: https://arxiv.org/abs/2501.00758
Link Codice: https://github.com/XuChenLong/LMTrack

Riassunto

Questo articolo propone un nuovo metodo di tracciamento di oggetti basato sulla consapevolezza del contesto dei token denominato LMTrack. I metodi di tracciamento consapevoli del contesto esistenti catturano solitamente il contesto attraverso informazioni multi-frame, ma questi metodi ingenui a livello di frame ignorano le differenze di importanza tra i patch all'interno del frame di riferimento, risultando vulnerabili al rumore e ai token ridondanti. LMTrack segue il principio del "meno è più", analizzando la distribuzione di importanza di tutti i token di riferimento, raccogliendo, mantenendo l'attenzione e aggiornando i token importanti. Il metodo contiene due componenti fondamentali: il modulo Token Context Memory (TCM) e il meccanismo di attenzione unidirezionale dei token, raggiungendo prestazioni all'avanguardia su molteplici benchmark di tracciamento.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il compito di tracciamento di oggetti mira a localizzare e tracciare un oggetto arbitrario in una sequenza video basandosi sulla posizione iniziale. Ricerche recenti hanno dimostrato che l'utilizzo di informazioni di contesto consapevoli dello stato dell'oggetto è cruciale per il tracciamento di oggetti.

Limitazioni dei Metodi Esistenti

Granularità grossolana del contesto a livello di frame: I metodi esistenti utilizzano il frame come unità minima di contesto, ignorando le differenze di importanza tra i vari patch all'interno del frame di riferimento per la localizzazione dell'oggetto nel frame di ricerca
Interferenza da informazioni ridondanti: Trattare equamente tutti i token di riferimento aumenta il carico percettivo e computazionale del modello, specialmente in scene complesse
Mancanza di adattabilità: L'utilizzo di strategie manuali rende il tracker passivo nell'accettazione dei frame di riferimento, piuttosto che permettergli di decidere autonomamente le informazioni di riferimento dell'oggetto

Motivazione della Ricerca

Attraverso l'analisi di un semplice tracker Transformer è stato scoperto che la maggior parte dei token di sfondo viene raramente referenziata durante il tracciamento e ha un impatto minimo sui risultati, mentre i token dell'oggetto come indizi di riferimento a lungo termine vengono ampiamente conservati. Questo verifica l'ipotesi che un numero ridotto di token di alta qualità gioca un ruolo cruciale nel processo di tracciamento.

Contributi Fondamentali

Propone una nuova pipeline di tracciamento consapevole del contesto dei token LMTrack: Basato sul modulo Token Context Memory, diversamente dai metodi di tracciamento basati su contesto a livello di frame esistenti, LMTrack raccoglie e aggiorna automaticamente il contesto dei token di alta qualità per il tracciamento visivo
Introduce un efficace meccanismo di attenzione unidirezionale: Stabilisce relazioni di dipendenza tra i token di riferimento e il frame di ricerca attraverso propagazione unidirezionale, realizzando un'associazione robusta tra frame e localizzazione
Raggiunge prestazioni di tracciamento all'avanguardia: Ottiene nuovi risultati ottimali su cinque benchmark di tracciamento visivo: LaSOT, TrackingNet, GOT10K, LaSOText e VOT2020

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un oggetto target iniziale, localizzare e tracciare continuamente tale oggetto in una sequenza video. L'input è una sequenza di frame video, l'output è il riquadro di delimitazione dell'oggetto target in ogni frame.

Architettura del Modello

Struttura Generale

LMTrack adotta un framework di tracciamento autogressivo consapevole del contesto dei token, contenente tre componenti principali:

Rete backbone con meccanismo di attenzione unidirezionale
Modulo Token Context Memory (TCM)
Testa di predizione

Processo di Tracciamento Autoregressivo

Il processo di tracciamento è definito come:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Dove R rappresenta i token di riferimento, I rappresenta il frame immagine, B rappresenta il riquadro di delimitazione predetto.

Modulo Token Context Memory (TCM)

Il modulo TCM è diviso in tre fasi:

Fase 1: Raccogliere token importanti dai token di riferimento

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Dove A è la matrice di attenzione incrociata, C è la mappa dei punteggi di classificazione, W rappresenta la distribuzione di importanza.

Fase 2: Integrare la mappa di classificazione e i token di ricerca

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Fase 3: Aggiornare i token di riferimento Unire i risultati della Fase 1 e della Fase 2 per formare i nuovi token di riferimento Rₜ.

Meccanismo di Attenzione Unidirezionale

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Consente solo ai token di riferimento di influenzare i token di ricerca, mantenendo la coerenza della rappresentazione dei token di riferimento.

Punti di Innovazione Tecnica

Dal contesto a livello di frame al contesto a livello di token: Abbandona il contesto tradizionale a livello di frame, utilizzando una rappresentazione del contesto a livello di token a grana fine per gli indizi di riferimento importanti
Analisi adattiva dell'importanza: Combina la matrice di attenzione e i risultati di classificazione per analizzare l'importanza dei token, piuttosto che utilizzare strategie fisse
Flusso di informazioni unidirezionale: Previene l'inquinamento della rappresentazione dei token di riferimento da parte dei token di ricerca, migliorando l'efficienza della fusione

Configurazione Sperimentale

Dataset

Dati di addestramento: LaSOT, GOT-10k, TrackingNet, COCO
Benchmark di test: GOT-10K (180 sequenze di test), TrackingNet (511 video), LaSOT (280 video di test), LaSOText (150 video), VOT2020 (60 sequenze di sfida)

Metriche di Valutazione

GOT-10K: Average Overlap (AO), Success Rate (SR)
LaSOT/LaSOText: Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
TrackingNet: AUC, P, PNorm
VOT2020: Expected Average Overlap (EAO), Accuracy, Robustness

Dettagli di Implementazione

Rete backbone: ViT-base
Ottimizzatore: AdamW, tasso di apprendimento 4×10⁻⁵ (backbone), 4×10⁻⁴ (altri)
Addestramento: 300 epoch, dimensione batch 16, GPU Tesla A100
Inferenza: Controllo dell'aggiornamento di riferimento ogni 400 frame per impostazione predefinita, lunghezza massima dei token di riferimento pari al doppio della lunghezza dei token di ricerca

Risultati Sperimentali

Risultati Principali

Benchmark GOT-10K

LMTrack384 raggiunge l'80,1% AO su GOT-10K, migliorando del 2,6% rispetto al precedente miglior metodo ARTrackV2 con il 77,5% AO.

Prestazioni su Altri Benchmark

TrackingNet: 85,7% AUC
LaSOT: 73,2% AUC
LaSOText: 53,6% AUC, miglioramento dello 0,7% rispetto ad ARTrackV2
VOT2020: 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Confronto di Efficienza

Rispetto a SeqTrack, LMTrack alla stessa risoluzione:

Numero di parametri: 92M vs 89M
Quantità di calcolo: 69G vs 148G FLOPs
Velocità di inferenza: 47fps vs 21fps

Esperimenti di Ablazione

#	Attention	Autoregressive	Update	AO(%)
1	bidirezionale	×	-	73,0
2	unidirezionale	×	-	73,9
3	unidirezionale	×	aggiorna template	74,1
4	unidirezionale	×	TCM	75,0
5	unidirezionale	✓	aggiorna template	75,6
6	unidirezionale	✓	TCM	76,3

Scoperte Chiave:

Attenzione unidirezionale: Migliora dello 0,9% AO rispetto all'attenzione bidirezionale, prevenendo la propagazione del rumore dalla ricerca al riferimento
Tracciamento autoregressivo: Migliora dell'1,3-1,5% AO rispetto ai metodi tradizionali
Modulo TCM: Migliora dello 0,7-0,9% AO rispetto alla strategia di aggiornamento del template

Analisi di Visualizzazione

Visualizzazione del Modulo TCM

Mostra il processo di estrazione dei token di riferimento importanti nel tempo da parte del modulo TCM, con la maggior parte dei token di sfondo che diventano non importanti, mantenendo principalmente i token che descrivono l'apparenza dell'oggetto.

Confronto dell'Attenzione

Il confronto con OSTrack mostra che LMTrack, utilizzando token di riferimento, può resistere meglio ai cambiamenti di apparenza e agli oggetti di disturbo, mantenendo l'attenzione sull'oggetto target.

Lavori Correlati

Framework di Tracciamento Tradizionali

I metodi iniziali si basavano principalmente su metodi di template iniziale, come le reti Siamese che abbinano il template dell'oggetto iniziale con le regioni candidate, ma hanno difficoltà ad adattarsi ai cambiamenti significativi nell'apparenza dell'oggetto.

Tracciamento del Contesto Temporale

Per affrontare i cambiamenti di apparenza, molti tracker modellano il tracciamento visivo come un problema di apprendimento online:

UpdateNet: Utilizza una rete personalizzata per fondere template cumulativi
ATOM: Aggiunge un ramo di predizione IoU per vincolare la selezione del template
STMTrack: Aggiorna il template dinamico a intervalli fissi
SeqTrack: Utilizza una strategia basata sulla verosimiglianza per selezionare il template dinamico

Limitazioni di questi metodi:

Aggiornare il template basato sul ritaglio del riquadro di delimitazione introduce facilmente rumore
Utilizzare metodi manuali o modelli discriminativi aggiuntivi per aggiornare il template, senza distinguere quale contesto sia importante per il tracciamento

Conclusioni e Discussione

Conclusioni Principali

LMTrack migliora significativamente le prestazioni di tracciamento attraverso la consapevolezza del contesto a livello di token
Il modulo TCM può raccogliere e aggiornare efficacemente i token di riferimento importanti
Il meccanismo di attenzione unidirezionale migliora l'efficienza e l'accuratezza della fusione delle caratteristiche
Raggiunge prestazioni all'avanguardia su molteplici benchmark, migliorando al contempo l'efficienza computazionale

Limitazioni

Complessità computazionale: Sebbene più efficiente rispetto a SeqTrack, richiede comunque la manutenzione e l'aggiornamento dei token di riferimento
Sensibilità ai iperparametri: La scelta del valore k e la frequenza di aggiornamento potrebbero influenzare le prestazioni
Tracciamento a lungo termine: La strategia di gestione dei token di riferimento in sequenze estremamente lunghe necessita di ulteriore ottimizzazione

Direzioni Future

Esplorare metodi più efficienti per la valutazione dell'importanza dei token
Ricercare strategie adattive di controllo della lunghezza dei token di riferimento
Estendere a scenari di tracciamento multi-oggetto

Valutazione Approfondita

Punti di Forza

Forte innovatività: Il passaggio dal contesto a livello di frame al contesto a livello di token rappresenta un'innovazione importante
Fondamenti teorici solidi: Verifica sperimentale dell'ipotesi sulla distribuzione dei token importanti
Esperimenti completi: Valutazione completa su molteplici benchmark e esperimenti di ablazione dettagliati
Alto valore pratico: Migliora le prestazioni mantenendo al contempo l'efficienza computazionale
Visualizzazione chiara: Dimostra efficacemente il funzionamento del metodo

Insufficienze

Complessità del metodo: La progettazione del modulo TCM è relativamente complessa, potendo influenzare l'implementazione e l'ottimizzazione
Sensibilità ai parametri: Molteplici iperparametri (valore k, frequenza di aggiornamento, ecc.) richiedono un'attenta regolazione
Analisi teorica insufficiente: Mancanza di analisi teorica sulla convergenza e stabilità del metodo
Ambito di applicabilità: Principalmente orientato al tracciamento di singoli oggetti, l'applicabilità in scenari multi-oggetto non è verificata

Impatto

Contributo accademico: Fornisce una nuova direzione di ricerca per il tracciamento consapevole del contesto
Valore pratico: Il metodo mantiene alte prestazioni migliorando al contempo l'efficienza
Riproducibilità: Fornisce dettagli di implementazione completi e codice

Scenari Applicabili

Applicazioni di tracciamento in tempo reale: La velocità di inferenza elevata è adatta a scenari in tempo reale
Compiti di tracciamento a lungo termine: La gestione adattiva dei token è adatta al tracciamento di sequenze lunghe
Tracciamento in ambienti complessi: Può gestire efficacemente i cambiamenti di apparenza e gli oggetti di disturbo

Riferimenti Bibliografici

Questo articolo cita importanti lavori nel campo del tracciamento di oggetti, inclusi:

Serie di reti Siamese (SiamRPN++, SiamFC++)
Tracker basati su Transformer (TransT, STARK, Mixformer)
Metodi consapevoli del contesto (STMTrack, SeqTrack, OSTrack)
Meccanismi di attenzione (Transformer, ViT)

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, dove il metodo LMTrack proposto dimostra eccellenza sia nell'innovazione teorica che nella verifica sperimentale. Il principio di progettazione del "meno è più" e la consapevolezza del contesto a livello di token forniscono nuove prospettive di ricerca per il campo del tracciamento di oggetti, possedendo importante valore accademico e significato pratico.