2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic

Meno è Più: Apprendimento Consapevole del Contesto dei Token per il Tracciamento di Oggetti

Informazioni Fondamentali

  • ID Articolo: 2501.00758
  • Titolo: Less is More: Token Context-aware Learning for Object Tracking
  • Autori: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
  • Classificazione: cs.CV (Visione Artificiale)
  • Data di Pubblicazione/Conferenza: AAAI 2025
  • Link Articolo: https://arxiv.org/abs/2501.00758
  • Link Codice: https://github.com/XuChenLong/LMTrack

Riassunto

Questo articolo propone un nuovo metodo di tracciamento di oggetti basato sulla consapevolezza del contesto dei token denominato LMTrack. I metodi di tracciamento consapevoli del contesto esistenti catturano solitamente il contesto attraverso informazioni multi-frame, ma questi metodi ingenui a livello di frame ignorano le differenze di importanza tra i patch all'interno del frame di riferimento, risultando vulnerabili al rumore e ai token ridondanti. LMTrack segue il principio del "meno è più", analizzando la distribuzione di importanza di tutti i token di riferimento, raccogliendo, mantenendo l'attenzione e aggiornando i token importanti. Il metodo contiene due componenti fondamentali: il modulo Token Context Memory (TCM) e il meccanismo di attenzione unidirezionale dei token, raggiungendo prestazioni all'avanguardia su molteplici benchmark di tracciamento.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il compito di tracciamento di oggetti mira a localizzare e tracciare un oggetto arbitrario in una sequenza video basandosi sulla posizione iniziale. Ricerche recenti hanno dimostrato che l'utilizzo di informazioni di contesto consapevoli dello stato dell'oggetto è cruciale per il tracciamento di oggetti.

Limitazioni dei Metodi Esistenti

  1. Granularità grossolana del contesto a livello di frame: I metodi esistenti utilizzano il frame come unità minima di contesto, ignorando le differenze di importanza tra i vari patch all'interno del frame di riferimento per la localizzazione dell'oggetto nel frame di ricerca
  2. Interferenza da informazioni ridondanti: Trattare equamente tutti i token di riferimento aumenta il carico percettivo e computazionale del modello, specialmente in scene complesse
  3. Mancanza di adattabilità: L'utilizzo di strategie manuali rende il tracker passivo nell'accettazione dei frame di riferimento, piuttosto che permettergli di decidere autonomamente le informazioni di riferimento dell'oggetto

Motivazione della Ricerca

Attraverso l'analisi di un semplice tracker Transformer è stato scoperto che la maggior parte dei token di sfondo viene raramente referenziata durante il tracciamento e ha un impatto minimo sui risultati, mentre i token dell'oggetto come indizi di riferimento a lungo termine vengono ampiamente conservati. Questo verifica l'ipotesi che un numero ridotto di token di alta qualità gioca un ruolo cruciale nel processo di tracciamento.

Contributi Fondamentali

  1. Propone una nuova pipeline di tracciamento consapevole del contesto dei token LMTrack: Basato sul modulo Token Context Memory, diversamente dai metodi di tracciamento basati su contesto a livello di frame esistenti, LMTrack raccoglie e aggiorna automaticamente il contesto dei token di alta qualità per il tracciamento visivo
  2. Introduce un efficace meccanismo di attenzione unidirezionale: Stabilisce relazioni di dipendenza tra i token di riferimento e il frame di ricerca attraverso propagazione unidirezionale, realizzando un'associazione robusta tra frame e localizzazione
  3. Raggiunge prestazioni di tracciamento all'avanguardia: Ottiene nuovi risultati ottimali su cinque benchmark di tracciamento visivo: LaSOT, TrackingNet, GOT10K, LaSOText e VOT2020

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un oggetto target iniziale, localizzare e tracciare continuamente tale oggetto in una sequenza video. L'input è una sequenza di frame video, l'output è il riquadro di delimitazione dell'oggetto target in ogni frame.

Architettura del Modello

Struttura Generale

LMTrack adotta un framework di tracciamento autogressivo consapevole del contesto dei token, contenente tre componenti principali:

  • Rete backbone con meccanismo di attenzione unidirezionale
  • Modulo Token Context Memory (TCM)
  • Testa di predizione

Processo di Tracciamento Autoregressivo

Il processo di tracciamento è definito come:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Dove R rappresenta i token di riferimento, I rappresenta il frame immagine, B rappresenta il riquadro di delimitazione predetto.

Modulo Token Context Memory (TCM)

Il modulo TCM è diviso in tre fasi:

Fase 1: Raccogliere token importanti dai token di riferimento

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Dove A è la matrice di attenzione incrociata, C è la mappa dei punteggi di classificazione, W rappresenta la distribuzione di importanza.

Fase 2: Integrare la mappa di classificazione e i token di ricerca

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Fase 3: Aggiornare i token di riferimento Unire i risultati della Fase 1 e della Fase 2 per formare i nuovi token di riferimento Rₜ.

Meccanismo di Attenzione Unidirezionale

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Consente solo ai token di riferimento di influenzare i token di ricerca, mantenendo la coerenza della rappresentazione dei token di riferimento.

Punti di Innovazione Tecnica

  1. Dal contesto a livello di frame al contesto a livello di token: Abbandona il contesto tradizionale a livello di frame, utilizzando una rappresentazione del contesto a livello di token a grana fine per gli indizi di riferimento importanti
  2. Analisi adattiva dell'importanza: Combina la matrice di attenzione e i risultati di classificazione per analizzare l'importanza dei token, piuttosto che utilizzare strategie fisse
  3. Flusso di informazioni unidirezionale: Previene l'inquinamento della rappresentazione dei token di riferimento da parte dei token di ricerca, migliorando l'efficienza della fusione

Configurazione Sperimentale

Dataset

  • Dati di addestramento: LaSOT, GOT-10k, TrackingNet, COCO
  • Benchmark di test: GOT-10K (180 sequenze di test), TrackingNet (511 video), LaSOT (280 video di test), LaSOText (150 video), VOT2020 (60 sequenze di sfida)

Metriche di Valutazione

  • GOT-10K: Average Overlap (AO), Success Rate (SR)
  • LaSOT/LaSOText: Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
  • TrackingNet: AUC, P, PNorm
  • VOT2020: Expected Average Overlap (EAO), Accuracy, Robustness

Dettagli di Implementazione

  • Rete backbone: ViT-base
  • Ottimizzatore: AdamW, tasso di apprendimento 4×10⁻⁵ (backbone), 4×10⁻⁴ (altri)
  • Addestramento: 300 epoch, dimensione batch 16, GPU Tesla A100
  • Inferenza: Controllo dell'aggiornamento di riferimento ogni 400 frame per impostazione predefinita, lunghezza massima dei token di riferimento pari al doppio della lunghezza dei token di ricerca

Risultati Sperimentali

Risultati Principali

Benchmark GOT-10K

LMTrack384 raggiunge l'80,1% AO su GOT-10K, migliorando del 2,6% rispetto al precedente miglior metodo ARTrackV2 con il 77,5% AO.

Prestazioni su Altri Benchmark

  • TrackingNet: 85,7% AUC
  • LaSOT: 73,2% AUC
  • LaSOText: 53,6% AUC, miglioramento dello 0,7% rispetto ad ARTrackV2
  • VOT2020: 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Confronto di Efficienza

Rispetto a SeqTrack, LMTrack alla stessa risoluzione:

  • Numero di parametri: 92M vs 89M
  • Quantità di calcolo: 69G vs 148G FLOPs
  • Velocità di inferenza: 47fps vs 21fps

Esperimenti di Ablazione

#AttentionAutoregressiveUpdateAO(%)
1bidirezionale×-73,0
2unidirezionale×-73,9
3unidirezionale×aggiorna template74,1
4unidirezionale×TCM75,0
5unidirezionaleaggiorna template75,6
6unidirezionaleTCM76,3

Scoperte Chiave:

  1. Attenzione unidirezionale: Migliora dello 0,9% AO rispetto all'attenzione bidirezionale, prevenendo la propagazione del rumore dalla ricerca al riferimento
  2. Tracciamento autoregressivo: Migliora dell'1,3-1,5% AO rispetto ai metodi tradizionali
  3. Modulo TCM: Migliora dello 0,7-0,9% AO rispetto alla strategia di aggiornamento del template

Analisi di Visualizzazione

Visualizzazione del Modulo TCM

Mostra il processo di estrazione dei token di riferimento importanti nel tempo da parte del modulo TCM, con la maggior parte dei token di sfondo che diventano non importanti, mantenendo principalmente i token che descrivono l'apparenza dell'oggetto.

Confronto dell'Attenzione

Il confronto con OSTrack mostra che LMTrack, utilizzando token di riferimento, può resistere meglio ai cambiamenti di apparenza e agli oggetti di disturbo, mantenendo l'attenzione sull'oggetto target.

Lavori Correlati

Framework di Tracciamento Tradizionali

I metodi iniziali si basavano principalmente su metodi di template iniziale, come le reti Siamese che abbinano il template dell'oggetto iniziale con le regioni candidate, ma hanno difficoltà ad adattarsi ai cambiamenti significativi nell'apparenza dell'oggetto.

Tracciamento del Contesto Temporale

Per affrontare i cambiamenti di apparenza, molti tracker modellano il tracciamento visivo come un problema di apprendimento online:

  • UpdateNet: Utilizza una rete personalizzata per fondere template cumulativi
  • ATOM: Aggiunge un ramo di predizione IoU per vincolare la selezione del template
  • STMTrack: Aggiorna il template dinamico a intervalli fissi
  • SeqTrack: Utilizza una strategia basata sulla verosimiglianza per selezionare il template dinamico

Limitazioni di questi metodi:

  1. Aggiornare il template basato sul ritaglio del riquadro di delimitazione introduce facilmente rumore
  2. Utilizzare metodi manuali o modelli discriminativi aggiuntivi per aggiornare il template, senza distinguere quale contesto sia importante per il tracciamento

Conclusioni e Discussione

Conclusioni Principali

  1. LMTrack migliora significativamente le prestazioni di tracciamento attraverso la consapevolezza del contesto a livello di token
  2. Il modulo TCM può raccogliere e aggiornare efficacemente i token di riferimento importanti
  3. Il meccanismo di attenzione unidirezionale migliora l'efficienza e l'accuratezza della fusione delle caratteristiche
  4. Raggiunge prestazioni all'avanguardia su molteplici benchmark, migliorando al contempo l'efficienza computazionale

Limitazioni

  1. Complessità computazionale: Sebbene più efficiente rispetto a SeqTrack, richiede comunque la manutenzione e l'aggiornamento dei token di riferimento
  2. Sensibilità ai iperparametri: La scelta del valore k e la frequenza di aggiornamento potrebbero influenzare le prestazioni
  3. Tracciamento a lungo termine: La strategia di gestione dei token di riferimento in sequenze estremamente lunghe necessita di ulteriore ottimizzazione

Direzioni Future

  1. Esplorare metodi più efficienti per la valutazione dell'importanza dei token
  2. Ricercare strategie adattive di controllo della lunghezza dei token di riferimento
  3. Estendere a scenari di tracciamento multi-oggetto

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Il passaggio dal contesto a livello di frame al contesto a livello di token rappresenta un'innovazione importante
  2. Fondamenti teorici solidi: Verifica sperimentale dell'ipotesi sulla distribuzione dei token importanti
  3. Esperimenti completi: Valutazione completa su molteplici benchmark e esperimenti di ablazione dettagliati
  4. Alto valore pratico: Migliora le prestazioni mantenendo al contempo l'efficienza computazionale
  5. Visualizzazione chiara: Dimostra efficacemente il funzionamento del metodo

Insufficienze

  1. Complessità del metodo: La progettazione del modulo TCM è relativamente complessa, potendo influenzare l'implementazione e l'ottimizzazione
  2. Sensibilità ai parametri: Molteplici iperparametri (valore k, frequenza di aggiornamento, ecc.) richiedono un'attenta regolazione
  3. Analisi teorica insufficiente: Mancanza di analisi teorica sulla convergenza e stabilità del metodo
  4. Ambito di applicabilità: Principalmente orientato al tracciamento di singoli oggetti, l'applicabilità in scenari multi-oggetto non è verificata

Impatto

  1. Contributo accademico: Fornisce una nuova direzione di ricerca per il tracciamento consapevole del contesto
  2. Valore pratico: Il metodo mantiene alte prestazioni migliorando al contempo l'efficienza
  3. Riproducibilità: Fornisce dettagli di implementazione completi e codice

Scenari Applicabili

  1. Applicazioni di tracciamento in tempo reale: La velocità di inferenza elevata è adatta a scenari in tempo reale
  2. Compiti di tracciamento a lungo termine: La gestione adattiva dei token è adatta al tracciamento di sequenze lunghe
  3. Tracciamento in ambienti complessi: Può gestire efficacemente i cambiamenti di apparenza e gli oggetti di disturbo

Riferimenti Bibliografici

Questo articolo cita importanti lavori nel campo del tracciamento di oggetti, inclusi:

  • Serie di reti Siamese (SiamRPN++, SiamFC++)
  • Tracker basati su Transformer (TransT, STARK, Mixformer)
  • Metodi consapevoli del contesto (STMTrack, SeqTrack, OSTrack)
  • Meccanismi di attenzione (Transformer, ViT)

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, dove il metodo LMTrack proposto dimostra eccellenza sia nell'innovazione teorica che nella verifica sperimentale. Il principio di progettazione del "meno è più" e la consapevolezza del contesto a livello di token forniscono nuove prospettive di ricerca per il campo del tracciamento di oggetti, possedendo importante valore accademico e significato pratico.