Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
Questo articolo propone un nuovo compito di comprensione video denominato Referring Multi-Object Tracking (RMOT), che mira a guidare la previsione del tracciamento multi-oggetto attraverso espressioni in linguaggio naturale come indizi semantici, considerando complessivamente i cambiamenti nel numero di oggetti e la semantica temporale. L'articolo costruisce il dataset di riferimento Refer-KITTI-V2, contenente 9.758 espressioni linguistiche diversificate, e propone il framework TempRMOT, che realizza interazioni spaziotemporali a lungo termine attraverso un modulo di potenziamento temporale guidato da query. TempRMOT raggiunge prestazioni ottimali sia su Refer-KITTI che su Refer-KITTI-V2.
I compiti di comprensione referenziale (Referring Understanding) esistenti presentano due limitazioni fondamentali:
Limitazione a Singolo Oggetto: I dataset esistenti (come la serie RefCOCO, Refer-DAVIS17) annotano solo un singolo oggetto per espressione, mentre negli scenari reali un'espressione potrebbe riferirsi a più oggetti, uno solo o nessuno
Mancanza di Coerenza Temporale: I metodi esistenti non riescono a modellare la coerenza temporale tra espressioni linguistiche e stati di evoluzione degli oggetti. Ad esempio, l'espressione "auto che sta girando" descrive uno stato istantaneo, ma l'annotazione continuerebbe a tracciare l'oggetto anche dopo il completamento della manovra
La comprensione video guidata dal linguaggio è un compito fondamentale per collegare il linguaggio naturale ai contenuti visivi
In applicazioni pratiche come la guida autonoma, è necessario tracciare simultaneamente più oggetti dinamici attraverso istruzioni in linguaggio naturale
La modellazione accurata della dinamica temporale è essenziale per comprendere la semantica correlata al movimento
Propone il Nuovo Compito RMOT: Per la prima volta estende sistematicamente la comprensione referenziale a scenari multi-oggetto dinamici, considerando i cambiamenti di stato temporale
Costruisce il Dataset Refer-KITTI-V2:
Contiene 9.758 espressioni, 7.193 espressioni uniche, 617 vocaboli diversi
Progetta un processo di annotazione semi-automatico in tre fasi, combinando la generazione di espressioni diversificate tramite LLM
Include espressioni implicite (come "l'auto propria è posizionata dietro l'auto nera")
Propone il Framework TempRMOT:
Architettura Transformer end-to-end, senza necessità di post-elaborazione
Modulo di potenziamento temporale guidato da query, realizzando interazioni spaziotemporali a lungo termine
Disaccoppia query di tracciamento e query di rilevamento, gestendo un numero variabile di oggetti
Raggiunge Prestazioni SOTA:
Miglioramento di circa il 4% in HOTA rispetto ai lavori precedenti su Refer-KITTI-V2
Raggiunge il 52,21% di HOTA su Refer-KITTI
Progetta un Processo di Annotazione Efficiente: Metodo di annotazione semi-automatico in tre fasi che riduce significativamente i costi umani
Input: Sequenza video (T frame) + espressione in linguaggio naturale
Output: Riquadri di delimitazione e ID di tutti gli oggetti in ogni frame che corrispondono alla descrizione dell'espressione
Vincoli:
Numero di oggetti variabile (da 0 a più)
Annotazione solo durante i periodi temporali in cui gli oggetti soddisfano la descrizione dell'espressione
Necessità di mantenere l'associazione ID coerente nel tempo
Codifica linguistica: RoBERTa codifica il testo in embedding di parole S∈RL×D
Codificatore Cross-Modale (strategia di fusione precoce):
Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSI^tl=dQKTV+Itl
dove PV e PL sono rispettivamente le codifiche di posizione visiva e linguistica. Dopo la fusione, viene elaborato attraverso uno strato di codificatore deformabile:
Etl=DeformEnc(I^tl)
Decodificatore (meccanismo a doppia query):
Query di TracciamentoQttra: trasformate dall'embedding del decodificatore del frame precedente Dt−1, utilizzate per associare istanze già tracciate
Query di RilevamentoQdet: inizializzate casualmente, utilizzate per rilevare oggetti appena apparsi
Qt=Decoder(Etl,concat(Qdet,Qttra))
Testa Referenziale: contiene tre rami
Ramo di classificazione: classificazione binaria (oggetto reale/oggetto vuoto)
Ramo di riquadro di delimitazione: regressione delle coordinate tramite 3 strati FFN
Ramo referenziale: output della probabilità di corrispondenza con l'espressione
Fusione Cross-Modale Precoce: Rispetto alla connessione densa di MDETR, adotta una strategia di ponderazione dell'attenzione efficiente, riducendo la complessità computazionale
Progettazione di Disaccoppiamento a Doppia Query:
Le query di tracciamento ereditano informazioni storiche, garantendo coerenza ID
Le query di rilevamento gestiscono nuovi oggetti, aumentando la flessibilità
Modellazione Temporale Guidata da Query:
Utilizza rappresentazione query compatta piuttosto che caratteristiche grezze per l'aggregazione temporale
Separa i meccanismi di attenzione per dimensione temporale e spaziale
Supporta dipendenze a lungo termine (fino a 8 frame di storia)
Completamente Differenziabile End-to-End: Nessuna necessità di post-elaborazione come NMS, output diretto del risultato finale
Istruzione "auto a sinistra che stanno parcheggiando": TempRMOT identifica correttamente i veicoli fermi, TransRMOT etichetta erroneamente i pedoni come parcheggiati
Istruzione "persone a destra che stanno camminando": TempRMOT comprende accuratamente lo stato di movimento
Capacità di Tracciamento Robusto:
Istruzione "auto davanti alla nostra": TransRMOT presenta commutazione ID e perdita di tracciamento, TempRMOT mantiene un'associazione ID coerente
Comprensione di Semantica Complessa:
Gestione di espressioni implicite "l'auto propria è posizionata dietro le auto nere"
Comprensione di descrizioni negative "pedoni senza capelli"
Combinazione di più attributi "gli uomini sono sul lato destro e indossano magliette"
Importanza della Modellazione Temporale: Il significativo miglioramento della metrica AssA (+5,53%) prova che le dipendenze temporali a lungo termine sono cruciali per la qualità del tracciamento
Vantaggi End-to-End: I metodi a stadio singolo superano complessivamente i metodi a due stadi, l'ottimizzazione congiunta è più efficace
Impatto della Complessità Linguistica: La diminuzione delle prestazioni su Refer-KITTI-V2 riflette le sfide poste da una semantica più ricca
Generalizzazione del Meccanismo di Memoria: Durante l'inferenza è possibile utilizzare una finestra storica più lunga rispetto all'addestramento
Efficienza della Rappresentazione Query: Rispetto alle caratteristiche grezze, la rappresentazione query è più compatta e conserva informazioni chiave
Compito RMOT più Universale: Supera le limitazioni del singolo oggetto, considera la dinamica temporale, più conforme alle esigenze reali
Qualità Elevata di Refer-KITTI-V2: Attraverso un processo semi-automatico e LLM, raggiunge l'equilibrio tra scala e diversità
TempRMOT Efficace: Il modulo di potenziamento temporale migliora significativamente le prestazioni, raggiungendo SOTA su entrambi i benchmark
Dipendenze a Lungo Termine Cruciali: La modellazione esplicita dell'interazione spaziotemporale è essenziale per il tracciamento accurato e l'allineamento semantico
Scala del Dataset: Sebbene le espressioni siano ricche, il numero di video (21) è relativamente limitato, la diversità di scenari è limitata
Complessità Computazionale: Sebbene l'utilizzo di rappresentazioni query riduca i costi, la memoria multi-frame richiede comunque calcoli aggiuntivi
Profondità della Comprensione Linguistica: Per il ragionamento logico estremamente complesso (come negazioni multiple, relazioni causali complesse) rimangono sfide
Gestione dell'Occlusione: L'articolo non discute in dettaglio strategie di gestione per scenari di occlusione grave
Tempo Reale: Non sono riportati indicatori di prestazione in tempo reale come FPS, la fattibilità della distribuzione pratica non è chiara
Capacità di Generalizzazione: Convalidato solo in scenari KITTI (scenari di guida), la generalizzazione ad altri domini (come pedoni, sport) rimane sconosciuta
Wu et al. (2023) - TransRMOT: primo metodo RMOT e dataset Refer-KITTI
Du et al. (2024) - iKUN: tracciatore senza riaddestrare
Ma et al. (2024) - MLS-Track: interazione semantica multi-livello
Tracciamento Transformer:
4. Zeng et al. (2022) - MOTR: tracciamento multi-oggetto end-to-end
5. Zhu et al. (2020) - Deformable DETR: attenzione deformabile
6. Gao & Wang (2023) - MeMOTR: tracciamento potenziato da memoria a lungo termine
Comprensione Referenziale:
7. Yu et al. (2016) - Dataset serie RefCOCO
8. Kamath et al. (2021) - MDETR: rilevamento multimodale
Metriche di Valutazione:
9. Luiten et al. (2020) - HOTA: accuratezza di tracciamento di ordine superiore
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, con innovazioni sostanziali nella definizione del compito, nella costruzione del dataset e nella progettazione del metodo. Il compito RMOT ha significato teorico importante e valore applicativo, Refer-KITTI-V2 fornisce risorse preziose alla comunità, il framework TempRMOT è progettato razionalmente ed efficace. Le principali insufficienze risiedono nella limitazione dello scenario e nell'incertezza del tempo reale. Si consiglia che i lavori successivi estendano a più domini e conducano analisi teoriche più approfondite. Questo articolo è destinato a diventare un riferimento importante nel campo della comprensione video guidata dal linguaggio.