2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

Bootstrapping Referring Multi-Object Tracking

Informazioni Fondamentali

ID Articolo: 2406.05039
Titolo: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
Autori: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
Classificazione: cs.CV cs.CL
Data di Pubblicazione: 27 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2406.05039
Codice e Dataset: https://github.com/zyn213/TempRMOT

Riassunto

Questo articolo propone un nuovo compito di comprensione video denominato Referring Multi-Object Tracking (RMOT), che mira a guidare la previsione del tracciamento multi-oggetto attraverso espressioni in linguaggio naturale come indizi semantici, considerando complessivamente i cambiamenti nel numero di oggetti e la semantica temporale. L'articolo costruisce il dataset di riferimento Refer-KITTI-V2, contenente 9.758 espressioni linguistiche diversificate, e propone il framework TempRMOT, che realizza interazioni spaziotemporali a lungo termine attraverso un modulo di potenziamento temporale guidato da query. TempRMOT raggiunge prestazioni ottimali sia su Refer-KITTI che su Refer-KITTI-V2.

Contesto di Ricerca e Motivazione

Problemi da Risolvere

I compiti di comprensione referenziale (Referring Understanding) esistenti presentano due limitazioni fondamentali:

Limitazione a Singolo Oggetto: I dataset esistenti (come la serie RefCOCO, Refer-DAVIS17) annotano solo un singolo oggetto per espressione, mentre negli scenari reali un'espressione potrebbe riferirsi a più oggetti, uno solo o nessuno
Mancanza di Coerenza Temporale: I metodi esistenti non riescono a modellare la coerenza temporale tra espressioni linguistiche e stati di evoluzione degli oggetti. Ad esempio, l'espressione "auto che sta girando" descrive uno stato istantaneo, ma l'annotazione continuerebbe a tracciare l'oggetto anche dopo il completamento della manovra

Importanza del Problema

La comprensione video guidata dal linguaggio è un compito fondamentale per collegare il linguaggio naturale ai contenuti visivi
In applicazioni pratiche come la guida autonoma, è necessario tracciare simultaneamente più oggetti dinamici attraverso istruzioni in linguaggio naturale
La modellazione accurata della dinamica temporale è essenziale per comprendere la semantica correlata al movimento

Limitazioni dei Metodi Esistenti

A Livello di Dataset:
- Annotazione manuale combinata con template fissi, diversità linguistica limitata
- Ridondanza semantica significativa (ad esempio, Refer-Dance ha solo 48 espressioni uniche)
- Mancanza di espressioni implicite e semantica complessa (come descrizioni negative)
A Livello di Metodo:
- Metodi a due stadi con elevata complessità e costi computazionali
- Metodi a stadio singolo focalizzati principalmente su frame adiacenti, mancanza di capacità di modellazione temporale a lungo termine

Contributi Fondamentali

Propone il Nuovo Compito RMOT: Per la prima volta estende sistematicamente la comprensione referenziale a scenari multi-oggetto dinamici, considerando i cambiamenti di stato temporale
Costruisce il Dataset Refer-KITTI-V2:
- Contiene 9.758 espressioni, 7.193 espressioni uniche, 617 vocaboli diversi
- Progetta un processo di annotazione semi-automatico in tre fasi, combinando la generazione di espressioni diversificate tramite LLM
- Include espressioni implicite (come "l'auto propria è posizionata dietro l'auto nera")
Propone il Framework TempRMOT:
- Architettura Transformer end-to-end, senza necessità di post-elaborazione
- Modulo di potenziamento temporale guidato da query, realizzando interazioni spaziotemporali a lungo termine
- Disaccoppia query di tracciamento e query di rilevamento, gestendo un numero variabile di oggetti
Raggiunge Prestazioni SOTA:
- Miglioramento di circa il 4% in HOTA rispetto ai lavori precedenti su Refer-KITTI-V2
- Raggiunge il 52,21% di HOTA su Refer-KITTI
Progetta un Processo di Annotazione Efficiente: Metodo di annotazione semi-automatico in tre fasi che riduce significativamente i costi umani

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Sequenza video (T frame) + espressione in linguaggio naturale Output: Riquadri di delimitazione e ID di tutti gli oggetti in ogni frame che corrispondono alla descrizione dell'espressione Vincoli:

Numero di oggetti variabile (da 0 a più)
Annotazione solo durante i periodi temporali in cui gli oggetti soddisfano la descrizione dell'espressione
Necessità di mantenere l'associazione ID coerente nel tempo

Architettura del Modello

TempRMOT è costituito da due componenti fondamentali:

1. Modulo RMOT Basato su Transformer

Estrattore di Caratteristiche:

Codifica visiva: rete backbone CNN estrae caratteristiche multi-scala $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$
Codifica linguistica: RoBERTa codifica il testo in embedding di parole $S \in \mathbb{R}^{L \times D}$

Codificatore Cross-Modale (strategia di fusione precoce): $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

dove $P_V$ e $P_L$ sono rispettivamente le codifiche di posizione visiva e linguistica. Dopo la fusione, viene elaborato attraverso uno strato di codificatore deformabile: $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

Decodificatore (meccanismo a doppia query):

Query di Tracciamento $Q^{tra}_t$ : trasformate dall'embedding del decodificatore del frame precedente $D_{t-1}$ , utilizzate per associare istanze già tracciate
Query di Rilevamento $Q^{det}$ : inizializzate casualmente, utilizzate per rilevare oggetti appena apparsi

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

Testa Referenziale: contiene tre rami

Ramo di classificazione: classificazione binaria (oggetto reale/oggetto vuoto)
Ramo di riquadro di delimitazione: regressione delle coordinate tramite 3 strati FFN
Ramo referenziale: output della probabilità di corrispondenza con l'espressione

2. Modulo di Potenziamento Temporale

Meccanismo di Memoria Query:

Mantiene una coda di memoria $N \times K$ (N frame, K oggetti per frame)
Aggiornamento secondo principio FIFO, mantenendo consumo di memoria costante

Decodificatore Temporale (4 strati): Aggrega informazioni storiche attraverso attenzione cross-frame: $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

dove $\tau_h$ è la dimensione della finestra temporale, $\text{Pos}$ codifica la posizione temporale.

Decodificatore di Oggetti (4 strati): Modella interazioni spaziali attraverso attenzione cross-oggetto: $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

Raffinamento della Traiettoria: Utilizza MLP per prevedere aggiustamenti residui: $B_t = B_t + \text{MLP}(Q^S_t)$

dove $Q^S_t$ è la caratteristica query potenziata spaziotemporalmente.

Punti di Innovazione Tecnica

Fusione Cross-Modale Precoce: Rispetto alla connessione densa di MDETR, adotta una strategia di ponderazione dell'attenzione efficiente, riducendo la complessità computazionale
Progettazione di Disaccoppiamento a Doppia Query:
- Le query di tracciamento ereditano informazioni storiche, garantendo coerenza ID
- Le query di rilevamento gestiscono nuovi oggetti, aumentando la flessibilità
Modellazione Temporale Guidata da Query:
- Utilizza rappresentazione query compatta piuttosto che caratteristiche grezze per l'aggregazione temporale
- Separa i meccanismi di attenzione per dimensione temporale e spaziale
- Supporta dipendenze a lungo termine (fino a 8 frame di storia)
Completamente Differenziabile End-to-End: Nessuna necessità di post-elaborazione come NMS, output diretto del risultato finale

Configurazione Sperimentale

Dataset

Refer-KITTI:

18 video, 895 espressioni
Set di addestramento: 15 video/660 espressioni
Set di test: 3 video/158 espressioni

Refer-KITTI-V2:

21 video, 9.758 espressioni
Set di addestramento: 17 video/8.873 espressioni
Set di test: 4 video/897 espressioni
Caratteristiche: 7.193 espressioni uniche, 617 vocaboli diversi, include espressioni implicite

KITTI: Utilizzato per valutare la capacità MOT generale

Processo di Costruzione del Dataset

Fase 1: Raccolta di Elementi Linguistici

Annotazione di attributi di base: categoria (auto/persone), colore (nero/rosso), posizione (sinistra/destra), azione (movimento/svolta)
Propagazione automatica dell'annotazione utilizzando ID istanza KITTI

Fase 2: Generazione di Espressioni

Utilizzo di template predefiniti per combinare elementi linguistici
Esempio: "{colore}-{azione}-auto" → "auto nera che gira"
Associazione di riquadri di delimitazione tramite operazione AND

Fase 3: Estensione di Espressioni

Utilizzo di GPT-3.5 per generare 4 riscritture semanticamente equivalenti per ogni espressione
Verifica in due fasi: verifica LLM + revisione umana
Espansione da 2.719 a 9.758 espressioni

Metriche di Valutazione

HOTA (Higher Order Tracking Accuracy): $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (Detection Accuracy): punteggio IoU di rilevamento a livello di frame
AssA (Association Accuracy): punteggio IoU di associazione temporale
Altre metriche: DetRe, DetPr, AssRe, AssPr, LocA

Metodi di Confronto

Metodi a Due Stadi:

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

Metodi a Stadio Singolo:

EchoTrack, DeepRMOT
TransRMOT (lavoro precedente)
MLS-Track

Dettagli di Implementazione

Rete Backbone: ResNet-50 (visione) + RoBERTa (testo)
Ottimizzatore: Adam, tasso di apprendimento 1e-5 (backbone 1e-5)
Addestramento: 60 epoch, dimensione batch=1, 4×RTX 4090
Aumento dei Dati: ritaglio casuale, multi-scala (800-1536)
Lunghezza Memoria: Refer-KITTI N=4, Refer-KITTI-V2 N=5
Soglia di Inferenza: classificazione 0,6, referenziale 0,4
Pesi di Perdita: $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

Risultati Sperimentali

Risultati Principali

Prestazioni su Refer-KITTI:

Metodo	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48,84	35,74	66,80	51,97	52,25
TransRMOT	✓	46,56	37,97	57,33	49,69	60,10
MLS-Track	✓	49,05	40,03	60,25	59,07	54,18
TempRMOT	✓	52,21	40,95	66,75	55,65	59,25

Miglioramento del 3,16% in HOTA rispetto a MLS-Track
Leadership complessiva tra i metodi end-to-end

Prestazioni su Refer-KITTI-V2:

Metodo	HOTA	DetA	AssA
iKUN	10,32	2,17	49,77
TransRMOT	31,00	19,40	49,68
TempRMOT	35,04	22,97	53,58

Miglioramento del 4,04% in HOTA rispetto a TransRMOT
Convalida dell'efficacia in scenari linguistici più complessi

Prestazioni su KITTI:

Metodo	HOTA	AssA
TransRMOT	61,52	66,51
TempRMOT	63,47	72,04

Miglioramento di AssA del 5,53%, provando l'efficacia della modellazione temporale

Esperimenti di Ablazione

Efficacia del Modulo (Refer-KITTI-V2):

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31,00	19,40	49,68
✓	✗	34,46	22,73	52,37
✓	✓	35,04	22,97	53,58

Il modulo di potenziamento temporale contribuisce maggiormente (+3,46% HOTA)
Il raffinamento della traiettoria migliora ulteriormente le prestazioni (+0,58% HOTA)

Lunghezza della Memoria durante l'Addestramento:

$N_t$	HOTA	DetA	AssA
3	33,64	21,96	51,66
4	34,41	22,43	52,90
5	34,72	22,59	53,49

Contesto storico più lungo porta a miglioramenti continui

Lunghezza della Memoria durante l'Inferenza:

$N_i$	HOTA	DetA	AssA
5	34,72	22,59	53,49
6	34,78	22,73	53,32
8	35,04	22,97	53,58

L'utilizzo di memoria più lunga durante l'inferenza può migliorare ulteriormente le prestazioni
Dimostra la capacità di generalizzazione del modulo temporale

Analisi dei Casi

Capacità di Comprensione del Movimento:

Istruzione "auto a sinistra che stanno parcheggiando": TempRMOT identifica correttamente i veicoli fermi, TransRMOT etichetta erroneamente i pedoni come parcheggiati
Istruzione "persone a destra che stanno camminando": TempRMOT comprende accuratamente lo stato di movimento

Capacità di Tracciamento Robusto:

Istruzione "auto davanti alla nostra": TransRMOT presenta commutazione ID e perdita di tracciamento, TempRMOT mantiene un'associazione ID coerente

Comprensione di Semantica Complessa:

Gestione di espressioni implicite "l'auto propria è posizionata dietro le auto nere"
Comprensione di descrizioni negative "pedoni senza capelli"
Combinazione di più attributi "gli uomini sono sul lato destro e indossano magliette"

Scoperte Sperimentali

Importanza della Modellazione Temporale: Il significativo miglioramento della metrica AssA (+5,53%) prova che le dipendenze temporali a lungo termine sono cruciali per la qualità del tracciamento
Vantaggi End-to-End: I metodi a stadio singolo superano complessivamente i metodi a due stadi, l'ottimizzazione congiunta è più efficace
Impatto della Complessità Linguistica: La diminuzione delle prestazioni su Refer-KITTI-V2 riflette le sfide poste da una semantica più ricca
Generalizzazione del Meccanismo di Memoria: Durante l'inferenza è possibile utilizzare una finestra storica più lunga rispetto all'addestramento
Efficienza della Rappresentazione Query: Rispetto alle caratteristiche grezze, la rappresentazione query è più compatta e conserva informazioni chiave

Lavori Correlati

Dataset di Benchmark RMOT

Limitazioni dei Dataset Esistenti:

Serie RefCOCO: Solo immagini, singolo oggetto
Talk2Car, VID-Sentence: Video ma singolo oggetto
Refer-DAVIS17, Refer-YV: Segmentazione a livello di pixel, singolo oggetto

Confronto Dataset RMOT:

Dataset	Video	Vocaboli	Espressioni	Espressioni Uniche	Espressioni Implicite
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

Metodi RMOT

Metodi a Due Stadi:

Estrazione prima delle traiettorie, poi corrispondenza dell'espressione
Vantaggi: elaborazione raffinata
Svantaggi: elevata complessità, costi computazionali elevati

Metodi a Stadio Singolo:

Framework Transformer end-to-end
TransRMOT: primo modello RMOT
Limitazioni: focus principalmente su frame adiacenti, mancanza di modellazione a lungo termine

Modellazione Temporale Guidata da Query

Lavori Correlati:

MeMOT: modulo di memoria che memorizza query storiche
MeMOTR: potenziamento del contesto temporale delle query di tracciamento
BEVFormer: Transformer spaziotemporale per rappresentazione BEV

Innovazione di questo Articolo:

Focus sulla comprensione video condizionata dal linguaggio
Separazione dell'attenzione temporale e spaziale
Inferenza congiunta combinando caratteristiche spaziali del frame corrente

Conclusioni e Discussione

Conclusioni Principali

Compito RMOT più Universale: Supera le limitazioni del singolo oggetto, considera la dinamica temporale, più conforme alle esigenze reali
Qualità Elevata di Refer-KITTI-V2: Attraverso un processo semi-automatico e LLM, raggiunge l'equilibrio tra scala e diversità
TempRMOT Efficace: Il modulo di potenziamento temporale migliora significativamente le prestazioni, raggiungendo SOTA su entrambi i benchmark
Dipendenze a Lungo Termine Cruciali: La modellazione esplicita dell'interazione spaziotemporale è essenziale per il tracciamento accurato e l'allineamento semantico

Limitazioni

Scala del Dataset: Sebbene le espressioni siano ricche, il numero di video (21) è relativamente limitato, la diversità di scenari è limitata
Complessità Computazionale: Sebbene l'utilizzo di rappresentazioni query riduca i costi, la memoria multi-frame richiede comunque calcoli aggiuntivi
Profondità della Comprensione Linguistica: Per il ragionamento logico estremamente complesso (come negazioni multiple, relazioni causali complesse) rimangono sfide
Gestione dell'Occlusione: L'articolo non discute in dettaglio strategie di gestione per scenari di occlusione grave
Tempo Reale: Non sono riportati indicatori di prestazione in tempo reale come FPS, la fattibilità della distribuzione pratica non è chiara
Capacità di Generalizzazione: Convalidato solo in scenari KITTI (scenari di guida), la generalizzazione ad altri domini (come pedoni, sport) rimane sconosciuta

Direzioni Future

Estensione a Più Scenari: Costruire dataset RMOT che coprano più domini
Miglioramento del Tempo Reale: Ottimizzare la struttura del modello per realizzare il tracciamento in tempo reale
Potenziamento della Comprensione Linguistica: Introdurre modelli linguistici più forti (come GPT-4)
Estensione 3D: Combinare dati point cloud, estendere a RMOT 3D
Tracciamento Interattivo: Supportare correzioni e feedback in tempo reale dell'utente

Valutazione Approfondita

Punti di Forza

1. Definizione del Compito Lungimirante

Il compito RMOT colma il vuoto tra multi-oggetto + dinamica temporale
La modellazione della coerenza temporale (come lo stato istantaneo di "auto che gira") è molto pratica
Fornisce un nuovo paradigma per la guida autonoma guidata dal linguaggio

2. Costruzione del Dataset Scientifica ed Efficiente

Il processo in tre fasi semi-automatico bilancia qualità ed efficienza
La generazione assistita da LLM migliora significativamente la diversità (7193 espressioni uniche)
L'introduzione di espressioni implicite aumenta la sfida e il realismo

3. Progettazione del Metodo Ragionevole

La strategia di fusione precoce riduce la complessità computazionale
La progettazione di disaccoppiamento a doppia query bilancia l'associazione storica e il rilevamento di nuovi oggetti
Il meccanismo di attenzione spaziotemporale separato è chiaro ed efficace

4. Esperimenti Completi

Convalida su tre dataset
Esperimenti di ablazione dettagliati che quantificano il contributo di ogni modulo
Ricchi casi di visualizzazione che mostrano le capacità del modello

5. Scrittura Chiara

Logica rigorosa, progressione da motivazione a metodo a esperimenti
Grafici e tabelle ricchi (10 figure, 5 tabelle), alta densità di informazioni
Dettagli tecnici completi, forte riproducibilità

Insufficienze

1. Limitazioni del Dataset

Numero ridotto di video (21), scenario singolo (solo guida)
Sebbene le espressioni siano numerose, basate su combinazioni di elementi linguistici limitati, diversità semantica profonda insufficiente
Mancanza di scenari impegnativi come condizioni meteorologiche estreme, scene notturne

2. Limitazioni del Metodo

Lunghezza della memoria fissa (N=5), impossibile adattarsi automaticamente
Non gestisce l'ambiguità dell'espressione (come "auto a sinistra" in diverse prospettive)
Mancanza di stima dell'incertezza, impossibile quantificare la confidenza della previsione

3. Insufficienza Sperimentale

Velocità di inferenza non riportata (FPS), tempo reale non chiaro
Mancanza di esperimenti di generalizzazione cross-dataset (test su Refer-Dance)
Nessun confronto con i più recenti modelli visione-linguaggio (come CLIP, BLIP-2)
Analisi degli errori insufficiente, modalità di fallimento principale non statisticate

4. Mancanza di Analisi Teorica

Nessuna spiegazione teorica del perché la modellazione temporale sia efficace
Mancanza di visualizzazione dei pesi di attenzione
Nessuna discussione sulla dinamica di apprendimento e convergenza del modello

5. Discussione Insufficiente dell'Impatto Sociale

Nessuna discussione su problemi di privacy (questioni etiche del tracciamento dei pedoni)
Nessuna analisi di potenziali pregiudizi (come pregiudizi di riconoscimento per gruppi specifici)

Impatto

Contributi al Settore:

A Livello di Compito: Il compito RMOT diventerà una direzione importante nella comprensione video, già citato da più lavori successivi
A Livello di Dati: Refer-KITTI-V2 fornisce un benchmark di alta qualità alla comunità, il codice e i dati open-source promuovono la ricerca
A Livello di Metodo: Il design del modulo di potenziamento temporale può essere trasferito ad altri compiti video

Valore Pratico:

Guida Autonoma: Supporta il controllo dei veicoli tramite istruzioni linguistiche ("seguire l'auto rossa davanti")
Sorveglianza Intelligente: Recupero multi-oggetto basato su descrizione ("pedone che indossa abiti rossi")
Interazione Uomo-Macchina: Editing video guidato da linguaggio naturale

Riproducibilità:

Codice e dataset open-source (https://github.com/zyn213/TempRMOT)
Dettagli di implementazione completi (iperparametri, strategie di addestramento, ecc.)
Basato su framework maturo (Deformable DETR), facile da riprodurre

Impatto Previsto:

Breve termine (1-2 anni): Stimola più dataset e metodi RMOT
Medio termine (3-5 anni): Combinazione con modelli linguistici di grandi dimensioni, realizzazione di comprensione semantica più forte
Lungo termine (5+ anni): Diventa componente standard dei sistemi di guida autonoma multimodale

Scenari Applicabili

Scenari Più Adatti:

Guida Autonoma: Tracciamento di veicoli guidato da istruzioni linguistiche e pianificazione del percorso
Trasporto Intelligente: Rilevamento di partecipanti al traffico basato su descrizione ("veicoli parcheggiati illegalmente")
Sorveglianza Video: Recupero di obiettivi tramite query in linguaggio naturale
Navigazione Robotica: Inseguimento di obiettivi guidato dal linguaggio

Scenari Meno Adatti:

Scenari ad Alta Velocità: Il metodo attuale potrebbe non soddisfare i requisiti di tempo reale
Occlusione Estrema: Il tracciamento sotto occlusione grave rimane una sfida
Scenari di Dominio Aperto: I dati di addestramento sono limitati a scenari di guida, la generalizzazione rimane da verificare
Descrizioni Granulari: Per descrizioni di aspetto estremamente dettagliate (come "indossa una camicia a righe blu") potrebbe essere insufficiente

Suggerimenti di Miglioramento:

Estendere a più scenari (interno, sport, attività sociali)
Ottimizzare il modello per migliorare il tempo reale
Introdurre apprendimento attivo, supportare adattamento con pochi campioni a nuovi scenari

Riferimenti

Citazioni Chiave

Correlati a RMOT:

Wu et al. (2023) - TransRMOT: primo metodo RMOT e dataset Refer-KITTI
Du et al. (2024) - iKUN: tracciatore senza riaddestrare
Ma et al. (2024) - MLS-Track: interazione semantica multi-livello

Tracciamento Transformer: 4. Zeng et al. (2022) - MOTR: tracciamento multi-oggetto end-to-end 5. Zhu et al. (2020) - Deformable DETR: attenzione deformabile 6. Gao & Wang (2023) - MeMOTR: tracciamento potenziato da memoria a lungo termine

Comprensione Referenziale: 7. Yu et al. (2016) - Dataset serie RefCOCO 8. Kamath et al. (2021) - MDETR: rilevamento multimodale

Metriche di Valutazione: 9. Luiten et al. (2020) - HOTA: accuratezza di tracciamento di ordine superiore

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, con innovazioni sostanziali nella definizione del compito, nella costruzione del dataset e nella progettazione del metodo. Il compito RMOT ha significato teorico importante e valore applicativo, Refer-KITTI-V2 fornisce risorse preziose alla comunità, il framework TempRMOT è progettato razionalmente ed efficace. Le principali insufficienze risiedono nella limitazione dello scenario e nell'incertezza del tempo reale. Si consiglia che i lavori successivi estendano a più domini e conducano analisi teoriche più approfondite. Questo articolo è destinato a diventare un riferimento importante nel campo della comprensione video guidata dal linguaggio.