Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
Dieses Papier stellt eine neue Aufgabe zum Videoverständnis vor – Referring Multi-Object Tracking (RMOT) – mit dem Ziel, die Verfolgung mehrerer Objekte durch natürlichsprachliche Ausdrücke als semantische Hinweise zu lenken und dabei Veränderungen der Objektanzahl und zeitliche Semantik umfassend zu berücksichtigen. Das Papier konstruiert den Refer-KITTI-V2-Benchmark-Datensatz mit 9.758 vielfältigen Sprachausdrücken und schlägt das TempRMOT-Framework vor, das durch ein abfragegesteuertes zeitliches Verbesserungsmodul langfristige raum-zeitliche Interaktionen ermöglicht. TempRMOT erreicht optimale Leistung sowohl auf Refer-KITTI als auch auf Refer-KITTI-V2.
Bestehende Aufgaben zum Verständnis von Referenzen (Referring Understanding) weisen zwei Kernbeschränkungen auf:
Einzelziel-Einschränkung: Bestehende Datensätze (wie RefCOCO-Serie, Refer-DAVIS17) annotieren pro Ausdruck nur ein einzelnes Ziel, während in realen Szenen ein Ausdruck mehrere, einzelne oder null Ziele bezeichnen kann
Fehlende zeitliche Konsistenz: Bestehende Methoden können die zeitliche Konsistenz zwischen Sprachausdrücken und sich entwickelnden Zielzuständen nicht modellieren. Beispielsweise beschreibt der Ausdruck „ein Auto, das gerade abbiegt" einen momentanen Zustand, aber die Annotation würde das Ziel weiterhin verfolgen, auch wenn die Abbiegbewegung bereits abgeschlossen ist
Sprachgelenkte Videoanalyse ist eine Schlüsselaufgabe zur Verbindung natürlicher Sprache mit visuellen Inhalten
In praktischen Anwendungen wie dem autonomen Fahren ist es erforderlich, mehrere dynamische Ziele gleichzeitig durch natürlichsprachliche Anweisungen zu verfolgen
Die genaue Modellierung zeitlicher Dynamiken ist für das Verständnis bewegungsbezogener Semantik von entscheidender Bedeutung
Vorschlag der neuen RMOT-Aufgabe: Erstmalige systematische Erweiterung des Verständnisses von Referenzen auf Multi-Objekt-Dynamik-Szenen unter Berücksichtigung zeitlicher Zustandsänderungen
Konstruktion des Refer-KITTI-V2-Datensatzes:
Enthält 9.758 Ausdrücke, 7.193 eindeutige Ausdrücke, 617 verschiedene Vokabeln
Dreistufiger halbautomatischer Annotationsprozess mit LLM-gestützter Generierung vielfältiger Ausdrücke
Enthält implizite Ausdrücke (z.B. „das Ego-Fahrzeug befindet sich hinter dem schwarzen Auto")
Vorschlag des TempRMOT-Frameworks:
End-to-End-Transformer-Architektur ohne Nachbearbeitung
Abfragegesteuertes zeitliches Verbesserungsmodul für langfristige raum-zeitliche Interaktionen
Entkopplung von Verfolgungsabfragen und Erkennungsabfragen zur Behandlung variabler Objektanzahlen
Erreichung von SOTA-Leistung:
Verbesserung um etwa 4% HOTA gegenüber vorherigen Arbeiten auf Refer-KITTI-V2
Eingabe: Videosequenz (T Frames) + natürlichsprachlicher Ausdruck
Ausgabe: Begrenzungsrahmen und IDs aller Ziele in jedem Frame, die der Ausdrucksbeschreibung entsprechen
Einschränkungen:
Variable Objektanzahl (0 bis mehrere)
Annotation nur während Zeiträume, in denen das Ziel die Ausdrucksbeschreibung erfüllt
wobei PV und PL jeweils visuelle und sprachliche Positionskodierungen sind. Nach der Fusion wird durch eine deformierbare Encoder-Schicht verarbeitet:
Etl=DeformEnc(I^tl)
Decoder (Dual-Query-Mechanismus):
VerfolgungsabfragenQttra: Umgewandelt aus den Decoder-Einbettungen Dt−1 des vorherigen Frames zur Zuordnung bereits verfolgter Instanzen
ErkennungsabfragenQdet: Zufällig initialisiert zur Erkennung neu erscheinender Ziele
Frühe modalitätsübergreifende Fusion: Im Vergleich zur dichten Verbindung von MDETR wird eine effiziente Aufmerksamkeitsgewichtungsstrategie verwendet, die die Rechenkomplexität reduziert
Dual-Query-Entkopplungsdesign:
Verfolgungsabfragen erben historische Informationen und gewährleisten ID-Konsistenz
Erkennungsabfragen verarbeiten neue Ziele und erhöhen Flexibilität
Abfragegesteuerte zeitliche Modellierung:
Verwendet kompakte Abfragenrepräsentation statt Rohmerkmale für zeitliche Aggregation
Trennt zeitliche und räumliche Aufmerksamkeitsmechanismen
Unterstützt langfristige Abhängigkeiten (bis zu 8 Frames Historie)
End-to-End-Differenzierbarkeit: Keine NMS-Nachbearbeitung erforderlich, direkte Ausgabe des Endergebnisses
Bedeutung der zeitlichen Modellierung: Signifikante Verbesserung der AssA-Metriken (+5,53%) beweist, dass langfristige zeitliche Abhängigkeiten für die Verfolgungsqualität entscheidend sind
End-to-End-Vorteil: Einstufige Methoden sind insgesamt zweistufigen Methoden überlegen, gemeinsame Optimierung ist effektiver
Sprachkomplexitätsauswirkung: Leistungsabfall auf Refer-KITTI-V2 spiegelt Herausforderungen durch reichere Semantik wider
Verallgemeinerungsfähigkeit des Speichermechanismus: Längere historische Fenster können bei Inferenz als beim Training verwendet werden
Effizienz der Abfragenrepräsentation: Abfragenrepräsentationen sind kompakter als Rohmerkmale und bewahren Schlüsselinformationen
Refer-KITTI-V2 ist hochwertig: Durch halbautomatischen Prozess und LLM wird Balance zwischen Umfang und Vielfalt erreicht
TempRMOT ist effektiv: Zeitliches Verbesserungsmodul verbessert Leistung signifikant, erreicht SOTA auf beiden Benchmarks
Langfristige Abhängigkeiten sind entscheidend: Explizite Modellierung raum-zeitlicher Interaktionen ist für genaue Verfolgung und semantische Ausrichtung wesentlich
Sprachverständnistiefe: Für extrem komplexe logische Schlussfolgerungen (wie mehrfache Negationen, komplexe Kausalbeziehungen) bestehen noch Herausforderungen
Verdeckungsbehandlung: Papier diskutiert Strategien zur Behandlung schwerer Verdeckung nicht ausführlich
Echtzeitleistung: FPS und andere Echtzeitleistungsmetriken werden nicht berichtet, praktische Einsatzbarkeit ist unklar
Verallgemeinerungsfähigkeit: Nur in KITTI-Szenen (Fahrszenarios) validiert, Verallgemeinerung auf andere Bereiche (wie Fußgänger, Sport) ist unbekannt
Hochgeschwindigkeitsszenen: Aktuelle Methode erfüllt möglicherweise nicht Echtzeitleistungsanforderungen
Extreme Verdeckung: Verfolgung unter schwerer Verdeckung bleibt herausfordernd
Offene Domänen: Trainingsdaten begrenzt auf Fahrszenarios, Verallgemeinerung zu überprüfen
Feingranulare Beschreibungen: Für extrem detaillierte Erscheinungsbeschreibungen (z.B. „Person in blauem gestreiftem Hemd") möglicherweise unzureichend
Verbesserungsempfehlungen:
Erweiterung auf mehr Szenarien (Innenräume, Sport, soziale Aktivitäten)
Modelloptimierung zur Verbesserung der Echtzeitleistung
Integration aktiven Lernens zur Unterstützung wenig-Stichproben-Anpassung an neue Szenarien
Wu et al. (2023) - TransRMOT: Erste RMOT-Methode und Refer-KITTI-Datensatz
Du et al. (2024) - iKUN: Umschulungsfreier Tracker
Ma et al. (2024) - MLS-Track: Multi-Level-Semantik-Interaktion
Transformer-Verfolgung:
4. Zeng et al. (2022) - MOTR: End-to-End-Multi-Objekt-Verfolgung
5. Zhu et al. (2020) - Deformable DETR: Deformierbare Aufmerksamkeit
6. Gao & Wang (2023) - MeMOTR: Langzeitgedächtnis-verstärkte Verfolgung
Referenzverständnis:
7. Yu et al. (2016) - RefCOCO-Datensatzserie
8. Kamath et al. (2021) - MDETR: Multi-Modal-Erkennung
Bewertungsmetriken:
9. Luiten et al. (2020) - HOTA: Höherwertige Verfolgungsgenauigkeit
Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier mit substantiellen Innovationen in Aufgabendefinition, Datensatzkonstruktion und Methodendesign. Die RMOT-Aufgabe hat bedeutende theoretische und praktische Werte, Refer-KITTI-V2 bietet der Gemeinschaft wertvolle Ressourcen, das TempRMOT-Framework ist vernünftig gestaltet und effektiv. Hauptmängel liegen in Szenariobeschränkungen und unbekannter Echtzeitleistung. Empfohlen wird, dass Folgeararbeiten auf mehr Bereiche erweitert werden und tiefere theoretische Analysen durchführen. Dieses Papier wird wahrscheinlich zu einer wichtigen Referenz im Bereich der sprachgelenkten Videoanalyse.