2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

Bootstrapping Referring Multi-Object Tracking

Grundinformationen

Paper-ID: 2406.05039
Titel: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
Autoren: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
Klassifizierung: cs.CV cs.CL
Veröffentlichungsdatum: 27. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2406.05039
Code und Datensätze: https://github.com/zyn213/TempRMOT

Zusammenfassung

Dieses Papier stellt eine neue Aufgabe zum Videoverständnis vor – Referring Multi-Object Tracking (RMOT) – mit dem Ziel, die Verfolgung mehrerer Objekte durch natürlichsprachliche Ausdrücke als semantische Hinweise zu lenken und dabei Veränderungen der Objektanzahl und zeitliche Semantik umfassend zu berücksichtigen. Das Papier konstruiert den Refer-KITTI-V2-Benchmark-Datensatz mit 9.758 vielfältigen Sprachausdrücken und schlägt das TempRMOT-Framework vor, das durch ein abfragegesteuertes zeitliches Verbesserungsmodul langfristige raum-zeitliche Interaktionen ermöglicht. TempRMOT erreicht optimale Leistung sowohl auf Refer-KITTI als auch auf Refer-KITTI-V2.

Forschungshintergrund und Motivation

Zu lösende Probleme

Bestehende Aufgaben zum Verständnis von Referenzen (Referring Understanding) weisen zwei Kernbeschränkungen auf:

Einzelziel-Einschränkung: Bestehende Datensätze (wie RefCOCO-Serie, Refer-DAVIS17) annotieren pro Ausdruck nur ein einzelnes Ziel, während in realen Szenen ein Ausdruck mehrere, einzelne oder null Ziele bezeichnen kann
Fehlende zeitliche Konsistenz: Bestehende Methoden können die zeitliche Konsistenz zwischen Sprachausdrücken und sich entwickelnden Zielzuständen nicht modellieren. Beispielsweise beschreibt der Ausdruck „ein Auto, das gerade abbiegt" einen momentanen Zustand, aber die Annotation würde das Ziel weiterhin verfolgen, auch wenn die Abbiegbewegung bereits abgeschlossen ist

Bedeutung des Problems

Sprachgelenkte Videoanalyse ist eine Schlüsselaufgabe zur Verbindung natürlicher Sprache mit visuellen Inhalten
In praktischen Anwendungen wie dem autonomen Fahren ist es erforderlich, mehrere dynamische Ziele gleichzeitig durch natürlichsprachliche Anweisungen zu verfolgen
Die genaue Modellierung zeitlicher Dynamiken ist für das Verständnis bewegungsbezogener Semantik von entscheidender Bedeutung

Einschränkungen bestehender Methoden

Auf Datensatzebene:
- Manuelle Annotation kombiniert mit festen Vorlagen, begrenzte Sprachenvielfalt
- Schwerwiegende semantische Redundanz (z.B. Refer-Dance mit nur 48 eindeutigen Ausdrücken)
- Mangel an impliziten Ausdrücken und komplexer Semantik (wie Negationsbeschreibungen)
Auf Methodenebene:
- Zweistufige Methoden mit hoher Komplexität und großem Rechenaufwand
- Einstufige Methoden konzentrieren sich hauptsächlich auf benachbarte Frames, mangelnde langfristige zeitliche Modellierungsfähigkeit

Kernbeiträge

Vorschlag der neuen RMOT-Aufgabe: Erstmalige systematische Erweiterung des Verständnisses von Referenzen auf Multi-Objekt-Dynamik-Szenen unter Berücksichtigung zeitlicher Zustandsänderungen
Konstruktion des Refer-KITTI-V2-Datensatzes:
- Enthält 9.758 Ausdrücke, 7.193 eindeutige Ausdrücke, 617 verschiedene Vokabeln
- Dreistufiger halbautomatischer Annotationsprozess mit LLM-gestützter Generierung vielfältiger Ausdrücke
- Enthält implizite Ausdrücke (z.B. „das Ego-Fahrzeug befindet sich hinter dem schwarzen Auto")
Vorschlag des TempRMOT-Frameworks:
- End-to-End-Transformer-Architektur ohne Nachbearbeitung
- Abfragegesteuertes zeitliches Verbesserungsmodul für langfristige raum-zeitliche Interaktionen
- Entkopplung von Verfolgungsabfragen und Erkennungsabfragen zur Behandlung variabler Objektanzahlen
Erreichung von SOTA-Leistung:
- Verbesserung um etwa 4% HOTA gegenüber vorherigen Arbeiten auf Refer-KITTI-V2
- Erreicht 52,21% HOTA auf Refer-KITTI
Entwurf eines effizienten Annotationsprozesses: Dreistufige halbautomatische Annotationsmethode reduziert manuellen Aufwand erheblich

Methodische Details

Aufgabendefinition

Eingabe: Videosequenz (T Frames) + natürlichsprachlicher Ausdruck Ausgabe: Begrenzungsrahmen und IDs aller Ziele in jedem Frame, die der Ausdrucksbeschreibung entsprechen Einschränkungen:

Variable Objektanzahl (0 bis mehrere)
Annotation nur während Zeiträume, in denen das Ziel die Ausdrucksbeschreibung erfüllt
Erhaltung zeitlich konsistenter ID-Zuordnungen

Modellarchitektur

TempRMOT besteht aus zwei Kernkomponenten:

1. Transformer-basiertes RMOT-Modul

Merkmalextraktor:

Visuelle Kodierung: CNN-Backbone extrahiert mehrskalige Merkmale $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$
Sprachkodierung: RoBERTa kodiert Text als Worteinbettungen $S \in \mathbb{R}^{L \times D}$

Modalitätsübergreifender Encoder (frühe Fusionsstrategie): $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

wobei $P_V$ und $P_L$ jeweils visuelle und sprachliche Positionskodierungen sind. Nach der Fusion wird durch eine deformierbare Encoder-Schicht verarbeitet: $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

Decoder (Dual-Query-Mechanismus):

Verfolgungsabfragen $Q^{tra}_t$ : Umgewandelt aus den Decoder-Einbettungen $D_{t-1}$ des vorherigen Frames zur Zuordnung bereits verfolgter Instanzen
Erkennungsabfragen $Q^{det}$ : Zufällig initialisiert zur Erkennung neu erscheinender Ziele

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

Referenzkopf: Enthält drei Zweige

Klassifizierungszweig: Binärklassifizierung (echtes Ziel/leeres Objekt)
Begrenzungsrahmenzweig: 3-schichtige FFN-Koordinatenregression
Referenzzweig: Gibt Übereinstimmungswahrscheinlichkeit mit Ausdruck aus

2. Zeitliches Verbesserungsmodul

Abfrage-Speichermechanismus:

Verwaltet $N \times K$ Speicherwarteschlange (N Frames, K Objekte pro Frame)
FIFO-Prinzip-Update mit konstanter Speichernutzung

Zeitlicher Decoder (4 Schichten): Aggregiert historische Informationen durch Frame-übergreifende Aufmerksamkeit: $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

wobei $\tau_h$ die zeitliche Fenstergröße ist und $\text{Pos}$ zeitliche Positionen kodiert.

Objekt-Decoder (4 Schichten): Modelliert räumliche Interaktionen durch objektübergreifende Aufmerksamkeit: $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

Trajektorienfeinabstimmung: Verwendet MLP zur Vorhersage von Residuumanpassungen: $B_t = B_t + \text{MLP}(Q^S_t)$

wobei $Q^S_t$ die raum-zeitlich verbesserte Abfragefunktion ist.

Technische Innovationen

Frühe modalitätsübergreifende Fusion: Im Vergleich zur dichten Verbindung von MDETR wird eine effiziente Aufmerksamkeitsgewichtungsstrategie verwendet, die die Rechenkomplexität reduziert
Dual-Query-Entkopplungsdesign:
- Verfolgungsabfragen erben historische Informationen und gewährleisten ID-Konsistenz
- Erkennungsabfragen verarbeiten neue Ziele und erhöhen Flexibilität
Abfragegesteuerte zeitliche Modellierung:
- Verwendet kompakte Abfragenrepräsentation statt Rohmerkmale für zeitliche Aggregation
- Trennt zeitliche und räumliche Aufmerksamkeitsmechanismen
- Unterstützt langfristige Abhängigkeiten (bis zu 8 Frames Historie)
End-to-End-Differenzierbarkeit: Keine NMS-Nachbearbeitung erforderlich, direkte Ausgabe des Endergebnisses

Experimentelle Einrichtung

Datensätze

Refer-KITTI:

18 Videos, 895 Ausdrücke
Trainingssatz: 15 Videos/660 Ausdrücke
Testsatz: 3 Videos/158 Ausdrücke

Refer-KITTI-V2:

21 Videos, 9.758 Ausdrücke
Trainingssatz: 17 Videos/8.873 Ausdrücke
Testsatz: 4 Videos/897 Ausdrücke
Merkmale: 7.193 eindeutige Ausdrücke, 617 verschiedene Vokabeln, enthält implizite Ausdrücke

KITTI: Zur Bewertung allgemeiner MOT-Fähigkeiten

Datensatzkonstruktionsprozess

Schritt 1: Sprachkomponentensammlung

Annotation grundlegender Attribute: Klasse (Auto/Person), Farbe (schwarz/rot), Position (links/rechts), Aktion (bewegend/abbiegend)
Automatische Ausbreitungsannotation unter Verwendung von KITTI-Instanz-IDs

Schritt 2: Ausdrucksgenerierung

Verwendung vordefinierter Vorlagen zur Kombination von Sprachkomponenten
Beispiel: „{color}-{action}-cars" → „black turning cars"
Zuordnung von Begrenzungsrahmen durch AND-Operation

Schritt 3: Ausdruckserweiterung

Verwendung von GPT-3.5 zur Generierung von 4 semantisch äquivalenten Umformulierungen pro Ausdruck
Zweistufige Validierung: LLM-Validierung + manuelle Überprüfung
Erweiterung von 2.719 auf 9.758 Ausdrücke

Bewertungsmetriken

HOTA (Higher Order Tracking Accuracy): $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (Detection Accuracy): Frame-Level-Erkennungs-IoU-Score
AssA (Association Accuracy): Zeitliche Zuordnungs-IoU-Score
Weitere Metriken: DetRe, DetPr, AssRe, AssPr, LocA

Vergleichsmethoden

Zweistufige Methoden:

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

Einstufige Methoden:

EchoTrack, DeepRMOT
TransRMOT (vorherige Arbeit)
MLS-Track

Implementierungsdetails

Backbone-Netzwerk: ResNet-50 (visuell) + RoBERTa (Text)
Optimierer: Adam, Lernrate 1e-5 (Backbone 1e-5)
Training: 60 Epochen, Batch-Größe=1, 4×RTX 4090
Datenerweiterung: Zufälliges Zuschneiden, Multiskalierung (800-1536)
Speicherlänge: Refer-KITTI N=4, Refer-KITTI-V2 N=5
Inferenzschwelle: Klassifizierung 0,6, Referenz 0,4
Verlustgewichte: $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

Experimentelle Ergebnisse

Hauptergebnisse

Refer-KITTI-Leistung:

Methode	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48,84	35,74	66,80	51,97	52,25
TransRMOT	✓	46,56	37,97	57,33	49,69	60,10
MLS-Track	✓	49,05	40,03	60,25	59,07	54,18
TempRMOT	✓	52,21	40,95	66,75	55,65	59,25

Verbesserung um 3,16% HOTA gegenüber MLS-Track
Umfassend führend bei End-to-End-Methoden

Refer-KITTI-V2-Leistung:

Methode	HOTA	DetA	AssA
iKUN	10,32	2,17	49,77
TransRMOT	31,00	19,40	49,68
TempRMOT	35,04	22,97	53,58

Verbesserung um 4,04% HOTA gegenüber TransRMOT
Validiert Effektivität in komplexeren Sprachszenen

KITTI-Leistung:

Methode	HOTA	AssA
TransRMOT	61,52	66,51
TempRMOT	63,47	72,04

AssA-Verbesserung um 5,53%, beweist Effektivität der zeitlichen Modellierung

Ablationsstudien

Moduleffektivität (Refer-KITTI-V2):

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31,00	19,40	49,68
✓	✗	34,46	22,73	52,37
✓	✓	35,04	22,97	53,58

Zeitliches Verbesserungsmodul trägt am meisten bei (+3,46% HOTA)
Trajektorienfeinabstimmung verbessert Leistung weiter (+0,58% HOTA)

Trainingsspeicherlänge:

$N_t$	HOTA	DetA	AssA
3	33,64	21,96	51,66
4	34,41	22,43	52,90
5	34,72	22,59	53,49

Längerer historischer Kontext führt zu kontinuierlichen Verbesserungen

Inferenzspeicherlänge:

$N_i$	HOTA	DetA	AssA
5	34,72	22,59	53,49
6	34,78	22,73	53,32
8	35,04	22,97	53,58

Längere Speichernutzung bei Inferenz verbessert Leistung weiter
Zeigt Verallgemeinerungsfähigkeit des zeitlichen Moduls

Fallstudien

Bewegungsverständnisfähigkeit:

Anweisung „left cars which are parking": TempRMOT identifiziert korrekt stationäre Fahrzeuge, TransRMOT markiert fälschlicherweise Fußgänger als parkend
Anweisung „right persons who are walking": TempRMOT versteht Bewegungszustand genau

Robuste Verfolgungsfähigkeit:

Anweisung „cars in front of ours": TransRMOT zeigt ID-Wechsel und Verfolgungsverluste, TempRMOT behält konsistente ID-Zuordnung bei

Verständnis komplexer Semantik:

Verarbeitung impliziter Ausdrücke „the ego car is positioned after the black cars"
Verständnis von Negationsbeschreibungen „pedestrians lacking hair"
Kombination mehrerer Attribute „the men are on the right side and they have t-shirts on"

Experimentelle Erkenntnisse

Bedeutung der zeitlichen Modellierung: Signifikante Verbesserung der AssA-Metriken (+5,53%) beweist, dass langfristige zeitliche Abhängigkeiten für die Verfolgungsqualität entscheidend sind
End-to-End-Vorteil: Einstufige Methoden sind insgesamt zweistufigen Methoden überlegen, gemeinsame Optimierung ist effektiver
Sprachkomplexitätsauswirkung: Leistungsabfall auf Refer-KITTI-V2 spiegelt Herausforderungen durch reichere Semantik wider
Verallgemeinerungsfähigkeit des Speichermechanismus: Längere historische Fenster können bei Inferenz als beim Training verwendet werden
Effizienz der Abfragenrepräsentation: Abfragenrepräsentationen sind kompakter als Rohmerkmale und bewahren Schlüsselinformationen

Datensatz	Videos	Vokabeln	Ausdrücke	Eindeutige Ausdrücke	Implizite Ausdrücke
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

RMOT-Aufgabe ist universeller: Überwindet Einzelziel-Einschränkungen, berücksichtigt zeitliche Dynamiken, entspricht realen Anforderungen besser
Refer-KITTI-V2 ist hochwertig: Durch halbautomatischen Prozess und LLM wird Balance zwischen Umfang und Vielfalt erreicht
TempRMOT ist effektiv: Zeitliches Verbesserungsmodul verbessert Leistung signifikant, erreicht SOTA auf beiden Benchmarks
Langfristige Abhängigkeiten sind entscheidend: Explizite Modellierung raum-zeitlicher Interaktionen ist für genaue Verfolgung und semantische Ausrichtung wesentlich

Einschränkungen

Datensatzgröße: Obwohl Ausdrücke vielfältig sind, ist die Videoanzahl (21) relativ begrenzt, Szenariovielfalt ist eingeschränkt
Rechenkomplexität: Obwohl Abfragenrepräsentationen Overhead reduzieren, erfordert Multi-Frame-Speicher zusätzliche Berechnung
Sprachverständnistiefe: Für extrem komplexe logische Schlussfolgerungen (wie mehrfache Negationen, komplexe Kausalbeziehungen) bestehen noch Herausforderungen
Verdeckungsbehandlung: Papier diskutiert Strategien zur Behandlung schwerer Verdeckung nicht ausführlich
Echtzeitleistung: FPS und andere Echtzeitleistungsmetriken werden nicht berichtet, praktische Einsatzbarkeit ist unklar
Verallgemeinerungsfähigkeit: Nur in KITTI-Szenen (Fahrszenarios) validiert, Verallgemeinerung auf andere Bereiche (wie Fußgänger, Sport) ist unbekannt

Zukünftige Richtungen

Erweiterung auf mehr Szenarien: Konstruktion von RMOT-Datensätzen für mehr Bereiche
Verbesserung der Echtzeitleistung: Modelloptimierung zur Erreichung von Echtzeit-Verfolgung
Verbessertes Sprachverständnis: Integration stärkerer Sprachmodelle (wie GPT-4)
3D-Erweiterung: Kombination mit Punktwolkendaten, Erweiterung auf 3D-RMOT
Interaktive Verfolgung: Unterstützung für Echtzeit-Benutzerkorrektur und Feedback

Tiefenbewertung

Stärken

1. Aufgabendefinition ist zukunftsweisend

RMOT-Aufgabe füllt Lücke zwischen Multi-Objekt + zeitlicher Dynamik
Zeitliche Konsistenzmodellierung (z.B. „gerade abbiegend" als momentaner Zustand) ist sehr praktisch
Bietet neues Paradigma für sprachgelenkte autonome Fahrzeuge

2. Datensatzkonstruktion ist wissenschaftlich und effizient

Dreistufiger halbautomatischer Prozess balanciert Qualität und Effizienz
LLM-gestützte Generierung erhöht Vielfalt erheblich (7.193 eindeutige Ausdrücke)
Einführung impliziter Ausdrücke erhöht Herausforderung und Realismus

3. Methodendesign ist vernünftig

Frühe Fusionsstrategie reduziert Rechenkomplexität
Dual-Query-Entkopplungsdesign balanciert historische Zuordnung und neue Objekterkennung
Raum-zeitlich getrennte Aufmerksamkeitsmechanismen sind klar und effektiv

4. Experimente sind umfassend

Validierung auf drei Datensätzen
Detaillierte Ablationsstudien quantifizieren Modulbeiträge
Reichhaltige Visualisierungsfallstudien zeigen Modellkapazitäten

5. Schreiben ist klar

Logik ist stringent, von Motivation über Methode bis Experimente
Reichhaltige Grafiken (10 Abbildungen, 5 Tabellen), hohe Informationsdichte
Technische Details sind vollständig, hohe Reproduzierbarkeit

Mängel

1. Datensatzbeschränkungen

Geringe Videoanzahl (21), einzelnes Szenario (nur Fahren)
Obwohl Ausdrücke zahlreich sind, basieren sie auf begrenzter Sprachkomponentenkombination, tiefere semantische Vielfalt ist begrenzt
Fehlende extreme Wetterbedingungen, Nachtszenen und andere Herausforderungsszenarien

2. Methodenbeschränkungen

Feste Speicherlänge (N=5), keine adaptive Anpassung
Behandlung von Ausdrucksambiguität nicht adressiert (z.B. „Auto auf der linken Seite" unter verschiedenen Perspektiven)
Fehlende Unsicherheitsschätzung, kann Vorhersagekonfidenz nicht quantifizieren

3. Experimentelle Unzulänglichkeiten

Inferenzgeschwindigkeit (FPS) nicht berichtet, Echtzeitleistung unklar
Fehlende Cross-Dataset-Generalisierungsexperimente (z.B. Test auf Refer-Dance)
Kein Vergleich mit neuesten Vision-Language-Modellen (wie CLIP, BLIP-2)
Fehleranalyse nicht ausreichend tiefgreifend, Hauptfehlermuster nicht statistisch erfasst

4. Fehlende theoretische Analyse

Keine theoretische Erklärung, warum zeitliche Modellierung effektiv ist
Fehlende Visualisierung von Aufmerksamkeitsgewichten
Keine Diskussion von Modelllerndynamiken und Konvergenz

5. Unzureichende Diskussion sozialer Auswirkungen

Datenschutzprobleme nicht diskutiert (ethische Fragen bei Fußgängerverfolgung)
Potenzielle Verzerrungen nicht analysiert (z.B. Erkennungsverzerrungen bei bestimmten Bevölkerungsgruppen)

Einfluss

Beitrag zum Bereich:

Aufgabenebene: RMOT-Aufgabe wird wichtige Richtung in der Videoanalyse, bereits mehrere Folgeararbeiten zitieren
Datensatzebene: Refer-KITTI-V2 bietet der Gemeinschaft hochwertige Benchmark, offene Code und Daten fördern Forschung
Methodenebene: Designideen des zeitlichen Verbesserungsmoduls können auf andere Videoaufgaben übertragen werden

Praktischer Wert:

Autonome Fahrzeuge: Unterstützt sprachgesteuerte Fahrzeugkontrolle („folge dem roten Auto vorne")
Intelligente Überwachung: Sprachbasierte Multi-Ziel-Abruf („Person in rotem Hemd")
Mensch-Maschine-Interaktion: Sprachgelenkte Videobearbeitung

Reproduzierbarkeit:

Code und Datensatz sind quelloffen (https://github.com/zyn213/TempRMOT)
Implementierungsdetails sind vollständig (Hyperparameter, Trainingsstrategien etc.)
Basiert auf etabliertem Framework (Deformable DETR), leicht zu reproduzieren

Erwarteter Einfluss:

Kurzfristig (1-2 Jahre): Inspiriert mehr RMOT-Datensätze und Methoden
Mittelfristig (3-5 Jahre): Integration mit großen Sprachmodellen für stärkeres Sprachverständnis
Langfristig (5+ Jahre): Wird Standardkomponente in Multi-Modal-Systemen für autonome Fahrzeuge

Anwendbare Szenarien

Beste Szenarien:

Autonome Fahrzeuge: Sprachgesteuerte Fahrzeugverfolgung und Pfadplanung
Intelligente Verkehrssysteme: Sprachbasierte Verkehrsteilnehmer-Erkennung („illegal geparkte Fahrzeuge")
Videoüberwachung: Natürlichsprachliche Zielabfrage
Roboternavigation: Sprachgelenkte Zielverfolgung

Weniger geeignete Szenarien:

Hochgeschwindigkeitsszenen: Aktuelle Methode erfüllt möglicherweise nicht Echtzeitleistungsanforderungen
Extreme Verdeckung: Verfolgung unter schwerer Verdeckung bleibt herausfordernd
Offene Domänen: Trainingsdaten begrenzt auf Fahrszenarios, Verallgemeinerung zu überprüfen
Feingranulare Beschreibungen: Für extrem detaillierte Erscheinungsbeschreibungen (z.B. „Person in blauem gestreiftem Hemd") möglicherweise unzureichend

Verbesserungsempfehlungen:

Erweiterung auf mehr Szenarien (Innenräume, Sport, soziale Aktivitäten)
Modelloptimierung zur Verbesserung der Echtzeitleistung
Integration aktiven Lernens zur Unterstützung wenig-Stichproben-Anpassung an neue Szenarien

Referenzen

Wichtige Zitate

RMOT-bezogen:

Wu et al. (2023) - TransRMOT: Erste RMOT-Methode und Refer-KITTI-Datensatz
Du et al. (2024) - iKUN: Umschulungsfreier Tracker
Ma et al. (2024) - MLS-Track: Multi-Level-Semantik-Interaktion

Transformer-Verfolgung: 4. Zeng et al. (2022) - MOTR: End-to-End-Multi-Objekt-Verfolgung 5. Zhu et al. (2020) - Deformable DETR: Deformierbare Aufmerksamkeit 6. Gao & Wang (2023) - MeMOTR: Langzeitgedächtnis-verstärkte Verfolgung

Referenzverständnis: 7. Yu et al. (2016) - RefCOCO-Datensatzserie 8. Kamath et al. (2021) - MDETR: Multi-Modal-Erkennung

Bewertungsmetriken: 9. Luiten et al. (2020) - HOTA: Höherwertige Verfolgungsgenauigkeit

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier mit substantiellen Innovationen in Aufgabendefinition, Datensatzkonstruktion und Methodendesign. Die RMOT-Aufgabe hat bedeutende theoretische und praktische Werte, Refer-KITTI-V2 bietet der Gemeinschaft wertvolle Ressourcen, das TempRMOT-Framework ist vernünftig gestaltet und effektiv. Hauptmängel liegen in Szenariobeschränkungen und unbekannter Echtzeitleistung. Empfohlen wird, dass Folgeararbeiten auf mehr Bereiche erweitert werden und tiefere theoretische Analysen durchführen. Dieses Papier wird wahrscheinlich zu einer wichtigen Referenz im Bereich der sprachgelenkten Videoanalyse.