Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
Este artículo propone una nueva tarea de comprensión de video denominada Rastreo Referencial de Múltiples Objetos (Referring Multi-Object Tracking, RMOT), cuyo objetivo es guiar la predicción de rastreo de múltiples objetos mediante expresiones en lenguaje natural como pistas semánticas, considerando integralmente los cambios en la cantidad de objetos y la semántica temporal. El artículo construye el conjunto de datos de referencia Refer-KITTI-V2, que contiene 9,758 expresiones lingüísticas diversas, y propone el marco TempRMOT, que implementa interacción espacio-temporal a largo plazo mediante un módulo de mejora temporal impulsado por consultas. TempRMOT logra rendimiento óptimo tanto en Refer-KITTI como en Refer-KITTI-V2.
Las tareas existentes de comprensión referencial presentan dos limitaciones fundamentales:
Limitación de Objetivo Único: Los conjuntos de datos existentes (como la serie RefCOCO, Refer-DAVIS17) anotan solo un objetivo único por expresión, mientras que en escenarios reales una expresión puede referirse a múltiples objetos, un solo objeto o ninguno
Falta de Consistencia Temporal: Los métodos existentes no pueden modelar la consistencia temporal entre expresiones lingüísticas y estados de evolución de objetos. Por ejemplo, la expresión "automóvil girando" describe un estado instantáneo, pero la anotación continuaría rastreando el objeto incluso después de que el giro se complete
La comprensión de video guiada por lenguaje es una tarea clave para conectar el lenguaje natural con contenido visual
En aplicaciones prácticas como la conducción autónoma, es necesario rastrear simultáneamente múltiples objetos dinámicos mediante instrucciones en lenguaje natural
El modelado preciso de dinámicas temporales es fundamental para comprender semántica relacionada con el movimiento
Propuesta de Nueva Tarea RMOT: Primera extensión sistemática de la comprensión referencial a escenarios de múltiples objetos dinámicos, considerando cambios de estado temporal
Construcción del Conjunto de Datos Refer-KITTI-V2:
Contiene 9,758 expresiones, 7,193 expresiones únicas, 617 vocabularios diferentes
Diseño de proceso de anotación de tres pasos y medio, combinando generación de expresiones diversas con LLM
Incluye expresiones implícitas (como "el vehículo propio está detrás del automóvil negro")
Propuesta del Marco TempRMOT:
Arquitectura Transformer de extremo a extremo, sin necesidad de postprocesamiento
Módulo de mejora temporal impulsado por consultas, implementando interacción espacio-temporal a largo plazo
Desacoplamiento de consultas de rastreo y consultas de detección, manejando cantidad variable de objetos
Logro de Rendimiento SOTA:
Mejora de aproximadamente 4% en HOTA comparado con trabajos anteriores en Refer-KITTI-V2
Alcanza 52.21% HOTA en Refer-KITTI
Diseño de Proceso de Anotación Eficiente: Método de anotación de tres pasos y medio reduce significativamente el costo manual
Entrada: Secuencia de video (T fotogramas) + expresión en lenguaje natural
Salida: Cuadros delimitadores e IDs de todos los objetos en cada fotograma que coinciden con la descripción de la expresión
Restricciones:
Cantidad variable de objetos (de 0 a múltiples)
Anotación solo en segmentos de tiempo donde el objeto satisface la descripción de la expresión
Necesidad de mantener asociación de ID con consistencia temporal
Codificación Visual: Red troncal CNN extrae características multiescala Itl∈RCl×Hl×Wl
Codificación Lingüística: RoBERTa codifica texto como incrustaciones de palabras S∈RL×D
Codificador Multimodal (estrategia de fusión temprana):
Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSI^tl=dQKTV+Itl
Donde PV y PL son codificaciones de posición visual y lingüística respectivamente. Después de la fusión, se procesa mediante capas de codificador deformable:
Etl=DeformEnc(I^tl)
Decodificador (mecanismo de doble consulta):
Consultas de RastreoQttra: Transformadas de incrustaciones de decodificador del fotograma anterior Dt−1, utilizadas para asociar instancias rastreadas
Consultas de DetecciónQdet: Inicializadas aleatoriamente, utilizadas para detectar objetos recién aparecidos
Qt=Decoder(Etl,concat(Qdet,Qttra))
Cabeza Referencial: Contiene tres ramas
Rama de Clasificación: Clasificación binaria (objeto real/objeto vacío)
Rama de Cuadro Delimitador: Regresión de coordenadas con 3 capas FFN
Rama Referencial: Salida de probabilidad de coincidencia con la expresión
Fusión Multimodal Temprana: Comparado con la conexión densa de MDETR, adopta estrategia de ponderación por atención más eficiente, reduciendo complejidad computacional
Diseño de Desacoplamiento de Doble Consulta:
Las consultas de rastreo heredan información histórica, garantizando consistencia de ID
Las consultas de detección manejan nuevos objetos, mejorando flexibilidad
Modelado Temporal Impulsado por Consultas:
Utiliza representación compacta de consultas en lugar de características originales para agregación temporal
Separa mecanismos de atención en dimensiones temporal y espacial
Soporta dependencias a largo plazo (hasta 8 fotogramas de historial)
Diferenciable de Extremo a Extremo: Sin necesidad de postprocesamiento como NMS, salida directa de resultados finales
Instrucción "left cars which are parking": TempRMOT identifica correctamente vehículos estacionarios, TransRMOT marca erróneamente peatones como estacionados
Instrucción "right persons who are walking": TempRMOT comprende precisamente el estado de movimiento
Capacidad de Rastreo Robusto:
Instrucción "cars in front of ours": TransRMOT experimenta cambios de ID y pérdida de rastreo, TempRMOT mantiene asociación de ID consistente
Comprensión de Semántica Compleja:
Manejo de expresiones implícitas "the ego car is positioned after the black cars"
Comprensión de descripciones negativas "pedestrians lacking hair"
Combinación de múltiples atributos "the men are on the right side and they have t-shirts on"
Importancia del Modelado Temporal: La mejora significativa en métrica AssA (+5.53%) demuestra que las dependencias temporales a largo plazo son críticas para la calidad del rastreo
Ventaja de Extremo a Extremo: Los métodos de una etapa superan generalmente a los de dos etapas, la optimización conjunta es más efectiva
Impacto de Complejidad Lingüística: La disminución de rendimiento en Refer-KITTI-V2 refleja desafíos de semántica más rica
Generalización del Mecanismo de Memoria: Se puede utilizar ventana histórica más larga en inferencia que en entrenamiento
Eficiencia de Representación de Consultas: Las representaciones de consultas son más compactas que características originales mientras retienen información clave
Tarea RMOT Más General: Supera limitaciones de objetivo único, considera dinámicas temporales, más alineada con necesidades reales
Refer-KITTI-V2 de Alta Calidad: Mediante proceso semi-automático y LLM, logra equilibrio entre escala y diversidad
TempRMOT Efectivo: El módulo de mejora temporal mejora significativamente el rendimiento, alcanza SOTA en ambos puntos de referencia
Dependencias a Largo Plazo Críticas: El modelado explícito de interacciones espacio-temporales es fundamental para rastreo preciso y alineación semántica
Escala del Conjunto de Datos: Aunque las expresiones son ricas, el número de videos (21) es relativamente limitado, diversidad de escenas restringida
Complejidad Computacional: Aunque la representación de consultas reduce gastos, la memoria de múltiples fotogramas aún requiere cálculo adicional
Profundidad de Comprensión Lingüística: Para razonamiento lógico extremadamente complejo (como negaciones múltiples, relaciones causales complejas) aún hay desafíos
Manejo de Oclusión: El artículo no discute detalladamente estrategias para escenarios de oclusión severa
Tiempo Real: No se reportan métricas de tiempo real como FPS, viabilidad de despliegue práctico incierta
Capacidad de Generalización: Solo validado en escenas KITTI (escenas de conducción), capacidad de generalización a otros dominios (peatones, deportes) desconocida
Conducción Autónoma: Rastreo de vehículos guiado por instrucciones lingüísticas y planificación de rutas
Tráfico Inteligente: Detección de participantes de tráfico basada en descripción ("vehículos estacionados ilegalmente")
Vigilancia de Video: Recuperación de objetivos basada en consulta en lenguaje natural
Navegación de Robots: Seguimiento de objetivos guiado por lenguaje
Escenarios Menos Adecuados:
Escenas de Alta Velocidad: Método actual puede no satisfacer requisitos de tiempo real
Oclusión Extrema: Rastreo bajo oclusión severa aún presenta desafíos
Escenas de Dominio Abierto: Datos de entrenamiento limitados a escenas de conducción, generalización a otros dominios por verificar
Descripciones Granulares Finas: Para descripciones de apariencia extremadamente detalladas (como "persona con camisa de rayas azules") puede ser insuficiente
Recomendaciones de Mejora:
Extender a más escenarios (interior, deportes, actividades sociales)
Optimizar modelo para mejorar tiempo real
Introducir aprendizaje activo, soportar adaptación de pocos ejemplos a nuevas escenas
Wu et al. (2023) - TransRMOT: Primer método RMOT y conjunto de datos Refer-KITTI
Du et al. (2024) - iKUN: Rastreador sin reentrenamiento
Ma et al. (2024) - MLS-Track: Interacción semántica multinivel
Rastreo con Transformer:
4. Zeng et al. (2022) - MOTR: Rastreo de múltiples objetos de extremo a extremo
5. Zhu et al. (2020) - Deformable DETR: Atención deformable
6. Gao & Wang (2023) - MeMOTR: Rastreo mejorado con memoria a largo plazo
Comprensión Referencial:
7. Yu et al. (2016) - Conjuntos de datos serie RefCOCO
8. Kamath et al. (2021) - MDETR: Detección multimodal
Métricas de Evaluación:
9. Luiten et al. (2020) - HOTA: Precisión de rastreo de orden superior
Evaluación General: Este es un artículo de alta calidad en visión por computadora con innovaciones sustanciales en definición de tarea, construcción de conjunto de datos y diseño de método. La tarea RMOT tiene importancia teórica significativa y valor de aplicación, Refer-KITTI-V2 proporciona recurso valioso para la comunidad, el marco TempRMOT está bien diseñado y es efectivo. Las principales insuficiencias radican en limitaciones de escena y tiempo real desconocido. Se recomienda que trabajos posteriores extiendan a más dominios y realicen análisis teórico más profundo. Este artículo tiene potencial de convertirse en referencia importante en el campo de comprensión de video guiada por lenguaje.