2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

Bootstrapping Referring Multi-Object Tracking

Información Básica

ID del Artículo: 2406.05039
Título: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
Autores: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
Clasificación: cs.CV cs.CL
Fecha de Publicación: 27 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2406.05039
Código y Conjunto de Datos: https://github.com/zyn213/TempRMOT

Resumen

Este artículo propone una nueva tarea de comprensión de video denominada Rastreo Referencial de Múltiples Objetos (Referring Multi-Object Tracking, RMOT), cuyo objetivo es guiar la predicción de rastreo de múltiples objetos mediante expresiones en lenguaje natural como pistas semánticas, considerando integralmente los cambios en la cantidad de objetos y la semántica temporal. El artículo construye el conjunto de datos de referencia Refer-KITTI-V2, que contiene 9,758 expresiones lingüísticas diversas, y propone el marco TempRMOT, que implementa interacción espacio-temporal a largo plazo mediante un módulo de mejora temporal impulsado por consultas. TempRMOT logra rendimiento óptimo tanto en Refer-KITTI como en Refer-KITTI-V2.

Antecedentes de Investigación y Motivación

Problemas a Resolver

Las tareas existentes de comprensión referencial presentan dos limitaciones fundamentales:

Limitación de Objetivo Único: Los conjuntos de datos existentes (como la serie RefCOCO, Refer-DAVIS17) anotan solo un objetivo único por expresión, mientras que en escenarios reales una expresión puede referirse a múltiples objetos, un solo objeto o ninguno
Falta de Consistencia Temporal: Los métodos existentes no pueden modelar la consistencia temporal entre expresiones lingüísticas y estados de evolución de objetos. Por ejemplo, la expresión "automóvil girando" describe un estado instantáneo, pero la anotación continuaría rastreando el objeto incluso después de que el giro se complete

Importancia del Problema

La comprensión de video guiada por lenguaje es una tarea clave para conectar el lenguaje natural con contenido visual
En aplicaciones prácticas como la conducción autónoma, es necesario rastrear simultáneamente múltiples objetos dinámicos mediante instrucciones en lenguaje natural
El modelado preciso de dinámicas temporales es fundamental para comprender semántica relacionada con el movimiento

Limitaciones de Métodos Existentes

Nivel de Conjunto de Datos:
- Anotación manual combinada con plantillas fijas, diversidad lingüística limitada
- Redundancia semántica severa (por ejemplo, Refer-Dance tiene solo 48 expresiones únicas)
- Falta de expresiones implícitas y semántica compleja (como descripciones negativas)
Nivel de Método:
- Métodos de dos etapas con alta complejidad y gran costo computacional
- Métodos de una etapa enfocados principalmente en fotogramas adyacentes, carecen de capacidad de modelado temporal a largo plazo

Contribuciones Principales

Propuesta de Nueva Tarea RMOT: Primera extensión sistemática de la comprensión referencial a escenarios de múltiples objetos dinámicos, considerando cambios de estado temporal
Construcción del Conjunto de Datos Refer-KITTI-V2:
- Contiene 9,758 expresiones, 7,193 expresiones únicas, 617 vocabularios diferentes
- Diseño de proceso de anotación de tres pasos y medio, combinando generación de expresiones diversas con LLM
- Incluye expresiones implícitas (como "el vehículo propio está detrás del automóvil negro")
Propuesta del Marco TempRMOT:
- Arquitectura Transformer de extremo a extremo, sin necesidad de postprocesamiento
- Módulo de mejora temporal impulsado por consultas, implementando interacción espacio-temporal a largo plazo
- Desacoplamiento de consultas de rastreo y consultas de detección, manejando cantidad variable de objetos
Logro de Rendimiento SOTA:
- Mejora de aproximadamente 4% en HOTA comparado con trabajos anteriores en Refer-KITTI-V2
- Alcanza 52.21% HOTA en Refer-KITTI
Diseño de Proceso de Anotación Eficiente: Método de anotación de tres pasos y medio reduce significativamente el costo manual

Explicación Detallada del Método

Definición de Tarea

Entrada: Secuencia de video (T fotogramas) + expresión en lenguaje natural Salida: Cuadros delimitadores e IDs de todos los objetos en cada fotograma que coinciden con la descripción de la expresión Restricciones:

Cantidad variable de objetos (de 0 a múltiples)
Anotación solo en segmentos de tiempo donde el objeto satisface la descripción de la expresión
Necesidad de mantener asociación de ID con consistencia temporal

Arquitectura del Modelo

TempRMOT consta de dos componentes principales:

1. Módulo RMOT Basado en Transformer

Extractor de Características:

Codificación Visual: Red troncal CNN extrae características multiescala $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$
Codificación Lingüística: RoBERTa codifica texto como incrustaciones de palabras $S \in \mathbb{R}^{L \times D}$

Codificador Multimodal (estrategia de fusión temprana): $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

Donde $P_V$ y $P_L$ son codificaciones de posición visual y lingüística respectivamente. Después de la fusión, se procesa mediante capas de codificador deformable: $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

Decodificador (mecanismo de doble consulta):

Consultas de Rastreo $Q^{tra}_t$ : Transformadas de incrustaciones de decodificador del fotograma anterior $D_{t-1}$ , utilizadas para asociar instancias rastreadas
Consultas de Detección $Q^{det}$ : Inicializadas aleatoriamente, utilizadas para detectar objetos recién aparecidos

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

Cabeza Referencial: Contiene tres ramas

Rama de Clasificación: Clasificación binaria (objeto real/objeto vacío)
Rama de Cuadro Delimitador: Regresión de coordenadas con 3 capas FFN
Rama Referencial: Salida de probabilidad de coincidencia con la expresión

2. Módulo de Mejora Temporal

Mecanismo de Memoria de Consultas:

Mantiene cola de memoria $N \times K$ (N fotogramas, K objetos por fotograma)
Actualización según principio FIFO, manteniendo consumo de memoria constante

Decodificador Temporal (4 capas): Agrega información histórica mediante atención entre fotogramas: $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

Donde $\tau_h$ es el tamaño de la ventana temporal, $\text{Pos}$ codifica posiciones temporales.

Decodificador de Objetos (4 capas): Modela interacciones espaciales mediante atención entre objetos: $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

Refinamiento de Trayectoria: Utiliza MLP para predecir ajustes residuales: $B_t = B_t + \text{MLP}(Q^S_t)$

Donde $Q^S_t$ son características de consulta mejoradas espacio-temporalmente.

Puntos de Innovación Técnica

Fusión Multimodal Temprana: Comparado con la conexión densa de MDETR, adopta estrategia de ponderación por atención más eficiente, reduciendo complejidad computacional
Diseño de Desacoplamiento de Doble Consulta:
- Las consultas de rastreo heredan información histórica, garantizando consistencia de ID
- Las consultas de detección manejan nuevos objetos, mejorando flexibilidad
Modelado Temporal Impulsado por Consultas:
- Utiliza representación compacta de consultas en lugar de características originales para agregación temporal
- Separa mecanismos de atención en dimensiones temporal y espacial
- Soporta dependencias a largo plazo (hasta 8 fotogramas de historial)
Diferenciable de Extremo a Extremo: Sin necesidad de postprocesamiento como NMS, salida directa de resultados finales

Configuración Experimental

Conjuntos de Datos

Refer-KITTI:

18 videos, 895 expresiones
Conjunto de entrenamiento: 15 videos/660 expresiones
Conjunto de prueba: 3 videos/158 expresiones

Refer-KITTI-V2:

21 videos, 9,758 expresiones
Conjunto de entrenamiento: 17 videos/8,873 expresiones
Conjunto de prueba: 4 videos/897 expresiones
Características: 7,193 expresiones únicas, 617 vocabularios diferentes, incluye expresiones implícitas

KITTI: Utilizado para evaluar capacidad MOT general

Proceso de Construcción del Conjunto de Datos

Paso 1: Recopilación de Elementos Lingüísticos

Anotación de atributos básicos: categoría (automóvil/persona), color (negro/rojo), posición (izquierda/derecha), acción (movimiento/giro)
Propagación automática de anotaciones utilizando IDs de instancia de KITTI

Paso 2: Generación de Expresiones

Utiliza plantillas predefinidas para combinar elementos lingüísticos
Ejemplo: "{color}-{action}-cars" → "black turning cars"
Asociación de cuadros delimitadores mediante operación AND

Paso 3: Expansión de Expresiones

Utiliza GPT-3.5 para generar 4 reformulaciones semánticamente equivalentes de cada expresión
Verificación en dos etapas: verificación LLM + revisión manual
Expansión de 2,719 a 9,758 expresiones

Métricas de Evaluación

HOTA (Higher Order Tracking Accuracy): $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (Detection Accuracy): Puntuación de IoU de detección a nivel de fotograma
AssA (Association Accuracy): Puntuación de IoU de asociación temporal
Otras métricas: DetRe, DetPr, AssRe, AssPr, LocA

Métodos de Comparación

Métodos de Dos Etapas:

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

Métodos de Una Etapa:

EchoTrack, DeepRMOT
TransRMOT (trabajo anterior)
MLS-Track

Detalles de Implementación

Red Troncal: ResNet-50 (visual) + RoBERTa (texto)
Optimizador: Adam, tasa de aprendizaje 1e-5 (troncal 1e-5)
Entrenamiento: 60 épocas, tamaño de lote=1, 4×RTX 4090
Aumento de Datos: Recorte aleatorio, multiescala (800-1536)
Longitud de Memoria: Refer-KITTI N=4, Refer-KITTI-V2 N=5
Umbral de Inferencia: Clasificación 0.6, referencial 0.4
Pesos de Pérdida: $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

Resultados Experimentales

Resultados Principales

Rendimiento en Refer-KITTI:

Método	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48.84	35.74	66.80	51.97	52.25
TransRMOT	✓	46.56	37.97	57.33	49.69	60.10
MLS-Track	✓	49.05	40.03	60.25	59.07	54.18
TempRMOT	✓	52.21	40.95	66.75	55.65	59.25

Mejora de 3.16% HOTA comparado con MLS-Track
Liderazgo completo entre métodos de extremo a extremo

Rendimiento en Refer-KITTI-V2:

Método	HOTA	DetA	AssA
iKUN	10.32	2.17	49.77
TransRMOT	31.00	19.40	49.68
TempRMOT	35.04	22.97	53.58

Mejora de 4.04% HOTA comparado con TransRMOT
Valida efectividad en escenarios lingüísticos más complejos

Rendimiento en KITTI:

Método	HOTA	AssA
TransRMOT	61.52	66.51
TempRMOT	63.47	72.04

Mejora de AssA de 5.53%, demostrando efectividad del modelado temporal

Experimentos de Ablación

Efectividad de Módulos (Refer-KITTI-V2):

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31.00	19.40	49.68
✓	✗	34.46	22.73	52.37
✓	✓	35.04	22.97	53.58

El módulo de mejora temporal contribuye más (+3.46% HOTA)
El refinamiento de trayectoria mejora aún más el rendimiento (+0.58% HOTA)

Longitud de Memoria en Entrenamiento:

$N_t$	HOTA	DetA	AssA
3	33.64	21.96	51.66
4	34.41	22.43	52.90
5	34.72	22.59	53.49

Contexto histórico más largo proporciona mejora continua

Longitud de Memoria en Inferencia:

$N_i$	HOTA	DetA	AssA
5	34.72	22.59	53.49
6	34.78	22.73	53.32
8	35.04	22.97	53.58

El uso de memoria más larga en inferencia mejora aún más el rendimiento
Demuestra capacidad de generalización del módulo temporal

Análisis de Casos

Capacidad de Comprensión de Movimiento:

Instrucción "left cars which are parking": TempRMOT identifica correctamente vehículos estacionarios, TransRMOT marca erróneamente peatones como estacionados
Instrucción "right persons who are walking": TempRMOT comprende precisamente el estado de movimiento

Capacidad de Rastreo Robusto:

Instrucción "cars in front of ours": TransRMOT experimenta cambios de ID y pérdida de rastreo, TempRMOT mantiene asociación de ID consistente

Comprensión de Semántica Compleja:

Manejo de expresiones implícitas "the ego car is positioned after the black cars"
Comprensión de descripciones negativas "pedestrians lacking hair"
Combinación de múltiples atributos "the men are on the right side and they have t-shirts on"

Hallazgos Experimentales

Importancia del Modelado Temporal: La mejora significativa en métrica AssA (+5.53%) demuestra que las dependencias temporales a largo plazo son críticas para la calidad del rastreo
Ventaja de Extremo a Extremo: Los métodos de una etapa superan generalmente a los de dos etapas, la optimización conjunta es más efectiva
Impacto de Complejidad Lingüística: La disminución de rendimiento en Refer-KITTI-V2 refleja desafíos de semántica más rica
Generalización del Mecanismo de Memoria: Se puede utilizar ventana histórica más larga en inferencia que en entrenamiento
Eficiencia de Representación de Consultas: Las representaciones de consultas son más compactas que características originales mientras retienen información clave

Trabajo Relacionado

Conjuntos de Datos de Referencia RMOT

Limitaciones de Conjuntos de Datos Existentes:

Serie RefCOCO: Solo imágenes, objetivo único
Talk2Car, VID-Sentence: Video pero objetivo único
Refer-DAVIS17, Refer-YV: Segmentación a nivel de píxel, objetivo único

Comparación de Conjuntos de Datos RMOT:

Conjunto de Datos	Videos	Vocabulario	Expresiones	Expresiones Únicas	Expresiones Implícitas
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

Métodos RMOT

Métodos de Dos Etapas:

Primero extraen trayectorias, luego coinciden expresiones
Ventajas: Procesamiento refinado
Desventajas: Alta complejidad, gran costo computacional

Métodos de Una Etapa:

Marco Transformer de extremo a extremo
TransRMOT: Primer modelo RMOT
Limitaciones: Enfoque principalmente en fotogramas adyacentes, falta modelado a largo plazo

Modelado Temporal Impulsado por Consultas

Trabajos Relacionados:

MeMOT: Módulo de memoria almacena consultas históricas
MeMOTR: Mejora de contexto temporal de consultas de rastreo
BEVFormer: Transformer espacio-temporal de representación BEV

Innovación de Este Artículo:

Enfoque en comprensión de video bajo condiciones lingüísticas
Separación de atención temporal y espacial
Razonamiento conjunto combinando características espaciales del fotograma actual

Conclusiones y Discusión

Conclusiones Principales

Tarea RMOT Más General: Supera limitaciones de objetivo único, considera dinámicas temporales, más alineada con necesidades reales
Refer-KITTI-V2 de Alta Calidad: Mediante proceso semi-automático y LLM, logra equilibrio entre escala y diversidad
TempRMOT Efectivo: El módulo de mejora temporal mejora significativamente el rendimiento, alcanza SOTA en ambos puntos de referencia
Dependencias a Largo Plazo Críticas: El modelado explícito de interacciones espacio-temporales es fundamental para rastreo preciso y alineación semántica

Limitaciones

Escala del Conjunto de Datos: Aunque las expresiones son ricas, el número de videos (21) es relativamente limitado, diversidad de escenas restringida
Complejidad Computacional: Aunque la representación de consultas reduce gastos, la memoria de múltiples fotogramas aún requiere cálculo adicional
Profundidad de Comprensión Lingüística: Para razonamiento lógico extremadamente complejo (como negaciones múltiples, relaciones causales complejas) aún hay desafíos
Manejo de Oclusión: El artículo no discute detalladamente estrategias para escenarios de oclusión severa
Tiempo Real: No se reportan métricas de tiempo real como FPS, viabilidad de despliegue práctico incierta
Capacidad de Generalización: Solo validado en escenas KITTI (escenas de conducción), capacidad de generalización a otros dominios (peatones, deportes) desconocida

Direcciones Futuras

Extensión a Más Escenarios: Construir conjuntos de datos RMOT que abarquen más dominios
Mejora de Tiempo Real: Optimizar estructura del modelo para lograr rastreo en tiempo real
Mejora de Comprensión Lingüística: Incorporar modelos de lenguaje más fuertes (como GPT-4)
Extensión 3D: Combinar datos de nube de puntos, extender a RMOT 3D
Rastreo Interactivo: Soportar corrección en tiempo real y retroalimentación del usuario

Evaluación Profunda

Fortalezas

1. Definición de Tarea Prospectiva

La tarea RMOT llena el vacío de múltiples objetos + dinámicas temporales
El modelado de consistencia temporal (como estado instantáneo de "girando") es muy práctico
Proporciona nuevo paradigma para conducción autónoma guiada por lenguaje

2. Construcción Científica y Eficiente del Conjunto de Datos

El proceso de tres pasos y medio equilibra calidad y eficiencia
La generación asistida por LLM mejora significativamente la diversidad (7193 expresiones únicas)
La introducción de expresiones implícitas aumenta desafío y realismo

3. Diseño Razonable del Método

La estrategia de fusión temprana reduce complejidad computacional
El diseño de desacoplamiento de doble consulta equilibra asociación histórica y detección de nuevos objetos
El mecanismo de atención espacio-temporal separado es claro y efectivo

4. Experimentos Completos

Validación en tres conjuntos de datos
Experimentos de ablación detallados cuantifican contribución de cada módulo
Visualizaciones ricas demuestran capacidades del modelo

5. Escritura Clara

Lógica rigurosa, progresión de motivación a método a experimentos
Figuras y tablas ricas (10 figuras, 5 tablas), alta densidad de información
Detalles técnicos completos, fuerte reproducibilidad

Insuficiencias

1. Limitaciones del Conjunto de Datos

Número pequeño de videos (21), escenas únicas (solo conducción)
Aunque hay muchas expresiones, basadas en combinación de elementos lingüísticos limitados, diversidad semántica profunda insuficiente
Falta de escenas desafiantes como clima extremo, noche

2. Limitaciones del Método

Longitud de memoria fija (N=5), sin ajuste adaptativo
No maneja ambigüedad de expresiones (como "automóvil a la izquierda" con ambigüedad de perspectiva)
Falta estimación de incertidumbre, no puede cuantificar confianza de predicción

3. Experimentos Insuficientes

No reporta velocidad de inferencia (FPS), tiempo real incierto
Falta experimentos de generalización entre conjuntos de datos (como prueba en Refer-Dance)
Sin comparación con modelos de lenguaje visual más recientes (como CLIP, BLIP-2)
Análisis de errores insuficiente, no estadísticas de modos de fallo principales

4. Falta de Análisis Teórico

Sin explicación teórica de por qué modelado temporal es efectivo
Falta visualización de pesos de atención
Sin discusión de dinámicas de aprendizaje del modelo y convergencia

5. Discusión Insuficiente de Impacto Social

No discute problemas de privacidad (cuestiones éticas de rastreo de peatones)
Sin análisis de sesgos potenciales (como sesgo de reconocimiento para grupos específicos)

Impacto

Contribuciones al Campo:

Nivel de Tarea: La tarea RMOT se convertirá en dirección importante de comprensión de video, ya ha inspirado múltiples trabajos posteriores
Nivel de Datos: Refer-KITTI-V2 proporciona punto de referencia de alta calidad para la comunidad, código y datos abiertos promueven investigación
Nivel de Método: El diseño del módulo de mejora temporal es transferible a otras tareas de video

Valor Práctico:

Conducción Autónoma: Soporta control de vehículos con instrucciones lingüísticas ("seguir el automóvil rojo frente")
Vigilancia Inteligente: Recuperación de múltiples objetos basada en descripción ("peatón con ropa roja")
Interacción Humano-Máquina: Edición de video guiada por lenguaje natural

Reproducibilidad:

Código y conjunto de datos abiertos (https://github.com/zyn213/TempRMOT)
Detalles de implementación completos (hiperparámetros, estrategias de entrenamiento)
Basado en marco maduro (Deformable DETR), fácil de reproducir

Impacto Esperado:

Corto plazo (1-2 años): Inspirar más conjuntos de datos y métodos RMOT
Mediano plazo (3-5 años): Combinación con modelos de lenguaje grande, comprensión semántica más fuerte
Largo plazo (5+ años): Convertirse en componente estándar de sistemas de conducción autónoma multimodal

Escenarios Aplicables

Escenarios Más Adecuados:

Conducción Autónoma: Rastreo de vehículos guiado por instrucciones lingüísticas y planificación de rutas
Tráfico Inteligente: Detección de participantes de tráfico basada en descripción ("vehículos estacionados ilegalmente")
Vigilancia de Video: Recuperación de objetivos basada en consulta en lenguaje natural
Navegación de Robots: Seguimiento de objetivos guiado por lenguaje

Escenarios Menos Adecuados:

Escenas de Alta Velocidad: Método actual puede no satisfacer requisitos de tiempo real
Oclusión Extrema: Rastreo bajo oclusión severa aún presenta desafíos
Escenas de Dominio Abierto: Datos de entrenamiento limitados a escenas de conducción, generalización a otros dominios por verificar
Descripciones Granulares Finas: Para descripciones de apariencia extremadamente detalladas (como "persona con camisa de rayas azules") puede ser insuficiente

Recomendaciones de Mejora:

Extender a más escenarios (interior, deportes, actividades sociales)
Optimizar modelo para mejorar tiempo real
Introducir aprendizaje activo, soportar adaptación de pocos ejemplos a nuevas escenas

Referencias

Citas Clave

Relacionadas con RMOT:

Wu et al. (2023) - TransRMOT: Primer método RMOT y conjunto de datos Refer-KITTI
Du et al. (2024) - iKUN: Rastreador sin reentrenamiento
Ma et al. (2024) - MLS-Track: Interacción semántica multinivel

Rastreo con Transformer: 4. Zeng et al. (2022) - MOTR: Rastreo de múltiples objetos de extremo a extremo 5. Zhu et al. (2020) - Deformable DETR: Atención deformable 6. Gao & Wang (2023) - MeMOTR: Rastreo mejorado con memoria a largo plazo

Comprensión Referencial: 7. Yu et al. (2016) - Conjuntos de datos serie RefCOCO 8. Kamath et al. (2021) - MDETR: Detección multimodal

Métricas de Evaluación: 9. Luiten et al. (2020) - HOTA: Precisión de rastreo de orden superior

Evaluación General: Este es un artículo de alta calidad en visión por computadora con innovaciones sustanciales en definición de tarea, construcción de conjunto de datos y diseño de método. La tarea RMOT tiene importancia teórica significativa y valor de aplicación, Refer-KITTI-V2 proporciona recurso valioso para la comunidad, el marco TempRMOT está bien diseñado y es efectivo. Las principales insuficiencias radican en limitaciones de escena y tiempo real desconocido. Se recomienda que trabajos posteriores extiendan a más dominios y realicen análisis teórico más profundo. Este artículo tiene potencial de convertirse en referencia importante en el campo de comprensión de video guiada por lenguaje.