2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.
Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
academic

Bootstrapping Referring Multi-Object Tracking

Información Básica

  • ID del Artículo: 2406.05039
  • Título: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
  • Autores: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
  • Clasificación: cs.CV cs.CL
  • Fecha de Publicación: 27 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2406.05039
  • Código y Conjunto de Datos: https://github.com/zyn213/TempRMOT

Resumen

Este artículo propone una nueva tarea de comprensión de video denominada Rastreo Referencial de Múltiples Objetos (Referring Multi-Object Tracking, RMOT), cuyo objetivo es guiar la predicción de rastreo de múltiples objetos mediante expresiones en lenguaje natural como pistas semánticas, considerando integralmente los cambios en la cantidad de objetos y la semántica temporal. El artículo construye el conjunto de datos de referencia Refer-KITTI-V2, que contiene 9,758 expresiones lingüísticas diversas, y propone el marco TempRMOT, que implementa interacción espacio-temporal a largo plazo mediante un módulo de mejora temporal impulsado por consultas. TempRMOT logra rendimiento óptimo tanto en Refer-KITTI como en Refer-KITTI-V2.

Antecedentes de Investigación y Motivación

Problemas a Resolver

Las tareas existentes de comprensión referencial presentan dos limitaciones fundamentales:

  1. Limitación de Objetivo Único: Los conjuntos de datos existentes (como la serie RefCOCO, Refer-DAVIS17) anotan solo un objetivo único por expresión, mientras que en escenarios reales una expresión puede referirse a múltiples objetos, un solo objeto o ninguno
  2. Falta de Consistencia Temporal: Los métodos existentes no pueden modelar la consistencia temporal entre expresiones lingüísticas y estados de evolución de objetos. Por ejemplo, la expresión "automóvil girando" describe un estado instantáneo, pero la anotación continuaría rastreando el objeto incluso después de que el giro se complete

Importancia del Problema

  • La comprensión de video guiada por lenguaje es una tarea clave para conectar el lenguaje natural con contenido visual
  • En aplicaciones prácticas como la conducción autónoma, es necesario rastrear simultáneamente múltiples objetos dinámicos mediante instrucciones en lenguaje natural
  • El modelado preciso de dinámicas temporales es fundamental para comprender semántica relacionada con el movimiento

Limitaciones de Métodos Existentes

  1. Nivel de Conjunto de Datos:
    • Anotación manual combinada con plantillas fijas, diversidad lingüística limitada
    • Redundancia semántica severa (por ejemplo, Refer-Dance tiene solo 48 expresiones únicas)
    • Falta de expresiones implícitas y semántica compleja (como descripciones negativas)
  2. Nivel de Método:
    • Métodos de dos etapas con alta complejidad y gran costo computacional
    • Métodos de una etapa enfocados principalmente en fotogramas adyacentes, carecen de capacidad de modelado temporal a largo plazo

Contribuciones Principales

  1. Propuesta de Nueva Tarea RMOT: Primera extensión sistemática de la comprensión referencial a escenarios de múltiples objetos dinámicos, considerando cambios de estado temporal
  2. Construcción del Conjunto de Datos Refer-KITTI-V2:
    • Contiene 9,758 expresiones, 7,193 expresiones únicas, 617 vocabularios diferentes
    • Diseño de proceso de anotación de tres pasos y medio, combinando generación de expresiones diversas con LLM
    • Incluye expresiones implícitas (como "el vehículo propio está detrás del automóvil negro")
  3. Propuesta del Marco TempRMOT:
    • Arquitectura Transformer de extremo a extremo, sin necesidad de postprocesamiento
    • Módulo de mejora temporal impulsado por consultas, implementando interacción espacio-temporal a largo plazo
    • Desacoplamiento de consultas de rastreo y consultas de detección, manejando cantidad variable de objetos
  4. Logro de Rendimiento SOTA:
    • Mejora de aproximadamente 4% en HOTA comparado con trabajos anteriores en Refer-KITTI-V2
    • Alcanza 52.21% HOTA en Refer-KITTI
  5. Diseño de Proceso de Anotación Eficiente: Método de anotación de tres pasos y medio reduce significativamente el costo manual

Explicación Detallada del Método

Definición de Tarea

Entrada: Secuencia de video (T fotogramas) + expresión en lenguaje natural Salida: Cuadros delimitadores e IDs de todos los objetos en cada fotograma que coinciden con la descripción de la expresión Restricciones:

  • Cantidad variable de objetos (de 0 a múltiples)
  • Anotación solo en segmentos de tiempo donde el objeto satisface la descripción de la expresión
  • Necesidad de mantener asociación de ID con consistencia temporal

Arquitectura del Modelo

TempRMOT consta de dos componentes principales:

1. Módulo RMOT Basado en Transformer

Extractor de Características:

  • Codificación Visual: Red troncal CNN extrae características multiescala ItlRCl×Hl×WlI^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}
  • Codificación Lingüística: RoBERTa codifica texto como incrustaciones de palabras SRL×DS \in \mathbb{R}^{L \times D}

Codificador Multimodal (estrategia de fusión temprana): Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSQ = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vSI^tl=QKTdV+Itl\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t

Donde PVP_V y PLP_L son codificaciones de posición visual y lingüística respectivamente. Después de la fusión, se procesa mediante capas de codificador deformable: Etl=DeformEnc(I^tl)E^l_t = \text{DeformEnc}(\hat{I}^l_t)

Decodificador (mecanismo de doble consulta):

  • Consultas de Rastreo QttraQ^{tra}_t: Transformadas de incrustaciones de decodificador del fotograma anterior Dt1D_{t-1}, utilizadas para asociar instancias rastreadas
  • Consultas de Detección QdetQ^{det}: Inicializadas aleatoriamente, utilizadas para detectar objetos recién aparecidos

Qt=Decoder(Etl,concat(Qdet,Qttra))Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))

Cabeza Referencial: Contiene tres ramas

  • Rama de Clasificación: Clasificación binaria (objeto real/objeto vacío)
  • Rama de Cuadro Delimitador: Regresión de coordenadas con 3 capas FFN
  • Rama Referencial: Salida de probabilidad de coincidencia con la expresión

2. Módulo de Mejora Temporal

Mecanismo de Memoria de Consultas:

  • Mantiene cola de memoria N×KN \times K (N fotogramas, K objetos por fotograma)
  • Actualización según principio FIFO, manteniendo consumo de memoria constante

Decodificador Temporal (4 capas): Agrega información histórica mediante atención entre fotogramas: Qt=CrossFrameAttn(Q=Qt,K=Qtτh:t,V=Qtτh:t,PE=Pos(tτh:t))Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))

Donde τh\tau_h es el tamaño de la ventana temporal, Pos\text{Pos} codifica posiciones temporales.

Decodificador de Objetos (4 capas): Modela interacciones espaciales mediante atención entre objetos: Qt=CrossObjectAttn(Q,K,V=Qt,PE=Pos(O1:Nt))Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))

Refinamiento de Trayectoria: Utiliza MLP para predecir ajustes residuales: Bt=Bt+MLP(QtS)B_t = B_t + \text{MLP}(Q^S_t)

Donde QtSQ^S_t son características de consulta mejoradas espacio-temporalmente.

Puntos de Innovación Técnica

  1. Fusión Multimodal Temprana: Comparado con la conexión densa de MDETR, adopta estrategia de ponderación por atención más eficiente, reduciendo complejidad computacional
  2. Diseño de Desacoplamiento de Doble Consulta:
    • Las consultas de rastreo heredan información histórica, garantizando consistencia de ID
    • Las consultas de detección manejan nuevos objetos, mejorando flexibilidad
  3. Modelado Temporal Impulsado por Consultas:
    • Utiliza representación compacta de consultas en lugar de características originales para agregación temporal
    • Separa mecanismos de atención en dimensiones temporal y espacial
    • Soporta dependencias a largo plazo (hasta 8 fotogramas de historial)
  4. Diferenciable de Extremo a Extremo: Sin necesidad de postprocesamiento como NMS, salida directa de resultados finales

Configuración Experimental

Conjuntos de Datos

Refer-KITTI:

  • 18 videos, 895 expresiones
  • Conjunto de entrenamiento: 15 videos/660 expresiones
  • Conjunto de prueba: 3 videos/158 expresiones

Refer-KITTI-V2:

  • 21 videos, 9,758 expresiones
  • Conjunto de entrenamiento: 17 videos/8,873 expresiones
  • Conjunto de prueba: 4 videos/897 expresiones
  • Características: 7,193 expresiones únicas, 617 vocabularios diferentes, incluye expresiones implícitas

KITTI: Utilizado para evaluar capacidad MOT general

Proceso de Construcción del Conjunto de Datos

Paso 1: Recopilación de Elementos Lingüísticos

  • Anotación de atributos básicos: categoría (automóvil/persona), color (negro/rojo), posición (izquierda/derecha), acción (movimiento/giro)
  • Propagación automática de anotaciones utilizando IDs de instancia de KITTI

Paso 2: Generación de Expresiones

  • Utiliza plantillas predefinidas para combinar elementos lingüísticos
  • Ejemplo: "{color}-{action}-cars" → "black turning cars"
  • Asociación de cuadros delimitadores mediante operación AND

Paso 3: Expansión de Expresiones

  • Utiliza GPT-3.5 para generar 4 reformulaciones semánticamente equivalentes de cada expresión
  • Verificación en dos etapas: verificación LLM + revisión manual
  • Expansión de 2,719 a 9,758 expresiones

Métricas de Evaluación

HOTA (Higher Order Tracking Accuracy): HOTA=DetAAssA\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}

  • DetA (Detection Accuracy): Puntuación de IoU de detección a nivel de fotograma
  • AssA (Association Accuracy): Puntuación de IoU de asociación temporal
  • Otras métricas: DetRe, DetPr, AssRe, AssPr, LocA

Métodos de Comparación

Métodos de Dos Etapas:

  • FairMOT, DeepSORT, ByteTrack, CStrack
  • TransTrack, TrackFormer
  • iKUN

Métodos de Una Etapa:

  • EchoTrack, DeepRMOT
  • TransRMOT (trabajo anterior)
  • MLS-Track

Detalles de Implementación

  • Red Troncal: ResNet-50 (visual) + RoBERTa (texto)
  • Optimizador: Adam, tasa de aprendizaje 1e-5 (troncal 1e-5)
  • Entrenamiento: 60 épocas, tamaño de lote=1, 4×RTX 4090
  • Aumento de Datos: Recorte aleatorio, multiescala (800-1536)
  • Longitud de Memoria: Refer-KITTI N=4, Refer-KITTI-V2 N=5
  • Umbral de Inferencia: Clasificación 0.6, referencial 0.4
  • Pesos de Pérdida: λclsD=5,λL1D=2,λgiouD=2,λrefD=2\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2

Resultados Experimentales

Resultados Principales

Rendimiento en Refer-KITTI:

MétodoE2EHOTADetAAssADetReDetPr
iKUN48.8435.7466.8051.9752.25
TransRMOT46.5637.9757.3349.6960.10
MLS-Track49.0540.0360.2559.0754.18
TempRMOT52.2140.9566.7555.6559.25
  • Mejora de 3.16% HOTA comparado con MLS-Track
  • Liderazgo completo entre métodos de extremo a extremo

Rendimiento en Refer-KITTI-V2:

MétodoHOTADetAAssA
iKUN10.322.1749.77
TransRMOT31.0019.4049.68
TempRMOT35.0422.9753.58
  • Mejora de 4.04% HOTA comparado con TransRMOT
  • Valida efectividad en escenarios lingüísticos más complejos

Rendimiento en KITTI:

MétodoHOTAAssA
TransRMOT61.5266.51
TempRMOT63.4772.04
  • Mejora de AssA de 5.53%, demostrando efectividad del modelado temporal

Experimentos de Ablación

Efectividad de Módulos (Refer-KITTI-V2):

Temp.RefineHOTADetAAssA
31.0019.4049.68
34.4622.7352.37
35.0422.9753.58
  • El módulo de mejora temporal contribuye más (+3.46% HOTA)
  • El refinamiento de trayectoria mejora aún más el rendimiento (+0.58% HOTA)

Longitud de Memoria en Entrenamiento:

NtN_tHOTADetAAssA
333.6421.9651.66
434.4122.4352.90
534.7222.5953.49
  • Contexto histórico más largo proporciona mejora continua

Longitud de Memoria en Inferencia:

NiN_iHOTADetAAssA
534.7222.5953.49
634.7822.7353.32
835.0422.9753.58
  • El uso de memoria más larga en inferencia mejora aún más el rendimiento
  • Demuestra capacidad de generalización del módulo temporal

Análisis de Casos

Capacidad de Comprensión de Movimiento:

  • Instrucción "left cars which are parking": TempRMOT identifica correctamente vehículos estacionarios, TransRMOT marca erróneamente peatones como estacionados
  • Instrucción "right persons who are walking": TempRMOT comprende precisamente el estado de movimiento

Capacidad de Rastreo Robusto:

  • Instrucción "cars in front of ours": TransRMOT experimenta cambios de ID y pérdida de rastreo, TempRMOT mantiene asociación de ID consistente

Comprensión de Semántica Compleja:

  • Manejo de expresiones implícitas "the ego car is positioned after the black cars"
  • Comprensión de descripciones negativas "pedestrians lacking hair"
  • Combinación de múltiples atributos "the men are on the right side and they have t-shirts on"

Hallazgos Experimentales

  1. Importancia del Modelado Temporal: La mejora significativa en métrica AssA (+5.53%) demuestra que las dependencias temporales a largo plazo son críticas para la calidad del rastreo
  2. Ventaja de Extremo a Extremo: Los métodos de una etapa superan generalmente a los de dos etapas, la optimización conjunta es más efectiva
  3. Impacto de Complejidad Lingüística: La disminución de rendimiento en Refer-KITTI-V2 refleja desafíos de semántica más rica
  4. Generalización del Mecanismo de Memoria: Se puede utilizar ventana histórica más larga en inferencia que en entrenamiento
  5. Eficiencia de Representación de Consultas: Las representaciones de consultas son más compactas que características originales mientras retienen información clave

Trabajo Relacionado

Conjuntos de Datos de Referencia RMOT

Limitaciones de Conjuntos de Datos Existentes:

  • Serie RefCOCO: Solo imágenes, objetivo único
  • Talk2Car, VID-Sentence: Video pero objetivo único
  • Refer-DAVIS17, Refer-YV: Segmentación a nivel de píxel, objetivo único

Comparación de Conjuntos de Datos RMOT:

Conjunto de DatosVideosVocabularioExpresionesExpresiones ÚnicasExpresiones Implícitas
Refer-KITTI1849895215
GroOT*1426015471161
Refer-Dance6525198548
Refer-KITTI-V22161797587193

Métodos RMOT

Métodos de Dos Etapas:

  • Primero extraen trayectorias, luego coinciden expresiones
  • Ventajas: Procesamiento refinado
  • Desventajas: Alta complejidad, gran costo computacional

Métodos de Una Etapa:

  • Marco Transformer de extremo a extremo
  • TransRMOT: Primer modelo RMOT
  • Limitaciones: Enfoque principalmente en fotogramas adyacentes, falta modelado a largo plazo

Modelado Temporal Impulsado por Consultas

Trabajos Relacionados:

  • MeMOT: Módulo de memoria almacena consultas históricas
  • MeMOTR: Mejora de contexto temporal de consultas de rastreo
  • BEVFormer: Transformer espacio-temporal de representación BEV

Innovación de Este Artículo:

  • Enfoque en comprensión de video bajo condiciones lingüísticas
  • Separación de atención temporal y espacial
  • Razonamiento conjunto combinando características espaciales del fotograma actual

Conclusiones y Discusión

Conclusiones Principales

  1. Tarea RMOT Más General: Supera limitaciones de objetivo único, considera dinámicas temporales, más alineada con necesidades reales
  2. Refer-KITTI-V2 de Alta Calidad: Mediante proceso semi-automático y LLM, logra equilibrio entre escala y diversidad
  3. TempRMOT Efectivo: El módulo de mejora temporal mejora significativamente el rendimiento, alcanza SOTA en ambos puntos de referencia
  4. Dependencias a Largo Plazo Críticas: El modelado explícito de interacciones espacio-temporales es fundamental para rastreo preciso y alineación semántica

Limitaciones

  1. Escala del Conjunto de Datos: Aunque las expresiones son ricas, el número de videos (21) es relativamente limitado, diversidad de escenas restringida
  2. Complejidad Computacional: Aunque la representación de consultas reduce gastos, la memoria de múltiples fotogramas aún requiere cálculo adicional
  3. Profundidad de Comprensión Lingüística: Para razonamiento lógico extremadamente complejo (como negaciones múltiples, relaciones causales complejas) aún hay desafíos
  4. Manejo de Oclusión: El artículo no discute detalladamente estrategias para escenarios de oclusión severa
  5. Tiempo Real: No se reportan métricas de tiempo real como FPS, viabilidad de despliegue práctico incierta
  6. Capacidad de Generalización: Solo validado en escenas KITTI (escenas de conducción), capacidad de generalización a otros dominios (peatones, deportes) desconocida

Direcciones Futuras

  1. Extensión a Más Escenarios: Construir conjuntos de datos RMOT que abarquen más dominios
  2. Mejora de Tiempo Real: Optimizar estructura del modelo para lograr rastreo en tiempo real
  3. Mejora de Comprensión Lingüística: Incorporar modelos de lenguaje más fuertes (como GPT-4)
  4. Extensión 3D: Combinar datos de nube de puntos, extender a RMOT 3D
  5. Rastreo Interactivo: Soportar corrección en tiempo real y retroalimentación del usuario

Evaluación Profunda

Fortalezas

1. Definición de Tarea Prospectiva

  • La tarea RMOT llena el vacío de múltiples objetos + dinámicas temporales
  • El modelado de consistencia temporal (como estado instantáneo de "girando") es muy práctico
  • Proporciona nuevo paradigma para conducción autónoma guiada por lenguaje

2. Construcción Científica y Eficiente del Conjunto de Datos

  • El proceso de tres pasos y medio equilibra calidad y eficiencia
  • La generación asistida por LLM mejora significativamente la diversidad (7193 expresiones únicas)
  • La introducción de expresiones implícitas aumenta desafío y realismo

3. Diseño Razonable del Método

  • La estrategia de fusión temprana reduce complejidad computacional
  • El diseño de desacoplamiento de doble consulta equilibra asociación histórica y detección de nuevos objetos
  • El mecanismo de atención espacio-temporal separado es claro y efectivo

4. Experimentos Completos

  • Validación en tres conjuntos de datos
  • Experimentos de ablación detallados cuantifican contribución de cada módulo
  • Visualizaciones ricas demuestran capacidades del modelo

5. Escritura Clara

  • Lógica rigurosa, progresión de motivación a método a experimentos
  • Figuras y tablas ricas (10 figuras, 5 tablas), alta densidad de información
  • Detalles técnicos completos, fuerte reproducibilidad

Insuficiencias

1. Limitaciones del Conjunto de Datos

  • Número pequeño de videos (21), escenas únicas (solo conducción)
  • Aunque hay muchas expresiones, basadas en combinación de elementos lingüísticos limitados, diversidad semántica profunda insuficiente
  • Falta de escenas desafiantes como clima extremo, noche

2. Limitaciones del Método

  • Longitud de memoria fija (N=5), sin ajuste adaptativo
  • No maneja ambigüedad de expresiones (como "automóvil a la izquierda" con ambigüedad de perspectiva)
  • Falta estimación de incertidumbre, no puede cuantificar confianza de predicción

3. Experimentos Insuficientes

  • No reporta velocidad de inferencia (FPS), tiempo real incierto
  • Falta experimentos de generalización entre conjuntos de datos (como prueba en Refer-Dance)
  • Sin comparación con modelos de lenguaje visual más recientes (como CLIP, BLIP-2)
  • Análisis de errores insuficiente, no estadísticas de modos de fallo principales

4. Falta de Análisis Teórico

  • Sin explicación teórica de por qué modelado temporal es efectivo
  • Falta visualización de pesos de atención
  • Sin discusión de dinámicas de aprendizaje del modelo y convergencia

5. Discusión Insuficiente de Impacto Social

  • No discute problemas de privacidad (cuestiones éticas de rastreo de peatones)
  • Sin análisis de sesgos potenciales (como sesgo de reconocimiento para grupos específicos)

Impacto

Contribuciones al Campo:

  • Nivel de Tarea: La tarea RMOT se convertirá en dirección importante de comprensión de video, ya ha inspirado múltiples trabajos posteriores
  • Nivel de Datos: Refer-KITTI-V2 proporciona punto de referencia de alta calidad para la comunidad, código y datos abiertos promueven investigación
  • Nivel de Método: El diseño del módulo de mejora temporal es transferible a otras tareas de video

Valor Práctico:

  • Conducción Autónoma: Soporta control de vehículos con instrucciones lingüísticas ("seguir el automóvil rojo frente")
  • Vigilancia Inteligente: Recuperación de múltiples objetos basada en descripción ("peatón con ropa roja")
  • Interacción Humano-Máquina: Edición de video guiada por lenguaje natural

Reproducibilidad:

  • Código y conjunto de datos abiertos (https://github.com/zyn213/TempRMOT)
  • Detalles de implementación completos (hiperparámetros, estrategias de entrenamiento)
  • Basado en marco maduro (Deformable DETR), fácil de reproducir

Impacto Esperado:

  • Corto plazo (1-2 años): Inspirar más conjuntos de datos y métodos RMOT
  • Mediano plazo (3-5 años): Combinación con modelos de lenguaje grande, comprensión semántica más fuerte
  • Largo plazo (5+ años): Convertirse en componente estándar de sistemas de conducción autónoma multimodal

Escenarios Aplicables

Escenarios Más Adecuados:

  1. Conducción Autónoma: Rastreo de vehículos guiado por instrucciones lingüísticas y planificación de rutas
  2. Tráfico Inteligente: Detección de participantes de tráfico basada en descripción ("vehículos estacionados ilegalmente")
  3. Vigilancia de Video: Recuperación de objetivos basada en consulta en lenguaje natural
  4. Navegación de Robots: Seguimiento de objetivos guiado por lenguaje

Escenarios Menos Adecuados:

  1. Escenas de Alta Velocidad: Método actual puede no satisfacer requisitos de tiempo real
  2. Oclusión Extrema: Rastreo bajo oclusión severa aún presenta desafíos
  3. Escenas de Dominio Abierto: Datos de entrenamiento limitados a escenas de conducción, generalización a otros dominios por verificar
  4. Descripciones Granulares Finas: Para descripciones de apariencia extremadamente detalladas (como "persona con camisa de rayas azules") puede ser insuficiente

Recomendaciones de Mejora:

  • Extender a más escenarios (interior, deportes, actividades sociales)
  • Optimizar modelo para mejorar tiempo real
  • Introducir aprendizaje activo, soportar adaptación de pocos ejemplos a nuevas escenas

Referencias

Citas Clave

Relacionadas con RMOT:

  1. Wu et al. (2023) - TransRMOT: Primer método RMOT y conjunto de datos Refer-KITTI
  2. Du et al. (2024) - iKUN: Rastreador sin reentrenamiento
  3. Ma et al. (2024) - MLS-Track: Interacción semántica multinivel

Rastreo con Transformer: 4. Zeng et al. (2022) - MOTR: Rastreo de múltiples objetos de extremo a extremo 5. Zhu et al. (2020) - Deformable DETR: Atención deformable 6. Gao & Wang (2023) - MeMOTR: Rastreo mejorado con memoria a largo plazo

Comprensión Referencial: 7. Yu et al. (2016) - Conjuntos de datos serie RefCOCO 8. Kamath et al. (2021) - MDETR: Detección multimodal

Métricas de Evaluación: 9. Luiten et al. (2020) - HOTA: Precisión de rastreo de orden superior


Evaluación General: Este es un artículo de alta calidad en visión por computadora con innovaciones sustanciales en definición de tarea, construcción de conjunto de datos y diseño de método. La tarea RMOT tiene importancia teórica significativa y valor de aplicación, Refer-KITTI-V2 proporciona recurso valioso para la comunidad, el marco TempRMOT está bien diseñado y es efectivo. Las principales insuficiencias radican en limitaciones de escena y tiempo real desconocido. Se recomienda que trabajos posteriores extiendan a más dominios y realicen análisis teórico más profundo. Este artículo tiene potencial de convertirse en referencia importante en el campo de comprensión de video guiada por lenguaje.