2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

Asociación Rápida Consciente de Profundidad y Máscara Autosupervisada para Seguimiento Multi-Objeto

Información Básica

  • ID del Artículo: 2510.09878
  • Título: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
  • Autores: Milad Khanchi, Maria Amer, Charalambos Poullis (Universidad Concordia)
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09878
  • Enlace del Código: https://github.com/Milad-Khanchi/SelfTrEncMOT

Resumen

Los métodos de seguimiento multi-objeto (MOT) típicamente dependen de la Intersección sobre Unión (IoU) para la asociación, pero se vuelven poco confiables cuando los objetivos son similares u ocluidos, y el cálculo de IoU de máscaras de segmentación es computacionalmente costoso. Este artículo utiliza máscaras de segmentación para capturar la forma del objetivo, pero sin calcular IoU de segmentación. En su lugar, fusiona características de profundidad y máscara, procesadas a través de un codificador compacto entrenado autosupervisadamente, produciendo representaciones estables del objetivo como pistas de similitud adicionales más allá de IoU de cuadro delimitador y características de reidentificación. Los mapas de profundidad se obtienen mediante un estimador de profundidad de cero ejemplos, y las máscaras de objetivo se obtienen mediante un modelo de segmentación visual indicable, para obtener pistas espaciales de grano fino. Este método es el primero en utilizar un codificador autosupervisado para optimizar máscaras de segmentación sin calcular IoU de máscara. Los experimentos en puntos de referencia desafiantes con movimiento no lineal, oclusión y escenas abarrotadas (como SportsMOT y DanceTrack) demuestran que el método supera a los métodos de última generación TBD en la mayoría de las métricas.

Antecedentes de Investigación y Motivación

Definición del Problema

Los desafíos centrales del seguimiento multi-objeto incluyen:

  1. Problema de Oclusión: Cuando los objetivos están parcial o completamente ocluidos, las pistas 2D tradicionales (como IoU de cuadro delimitador) se vuelven poco confiables
  2. Similitud de Apariencia: Los objetivos con apariencia similar son difíciles de distinguir, lo que causa cambios frecuentes de ID
  3. Eficiencia Computacional: El costo computacional de calcular directamente IoU de máscaras de segmentación es excesivo
  4. Movimiento Complejo: La asociación de objetivos con patrones de movimiento no lineal es difícil

Motivación de la Investigación

Los métodos MOT existentes dependen principalmente de pistas 2D para la asociación de datos, con un desempeño deficiente en escenas complejas. Por ejemplo, cuando dos peatones caminan en paralelo pero a diferentes profundidades, pueden ser indistinguibles en una vista 2D. Este artículo propone un método consciente del espacio 3D que combina información de profundidad y segmentación para proporcionar una asociación de objetivos más robusta.

Limitaciones de Métodos Existentes

  1. Métodos de Detección-ReID Conjunta (JDR): Requisitos computacionales altos, requieren entrenamiento conjunto de detección y seguimiento
  2. Métodos de Seguimiento-por-Detección (TBD): Dependen principalmente de incrustaciones de apariencia en lugar de pistas espaciales conscientes
  3. Métodos Conscientes de Profundidad: Utilizan profundidad como señal auxiliar en lugar de pista de asociación principal
  4. Aprendizaje de ReID Autosupervisado: Dependen de objetivos contrastivos o de agrupamiento, sin utilizar información espacial 3D fusionada

Contribuciones Principales

  1. Diseño de Codificador Autosupervisado: Mejora la estabilidad temporal y la capacidad discriminativa de características de profundidad-segmentación
  2. Método Novedoso: Primer uso de codificador autosupervisado para optimizar máscaras de segmentación e integrarlas en puntuaciones de coincidencia, sin calcular IoU de máscara
  3. Desempeño Competitivo: Logra desempeño competitivo en varios escenarios de seguimiento, con desempeño excepcional en escenas ocluidas
  4. Implementación Eficiente: Evita el costoso cálculo de IoU de máscara mientras mantiene la capacidad de razonamiento espacial de grano fino

Explicación Detallada del Método

Definición de la Tarea

Entrada: Fotogramas consecutivos en una secuencia de video y cuadros delimitadores de detección de objetivos Salida: Asociación de identidad de objetivos entre fotogramas, manteniendo consistencia de ID Restricciones: Requisitos de tiempo real, manejo de oclusión y similitud de apariencia

Arquitectura del Modelo

1. Módulo de Fusión Profundidad-Segmentación

  • Estimación de Profundidad de Cero Ejemplos: Utiliza Depth Pro para generar mapas de profundidad que representan el espacio relativo
  • Segmentación Visual Indicable (PVS): Adopta SAM2 para alineación de forma espacio-temporal
    • Para trayectorias rastreadas en el fotograma t-1, utiliza cuadros delimitadores como indicadores para generar máscaras de segmentación precisas
    • Para nuevas detecciones en el fotograma t, propaga hacia atrás al fotograma t-1 para alineación
    • Multiplica píxel a píxel la máscara con el mapa de profundidad correspondiente, generando incrustación fusionada de profundidad-segmentación

2. Codificador Autosupervisado de Profundidad-Segmentación

Diseño de Arquitectura:

  • Codificador: 3 capas convolucionales (núcleo 4×4, paso 2), canales de 1→32→64→128
  • Normalización por lotes y activación ReLU
  • Capa lineal que produce características de cuello de botella de 2048 dimensiones
  • Decodificador: Estructura espejo, convolución transpuesta para sobremuestreo

Objetivo de Entrenamiento:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Actualización de Consistencia Temporal:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Módulo de Apariencia-Movimiento

  • Filtro de Kalman No Lineal: Modela dinámicas de movimiento de objetivos, integra mecanismo de actualización de recentrado de observación (ORU)
  • Coincidencia de Movimiento: Calcula S_IoU (superposición espacial) y S_ang (consistencia angular)
  • Coincidencia de Apariencia: Utiliza FastReID para extraer incrustaciones de apariencia, calcula similitud de coseno S_emb

Puntos de Innovación Técnica

  1. Evitar Cálculo de IoU de Máscara: Reemplaza el costoso IoU de máscara con similitud de coseno de incrustación de codificador
  2. Fusión Multimodal: Fusión a nivel de píxel de información de profundidad y segmentación proporciona pistas espaciales de grano fino
  3. Optimización Autosupervisada: Mejora la calidad de características a través de pérdidas de reconstrucción y consistencia de cuello de botella
  4. Estabilidad Temporal: Estrategia de actualización de incrustación ponderada dinámicamente mantiene consistencia entre fotogramas

Estrategia General de Asociación

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Utiliza el algoritmo húngaro para asociación óptima de datos.

Configuración Experimental

Conjuntos de Datos

  1. SportsMOT: Movimiento rápido e impredecible, oclusión frecuente
  2. DanceTrack: Movimiento altamente no lineal, oclusión frecuente, interacción cercana
    • 40 secuencias de entrenamiento, 25 secuencias de validación, 35 secuencias de prueba
  3. MOT17: Multitud de densidad media, movimiento peatonal estructurado, relativamente lineal y predecible

Métricas de Evaluación

  • HOTA: Precisión de Seguimiento de Orden Superior, equilibra precisión de detección y asociación
  • AssA: Precisión de Asociación, enfatiza el mantenimiento de identidad
  • DetA: Precisión de Detección
  • IDF1: Puntuación F1 de Identidad, se enfoca en mantenimiento de identidad y calidad de asociación
  • MOTA: Precisión de Seguimiento Multi-Objeto, se enfoca en desempeño a nivel de detección
  • FPS: Fotogramas por segundo basados en componentes de seguimiento

Métodos de Comparación

Métodos TBD: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack, etc. Métodos JDR: FairMOT, TransTrack, MOTRv2, etc.

Detalles de Implementación

  • Detector: YOLOX (consistente con métodos MOT más recientes)
  • Entrenamiento: GPU NVIDIA A100 único, tamaño de lote 128, 12 épocas
  • Optimizador: Adam, tasa de aprendizaje 1e-3
  • Inferencia: Tamaño de lote 1, fase de asociación superior a 125 FPS (conjunto de validación DanceTrack)

Resultados Experimentales

Resultados Principales

Conjunto de Prueba SportsMOT

MétodoHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

Conjunto de Prueba DanceTrack

MétodoHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

Conjunto de Prueba MOT17

MétodoHOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

Experimentos de Ablación

ConfiguraciónDanceTrack-valMOT17-val
Apariencia + IoU de MáscaraHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Apariencia + IoU de Cuadro DelimitadorHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Apariencia + IoU de Cuadro Delimitador + Profundidad-SegmentaciónHOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Hallazgos Experimentales

  1. Complementariedad: El cambio de IoU de máscara a IoU de cuadro delimitador mejora significativamente el desempeño, y la integración de profundidad-segmentación mejora aún más
  2. Adaptabilidad de Escena: La mejora es más pronunciada en conjuntos de datos con movimiento no lineal como DanceTrack, mientras que la mejora es relativamente menor en conjuntos de datos con movimiento lineal como MOT17
  3. Calidad de Asociación: Mejora consistente en métricas de asociación como HOTA, AssA e IDF1, validando la efectividad del método

Trabajo Relacionado

Métodos de Detección-ReID Conjunta

  • FairMOT: Método de dos ramas que combina detección sin ancla e incrustación de apariencia
  • TransCenter: Atención deformable mejora el manejo de oclusión
  • AFMTrack: Red de coincidencia de características de atención

Métodos de Seguimiento-por-Detección

  • Seguimiento a Nivel de Secuencia: Métodos basados en gráficos (Brasó et al.), consistencia de ruta autosupervisada (Lu et al.)
  • Seguimiento a Nivel de Fotograma: Modelos de atención (TrackFormer, MOTRv2), métodos de regresión (OC-SORT, DiffMOT)

Asociación Consciente de Profundidad y Autosupervisada

  • Integración de Profundidad: Ordenamiento de profundidad relativa (Quach et al.), profundidad estéreo combinada con estimación de pose (Wang et al.)
  • ReID Autosupervisado: Incrustación de consistencia de ruta (Li et al.)

Conclusiones y Discusión

Conclusiones Principales

  1. La fusión de profundidad-segmentación proporciona capacidad efectiva de conciencia espacial 3D
  2. El codificador autosupervisado mejora exitosamente la estabilidad temporal y capacidad discriminativa de características
  3. Mantiene la capacidad de razonamiento espacial de grano fino mientras evita el costoso cálculo de IoU de máscara
  4. Desempeño excepcional en escenas complejas (oclusión, movimiento no lineal)

Limitaciones

  1. Cuello de Botella Computacional: El paso de estimación de profundidad (DepthPro ~0.3 segundos/fotograma) es el cuello de botella principal de desempeño
  2. Escenas de Movimiento Lineal: La mejora es limitada en conjuntos de datos con movimiento lineal como MOT17
  3. Dependencia: Depende de la calidad de modelos preentrenados SAM2 y DepthPro

Direcciones Futuras

  1. Estimación de Profundidad en Tiempo Real: Investigar estimadores de profundidad más rápidos para mejorar la velocidad general
  2. Aprendizaje Contrastivo: Introducir objetivos contrastivos para el codificador para mejorar discriminabilidad y robustez
  3. Entrenamiento Extremo a Extremo: Explorar optimización conjunta de estimación de profundidad y seguimiento

Evaluación Profunda

Fortalezas

  1. Innovación Técnica: Primer uso de fusión de profundidad-segmentación con codificador autosupervisado para MOT
  2. Valor Práctico: Proporciona solución eficiente evitando el costoso cálculo de IoU de máscara
  3. Experimentación Exhaustiva: Validación en múltiples conjuntos de datos desafiantes, experimentos de ablación completos
  4. Mejora de Desempeño: Supera consistentemente métodos TBD existentes en métricas de calidad de asociación

Deficiencias

  1. Eficiencia Computacional: Aunque evita IoU de máscara, la estimación de profundidad sigue siendo un cuello de botella
  2. Rango de Aplicabilidad: Las ventajas no son evidentes en escenas simples con movimiento lineal
  3. Dependencia Fuerte: Fuertemente dependiente de la calidad y disponibilidad de modelos preentrenados
  4. Análisis Teórico: Carece de explicación teórica de la efectividad de la fusión de profundidad-segmentación

Impacto

  1. Contribución Académica: Introduce nuevas ideas de fusión multimodal al campo de MOT
  2. Aplicación Práctica: Tiene valor práctico en seguimiento de escenas complejas como deportes y danza
  3. Reproducibilidad: Proporciona código y detalles de implementación detallados para facilitar la reproducción

Escenarios Aplicables

  1. Escenas de Movimiento Complejo: Seguimiento de movimiento no lineal en competiciones deportivas, actuaciones de danza
  2. Entornos de Alta Oclusión: Seguimiento multi-objeto en escenas abarrotadas
  3. Objetivos de Apariencia Similar: Escenarios que requieren pistas espaciales adicionales para distinguir
  4. Requisitos de Tiempo Real Moderado: Aplicaciones que pueden tolerar cierta latencia computacional

Referencias

El artículo cita 41 referencias relacionadas, cubriendo trabajos principales en el campo de MOT, incluyendo métodos clásicos como ByteTrack, OC-SORT, FairMOT, así como métodos recientes conscientes de profundidad y de aprendizaje autosupervisado, proporcionando referencias de antecedentes exhaustivas para investigación relacionada.