2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

Asociación Rápida Consciente de Profundidad y Máscara Autosupervisada para Seguimiento Multi-Objeto

Información Básica

ID del Artículo: 2510.09878
Título: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Autores: Milad Khanchi, Maria Amer, Charalambos Poullis (Universidad Concordia)
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09878
Enlace del Código: https://github.com/Milad-Khanchi/SelfTrEncMOT

Resumen

Los métodos de seguimiento multi-objeto (MOT) típicamente dependen de la Intersección sobre Unión (IoU) para la asociación, pero se vuelven poco confiables cuando los objetivos son similares u ocluidos, y el cálculo de IoU de máscaras de segmentación es computacionalmente costoso. Este artículo utiliza máscaras de segmentación para capturar la forma del objetivo, pero sin calcular IoU de segmentación. En su lugar, fusiona características de profundidad y máscara, procesadas a través de un codificador compacto entrenado autosupervisadamente, produciendo representaciones estables del objetivo como pistas de similitud adicionales más allá de IoU de cuadro delimitador y características de reidentificación. Los mapas de profundidad se obtienen mediante un estimador de profundidad de cero ejemplos, y las máscaras de objetivo se obtienen mediante un modelo de segmentación visual indicable, para obtener pistas espaciales de grano fino. Este método es el primero en utilizar un codificador autosupervisado para optimizar máscaras de segmentación sin calcular IoU de máscara. Los experimentos en puntos de referencia desafiantes con movimiento no lineal, oclusión y escenas abarrotadas (como SportsMOT y DanceTrack) demuestran que el método supera a los métodos de última generación TBD en la mayoría de las métricas.

Antecedentes de Investigación y Motivación

Definición del Problema

Los desafíos centrales del seguimiento multi-objeto incluyen:

Problema de Oclusión: Cuando los objetivos están parcial o completamente ocluidos, las pistas 2D tradicionales (como IoU de cuadro delimitador) se vuelven poco confiables
Similitud de Apariencia: Los objetivos con apariencia similar son difíciles de distinguir, lo que causa cambios frecuentes de ID
Eficiencia Computacional: El costo computacional de calcular directamente IoU de máscaras de segmentación es excesivo
Movimiento Complejo: La asociación de objetivos con patrones de movimiento no lineal es difícil

Motivación de la Investigación

Los métodos MOT existentes dependen principalmente de pistas 2D para la asociación de datos, con un desempeño deficiente en escenas complejas. Por ejemplo, cuando dos peatones caminan en paralelo pero a diferentes profundidades, pueden ser indistinguibles en una vista 2D. Este artículo propone un método consciente del espacio 3D que combina información de profundidad y segmentación para proporcionar una asociación de objetivos más robusta.

Limitaciones de Métodos Existentes

Métodos de Detección-ReID Conjunta (JDR): Requisitos computacionales altos, requieren entrenamiento conjunto de detección y seguimiento
Métodos de Seguimiento-por-Detección (TBD): Dependen principalmente de incrustaciones de apariencia en lugar de pistas espaciales conscientes
Métodos Conscientes de Profundidad: Utilizan profundidad como señal auxiliar en lugar de pista de asociación principal
Aprendizaje de ReID Autosupervisado: Dependen de objetivos contrastivos o de agrupamiento, sin utilizar información espacial 3D fusionada

Contribuciones Principales

Diseño de Codificador Autosupervisado: Mejora la estabilidad temporal y la capacidad discriminativa de características de profundidad-segmentación
Método Novedoso: Primer uso de codificador autosupervisado para optimizar máscaras de segmentación e integrarlas en puntuaciones de coincidencia, sin calcular IoU de máscara
Desempeño Competitivo: Logra desempeño competitivo en varios escenarios de seguimiento, con desempeño excepcional en escenas ocluidas
Implementación Eficiente: Evita el costoso cálculo de IoU de máscara mientras mantiene la capacidad de razonamiento espacial de grano fino

Explicación Detallada del Método

Definición de la Tarea

Entrada: Fotogramas consecutivos en una secuencia de video y cuadros delimitadores de detección de objetivos Salida: Asociación de identidad de objetivos entre fotogramas, manteniendo consistencia de ID Restricciones: Requisitos de tiempo real, manejo de oclusión y similitud de apariencia

Arquitectura del Modelo

1. Módulo de Fusión Profundidad-Segmentación

Estimación de Profundidad de Cero Ejemplos: Utiliza Depth Pro para generar mapas de profundidad que representan el espacio relativo
Segmentación Visual Indicable (PVS): Adopta SAM2 para alineación de forma espacio-temporal
- Para trayectorias rastreadas en el fotograma t-1, utiliza cuadros delimitadores como indicadores para generar máscaras de segmentación precisas
- Para nuevas detecciones en el fotograma t, propaga hacia atrás al fotograma t-1 para alineación
- Multiplica píxel a píxel la máscara con el mapa de profundidad correspondiente, generando incrustación fusionada de profundidad-segmentación

2. Codificador Autosupervisado de Profundidad-Segmentación

Diseño de Arquitectura:

Codificador: 3 capas convolucionales (núcleo 4×4, paso 2), canales de 1→32→64→128
Normalización por lotes y activación ReLU
Capa lineal que produce características de cuello de botella de 2048 dimensiones
Decodificador: Estructura espejo, convolución transpuesta para sobremuestreo

Objetivo de Entrenamiento:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Actualización de Consistencia Temporal:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Módulo de Apariencia-Movimiento

Filtro de Kalman No Lineal: Modela dinámicas de movimiento de objetivos, integra mecanismo de actualización de recentrado de observación (ORU)
Coincidencia de Movimiento: Calcula S_IoU (superposición espacial) y S_ang (consistencia angular)
Coincidencia de Apariencia: Utiliza FastReID para extraer incrustaciones de apariencia, calcula similitud de coseno S_emb

Puntos de Innovación Técnica

Evitar Cálculo de IoU de Máscara: Reemplaza el costoso IoU de máscara con similitud de coseno de incrustación de codificador
Fusión Multimodal: Fusión a nivel de píxel de información de profundidad y segmentación proporciona pistas espaciales de grano fino
Optimización Autosupervisada: Mejora la calidad de características a través de pérdidas de reconstrucción y consistencia de cuello de botella
Estabilidad Temporal: Estrategia de actualización de incrustación ponderada dinámicamente mantiene consistencia entre fotogramas

Estrategia General de Asociación

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Utiliza el algoritmo húngaro para asociación óptima de datos.

Configuración Experimental

Conjuntos de Datos

SportsMOT: Movimiento rápido e impredecible, oclusión frecuente
DanceTrack: Movimiento altamente no lineal, oclusión frecuente, interacción cercana
- 40 secuencias de entrenamiento, 25 secuencias de validación, 35 secuencias de prueba
MOT17: Multitud de densidad media, movimiento peatonal estructurado, relativamente lineal y predecible

Métricas de Evaluación

HOTA: Precisión de Seguimiento de Orden Superior, equilibra precisión de detección y asociación
AssA: Precisión de Asociación, enfatiza el mantenimiento de identidad
DetA: Precisión de Detección
IDF1: Puntuación F1 de Identidad, se enfoca en mantenimiento de identidad y calidad de asociación
MOTA: Precisión de Seguimiento Multi-Objeto, se enfoca en desempeño a nivel de detección
FPS: Fotogramas por segundo basados en componentes de seguimiento

Métodos de Comparación

Métodos TBD: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack, etc. Métodos JDR: FairMOT, TransTrack, MOTRv2, etc.

Detalles de Implementación

Detector: YOLOX (consistente con métodos MOT más recientes)
Entrenamiento: GPU NVIDIA A100 único, tamaño de lote 128, 12 épocas
Optimizador: Adam, tasa de aprendizaje 1e-3
Inferencia: Tamaño de lote 1, fase de asociación superior a 125 FPS (conjunto de validación DanceTrack)

Resultados Experimentales

Resultados Principales

Conjunto de Prueba SportsMOT

Método	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

Conjunto de Prueba DanceTrack

Método	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

Conjunto de Prueba MOT17

Método	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

Experimentos de Ablación

Configuración	DanceTrack-val	MOT17-val
Apariencia + IoU de Máscara	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Apariencia + IoU de Cuadro Delimitador	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Apariencia + IoU de Cuadro Delimitador + Profundidad-Segmentación	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Hallazgos Experimentales

Complementariedad: El cambio de IoU de máscara a IoU de cuadro delimitador mejora significativamente el desempeño, y la integración de profundidad-segmentación mejora aún más
Adaptabilidad de Escena: La mejora es más pronunciada en conjuntos de datos con movimiento no lineal como DanceTrack, mientras que la mejora es relativamente menor en conjuntos de datos con movimiento lineal como MOT17
Calidad de Asociación: Mejora consistente en métricas de asociación como HOTA, AssA e IDF1, validando la efectividad del método

Trabajo Relacionado

Métodos de Detección-ReID Conjunta

FairMOT: Método de dos ramas que combina detección sin ancla e incrustación de apariencia
TransCenter: Atención deformable mejora el manejo de oclusión
AFMTrack: Red de coincidencia de características de atención

Métodos de Seguimiento-por-Detección

Seguimiento a Nivel de Secuencia: Métodos basados en gráficos (Brasó et al.), consistencia de ruta autosupervisada (Lu et al.)
Seguimiento a Nivel de Fotograma: Modelos de atención (TrackFormer, MOTRv2), métodos de regresión (OC-SORT, DiffMOT)

Asociación Consciente de Profundidad y Autosupervisada

Integración de Profundidad: Ordenamiento de profundidad relativa (Quach et al.), profundidad estéreo combinada con estimación de pose (Wang et al.)
ReID Autosupervisado: Incrustación de consistencia de ruta (Li et al.)

Conclusiones y Discusión

Conclusiones Principales

La fusión de profundidad-segmentación proporciona capacidad efectiva de conciencia espacial 3D
El codificador autosupervisado mejora exitosamente la estabilidad temporal y capacidad discriminativa de características
Mantiene la capacidad de razonamiento espacial de grano fino mientras evita el costoso cálculo de IoU de máscara
Desempeño excepcional en escenas complejas (oclusión, movimiento no lineal)

Limitaciones

Cuello de Botella Computacional: El paso de estimación de profundidad (DepthPro ~0.3 segundos/fotograma) es el cuello de botella principal de desempeño
Escenas de Movimiento Lineal: La mejora es limitada en conjuntos de datos con movimiento lineal como MOT17
Dependencia: Depende de la calidad de modelos preentrenados SAM2 y DepthPro

Direcciones Futuras

Estimación de Profundidad en Tiempo Real: Investigar estimadores de profundidad más rápidos para mejorar la velocidad general
Aprendizaje Contrastivo: Introducir objetivos contrastivos para el codificador para mejorar discriminabilidad y robustez
Entrenamiento Extremo a Extremo: Explorar optimización conjunta de estimación de profundidad y seguimiento

Evaluación Profunda

Fortalezas

Innovación Técnica: Primer uso de fusión de profundidad-segmentación con codificador autosupervisado para MOT
Valor Práctico: Proporciona solución eficiente evitando el costoso cálculo de IoU de máscara
Experimentación Exhaustiva: Validación en múltiples conjuntos de datos desafiantes, experimentos de ablación completos
Mejora de Desempeño: Supera consistentemente métodos TBD existentes en métricas de calidad de asociación

Deficiencias

Eficiencia Computacional: Aunque evita IoU de máscara, la estimación de profundidad sigue siendo un cuello de botella
Rango de Aplicabilidad: Las ventajas no son evidentes en escenas simples con movimiento lineal
Dependencia Fuerte: Fuertemente dependiente de la calidad y disponibilidad de modelos preentrenados
Análisis Teórico: Carece de explicación teórica de la efectividad de la fusión de profundidad-segmentación

Impacto

Contribución Académica: Introduce nuevas ideas de fusión multimodal al campo de MOT
Aplicación Práctica: Tiene valor práctico en seguimiento de escenas complejas como deportes y danza
Reproducibilidad: Proporciona código y detalles de implementación detallados para facilitar la reproducción

Escenarios Aplicables

Escenas de Movimiento Complejo: Seguimiento de movimiento no lineal en competiciones deportivas, actuaciones de danza
Entornos de Alta Oclusión: Seguimiento multi-objeto en escenas abarrotadas
Objetivos de Apariencia Similar: Escenarios que requieren pistas espaciales adicionales para distinguir
Requisitos de Tiempo Real Moderado: Aplicaciones que pueden tolerar cierta latencia computacional

Referencias

El artículo cita 41 referencias relacionadas, cubriendo trabajos principales en el campo de MOT, incluyendo métodos clásicos como ByteTrack, OC-SORT, FairMOT, así como métodos recientes conscientes de profundidad y de aprendizaje autosupervisado, proporcionando referencias de antecedentes exhaustivas para investigación relacionada.