Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
Asociación Rápida Consciente de Profundidad y Máscara Autosupervisada para Seguimiento Multi-Objeto
Los métodos de seguimiento multi-objeto (MOT) típicamente dependen de la Intersección sobre Unión (IoU) para la asociación, pero se vuelven poco confiables cuando los objetivos son similares u ocluidos, y el cálculo de IoU de máscaras de segmentación es computacionalmente costoso. Este artículo utiliza máscaras de segmentación para capturar la forma del objetivo, pero sin calcular IoU de segmentación. En su lugar, fusiona características de profundidad y máscara, procesadas a través de un codificador compacto entrenado autosupervisadamente, produciendo representaciones estables del objetivo como pistas de similitud adicionales más allá de IoU de cuadro delimitador y características de reidentificación. Los mapas de profundidad se obtienen mediante un estimador de profundidad de cero ejemplos, y las máscaras de objetivo se obtienen mediante un modelo de segmentación visual indicable, para obtener pistas espaciales de grano fino. Este método es el primero en utilizar un codificador autosupervisado para optimizar máscaras de segmentación sin calcular IoU de máscara. Los experimentos en puntos de referencia desafiantes con movimiento no lineal, oclusión y escenas abarrotadas (como SportsMOT y DanceTrack) demuestran que el método supera a los métodos de última generación TBD en la mayoría de las métricas.
Los desafíos centrales del seguimiento multi-objeto incluyen:
Problema de Oclusión: Cuando los objetivos están parcial o completamente ocluidos, las pistas 2D tradicionales (como IoU de cuadro delimitador) se vuelven poco confiables
Similitud de Apariencia: Los objetivos con apariencia similar son difíciles de distinguir, lo que causa cambios frecuentes de ID
Eficiencia Computacional: El costo computacional de calcular directamente IoU de máscaras de segmentación es excesivo
Movimiento Complejo: La asociación de objetivos con patrones de movimiento no lineal es difícil
Los métodos MOT existentes dependen principalmente de pistas 2D para la asociación de datos, con un desempeño deficiente en escenas complejas. Por ejemplo, cuando dos peatones caminan en paralelo pero a diferentes profundidades, pueden ser indistinguibles en una vista 2D. Este artículo propone un método consciente del espacio 3D que combina información de profundidad y segmentación para proporcionar una asociación de objetivos más robusta.
Diseño de Codificador Autosupervisado: Mejora la estabilidad temporal y la capacidad discriminativa de características de profundidad-segmentación
Método Novedoso: Primer uso de codificador autosupervisado para optimizar máscaras de segmentación e integrarlas en puntuaciones de coincidencia, sin calcular IoU de máscara
Desempeño Competitivo: Logra desempeño competitivo en varios escenarios de seguimiento, con desempeño excepcional en escenas ocluidas
Implementación Eficiente: Evita el costoso cálculo de IoU de máscara mientras mantiene la capacidad de razonamiento espacial de grano fino
Entrada: Fotogramas consecutivos en una secuencia de video y cuadros delimitadores de detección de objetivos
Salida: Asociación de identidad de objetivos entre fotogramas, manteniendo consistencia de ID
Restricciones: Requisitos de tiempo real, manejo de oclusión y similitud de apariencia
Complementariedad: El cambio de IoU de máscara a IoU de cuadro delimitador mejora significativamente el desempeño, y la integración de profundidad-segmentación mejora aún más
Adaptabilidad de Escena: La mejora es más pronunciada en conjuntos de datos con movimiento no lineal como DanceTrack, mientras que la mejora es relativamente menor en conjuntos de datos con movimiento lineal como MOT17
Calidad de Asociación: Mejora consistente en métricas de asociación como HOTA, AssA e IDF1, validando la efectividad del método
Cuello de Botella Computacional: El paso de estimación de profundidad (DepthPro ~0.3 segundos/fotograma) es el cuello de botella principal de desempeño
Escenas de Movimiento Lineal: La mejora es limitada en conjuntos de datos con movimiento lineal como MOT17
Dependencia: Depende de la calidad de modelos preentrenados SAM2 y DepthPro
El artículo cita 41 referencias relacionadas, cubriendo trabajos principales en el campo de MOT, incluyendo métodos clásicos como ByteTrack, OC-SORT, FairMOT, así como métodos recientes conscientes de profundidad y de aprendizaje autosupervisado, proporcionando referencias de antecedentes exhaustivas para investigación relacionada.