Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
Association Rapide et Consciente de la Profondeur et du Masque Auto-Supervisée pour le Suivi Multi-Objets
Les méthodes de suivi multi-objets (MOT) dépendent généralement de l'intersection sur l'union (IoU) pour l'association, mais deviennent peu fiables lorsque les objets sont similaires ou occultés, et le calcul de l'IoU des masques de segmentation est coûteux. Cet article utilise les masques de segmentation pour capturer la forme des objets, mais ne calcule pas l'IoU de segmentation. Au lieu de cela, il fusionne les caractéristiques de profondeur et de masque, traitées par un encodeur compact entraîné en auto-supervision, produisant une représentation stable des objets, servant de signal de similarité supplémentaire au-delà de l'IoU des boîtes englobantes et des caractéristiques de réidentification. Les cartes de profondeur sont obtenues via un estimateur de profondeur sans exemple, et les masques d'objets via un modèle de segmentation visuelle suggérable, pour obtenir des indices spatiaux à grain fin. Cette méthode utilise pour la première fois un encodeur auto-supervisé pour optimiser les masques de segmentation sans calculer l'IoU des masques. Les expériences sur des repères difficiles présentant des mouvements non linéaires, des occlusions et des scènes encombrées (comme SportsMOT et DanceTrack) montrent que la méthode surpasse les méthodes de pointe TBD sur la plupart des métriques.
Les défis fondamentaux du suivi multi-objets incluent :
Problème d'occlusion : Lorsque les objets sont partiellement ou complètement occultés, les indices 2D traditionnels (comme l'IoU des boîtes englobantes) deviennent peu fiables
Similarité d'apparence : Les objets ayant une apparence similaire sont difficiles à distinguer, entraînant des changements d'ID fréquents
Efficacité computationnelle : Le coût de calcul du calcul direct de l'IoU des masques de segmentation est trop élevé
Mouvements complexes : L'association d'objets avec des modèles de mouvement non linéaires est difficile
Les méthodes MOT existantes dépendent principalement d'indices 2D pour l'association de données, avec des performances médiocres dans les scènes complexes. Par exemple, deux piétons marchant parallèlement mais à des profondeurs différentes peuvent être indistinguibles dans une vue 2D. Cet article propose une approche consciente de l'espace 3D combinant les informations de profondeur et de segmentation pour fournir une association d'objets plus robuste.
Conception d'un encodeur auto-supervisé : Améliore la stabilité temporelle et la capacité discriminante des caractéristiques de profondeur-segmentation
Approche novatrice : Première utilisation d'un encodeur auto-supervisé pour optimiser les masques de segmentation et les intégrer dans le score d'appariement, sans calculer l'IoU des masques
Performance compétitive : Réalise une performance compétitive dans divers scénarios de suivi, en particulier dans les scènes occultées
Implémentation efficace : Évite le calcul coûteux de l'IoU des masques tout en maintenant la capacité de raisonnement spatial à grain fin
Entrée : Trames consécutives dans une séquence vidéo et boîtes englobantes de détection d'objets
Sortie : Association d'identité d'objets entre trames, maintenant la cohérence des ID
Contraintes : Exigences de temps réel, gestion de l'occlusion et de la similarité d'apparence
Complémentarité : Le passage de l'IoU des masques à l'IoU des boîtes englobantes améliore considérablement les performances, l'intégration profondeur-segmentation améliorant davantage
Adaptabilité aux scènes : L'amélioration est plus prononcée sur les ensembles de données à mouvement non linéaire comme DanceTrack, tandis que l'amélioration est relativement faible sur les ensembles de données à mouvement linéaire comme MOT17
Qualité d'association : Amélioration cohérente sur les métriques d'association HOTA, AssA, IDF1, validant l'efficacité de la méthode
Goulot d'étranglement computationnel : L'étape d'estimation de profondeur (DepthPro environ 0,3 seconde/trame) est le principal goulot d'étranglement de performance
Scènes à mouvement linéaire : L'amélioration est limitée sur les ensembles de données à mouvement linéaire comme MOT17
Dépendance : Dépend de la qualité des modèles pré-entraînés SAM2 et DepthPro
L'article cite 41 références connexes, couvrant les travaux principaux du domaine MOT, incluant les méthodes classiques comme ByteTrack, OC-SORT, FairMOT, ainsi que les méthodes récentes conscientes de la profondeur et d'apprentissage auto-supervisé, fournissant une référence de fond complète pour la recherche connexe.