2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

Association Rapide et Consciente de la Profondeur et du Masque Auto-Supervisée pour le Suivi Multi-Objets

Informations Fondamentales

  • ID de l'article : 2510.09878
  • Titre : Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
  • Auteurs : Milad Khanchi, Maria Amer, Charalambos Poullis (Université Concordia)
  • Classification : cs.CV (Vision par Ordinateur)
  • Date de publication : 10 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.09878
  • Lien du code : https://github.com/Milad-Khanchi/SelfTrEncMOT

Résumé

Les méthodes de suivi multi-objets (MOT) dépendent généralement de l'intersection sur l'union (IoU) pour l'association, mais deviennent peu fiables lorsque les objets sont similaires ou occultés, et le calcul de l'IoU des masques de segmentation est coûteux. Cet article utilise les masques de segmentation pour capturer la forme des objets, mais ne calcule pas l'IoU de segmentation. Au lieu de cela, il fusionne les caractéristiques de profondeur et de masque, traitées par un encodeur compact entraîné en auto-supervision, produisant une représentation stable des objets, servant de signal de similarité supplémentaire au-delà de l'IoU des boîtes englobantes et des caractéristiques de réidentification. Les cartes de profondeur sont obtenues via un estimateur de profondeur sans exemple, et les masques d'objets via un modèle de segmentation visuelle suggérable, pour obtenir des indices spatiaux à grain fin. Cette méthode utilise pour la première fois un encodeur auto-supervisé pour optimiser les masques de segmentation sans calculer l'IoU des masques. Les expériences sur des repères difficiles présentant des mouvements non linéaires, des occlusions et des scènes encombrées (comme SportsMOT et DanceTrack) montrent que la méthode surpasse les méthodes de pointe TBD sur la plupart des métriques.

Contexte de Recherche et Motivation

Définition du Problème

Les défis fondamentaux du suivi multi-objets incluent :

  1. Problème d'occlusion : Lorsque les objets sont partiellement ou complètement occultés, les indices 2D traditionnels (comme l'IoU des boîtes englobantes) deviennent peu fiables
  2. Similarité d'apparence : Les objets ayant une apparence similaire sont difficiles à distinguer, entraînant des changements d'ID fréquents
  3. Efficacité computationnelle : Le coût de calcul du calcul direct de l'IoU des masques de segmentation est trop élevé
  4. Mouvements complexes : L'association d'objets avec des modèles de mouvement non linéaires est difficile

Motivation de la Recherche

Les méthodes MOT existantes dépendent principalement d'indices 2D pour l'association de données, avec des performances médiocres dans les scènes complexes. Par exemple, deux piétons marchant parallèlement mais à des profondeurs différentes peuvent être indistinguibles dans une vue 2D. Cet article propose une approche consciente de l'espace 3D combinant les informations de profondeur et de segmentation pour fournir une association d'objets plus robuste.

Limitations des Méthodes Existantes

  1. Méthodes de Détection-ReID Conjointe (JDR) : Exigences de calcul élevées, nécessitant un entraînement conjoint de la détection et du suivi
  2. Méthodes de Suivi par Détection (TBD) : Dépendent principalement des plongements d'apparence plutôt que des indices conscients de l'espace
  3. Méthodes conscientes de la profondeur : Utilisent la profondeur comme signal auxiliaire plutôt que comme indice d'association principal
  4. Apprentissage ReID auto-supervisé : Dépendent du contraste ou du regroupement d'objets, n'utilisant pas les informations spatiales 3D fusionnées

Contributions Principales

  1. Conception d'un encodeur auto-supervisé : Améliore la stabilité temporelle et la capacité discriminante des caractéristiques de profondeur-segmentation
  2. Approche novatrice : Première utilisation d'un encodeur auto-supervisé pour optimiser les masques de segmentation et les intégrer dans le score d'appariement, sans calculer l'IoU des masques
  3. Performance compétitive : Réalise une performance compétitive dans divers scénarios de suivi, en particulier dans les scènes occultées
  4. Implémentation efficace : Évite le calcul coûteux de l'IoU des masques tout en maintenant la capacité de raisonnement spatial à grain fin

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Trames consécutives dans une séquence vidéo et boîtes englobantes de détection d'objets Sortie : Association d'identité d'objets entre trames, maintenant la cohérence des ID Contraintes : Exigences de temps réel, gestion de l'occlusion et de la similarité d'apparence

Architecture du Modèle

1. Module de Fusion Profondeur-Segmentation

  • Estimation de profondeur sans exemple : Utilise Depth Pro pour générer des cartes de profondeur représentant l'espace relatif
  • Segmentation Visuelle Suggérable (PVS) : Adopte SAM2 pour l'alignement spatio-temporel des formes
    • Pour les trajectoires suivies dans la trame t-1, utilise les boîtes englobantes comme suggestions pour générer des masques de segmentation précis
    • Pour les nouvelles détections dans la trame t, rétropropage vers la trame t-1 pour l'alignement
    • Multiplication pixel par pixel des masques avec les cartes de profondeur correspondantes, générant des plongements fusionnés profondeur-segmentation

2. Encodeur Profondeur-Segmentation Auto-Supervisé

Conception de l'architecture :

  • Encodeur : 3 couches de convolution (noyau 4×4, pas 2), canaux de 1→32→64→128
  • Normalisation par lot et activation ReLU
  • Couche linéaire produisant des caractéristiques de goulot d'étranglement de 2048 dimensions
  • Décodeur : Structure miroir, suréchantillonnage par convolution transposée

Objectifs d'entraînement :

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Mise à jour de la cohérence temporelle :

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Module Apparence-Mouvement

  • Filtre de Kalman non linéaire : Modélise la dynamique du mouvement des objets, intégrant le mécanisme de mise à jour du centre d'observation (ORU)
  • Appariement de mouvement : Calcule S_IoU (chevauchement spatial) et S_ang (cohérence angulaire)
  • Appariement d'apparence : Utilise FastReID pour extraire les plongements d'apparence, calcul de similarité cosinus S_emb

Points d'Innovation Technique

  1. Éviter le calcul de l'IoU des masques : Remplace l'IoU des masques coûteux par la similarité cosinus des plongements d'encodeur
  2. Fusion multimodale : La fusion au niveau des pixels des informations de profondeur et de segmentation fournit des indices spatiaux à grain fin
  3. Optimisation auto-supervisée : Améliore la qualité des caractéristiques par les pertes de reconstruction et de cohérence du goulot d'étranglement
  4. Stabilité temporelle : La stratégie de mise à jour des plongements pondérés dynamiquement maintient la cohérence entre trames

Stratégie d'Association Globale

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Utilise l'algorithme hongrois pour l'association de données optimale.

Configuration Expérimentale

Ensembles de Données

  1. SportsMOT : Mouvement rapide et imprévisible, occlusion fréquente
  2. DanceTrack : Mouvement hautement non linéaire, occlusion fréquente, interaction rapprochée
    • 40 séquences d'entraînement, 25 séquences de validation, 35 séquences de test
  3. MOT17 : Foule de densité moyenne, mouvement de piéton structuré, relativement linéaire et prévisible

Métriques d'Évaluation

  • HOTA : Précision de suivi d'ordre supérieur, équilibre entre précision de détection et d'association
  • AssA : Précision d'association, met l'accent sur la préservation de l'identité
  • DetA : Précision de détection
  • IDF1 : Score F1 d'identité, se concentre sur la préservation de l'identité et la qualité d'association
  • MOTA : Précision de suivi multi-objets, se concentre sur la performance au niveau de la détection
  • FPS : Fréquence d'images basée sur le composant de suivi

Méthodes de Comparaison

Méthodes TBD : ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack, etc. Méthodes JDR : FairMOT, TransTrack, MOTRv2, etc.

Détails d'Implémentation

  • Détecteur : YOLOX (cohérent avec les dernières méthodes MOT)
  • Entraînement : GPU NVIDIA A100 unique, taille de lot 128, 12 epochs
  • Optimiseur : Adam, taux d'apprentissage 1e-3
  • Inférence : Taille de lot 1, phase d'association supérieure à 125 FPS (ensemble de validation DanceTrack)

Résultats Expérimentaux

Résultats Principaux

Ensemble de Test SportsMOT

MéthodeHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

Ensemble de Test DanceTrack

MéthodeHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

Ensemble de Test MOT17

MéthodeHOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

Expériences d'Ablation

ConfigurationDanceTrack-valMOT17-val
Apparence + IoU MasqueHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Apparence + IoU Boîte EnglobanteHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Apparence + IoU Boîte Englobante + Profondeur-SegmentationHOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Découvertes Expérimentales

  1. Complémentarité : Le passage de l'IoU des masques à l'IoU des boîtes englobantes améliore considérablement les performances, l'intégration profondeur-segmentation améliorant davantage
  2. Adaptabilité aux scènes : L'amélioration est plus prononcée sur les ensembles de données à mouvement non linéaire comme DanceTrack, tandis que l'amélioration est relativement faible sur les ensembles de données à mouvement linéaire comme MOT17
  3. Qualité d'association : Amélioration cohérente sur les métriques d'association HOTA, AssA, IDF1, validant l'efficacité de la méthode

Travaux Connexes

Méthodes de Détection-ReID Conjointe

  • FairMOT : Approche à deux branches combinant la détection sans ancre et les plongements d'apparence
  • TransCenter : Attention déformable améliorant le traitement de l'occlusion
  • AFMTrack : Réseau d'appariement de caractéristiques d'attention

Méthodes de Suivi par Détection

  • Suivi au niveau des séquences : Méthodes basées sur les graphes (Brasó et al.), cohérence de chemin auto-supervisée (Lu et al.)
  • Suivi au niveau des trames : Modèles d'attention (TrackFormer, MOTRv2), méthodes de régression (OC-SORT, DiffMOT)

Association Consciente de la Profondeur et Auto-Supervisée

  • Intégration de profondeur : Tri de profondeur relative (Quach et al.), profondeur stéréo combinée à l'estimation de pose (Wang et al.)
  • ReID auto-supervisé : Plongements de cohérence de chemin (Li et al.)

Conclusion et Discussion

Conclusions Principales

  1. La fusion profondeur-segmentation fournit une capacité efficace de conscience spatiale 3D
  2. L'encodeur auto-supervisé améliore avec succès la stabilité temporelle et la capacité discriminante des caractéristiques
  3. Maintient la capacité de raisonnement spatial à grain fin tout en évitant le calcul coûteux de l'IoU des masques
  4. Performances excellentes dans les scènes complexes (occlusion, mouvement non linéaire)

Limitations

  1. Goulot d'étranglement computationnel : L'étape d'estimation de profondeur (DepthPro environ 0,3 seconde/trame) est le principal goulot d'étranglement de performance
  2. Scènes à mouvement linéaire : L'amélioration est limitée sur les ensembles de données à mouvement linéaire comme MOT17
  3. Dépendance : Dépend de la qualité des modèles pré-entraînés SAM2 et DepthPro

Directions Futures

  1. Estimation de profondeur en temps réel : Recherche d'estimateurs de profondeur plus rapides pour améliorer la vitesse globale
  2. Apprentissage contrastif : Introduction d'objectifs contrastifs pour l'encodeur afin d'améliorer la capacité discriminante et la robustesse
  3. Entraînement bout en bout : Exploration de l'optimisation conjointe de l'estimation de profondeur et du suivi

Évaluation Approfondie

Avantages

  1. Innovation technique : Première combinaison de fusion profondeur-segmentation avec encodeur auto-supervisé pour MOT
  2. Valeur pratique : Évite le calcul coûteux de l'IoU des masques, fournissant une solution efficace
  3. Expériences complètes : Validation sur plusieurs ensembles de données difficiles, expériences d'ablation complètes
  4. Amélioration de performance : Surpasse constamment les méthodes TBD existantes sur les métriques de qualité d'association

Insuffisances

  1. Efficacité computationnelle : Bien que l'IoU des masques soit évité, l'estimation de profondeur reste un goulot d'étranglement
  2. Portée d'application : L'avantage n'est pas évident dans les scènes simples à mouvement linéaire
  3. Dépendance forte : Dépend fortement de la qualité et de la disponibilité des modèles pré-entraînés
  4. Analyse théorique : Manque d'explication théorique de l'efficacité de la fusion profondeur-segmentation

Impact

  1. Contribution académique : Introduit une nouvelle approche de fusion multimodale pour le domaine MOT
  2. Application pratique : Valeur pratique dans le suivi d'objets multiples dans des scènes complexes comme les sports et la danse
  3. Reproductibilité : Fournit le code et les détails d'implémentation détaillés, facilitant la reproduction

Scénarios d'Application

  1. Scènes à mouvement complexe : Suivi de mouvement non linéaire dans les compétitions sportives, les performances de danse, etc.
  2. Environnements à occlusion élevée : Suivi multi-objets dans les scènes encombrées
  3. Objets à apparence similaire : Scènes nécessitant des indices spatiaux supplémentaires pour la discrimination
  4. Exigences de temps réel modéré : Applications pouvant tolérer une certaine latence de calcul

Références

L'article cite 41 références connexes, couvrant les travaux principaux du domaine MOT, incluant les méthodes classiques comme ByteTrack, OC-SORT, FairMOT, ainsi que les méthodes récentes conscientes de la profondeur et d'apprentissage auto-supervisé, fournissant une référence de fond complète pour la recherche connexe.