2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

Association Rapide et Consciente de la Profondeur et du Masque Auto-Supervisée pour le Suivi Multi-Objets

Informations Fondamentales

ID de l'article : 2510.09878
Titre : Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Auteurs : Milad Khanchi, Maria Amer, Charalambos Poullis (Université Concordia)
Classification : cs.CV (Vision par Ordinateur)
Date de publication : 10 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.09878
Lien du code : https://github.com/Milad-Khanchi/SelfTrEncMOT

Résumé

Les méthodes de suivi multi-objets (MOT) dépendent généralement de l'intersection sur l'union (IoU) pour l'association, mais deviennent peu fiables lorsque les objets sont similaires ou occultés, et le calcul de l'IoU des masques de segmentation est coûteux. Cet article utilise les masques de segmentation pour capturer la forme des objets, mais ne calcule pas l'IoU de segmentation. Au lieu de cela, il fusionne les caractéristiques de profondeur et de masque, traitées par un encodeur compact entraîné en auto-supervision, produisant une représentation stable des objets, servant de signal de similarité supplémentaire au-delà de l'IoU des boîtes englobantes et des caractéristiques de réidentification. Les cartes de profondeur sont obtenues via un estimateur de profondeur sans exemple, et les masques d'objets via un modèle de segmentation visuelle suggérable, pour obtenir des indices spatiaux à grain fin. Cette méthode utilise pour la première fois un encodeur auto-supervisé pour optimiser les masques de segmentation sans calculer l'IoU des masques. Les expériences sur des repères difficiles présentant des mouvements non linéaires, des occlusions et des scènes encombrées (comme SportsMOT et DanceTrack) montrent que la méthode surpasse les méthodes de pointe TBD sur la plupart des métriques.

Contexte de Recherche et Motivation

Définition du Problème

Les défis fondamentaux du suivi multi-objets incluent :

Problème d'occlusion : Lorsque les objets sont partiellement ou complètement occultés, les indices 2D traditionnels (comme l'IoU des boîtes englobantes) deviennent peu fiables
Similarité d'apparence : Les objets ayant une apparence similaire sont difficiles à distinguer, entraînant des changements d'ID fréquents
Efficacité computationnelle : Le coût de calcul du calcul direct de l'IoU des masques de segmentation est trop élevé
Mouvements complexes : L'association d'objets avec des modèles de mouvement non linéaires est difficile

Motivation de la Recherche

Les méthodes MOT existantes dépendent principalement d'indices 2D pour l'association de données, avec des performances médiocres dans les scènes complexes. Par exemple, deux piétons marchant parallèlement mais à des profondeurs différentes peuvent être indistinguibles dans une vue 2D. Cet article propose une approche consciente de l'espace 3D combinant les informations de profondeur et de segmentation pour fournir une association d'objets plus robuste.

Limitations des Méthodes Existantes

Méthodes de Détection-ReID Conjointe (JDR) : Exigences de calcul élevées, nécessitant un entraînement conjoint de la détection et du suivi
Méthodes de Suivi par Détection (TBD) : Dépendent principalement des plongements d'apparence plutôt que des indices conscients de l'espace
Méthodes conscientes de la profondeur : Utilisent la profondeur comme signal auxiliaire plutôt que comme indice d'association principal
Apprentissage ReID auto-supervisé : Dépendent du contraste ou du regroupement d'objets, n'utilisant pas les informations spatiales 3D fusionnées

Contributions Principales

Conception d'un encodeur auto-supervisé : Améliore la stabilité temporelle et la capacité discriminante des caractéristiques de profondeur-segmentation
Approche novatrice : Première utilisation d'un encodeur auto-supervisé pour optimiser les masques de segmentation et les intégrer dans le score d'appariement, sans calculer l'IoU des masques
Performance compétitive : Réalise une performance compétitive dans divers scénarios de suivi, en particulier dans les scènes occultées
Implémentation efficace : Évite le calcul coûteux de l'IoU des masques tout en maintenant la capacité de raisonnement spatial à grain fin

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Trames consécutives dans une séquence vidéo et boîtes englobantes de détection d'objets Sortie : Association d'identité d'objets entre trames, maintenant la cohérence des ID Contraintes : Exigences de temps réel, gestion de l'occlusion et de la similarité d'apparence

Architecture du Modèle

1. Module de Fusion Profondeur-Segmentation

Estimation de profondeur sans exemple : Utilise Depth Pro pour générer des cartes de profondeur représentant l'espace relatif
Segmentation Visuelle Suggérable (PVS) : Adopte SAM2 pour l'alignement spatio-temporel des formes
- Pour les trajectoires suivies dans la trame t-1, utilise les boîtes englobantes comme suggestions pour générer des masques de segmentation précis
- Pour les nouvelles détections dans la trame t, rétropropage vers la trame t-1 pour l'alignement
- Multiplication pixel par pixel des masques avec les cartes de profondeur correspondantes, générant des plongements fusionnés profondeur-segmentation

2. Encodeur Profondeur-Segmentation Auto-Supervisé

Conception de l'architecture :

Encodeur : 3 couches de convolution (noyau 4×4, pas 2), canaux de 1→32→64→128
Normalisation par lot et activation ReLU
Couche linéaire produisant des caractéristiques de goulot d'étranglement de 2048 dimensions
Décodeur : Structure miroir, suréchantillonnage par convolution transposée

Objectifs d'entraînement :

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Mise à jour de la cohérence temporelle :

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Module Apparence-Mouvement

Filtre de Kalman non linéaire : Modélise la dynamique du mouvement des objets, intégrant le mécanisme de mise à jour du centre d'observation (ORU)
Appariement de mouvement : Calcule S_IoU (chevauchement spatial) et S_ang (cohérence angulaire)
Appariement d'apparence : Utilise FastReID pour extraire les plongements d'apparence, calcul de similarité cosinus S_emb

Points d'Innovation Technique

Éviter le calcul de l'IoU des masques : Remplace l'IoU des masques coûteux par la similarité cosinus des plongements d'encodeur
Fusion multimodale : La fusion au niveau des pixels des informations de profondeur et de segmentation fournit des indices spatiaux à grain fin
Optimisation auto-supervisée : Améliore la qualité des caractéristiques par les pertes de reconstruction et de cohérence du goulot d'étranglement
Stabilité temporelle : La stratégie de mise à jour des plongements pondérés dynamiquement maintient la cohérence entre trames

Stratégie d'Association Globale

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Utilise l'algorithme hongrois pour l'association de données optimale.

Configuration Expérimentale

Ensembles de Données

SportsMOT : Mouvement rapide et imprévisible, occlusion fréquente
DanceTrack : Mouvement hautement non linéaire, occlusion fréquente, interaction rapprochée
- 40 séquences d'entraînement, 25 séquences de validation, 35 séquences de test
MOT17 : Foule de densité moyenne, mouvement de piéton structuré, relativement linéaire et prévisible

Métriques d'Évaluation

HOTA : Précision de suivi d'ordre supérieur, équilibre entre précision de détection et d'association
AssA : Précision d'association, met l'accent sur la préservation de l'identité
DetA : Précision de détection
IDF1 : Score F1 d'identité, se concentre sur la préservation de l'identité et la qualité d'association
MOTA : Précision de suivi multi-objets, se concentre sur la performance au niveau de la détection
FPS : Fréquence d'images basée sur le composant de suivi

Méthodes de Comparaison

Méthodes TBD : ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack, etc. Méthodes JDR : FairMOT, TransTrack, MOTRv2, etc.

Détails d'Implémentation

Détecteur : YOLOX (cohérent avec les dernières méthodes MOT)
Entraînement : GPU NVIDIA A100 unique, taille de lot 128, 12 epochs
Optimiseur : Adam, taux d'apprentissage 1e-3
Inférence : Taille de lot 1, phase d'association supérieure à 125 FPS (ensemble de validation DanceTrack)

Résultats Expérimentaux

Résultats Principaux

Ensemble de Test SportsMOT

Méthode	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

Ensemble de Test DanceTrack

Méthode	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

Ensemble de Test MOT17

Méthode	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

Expériences d'Ablation

Configuration	DanceTrack-val	MOT17-val
Apparence + IoU Masque	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Apparence + IoU Boîte Englobante	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Apparence + IoU Boîte Englobante + Profondeur-Segmentation	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Découvertes Expérimentales

Complémentarité : Le passage de l'IoU des masques à l'IoU des boîtes englobantes améliore considérablement les performances, l'intégration profondeur-segmentation améliorant davantage
Adaptabilité aux scènes : L'amélioration est plus prononcée sur les ensembles de données à mouvement non linéaire comme DanceTrack, tandis que l'amélioration est relativement faible sur les ensembles de données à mouvement linéaire comme MOT17
Qualité d'association : Amélioration cohérente sur les métriques d'association HOTA, AssA, IDF1, validant l'efficacité de la méthode

Travaux Connexes

Méthodes de Détection-ReID Conjointe

FairMOT : Approche à deux branches combinant la détection sans ancre et les plongements d'apparence
TransCenter : Attention déformable améliorant le traitement de l'occlusion
AFMTrack : Réseau d'appariement de caractéristiques d'attention

Méthodes de Suivi par Détection

Suivi au niveau des séquences : Méthodes basées sur les graphes (Brasó et al.), cohérence de chemin auto-supervisée (Lu et al.)
Suivi au niveau des trames : Modèles d'attention (TrackFormer, MOTRv2), méthodes de régression (OC-SORT, DiffMOT)

Association Consciente de la Profondeur et Auto-Supervisée

Intégration de profondeur : Tri de profondeur relative (Quach et al.), profondeur stéréo combinée à l'estimation de pose (Wang et al.)
ReID auto-supervisé : Plongements de cohérence de chemin (Li et al.)

Conclusion et Discussion

Conclusions Principales

La fusion profondeur-segmentation fournit une capacité efficace de conscience spatiale 3D
L'encodeur auto-supervisé améliore avec succès la stabilité temporelle et la capacité discriminante des caractéristiques
Maintient la capacité de raisonnement spatial à grain fin tout en évitant le calcul coûteux de l'IoU des masques
Performances excellentes dans les scènes complexes (occlusion, mouvement non linéaire)

Limitations

Goulot d'étranglement computationnel : L'étape d'estimation de profondeur (DepthPro environ 0,3 seconde/trame) est le principal goulot d'étranglement de performance
Scènes à mouvement linéaire : L'amélioration est limitée sur les ensembles de données à mouvement linéaire comme MOT17
Dépendance : Dépend de la qualité des modèles pré-entraînés SAM2 et DepthPro

Directions Futures

Estimation de profondeur en temps réel : Recherche d'estimateurs de profondeur plus rapides pour améliorer la vitesse globale
Apprentissage contrastif : Introduction d'objectifs contrastifs pour l'encodeur afin d'améliorer la capacité discriminante et la robustesse
Entraînement bout en bout : Exploration de l'optimisation conjointe de l'estimation de profondeur et du suivi

Évaluation Approfondie

Avantages

Innovation technique : Première combinaison de fusion profondeur-segmentation avec encodeur auto-supervisé pour MOT
Valeur pratique : Évite le calcul coûteux de l'IoU des masques, fournissant une solution efficace
Expériences complètes : Validation sur plusieurs ensembles de données difficiles, expériences d'ablation complètes
Amélioration de performance : Surpasse constamment les méthodes TBD existantes sur les métriques de qualité d'association

Insuffisances

Efficacité computationnelle : Bien que l'IoU des masques soit évité, l'estimation de profondeur reste un goulot d'étranglement
Portée d'application : L'avantage n'est pas évident dans les scènes simples à mouvement linéaire
Dépendance forte : Dépend fortement de la qualité et de la disponibilité des modèles pré-entraînés
Analyse théorique : Manque d'explication théorique de l'efficacité de la fusion profondeur-segmentation

Impact

Contribution académique : Introduit une nouvelle approche de fusion multimodale pour le domaine MOT
Application pratique : Valeur pratique dans le suivi d'objets multiples dans des scènes complexes comme les sports et la danse
Reproductibilité : Fournit le code et les détails d'implémentation détaillés, facilitant la reproduction

Scénarios d'Application

Scènes à mouvement complexe : Suivi de mouvement non linéaire dans les compétitions sportives, les performances de danse, etc.
Environnements à occlusion élevée : Suivi multi-objets dans les scènes encombrées
Objets à apparence similaire : Scènes nécessitant des indices spatiaux supplémentaires pour la discrimination
Exigences de temps réel modéré : Applications pouvant tolérer une certaine latence de calcul

Références

L'article cite 41 références connexes, couvrant les travaux principaux du domaine MOT, incluant les méthodes classiques comme ByteTrack, OC-SORT, FairMOT, ainsi que les méthodes récentes conscientes de la profondeur et d'apprentissage auto-supervisé, fournissant une référence de fond complète pour la recherche connexe.