Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
Associazione Rapida Consapevole di Profondità e Maschera Auto-Supervisionata per il Tracciamento Multi-Oggetto
I metodi di tracciamento multi-oggetto (MOT) generalmente si affidano all'Intersezione su Unione (IoU) per l'associazione, ma diventano inaffidabili quando gli oggetti sono simili o occludenti, e il calcolo dell'IoU delle maschere di segmentazione è computazionalmente costoso. Questo articolo utilizza maschere di segmentazione per catturare la forma dell'oggetto, ma non calcola l'IoU di segmentazione. Invece, fonde caratteristiche di profondità e maschera, elaborate attraverso un codificatore compatto addestrato con auto-supervisione, producendo rappresentazioni stabili dell'oggetto come indizio di similarità aggiuntivo oltre all'IoU del riquadro di delimitazione e alle caratteristiche di re-identificazione. Le mappe di profondità vengono acquisite attraverso uno stimatore di profondità zero-shot, mentre le maschere degli oggetti vengono ottenute tramite un modello di segmentazione visiva suggeribile, per ottenere indizi spaziali a grana fine. Questo metodo è il primo a utilizzare un codificatore auto-supervisionato per ottimizzare le maschere di segmentazione senza calcolare l'IoU di maschera. Gli esperimenti su benchmark impegnativi con movimento non lineare, occlusione e scene affollate (come SportsMOT e DanceTrack) dimostrano che il metodo supera i metodi all'avanguardia TBD nella maggior parte delle metriche.
Le sfide fondamentali affrontate dal tracciamento multi-oggetto includono:
Problema di Occlusione: Quando gli oggetti sono parzialmente o completamente occludenti, gli indizi 2D tradizionali (come l'IoU del riquadro di delimitazione) diventano inaffidabili
Similarità di Apparenza: Gli oggetti con apparenza simile sono difficili da distinguere, causando frequenti cambi di ID
Efficienza Computazionale: Il costo computazionale del calcolo diretto dell'IoU delle maschere di segmentazione è eccessivo
Movimento Complesso: L'associazione di oggetti con pattern di movimento non lineare è difficile
I metodi MOT esistenti si affidano principalmente a indizi 2D per l'associazione dati, con prestazioni scadenti in scene complesse. Ad esempio, due pedoni che camminano in parallelo ma a profondità diverse potrebbero essere indistinguibili nella vista 2D. Questo articolo propone un approccio consapevole dello spazio 3D che combina informazioni di profondità e segmentazione, per fornire un'associazione di oggetti più robusta.
Progettazione di un Codificatore Auto-Supervisionato: Migliora la stabilità temporale e la discriminabilità delle caratteristiche di profondità-segmentazione
Metodo Innovativo: Primo utilizzo di un codificatore auto-supervisionato per ottimizzare le maschere di segmentazione e integrarle nel punteggio di corrispondenza, senza calcolare l'IoU di maschera
Prestazioni Competitive: Raggiunge prestazioni competitive in vari scenari di tracciamento, con prestazioni eccezionali in scenari di occlusione
Implementazione Efficiente: Evita il costoso calcolo dell'IoU di maschera mantenendo la capacità di ragionamento spaziale a grana fine
Input: Frame consecutivi in una sequenza video e riquadri di delimitazione di rilevamento di oggetti
Output: Associazione di identità di oggetti tra frame, mantenendo coerenza di ID
Vincoli: Requisiti di tempo reale, gestione di occlusione e similarità di apparenza
Complementarità: Il passaggio dall'IoU di maschera all'IoU di riquadro migliora significativamente le prestazioni, l'integrazione di profondità-segmentazione migliora ulteriormente
Adattabilità di Scena: Il miglioramento è più evidente su dataset con movimento non lineare come DanceTrack, mentre è relativamente minore su dataset con movimento lineare come MOT17
Qualità di Associazione: Migliora costantemente su metriche di associazione come HOTA, AssA, IDF1, convalidando l'efficacia del metodo
Collo di Bottiglia Computazionale: Il passo di stima della profondità (DepthPro circa 0.3 secondi/frame) è il principale collo di bottiglia di prestazione
Scene di Movimento Lineare: Il miglioramento è limitato su dataset con movimento lineare come MOT17
Dipendenza: Dipende dalla qualità dei modelli pre-addestrati SAM2 e DepthPro
L'articolo cita 41 lavori correlati, coprendo i principali lavori nel campo MOT, inclusi metodi classici come ByteTrack, OC-SORT, FairMOT, e i metodi più recenti di consapevolezza della profondità e apprendimento auto-supervisionato, fornendo un riferimento di background completo per la ricerca correlata.