Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
Schnelle selbstüberwachte Tiefe und Masken-bewusste Assoziation für Multi-Objekt-Tracking
Multi-Objekt-Tracking-Verfahren (MOT) verlassen sich typischerweise auf Intersection-over-Union (IoU) für die Assoziation, werden jedoch bei ähnlichen oder verdeckten Objekten unzuverlässig, und die Berechnung der Segmentierungs-IoU ist rechnerisch teuer. Diese Arbeit nutzt Segmentierungsmasken zur Erfassung der Objektform, berechnet jedoch nicht die Segmentierungs-IoU. Stattdessen werden Tiefe und Maskenmerkmale fusioniert und durch einen selbstüberwachten trainierten kompakten Encoder verarbeitet, um stabile Objektdarstellungen zu erzeugen, die als zusätzliche Ähnlichkeitshinweise neben Bounding-Box-IoU und Re-Identifikationsmerkmalen dienen. Tiefenkarten werden durch einen Zero-Shot-Tiefenschätzer erhalten, Objektmasken durch ein angebbares visuelles Segmentierungsmodell, um feinkörnige räumliche Hinweise zu gewinnen. Die Methode nutzt erstmals einen selbstüberwachten Encoder zur Optimierung von Segmentierungsmasken ohne Berechnung der Masken-IoU. Experimente auf anspruchsvollen Benchmarks wie SportsMOT und DanceTrack mit nichtlinearen Bewegungen, Verdeckungen und überfüllten Szenen zeigen, dass die Methode die meisten Metriken gegenüber dem Stand der Technik bei TBD übertrifft.
Bestehende MOT-Verfahren verlassen sich hauptsächlich auf 2D-Hinweise für die Datenzuordnung und zeigen schlechte Leistung in komplexen Szenen. Wenn beispielsweise zwei Fußgänger parallel gehen, aber in unterschiedlichen Tiefen sind, können sie in der 2D-Ansicht möglicherweise nicht unterschieden werden. Diese Arbeit schlägt einen 3D-raumgewahren Ansatz vor, der Tiefe und Segmentierungsinformationen kombiniert, um robustere Objektassoziationen zu ermöglichen.
Entwurf eines selbstüberwachten Encoders: Verbessert die zeitliche Stabilität und Diskriminativität von Tiefe-Segmentierungsmerkmalen
Neuartige Methode: Erstmalige Verwendung eines selbstüberwachten Encoders zur Optimierung von Segmentierungsmasken und deren Integration in Matching-Scores ohne Berechnung der Masken-IoU
Wettbewerbsfähige Leistung: Erreicht wettbewerbsfähige Leistung in verschiedenen Tracking-Szenarien, besonders bei Verdeckungen
Eingabe: Aufeinanderfolgende Frames in einer Videosequenz und Bounding-Box-Erkennungen von Objekten
Ausgabe: Objektidentitätsassoziationen über Frames hinweg, Aufrechterhaltung der ID-Konsistenz
Einschränkungen: Echtzeitanforderungen, Umgang mit Verdeckungen und Erscheinungsähnlichkeit
Komplementarität: Der Wechsel von Masken-IoU zu Bounding-Box-IoU verbessert die Leistung erheblich, die Tiefe-Segmentierungs-Integration verbessert sie weiter
Szenario-Anpassung: Die Verbesserung ist bei nichtlinearen Bewegungsdatensätzen wie DanceTrack deutlicher, bei linearen Bewegungsdatensätzen wie MOT17 relativ geringer
Assoziationsqualität: Konsistente Verbesserungen bei Assoziationsmetriken wie HOTA, AssA und IDF1 validieren die Methodeneffektivität
Das Paper zitiert 41 verwandte Arbeiten, die die Hauptarbeiten im MOT-Bereich abdecken, einschließlich klassischer Methoden wie ByteTrack, OC-SORT, FairMOT usw., sowie neueste tiefengewahre und selbstüberwachte Lernmethoden, die umfassende Hintergrund-Referenzen für verwandte Forschung bieten.