2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

Schnelle selbstüberwachte Tiefe und Masken-bewusste Assoziation für Multi-Objekt-Tracking

Grundlegende Informationen

Paper-ID: 2510.09878
Titel: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Autoren: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
Klassifizierung: cs.CV (Computer Vision)
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09878
Code-Link: https://github.com/Milad-Khanchi/SelfTrEncMOT

Zusammenfassung

Multi-Objekt-Tracking-Verfahren (MOT) verlassen sich typischerweise auf Intersection-over-Union (IoU) für die Assoziation, werden jedoch bei ähnlichen oder verdeckten Objekten unzuverlässig, und die Berechnung der Segmentierungs-IoU ist rechnerisch teuer. Diese Arbeit nutzt Segmentierungsmasken zur Erfassung der Objektform, berechnet jedoch nicht die Segmentierungs-IoU. Stattdessen werden Tiefe und Maskenmerkmale fusioniert und durch einen selbstüberwachten trainierten kompakten Encoder verarbeitet, um stabile Objektdarstellungen zu erzeugen, die als zusätzliche Ähnlichkeitshinweise neben Bounding-Box-IoU und Re-Identifikationsmerkmalen dienen. Tiefenkarten werden durch einen Zero-Shot-Tiefenschätzer erhalten, Objektmasken durch ein angebbares visuelles Segmentierungsmodell, um feinkörnige räumliche Hinweise zu gewinnen. Die Methode nutzt erstmals einen selbstüberwachten Encoder zur Optimierung von Segmentierungsmasken ohne Berechnung der Masken-IoU. Experimente auf anspruchsvollen Benchmarks wie SportsMOT und DanceTrack mit nichtlinearen Bewegungen, Verdeckungen und überfüllten Szenen zeigen, dass die Methode die meisten Metriken gegenüber dem Stand der Technik bei TBD übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderungen des Multi-Objekt-Trackings umfassen:

Verdeckungsproblem: Wenn Objekte teilweise oder vollständig verdeckt sind, werden traditionelle 2D-Hinweise (wie Bounding-Box-IoU) unzuverlässig
Ähnlichkeit des Erscheinungsbildes: Objekte mit ähnlichem Erscheinungsbild sind schwer zu unterscheiden, was zu häufigen ID-Wechseln führt
Rechnerische Effizienz: Die direkte Berechnung der Segmentierungs-IoU ist rechnerisch zu teuer
Komplexe Bewegungen: Die Objektassoziation bei nichtlinearen Bewegungsmustern ist schwierig

Forschungsmotivation

Bestehende MOT-Verfahren verlassen sich hauptsächlich auf 2D-Hinweise für die Datenzuordnung und zeigen schlechte Leistung in komplexen Szenen. Wenn beispielsweise zwei Fußgänger parallel gehen, aber in unterschiedlichen Tiefen sind, können sie in der 2D-Ansicht möglicherweise nicht unterschieden werden. Diese Arbeit schlägt einen 3D-raumgewahren Ansatz vor, der Tiefe und Segmentierungsinformationen kombiniert, um robustere Objektassoziationen zu ermöglichen.

Einschränkungen bestehender Methoden

Joint Detection-ReID (JDR) Verfahren: Hohe Rechenanforderungen, erfordern gemeinsames Training von Erkennung und Tracking
Tracking-by-Detection (TBD) Verfahren: Verlassen sich hauptsächlich auf Erscheinungseinbettungen statt auf raumgewahre Hinweise
Tiefengewahre Verfahren: Verwenden Tiefe als Hilfssignal statt als primären Assoziationshinweis
Selbstüberwachtes ReID-Lernen: Verlassen sich auf kontrastive oder Clustering-Ziele, nutzen keine fusionierten 3D-Raumhinweise

Kernbeiträge

Entwurf eines selbstüberwachten Encoders: Verbessert die zeitliche Stabilität und Diskriminativität von Tiefe-Segmentierungsmerkmalen
Neuartige Methode: Erstmalige Verwendung eines selbstüberwachten Encoders zur Optimierung von Segmentierungsmasken und deren Integration in Matching-Scores ohne Berechnung der Masken-IoU
Wettbewerbsfähige Leistung: Erreicht wettbewerbsfähige Leistung in verschiedenen Tracking-Szenarien, besonders bei Verdeckungen
Effiziente Implementierung: Vermeidet teure Masken-IoU-Berechnungen, während feinkörnige räumliche Inferenz erhalten bleibt

Methodische Details

Aufgabendefinition

Eingabe: Aufeinanderfolgende Frames in einer Videosequenz und Bounding-Box-Erkennungen von Objekten Ausgabe: Objektidentitätsassoziationen über Frames hinweg, Aufrechterhaltung der ID-Konsistenz Einschränkungen: Echtzeitanforderungen, Umgang mit Verdeckungen und Erscheinungsähnlichkeit

Modellarchitektur

1. Tiefe-Segmentierungs-Fusionsmodul

Zero-Shot-Tiefenschätzung: Verwendet Depth Pro zur Generierung von Tiefenkarten für relative räumliche Darstellung
Angebbares visuelles Segmentierungsmodell (PVS): Nutzt SAM2 für zeitlich-räumliche Formenausrichtung
- Für verfolgte Trajektorien im Frame t-1 werden Bounding-Boxen als Hinweise verwendet, um präzise Segmentierungsmasken zu generieren
- Für neue Erkennungen im Frame t wird rückwärts zum Frame t-1 propagiert zur Ausrichtung
- Pixelweise Multiplikation der Maske mit entsprechender Tiefenkarte erzeugt fusionierte Tiefe-Segmentierungs-Einbettung

2. Selbstüberwachter Tiefe-Segmentierungs-Encoder

Architektur-Design:

Encoder: 3 Faltungsschichten (4×4 Kernel, Schrittweite 2), Kanäle von 1→32→64→128
Batch-Normalisierung und ReLU-Aktivierung
Lineare Schicht erzeugt 2048-dimensionale Engpass-Merkmale
Decoder: Gespiegelte Struktur mit transponierter Faltung zum Hochsampeln

Trainingsziele:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Zeitliche Konsistenz-Aktualisierung:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Erscheinungs-Bewegungsmodul

Nichtlinearer Kalman-Filter: Modelliert Objektbewegungsdynamik, integriert Beobachtungszentrum-Neugewichtungsmechanismus (ORU)
Bewegungs-Matching: Berechnet S_IoU (räumliche Überlappung) und S_ang (Winkelkonsistenz)
Erscheinungs-Matching: Nutzt FastReID zur Extraktion von Erscheinungseinbettungen, Kosinus-Ähnlichkeit für S_emb

Technische Innovationen

Vermeidung der Masken-IoU-Berechnung: Ersetzt teure Masken-IoU durch Kosinus-Ähnlichkeit von Encoder-Einbettungen
Multimodale Fusion: Pixelweise Fusion von Tiefe und Segmentierungsinformationen bietet feinkörnige räumliche Hinweise
Selbstüberwachte Optimierung: Verbessert Merkmalsqualität durch Rekonstruktions- und Engpass-Konsistenz-Verluste
Zeitliche Stabilität: Dynamisch gewichtete Einbettungs-Aktualisierungsstrategie erhält Konsistenz über Frames

Gesamte Assoziationsstrategie

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Nutzt den Ungarischen Algorithmus für optimale Datenzuordnung.

Experimentelle Einrichtung

Datensätze

SportsMOT: Schnelle, unvorhersehbare Bewegungen, häufige Verdeckungen
DanceTrack: Hochgradig nichtlineare Bewegungen, häufige Verdeckungen, enge Interaktionen
- 40 Trainingssequenzen, 25 Validierungssequenzen, 35 Testsequenzen
MOT17: Mitteldichte Menschenmengen, strukturierte Fußgängerbewegungen, relativ linear und vorhersehbar

Bewertungsmetriken

HOTA: High Order Tracking Accuracy, balanciert Erkennungs- und Assoziationsgenauigkeit
AssA: Assoziationsgenauigkeit, betont Identitätsbewahrung
DetA: Erkennungsgenauigkeit
IDF1: Identitäts-F1-Score, konzentriert sich auf Identitätsbewahrung und Assoziationsqualität
MOTA: Multi-Object Tracking Accuracy, konzentriert sich auf Erkennungsleistung
FPS: Bildrate basierend auf Tracking-Komponenten

Vergleichsmethoden

TBD-Verfahren: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack usw. JDR-Verfahren: FairMOT, TransTrack, MOTRv2 usw.

Implementierungsdetails

Detektor: YOLOX (konsistent mit neuesten MOT-Methoden)
Training: Einzelne NVIDIA A100 GPU, Batch-Größe 128, 12 Epochen
Optimierer: Adam, Lernrate 1e-3
Inferenz: Batch-Größe 1, Assoziationsphase über 125 FPS (DanceTrack-Validierungssatz)

Experimentelle Ergebnisse

Hauptergebnisse

SportsMOT-Testsatz

Methode	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

DanceTrack-Testsatz

Methode	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

MOT17-Testsatz

Methode	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

Ablationsstudien

Einstellung	DanceTrack-val	MOT17-val
Erscheinung + Masken-IoU	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Erscheinung + Bounding-Box-IoU	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Erscheinung + Bounding-Box-IoU + Tiefe-Segmentierung	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Experimentelle Erkenntnisse

Komplementarität: Der Wechsel von Masken-IoU zu Bounding-Box-IoU verbessert die Leistung erheblich, die Tiefe-Segmentierungs-Integration verbessert sie weiter
Szenario-Anpassung: Die Verbesserung ist bei nichtlinearen Bewegungsdatensätzen wie DanceTrack deutlicher, bei linearen Bewegungsdatensätzen wie MOT17 relativ geringer
Assoziationsqualität: Konsistente Verbesserungen bei Assoziationsmetriken wie HOTA, AssA und IDF1 validieren die Methodeneffektivität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Tiefe-Segmentierungs-Fusion bietet effektive 3D-Raumgewahren-Fähigkeiten
Der selbstüberwachte Encoder verbessert erfolgreich die zeitliche Stabilität und Diskriminativität von Merkmalen
Vermeidung der Masken-IoU-Berechnung bei Beibehaltung feinkörniger räumlicher Inferenzfähigkeiten
Überlegene Leistung in komplexen Szenen (Verdeckung, nichtlineare Bewegung)

Einschränkungen

Rechnerischer Engpass: Der Tiefenschätzungsschritt (DepthPro ca. 0,3 Sekunden/Frame) ist der Hauptleistungsengpass
Lineare Bewegungsszenen: Begrenzte Verbesserung bei linearen Bewegungsdatensätzen wie MOT17
Abhängigkeit: Abhängig von der Qualität vortrainierter SAM2- und DepthPro-Modelle

Zukünftige Richtungen

Echtzeit-Tiefenschätzung: Erforschung schnellerer Tiefenschätzer zur Verbesserung der Gesamtgeschwindigkeit
Kontrastives Lernen: Einführung von Kontrastzielen für den Encoder zur Verbesserung der Diskriminativität und Robustheit
End-to-End-Training: Erkundung gemeinsamer Optimierung von Tiefenschätzung und Tracking

Tiefenbewertung

Stärken

Technische Innovation: Erstmalige Kombination von Tiefe-Segmentierungs-Fusion mit selbstüberwachtem Encoder für MOT
Praktischer Wert: Vermeidet teure Masken-IoU-Berechnung, bietet effiziente Lösung
Umfassende Experimente: Validierung auf mehreren anspruchsvollen Datensätzen, vollständige Ablationsstudien
Leistungsverbesserung: Konsistente Überlegenheit bei Assoziationsqualitätsmetriken gegenüber bestehenden TBD-Methoden

Mängel

Rechnerische Effizienz: Obwohl Masken-IoU vermieden wird, bleibt Tiefenschätzung ein Engpass
Anwendungsbereich: Vorteil nicht offensichtlich in einfachen linearen Bewegungsszenen
Starke Abhängigkeit: Stark abhängig von Qualität und Verfügbarkeit vortrainierter Modelle
Theoretische Analyse: Mangel an theoretischer Erklärung für Effektivität der Tiefe-Segmentierungs-Fusion

Auswirkungen

Akademischer Beitrag: Führt neue multimodale Fusionsideen in das MOT-Feld ein
Praktische Anwendung: Praktischer Wert für Tracking in komplexen Szenen wie Sport und Tanz
Reproduzierbarkeit: Bereitstellung von Code und detaillierten Implementierungsdetails erleichtert Reproduktion

Anwendungsszenarien

Komplexe Bewegungsszenen: Tracking von nichtlinearen Bewegungen in Sportveranstaltungen und Tanzaufführungen
Hochgradig verdeckte Umgebungen: Multi-Objekt-Tracking in überfüllten Szenen
Ähnliche Objekte: Szenen, die zusätzliche räumliche Hinweise zur Unterscheidung benötigen
Mittlere Echtzeitanforderungen: Anwendungen, die gewisse Rechenverzögerungen tolerieren können

Literaturverzeichnis

Das Paper zitiert 41 verwandte Arbeiten, die die Hauptarbeiten im MOT-Bereich abdecken, einschließlich klassischer Methoden wie ByteTrack, OC-SORT, FairMOT usw., sowie neueste tiefengewahre und selbstüberwachte Lernmethoden, die umfassende Hintergrund-Referenzen für verwandte Forschung bieten.