2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

Schnelle selbstüberwachte Tiefe und Masken-bewusste Assoziation für Multi-Objekt-Tracking

Grundlegende Informationen

Zusammenfassung

Multi-Objekt-Tracking-Verfahren (MOT) verlassen sich typischerweise auf Intersection-over-Union (IoU) für die Assoziation, werden jedoch bei ähnlichen oder verdeckten Objekten unzuverlässig, und die Berechnung der Segmentierungs-IoU ist rechnerisch teuer. Diese Arbeit nutzt Segmentierungsmasken zur Erfassung der Objektform, berechnet jedoch nicht die Segmentierungs-IoU. Stattdessen werden Tiefe und Maskenmerkmale fusioniert und durch einen selbstüberwachten trainierten kompakten Encoder verarbeitet, um stabile Objektdarstellungen zu erzeugen, die als zusätzliche Ähnlichkeitshinweise neben Bounding-Box-IoU und Re-Identifikationsmerkmalen dienen. Tiefenkarten werden durch einen Zero-Shot-Tiefenschätzer erhalten, Objektmasken durch ein angebbares visuelles Segmentierungsmodell, um feinkörnige räumliche Hinweise zu gewinnen. Die Methode nutzt erstmals einen selbstüberwachten Encoder zur Optimierung von Segmentierungsmasken ohne Berechnung der Masken-IoU. Experimente auf anspruchsvollen Benchmarks wie SportsMOT und DanceTrack mit nichtlinearen Bewegungen, Verdeckungen und überfüllten Szenen zeigen, dass die Methode die meisten Metriken gegenüber dem Stand der Technik bei TBD übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderungen des Multi-Objekt-Trackings umfassen:

  1. Verdeckungsproblem: Wenn Objekte teilweise oder vollständig verdeckt sind, werden traditionelle 2D-Hinweise (wie Bounding-Box-IoU) unzuverlässig
  2. Ähnlichkeit des Erscheinungsbildes: Objekte mit ähnlichem Erscheinungsbild sind schwer zu unterscheiden, was zu häufigen ID-Wechseln führt
  3. Rechnerische Effizienz: Die direkte Berechnung der Segmentierungs-IoU ist rechnerisch zu teuer
  4. Komplexe Bewegungen: Die Objektassoziation bei nichtlinearen Bewegungsmustern ist schwierig

Forschungsmotivation

Bestehende MOT-Verfahren verlassen sich hauptsächlich auf 2D-Hinweise für die Datenzuordnung und zeigen schlechte Leistung in komplexen Szenen. Wenn beispielsweise zwei Fußgänger parallel gehen, aber in unterschiedlichen Tiefen sind, können sie in der 2D-Ansicht möglicherweise nicht unterschieden werden. Diese Arbeit schlägt einen 3D-raumgewahren Ansatz vor, der Tiefe und Segmentierungsinformationen kombiniert, um robustere Objektassoziationen zu ermöglichen.

Einschränkungen bestehender Methoden

  1. Joint Detection-ReID (JDR) Verfahren: Hohe Rechenanforderungen, erfordern gemeinsames Training von Erkennung und Tracking
  2. Tracking-by-Detection (TBD) Verfahren: Verlassen sich hauptsächlich auf Erscheinungseinbettungen statt auf raumgewahre Hinweise
  3. Tiefengewahre Verfahren: Verwenden Tiefe als Hilfssignal statt als primären Assoziationshinweis
  4. Selbstüberwachtes ReID-Lernen: Verlassen sich auf kontrastive oder Clustering-Ziele, nutzen keine fusionierten 3D-Raumhinweise

Kernbeiträge

  1. Entwurf eines selbstüberwachten Encoders: Verbessert die zeitliche Stabilität und Diskriminativität von Tiefe-Segmentierungsmerkmalen
  2. Neuartige Methode: Erstmalige Verwendung eines selbstüberwachten Encoders zur Optimierung von Segmentierungsmasken und deren Integration in Matching-Scores ohne Berechnung der Masken-IoU
  3. Wettbewerbsfähige Leistung: Erreicht wettbewerbsfähige Leistung in verschiedenen Tracking-Szenarien, besonders bei Verdeckungen
  4. Effiziente Implementierung: Vermeidet teure Masken-IoU-Berechnungen, während feinkörnige räumliche Inferenz erhalten bleibt

Methodische Details

Aufgabendefinition

Eingabe: Aufeinanderfolgende Frames in einer Videosequenz und Bounding-Box-Erkennungen von Objekten Ausgabe: Objektidentitätsassoziationen über Frames hinweg, Aufrechterhaltung der ID-Konsistenz Einschränkungen: Echtzeitanforderungen, Umgang mit Verdeckungen und Erscheinungsähnlichkeit

Modellarchitektur

1. Tiefe-Segmentierungs-Fusionsmodul

  • Zero-Shot-Tiefenschätzung: Verwendet Depth Pro zur Generierung von Tiefenkarten für relative räumliche Darstellung
  • Angebbares visuelles Segmentierungsmodell (PVS): Nutzt SAM2 für zeitlich-räumliche Formenausrichtung
    • Für verfolgte Trajektorien im Frame t-1 werden Bounding-Boxen als Hinweise verwendet, um präzise Segmentierungsmasken zu generieren
    • Für neue Erkennungen im Frame t wird rückwärts zum Frame t-1 propagiert zur Ausrichtung
    • Pixelweise Multiplikation der Maske mit entsprechender Tiefenkarte erzeugt fusionierte Tiefe-Segmentierungs-Einbettung

2. Selbstüberwachter Tiefe-Segmentierungs-Encoder

Architektur-Design:

  • Encoder: 3 Faltungsschichten (4×4 Kernel, Schrittweite 2), Kanäle von 1→32→64→128
  • Batch-Normalisierung und ReLU-Aktivierung
  • Lineare Schicht erzeugt 2048-dimensionale Engpass-Merkmale
  • Decoder: Gespiegelte Struktur mit transponierter Faltung zum Hochsampeln

Trainingsziele:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Zeitliche Konsistenz-Aktualisierung:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Erscheinungs-Bewegungsmodul

  • Nichtlinearer Kalman-Filter: Modelliert Objektbewegungsdynamik, integriert Beobachtungszentrum-Neugewichtungsmechanismus (ORU)
  • Bewegungs-Matching: Berechnet S_IoU (räumliche Überlappung) und S_ang (Winkelkonsistenz)
  • Erscheinungs-Matching: Nutzt FastReID zur Extraktion von Erscheinungseinbettungen, Kosinus-Ähnlichkeit für S_emb

Technische Innovationen

  1. Vermeidung der Masken-IoU-Berechnung: Ersetzt teure Masken-IoU durch Kosinus-Ähnlichkeit von Encoder-Einbettungen
  2. Multimodale Fusion: Pixelweise Fusion von Tiefe und Segmentierungsinformationen bietet feinkörnige räumliche Hinweise
  3. Selbstüberwachte Optimierung: Verbessert Merkmalsqualität durch Rekonstruktions- und Engpass-Konsistenz-Verluste
  4. Zeitliche Stabilität: Dynamisch gewichtete Einbettungs-Aktualisierungsstrategie erhält Konsistenz über Frames

Gesamte Assoziationsstrategie

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Nutzt den Ungarischen Algorithmus für optimale Datenzuordnung.

Experimentelle Einrichtung

Datensätze

  1. SportsMOT: Schnelle, unvorhersehbare Bewegungen, häufige Verdeckungen
  2. DanceTrack: Hochgradig nichtlineare Bewegungen, häufige Verdeckungen, enge Interaktionen
    • 40 Trainingssequenzen, 25 Validierungssequenzen, 35 Testsequenzen
  3. MOT17: Mitteldichte Menschenmengen, strukturierte Fußgängerbewegungen, relativ linear und vorhersehbar

Bewertungsmetriken

  • HOTA: High Order Tracking Accuracy, balanciert Erkennungs- und Assoziationsgenauigkeit
  • AssA: Assoziationsgenauigkeit, betont Identitätsbewahrung
  • DetA: Erkennungsgenauigkeit
  • IDF1: Identitäts-F1-Score, konzentriert sich auf Identitätsbewahrung und Assoziationsqualität
  • MOTA: Multi-Object Tracking Accuracy, konzentriert sich auf Erkennungsleistung
  • FPS: Bildrate basierend auf Tracking-Komponenten

Vergleichsmethoden

TBD-Verfahren: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack usw. JDR-Verfahren: FairMOT, TransTrack, MOTRv2 usw.

Implementierungsdetails

  • Detektor: YOLOX (konsistent mit neuesten MOT-Methoden)
  • Training: Einzelne NVIDIA A100 GPU, Batch-Größe 128, 12 Epochen
  • Optimierer: Adam, Lernrate 1e-3
  • Inferenz: Batch-Größe 1, Assoziationsphase über 125 FPS (DanceTrack-Validierungssatz)

Experimentelle Ergebnisse

Hauptergebnisse

SportsMOT-Testsatz

MethodeHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

DanceTrack-Testsatz

MethodeHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

MOT17-Testsatz

MethodeHOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

Ablationsstudien

EinstellungDanceTrack-valMOT17-val
Erscheinung + Masken-IoUHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Erscheinung + Bounding-Box-IoUHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Erscheinung + Bounding-Box-IoU + Tiefe-SegmentierungHOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Experimentelle Erkenntnisse

  1. Komplementarität: Der Wechsel von Masken-IoU zu Bounding-Box-IoU verbessert die Leistung erheblich, die Tiefe-Segmentierungs-Integration verbessert sie weiter
  2. Szenario-Anpassung: Die Verbesserung ist bei nichtlinearen Bewegungsdatensätzen wie DanceTrack deutlicher, bei linearen Bewegungsdatensätzen wie MOT17 relativ geringer
  3. Assoziationsqualität: Konsistente Verbesserungen bei Assoziationsmetriken wie HOTA, AssA und IDF1 validieren die Methodeneffektivität

Verwandte Arbeiten

Joint Detection-ReID-Verfahren

  • FairMOT: Zwei-Zweig-Methode kombiniert ankerfreie Erkennung und Erscheinungseinbettung
  • TransCenter: Deformierbare Aufmerksamkeit verbessert Verdeckungsbehandlung
  • AFMTrack: Aufmerksamkeits-Merkmals-Matching-Netzwerk

Tracking-by-Detection-Verfahren

  • Sequenz-Level-Tracking: Graph-basierte Verfahren (Brasó et al.), selbstüberwachte Pfad-Konsistenz (Lu et al.)
  • Frame-Level-Tracking: Aufmerksamkeitsmodelle (TrackFormer, MOTRv2), Regressionsmethoden (OC-SORT, DiffMOT)

Tiefengewahre und selbstüberwachte Assoziation

  • Tiefenintegration: Relative Tiefensortierung (Quach et al.), Stereo-Tiefe kombiniert mit Pose-Schätzung (Wang et al.)
  • Selbstüberwachtes ReID: Pfad-Konsistenz-Einbettung (Li et al.)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Tiefe-Segmentierungs-Fusion bietet effektive 3D-Raumgewahren-Fähigkeiten
  2. Der selbstüberwachte Encoder verbessert erfolgreich die zeitliche Stabilität und Diskriminativität von Merkmalen
  3. Vermeidung der Masken-IoU-Berechnung bei Beibehaltung feinkörniger räumlicher Inferenzfähigkeiten
  4. Überlegene Leistung in komplexen Szenen (Verdeckung, nichtlineare Bewegung)

Einschränkungen

  1. Rechnerischer Engpass: Der Tiefenschätzungsschritt (DepthPro ca. 0,3 Sekunden/Frame) ist der Hauptleistungsengpass
  2. Lineare Bewegungsszenen: Begrenzte Verbesserung bei linearen Bewegungsdatensätzen wie MOT17
  3. Abhängigkeit: Abhängig von der Qualität vortrainierter SAM2- und DepthPro-Modelle

Zukünftige Richtungen

  1. Echtzeit-Tiefenschätzung: Erforschung schnellerer Tiefenschätzer zur Verbesserung der Gesamtgeschwindigkeit
  2. Kontrastives Lernen: Einführung von Kontrastzielen für den Encoder zur Verbesserung der Diskriminativität und Robustheit
  3. End-to-End-Training: Erkundung gemeinsamer Optimierung von Tiefenschätzung und Tracking

Tiefenbewertung

Stärken

  1. Technische Innovation: Erstmalige Kombination von Tiefe-Segmentierungs-Fusion mit selbstüberwachtem Encoder für MOT
  2. Praktischer Wert: Vermeidet teure Masken-IoU-Berechnung, bietet effiziente Lösung
  3. Umfassende Experimente: Validierung auf mehreren anspruchsvollen Datensätzen, vollständige Ablationsstudien
  4. Leistungsverbesserung: Konsistente Überlegenheit bei Assoziationsqualitätsmetriken gegenüber bestehenden TBD-Methoden

Mängel

  1. Rechnerische Effizienz: Obwohl Masken-IoU vermieden wird, bleibt Tiefenschätzung ein Engpass
  2. Anwendungsbereich: Vorteil nicht offensichtlich in einfachen linearen Bewegungsszenen
  3. Starke Abhängigkeit: Stark abhängig von Qualität und Verfügbarkeit vortrainierter Modelle
  4. Theoretische Analyse: Mangel an theoretischer Erklärung für Effektivität der Tiefe-Segmentierungs-Fusion

Auswirkungen

  1. Akademischer Beitrag: Führt neue multimodale Fusionsideen in das MOT-Feld ein
  2. Praktische Anwendung: Praktischer Wert für Tracking in komplexen Szenen wie Sport und Tanz
  3. Reproduzierbarkeit: Bereitstellung von Code und detaillierten Implementierungsdetails erleichtert Reproduktion

Anwendungsszenarien

  1. Komplexe Bewegungsszenen: Tracking von nichtlinearen Bewegungen in Sportveranstaltungen und Tanzaufführungen
  2. Hochgradig verdeckte Umgebungen: Multi-Objekt-Tracking in überfüllten Szenen
  3. Ähnliche Objekte: Szenen, die zusätzliche räumliche Hinweise zur Unterscheidung benötigen
  4. Mittlere Echtzeitanforderungen: Anwendungen, die gewisse Rechenverzögerungen tolerieren können

Literaturverzeichnis

Das Paper zitiert 41 verwandte Arbeiten, die die Hauptarbeiten im MOT-Bereich abdecken, einschließlich klassischer Methoden wie ByteTrack, OC-SORT, FairMOT usw., sowie neueste tiefengewahre und selbstüberwachte Lernmethoden, die umfassende Hintergrund-Referenzen für verwandte Forschung bieten.