2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

Associazione Rapida Consapevole di Profondità e Maschera Auto-Supervisionata per il Tracciamento Multi-Oggetto

Informazioni Fondamentali

  • ID Articolo: 2510.09878
  • Titolo: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
  • Autori: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.09878
  • Link Codice: https://github.com/Milad-Khanchi/SelfTrEncMOT

Riassunto

I metodi di tracciamento multi-oggetto (MOT) generalmente si affidano all'Intersezione su Unione (IoU) per l'associazione, ma diventano inaffidabili quando gli oggetti sono simili o occludenti, e il calcolo dell'IoU delle maschere di segmentazione è computazionalmente costoso. Questo articolo utilizza maschere di segmentazione per catturare la forma dell'oggetto, ma non calcola l'IoU di segmentazione. Invece, fonde caratteristiche di profondità e maschera, elaborate attraverso un codificatore compatto addestrato con auto-supervisione, producendo rappresentazioni stabili dell'oggetto come indizio di similarità aggiuntivo oltre all'IoU del riquadro di delimitazione e alle caratteristiche di re-identificazione. Le mappe di profondità vengono acquisite attraverso uno stimatore di profondità zero-shot, mentre le maschere degli oggetti vengono ottenute tramite un modello di segmentazione visiva suggeribile, per ottenere indizi spaziali a grana fine. Questo metodo è il primo a utilizzare un codificatore auto-supervisionato per ottimizzare le maschere di segmentazione senza calcolare l'IoU di maschera. Gli esperimenti su benchmark impegnativi con movimento non lineare, occlusione e scene affollate (come SportsMOT e DanceTrack) dimostrano che il metodo supera i metodi all'avanguardia TBD nella maggior parte delle metriche.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le sfide fondamentali affrontate dal tracciamento multi-oggetto includono:

  1. Problema di Occlusione: Quando gli oggetti sono parzialmente o completamente occludenti, gli indizi 2D tradizionali (come l'IoU del riquadro di delimitazione) diventano inaffidabili
  2. Similarità di Apparenza: Gli oggetti con apparenza simile sono difficili da distinguere, causando frequenti cambi di ID
  3. Efficienza Computazionale: Il costo computazionale del calcolo diretto dell'IoU delle maschere di segmentazione è eccessivo
  4. Movimento Complesso: L'associazione di oggetti con pattern di movimento non lineare è difficile

Motivazione della Ricerca

I metodi MOT esistenti si affidano principalmente a indizi 2D per l'associazione dati, con prestazioni scadenti in scene complesse. Ad esempio, due pedoni che camminano in parallelo ma a profondità diverse potrebbero essere indistinguibili nella vista 2D. Questo articolo propone un approccio consapevole dello spazio 3D che combina informazioni di profondità e segmentazione, per fornire un'associazione di oggetti più robusta.

Limitazioni dei Metodi Esistenti

  1. Metodi Joint Detection-ReID (JDR): Requisiti computazionali elevati, richiedono addestramento congiunto di rilevamento e tracciamento
  2. Metodi Tracking-by-Detection (TBD): Si affidano principalmente a embedding di apparenza piuttosto che a indizi consapevoli dello spazio
  3. Metodi Consapevoli della Profondità: Utilizzano la profondità come segnale ausiliario piuttosto che come indizio di associazione principale
  4. Apprendimento ReID Auto-Supervisionato: Si affidano a contrasto o clustering di oggetti, non sfruttano informazioni spaziali 3D fuse

Contributi Principali

  1. Progettazione di un Codificatore Auto-Supervisionato: Migliora la stabilità temporale e la discriminabilità delle caratteristiche di profondità-segmentazione
  2. Metodo Innovativo: Primo utilizzo di un codificatore auto-supervisionato per ottimizzare le maschere di segmentazione e integrarle nel punteggio di corrispondenza, senza calcolare l'IoU di maschera
  3. Prestazioni Competitive: Raggiunge prestazioni competitive in vari scenari di tracciamento, con prestazioni eccezionali in scenari di occlusione
  4. Implementazione Efficiente: Evita il costoso calcolo dell'IoU di maschera mantenendo la capacità di ragionamento spaziale a grana fine

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Frame consecutivi in una sequenza video e riquadri di delimitazione di rilevamento di oggetti Output: Associazione di identità di oggetti tra frame, mantenendo coerenza di ID Vincoli: Requisiti di tempo reale, gestione di occlusione e similarità di apparenza

Architettura del Modello

1. Modulo di Fusione Profondità-Segmentazione

  • Stima di Profondità Zero-Shot: Utilizza Depth Pro per generare mappe di profondità che rappresentano lo spazio relativo
  • Segmentazione Visiva Suggeribile (PVS): Adotta SAM2 per l'allineamento spaziotemporale della forma
    • Per le traiettorie tracciate nel frame t-1, utilizza riquadri di delimitazione come suggerimenti per generare maschere di segmentazione precise
    • Per i nuovi rilevamenti nel frame t, retropropaga al frame t-1 per l'allineamento
    • Moltiplica pixel per pixel la maschera con la corrispondente mappa di profondità, generando embedding di profondità-segmentazione fuso

2. Codificatore di Profondità-Segmentazione Auto-Supervisionato

Progettazione dell'Architettura:

  • Codificatore: 3 strati convoluzionali (kernel 4×4, stride 2), canali da 1→32→64→128
  • Normalizzazione batch e attivazione ReLU
  • Strato lineare che produce caratteristiche di collo di bottiglia di dimensione 2048
  • Decodificatore: Struttura speculare, sovracampionamento con convoluzione trasposta

Obiettivi di Addestramento:

L_totale = L_ricostruzione + L_collo_di_bottiglia
L_ricostruzione = ||f_i - f̂_i||²₂
L_collo_di_bottiglia = ||b_{t-1} - b_t||²₂

Aggiornamento di Coerenza Temporale:

emb_t = C · emb_{t-1} + (1-C) · emb_nuovo
C = T + (1-T) · (1 - (DC-soglia)/(1-soglia))

3. Modulo di Apparenza-Movimento

  • Filtro di Kalman Non Lineare: Modella la dinamica del movimento dell'oggetto, integra il meccanismo di aggiornamento del centro di osservazione (ORU)
  • Corrispondenza di Movimento: Calcola S_IoU (sovrapposizione spaziale) e S_ang (coerenza angolare)
  • Corrispondenza di Apparenza: Utilizza FastReID per estrarre embedding di apparenza, calcola similarità coseno S_emb

Punti di Innovazione Tecnica

  1. Evitare il Calcolo dell'IoU di Maschera: Sostituisce l'IoU di maschera costoso con similarità coseno di embedding del codificatore
  2. Fusione Multimodale: La fusione a livello di pixel di informazioni di profondità e segmentazione fornisce indizi spaziali a grana fine
  3. Ottimizzazione Auto-Supervisionata: Migliora la qualità delle caratteristiche attraverso perdite di ricostruzione e coerenza di collo di bottiglia
  4. Stabilità Temporale: La strategia di aggiornamento di embedding ponderato dinamicamente mantiene la coerenza tra frame

Strategia di Associazione Complessiva

Corrispondenza_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Utilizza l'algoritmo ungherese per l'associazione dati ottimale.

Configurazione Sperimentale

Dataset

  1. SportsMOT: Movimento veloce e imprevedibile, occlusione frequente
  2. DanceTrack: Movimento altamente non lineare, occlusione frequente, interazioni ravvicinate
    • 40 sequenze di addestramento, 25 sequenze di validazione, 35 sequenze di test
  3. MOT17: Folla di densità media, movimento pedonale strutturato, relativamente lineare e prevedibile

Metriche di Valutazione

  • HOTA: Accuratezza di Tracciamento di Ordine Superiore, bilancia accuratezza di rilevamento e associazione
  • AssA: Accuratezza di Associazione, enfatizza la conservazione dell'identità
  • DetA: Accuratezza di Rilevamento
  • IDF1: Punteggio F1 di Identità, focalizzato sulla conservazione dell'identità e qualità di associazione
  • MOTA: Accuratezza di Tracciamento Multi-Oggetto, focalizzato su prestazioni a livello di rilevamento
  • FPS: Fotogrammi al secondo basati sul componente di tracciamento

Metodi di Confronto

Metodi TBD: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack, ecc. Metodi JDR: FairMOT, TransTrack, MOTRv2, ecc.

Dettagli di Implementazione

  • Rilevatore: YOLOX (coerente con i metodi MOT più recenti)
  • Addestramento: GPU NVIDIA A100 singola, dimensione batch 128, 12 epoch
  • Ottimizzatore: Adam, tasso di apprendimento 1e-3
  • Inferenza: Dimensione batch 1, fase di associazione oltre 125 FPS (set di validazione DanceTrack)

Risultati Sperimentali

Risultati Principali

Set di Test SportsMOT

MetodoHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

Set di Test DanceTrack

MetodoHOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

Set di Test MOT17

MetodoHOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

Esperimenti di Ablazione

ConfigurazioneDanceTrack-valMOT17-val
Apparenza + IoU di MascheraHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Apparenza + IoU di RiquadroHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Apparenza + IoU di Riquadro + Profondità-SegmentazioneHOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Scoperte Sperimentali

  1. Complementarità: Il passaggio dall'IoU di maschera all'IoU di riquadro migliora significativamente le prestazioni, l'integrazione di profondità-segmentazione migliora ulteriormente
  2. Adattabilità di Scena: Il miglioramento è più evidente su dataset con movimento non lineare come DanceTrack, mentre è relativamente minore su dataset con movimento lineare come MOT17
  3. Qualità di Associazione: Migliora costantemente su metriche di associazione come HOTA, AssA, IDF1, convalidando l'efficacia del metodo

Lavori Correlati

Metodi Joint Detection-ReID

  • FairMOT: Metodo a doppio ramo che combina rilevamento senza ancoraggio e embedding di apparenza
  • TransCenter: Attenzione deformabile migliora la gestione dell'occlusione
  • AFMTrack: Rete di corrispondenza di caratteristiche di attenzione

Metodi Tracking-by-Detection

  • Tracciamento a Livello di Sequenza: Metodi basati su grafo (Brasó et al.), coerenza di percorso auto-supervisionata (Lu et al.)
  • Tracciamento a Livello di Frame: Modelli di attenzione (TrackFormer, MOTRv2), metodi di regressione (OC-SORT, DiffMOT)

Associazione Consapevole della Profondità e Auto-Supervisionata

  • Integrazione di Profondità: Ordinamento di profondità relativa (Quach et al.), profondità stereo combinata con stima della posa (Wang et al.)
  • ReID Auto-Supervisionato: Embedding di coerenza di percorso (Li et al.)

Conclusioni e Discussione

Conclusioni Principali

  1. La fusione di profondità-segmentazione fornisce capacità efficaci di consapevolezza dello spazio 3D
  2. Il codificatore auto-supervisionato migliora con successo la stabilità temporale e la discriminabilità delle caratteristiche
  3. Mantiene la capacità di ragionamento spaziale a grana fine evitando il calcolo dell'IoU di maschera
  4. Mostra prestazioni eccezionali in scene complesse (occlusione, movimento non lineare)

Limitazioni

  1. Collo di Bottiglia Computazionale: Il passo di stima della profondità (DepthPro circa 0.3 secondi/frame) è il principale collo di bottiglia di prestazione
  2. Scene di Movimento Lineare: Il miglioramento è limitato su dataset con movimento lineare come MOT17
  3. Dipendenza: Dipende dalla qualità dei modelli pre-addestrati SAM2 e DepthPro

Direzioni Future

  1. Stima di Profondità in Tempo Reale: Ricerca di stimatori di profondità più veloci per migliorare la velocità complessiva
  2. Apprendimento Contrastivo: Introdurre obiettivi contrastivi per il codificatore per migliorare la discriminabilità e la robustezza
  3. Addestramento End-to-End: Esplorare l'ottimizzazione congiunta della stima della profondità e del tracciamento

Valutazione Approfondita

Punti di Forza

  1. Innovazione Tecnica: Primo a combinare fusione di profondità-segmentazione con codificatore auto-supervisionato per MOT
  2. Valore Pratico: Fornisce una soluzione efficiente evitando il costoso calcolo dell'IoU di maschera
  3. Esperimenti Completi: Convalida su più dataset impegnativi, esperimenti di ablazione completi
  4. Miglioramento di Prestazioni: Supera costantemente i metodi TBD esistenti su metriche di qualità di associazione

Insufficienze

  1. Efficienza Computazionale: Sebbene eviti l'IoU di maschera, la stima della profondità rimane un collo di bottiglia
  2. Ambito di Applicabilità: I vantaggi non sono evidenti in scene semplici con movimento lineare
  3. Forte Dipendenza: Dipende fortemente dalla qualità e disponibilità dei modelli pre-addestrati
  4. Analisi Teorica: Manca di spiegazione teorica dell'efficacia della fusione di profondità-segmentazione

Impatto

  1. Contributo Accademico: Introduce nuovi approcci di fusione multimodale nel campo MOT
  2. Applicazione Pratica: Ha valore pratico nel tracciamento in scene complesse come sport e danza
  3. Riproducibilità: Fornisce codice e dettagli di implementazione dettagliati, facilitando la riproduzione

Scenari Applicabili

  1. Scene di Movimento Complesso: Tracciamento di movimento non lineare in competizioni sportive, esibizioni di danza
  2. Ambienti ad Alta Occlusione: Tracciamento multi-oggetto in scene affollate
  3. Oggetti con Apparenza Simile: Scene che richiedono indizi spaziali aggiuntivi per la discriminazione
  4. Requisiti di Tempo Reale Moderato: Applicazioni che possono tollerare un certo ritardo computazionale

Riferimenti Bibliografici

L'articolo cita 41 lavori correlati, coprendo i principali lavori nel campo MOT, inclusi metodi classici come ByteTrack, OC-SORT, FairMOT, e i metodi più recenti di consapevolezza della profondità e apprendimento auto-supervisionato, fornendo un riferimento di background completo per la ricerca correlata.