2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

Associazione Rapida Consapevole di Profondità e Maschera Auto-Supervisionata per il Tracciamento Multi-Oggetto

Informazioni Fondamentali

ID Articolo: 2510.09878
Titolo: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Autori: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
Classificazione: cs.CV (Computer Vision)
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09878
Link Codice: https://github.com/Milad-Khanchi/SelfTrEncMOT

Riassunto

I metodi di tracciamento multi-oggetto (MOT) generalmente si affidano all'Intersezione su Unione (IoU) per l'associazione, ma diventano inaffidabili quando gli oggetti sono simili o occludenti, e il calcolo dell'IoU delle maschere di segmentazione è computazionalmente costoso. Questo articolo utilizza maschere di segmentazione per catturare la forma dell'oggetto, ma non calcola l'IoU di segmentazione. Invece, fonde caratteristiche di profondità e maschera, elaborate attraverso un codificatore compatto addestrato con auto-supervisione, producendo rappresentazioni stabili dell'oggetto come indizio di similarità aggiuntivo oltre all'IoU del riquadro di delimitazione e alle caratteristiche di re-identificazione. Le mappe di profondità vengono acquisite attraverso uno stimatore di profondità zero-shot, mentre le maschere degli oggetti vengono ottenute tramite un modello di segmentazione visiva suggeribile, per ottenere indizi spaziali a grana fine. Questo metodo è il primo a utilizzare un codificatore auto-supervisionato per ottimizzare le maschere di segmentazione senza calcolare l'IoU di maschera. Gli esperimenti su benchmark impegnativi con movimento non lineare, occlusione e scene affollate (come SportsMOT e DanceTrack) dimostrano che il metodo supera i metodi all'avanguardia TBD nella maggior parte delle metriche.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le sfide fondamentali affrontate dal tracciamento multi-oggetto includono:

Problema di Occlusione: Quando gli oggetti sono parzialmente o completamente occludenti, gli indizi 2D tradizionali (come l'IoU del riquadro di delimitazione) diventano inaffidabili
Similarità di Apparenza: Gli oggetti con apparenza simile sono difficili da distinguere, causando frequenti cambi di ID
Efficienza Computazionale: Il costo computazionale del calcolo diretto dell'IoU delle maschere di segmentazione è eccessivo
Movimento Complesso: L'associazione di oggetti con pattern di movimento non lineare è difficile

Motivazione della Ricerca

I metodi MOT esistenti si affidano principalmente a indizi 2D per l'associazione dati, con prestazioni scadenti in scene complesse. Ad esempio, due pedoni che camminano in parallelo ma a profondità diverse potrebbero essere indistinguibili nella vista 2D. Questo articolo propone un approccio consapevole dello spazio 3D che combina informazioni di profondità e segmentazione, per fornire un'associazione di oggetti più robusta.

Limitazioni dei Metodi Esistenti

Metodi Joint Detection-ReID (JDR): Requisiti computazionali elevati, richiedono addestramento congiunto di rilevamento e tracciamento
Metodi Tracking-by-Detection (TBD): Si affidano principalmente a embedding di apparenza piuttosto che a indizi consapevoli dello spazio
Metodi Consapevoli della Profondità: Utilizzano la profondità come segnale ausiliario piuttosto che come indizio di associazione principale
Apprendimento ReID Auto-Supervisionato: Si affidano a contrasto o clustering di oggetti, non sfruttano informazioni spaziali 3D fuse

Contributi Principali

Progettazione di un Codificatore Auto-Supervisionato: Migliora la stabilità temporale e la discriminabilità delle caratteristiche di profondità-segmentazione
Metodo Innovativo: Primo utilizzo di un codificatore auto-supervisionato per ottimizzare le maschere di segmentazione e integrarle nel punteggio di corrispondenza, senza calcolare l'IoU di maschera
Prestazioni Competitive: Raggiunge prestazioni competitive in vari scenari di tracciamento, con prestazioni eccezionali in scenari di occlusione
Implementazione Efficiente: Evita il costoso calcolo dell'IoU di maschera mantenendo la capacità di ragionamento spaziale a grana fine

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Frame consecutivi in una sequenza video e riquadri di delimitazione di rilevamento di oggetti Output: Associazione di identità di oggetti tra frame, mantenendo coerenza di ID Vincoli: Requisiti di tempo reale, gestione di occlusione e similarità di apparenza

Architettura del Modello

1. Modulo di Fusione Profondità-Segmentazione

Stima di Profondità Zero-Shot: Utilizza Depth Pro per generare mappe di profondità che rappresentano lo spazio relativo
Segmentazione Visiva Suggeribile (PVS): Adotta SAM2 per l'allineamento spaziotemporale della forma
- Per le traiettorie tracciate nel frame t-1, utilizza riquadri di delimitazione come suggerimenti per generare maschere di segmentazione precise
- Per i nuovi rilevamenti nel frame t, retropropaga al frame t-1 per l'allineamento
- Moltiplica pixel per pixel la maschera con la corrispondente mappa di profondità, generando embedding di profondità-segmentazione fuso

2. Codificatore di Profondità-Segmentazione Auto-Supervisionato

Progettazione dell'Architettura:

Codificatore: 3 strati convoluzionali (kernel 4×4, stride 2), canali da 1→32→64→128
Normalizzazione batch e attivazione ReLU
Strato lineare che produce caratteristiche di collo di bottiglia di dimensione 2048
Decodificatore: Struttura speculare, sovracampionamento con convoluzione trasposta

Obiettivi di Addestramento:

L_totale = L_ricostruzione + L_collo_di_bottiglia
L_ricostruzione = ||f_i - f̂_i||²₂
L_collo_di_bottiglia = ||b_{t-1} - b_t||²₂

Aggiornamento di Coerenza Temporale:

emb_t = C · emb_{t-1} + (1-C) · emb_nuovo
C = T + (1-T) · (1 - (DC-soglia)/(1-soglia))

3. Modulo di Apparenza-Movimento

Filtro di Kalman Non Lineare: Modella la dinamica del movimento dell'oggetto, integra il meccanismo di aggiornamento del centro di osservazione (ORU)
Corrispondenza di Movimento: Calcola S_IoU (sovrapposizione spaziale) e S_ang (coerenza angolare)
Corrispondenza di Apparenza: Utilizza FastReID per estrarre embedding di apparenza, calcola similarità coseno S_emb

Punti di Innovazione Tecnica

Evitare il Calcolo dell'IoU di Maschera: Sostituisce l'IoU di maschera costoso con similarità coseno di embedding del codificatore
Fusione Multimodale: La fusione a livello di pixel di informazioni di profondità e segmentazione fornisce indizi spaziali a grana fine
Ottimizzazione Auto-Supervisionata: Migliora la qualità delle caratteristiche attraverso perdite di ricostruzione e coerenza di collo di bottiglia
Stabilità Temporale: La strategia di aggiornamento di embedding ponderato dinamicamente mantiene la coerenza tra frame

Strategia di Associazione Complessiva

Corrispondenza_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Utilizza l'algoritmo ungherese per l'associazione dati ottimale.

Configurazione Sperimentale

Dataset

SportsMOT: Movimento veloce e imprevedibile, occlusione frequente
DanceTrack: Movimento altamente non lineare, occlusione frequente, interazioni ravvicinate
- 40 sequenze di addestramento, 25 sequenze di validazione, 35 sequenze di test
MOT17: Folla di densità media, movimento pedonale strutturato, relativamente lineare e prevedibile

Metriche di Valutazione

HOTA: Accuratezza di Tracciamento di Ordine Superiore, bilancia accuratezza di rilevamento e associazione
AssA: Accuratezza di Associazione, enfatizza la conservazione dell'identità
DetA: Accuratezza di Rilevamento
IDF1: Punteggio F1 di Identità, focalizzato sulla conservazione dell'identità e qualità di associazione
MOTA: Accuratezza di Tracciamento Multi-Oggetto, focalizzato su prestazioni a livello di rilevamento
FPS: Fotogrammi al secondo basati sul componente di tracciamento

Metodi di Confronto

Metodi TBD: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack, ecc. Metodi JDR: FairMOT, TransTrack, MOTRv2, ecc.

Dettagli di Implementazione

Rilevatore: YOLOX (coerente con i metodi MOT più recenti)
Addestramento: GPU NVIDIA A100 singola, dimensione batch 128, 12 epoch
Ottimizzatore: Adam, tasso di apprendimento 1e-3
Inferenza: Dimensione batch 1, fase di associazione oltre 125 FPS (set di validazione DanceTrack)

Risultati Sperimentali

Risultati Principali

Set di Test SportsMOT

Metodo	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

Set di Test DanceTrack

Metodo	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

Set di Test MOT17

Metodo	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

Esperimenti di Ablazione

Configurazione	DanceTrack-val	MOT17-val
Apparenza + IoU di Maschera	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Apparenza + IoU di Riquadro	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Apparenza + IoU di Riquadro + Profondità-Segmentazione	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Scoperte Sperimentali

Complementarità: Il passaggio dall'IoU di maschera all'IoU di riquadro migliora significativamente le prestazioni, l'integrazione di profondità-segmentazione migliora ulteriormente
Adattabilità di Scena: Il miglioramento è più evidente su dataset con movimento non lineare come DanceTrack, mentre è relativamente minore su dataset con movimento lineare come MOT17
Qualità di Associazione: Migliora costantemente su metriche di associazione come HOTA, AssA, IDF1, convalidando l'efficacia del metodo

Lavori Correlati

Metodi Joint Detection-ReID

FairMOT: Metodo a doppio ramo che combina rilevamento senza ancoraggio e embedding di apparenza
TransCenter: Attenzione deformabile migliora la gestione dell'occlusione
AFMTrack: Rete di corrispondenza di caratteristiche di attenzione

Metodi Tracking-by-Detection

Tracciamento a Livello di Sequenza: Metodi basati su grafo (Brasó et al.), coerenza di percorso auto-supervisionata (Lu et al.)
Tracciamento a Livello di Frame: Modelli di attenzione (TrackFormer, MOTRv2), metodi di regressione (OC-SORT, DiffMOT)

Associazione Consapevole della Profondità e Auto-Supervisionata

Integrazione di Profondità: Ordinamento di profondità relativa (Quach et al.), profondità stereo combinata con stima della posa (Wang et al.)
ReID Auto-Supervisionato: Embedding di coerenza di percorso (Li et al.)

Conclusioni e Discussione

Conclusioni Principali

La fusione di profondità-segmentazione fornisce capacità efficaci di consapevolezza dello spazio 3D
Il codificatore auto-supervisionato migliora con successo la stabilità temporale e la discriminabilità delle caratteristiche
Mantiene la capacità di ragionamento spaziale a grana fine evitando il calcolo dell'IoU di maschera
Mostra prestazioni eccezionali in scene complesse (occlusione, movimento non lineare)

Limitazioni

Collo di Bottiglia Computazionale: Il passo di stima della profondità (DepthPro circa 0.3 secondi/frame) è il principale collo di bottiglia di prestazione
Scene di Movimento Lineare: Il miglioramento è limitato su dataset con movimento lineare come MOT17
Dipendenza: Dipende dalla qualità dei modelli pre-addestrati SAM2 e DepthPro

Direzioni Future

Stima di Profondità in Tempo Reale: Ricerca di stimatori di profondità più veloci per migliorare la velocità complessiva
Apprendimento Contrastivo: Introdurre obiettivi contrastivi per il codificatore per migliorare la discriminabilità e la robustezza
Addestramento End-to-End: Esplorare l'ottimizzazione congiunta della stima della profondità e del tracciamento

Valutazione Approfondita

Punti di Forza

Innovazione Tecnica: Primo a combinare fusione di profondità-segmentazione con codificatore auto-supervisionato per MOT
Valore Pratico: Fornisce una soluzione efficiente evitando il costoso calcolo dell'IoU di maschera
Esperimenti Completi: Convalida su più dataset impegnativi, esperimenti di ablazione completi
Miglioramento di Prestazioni: Supera costantemente i metodi TBD esistenti su metriche di qualità di associazione

Insufficienze

Efficienza Computazionale: Sebbene eviti l'IoU di maschera, la stima della profondità rimane un collo di bottiglia
Ambito di Applicabilità: I vantaggi non sono evidenti in scene semplici con movimento lineare
Forte Dipendenza: Dipende fortemente dalla qualità e disponibilità dei modelli pre-addestrati
Analisi Teorica: Manca di spiegazione teorica dell'efficacia della fusione di profondità-segmentazione

Impatto

Contributo Accademico: Introduce nuovi approcci di fusione multimodale nel campo MOT
Applicazione Pratica: Ha valore pratico nel tracciamento in scene complesse come sport e danza
Riproducibilità: Fornisce codice e dettagli di implementazione dettagliati, facilitando la riproduzione

Scenari Applicabili

Scene di Movimento Complesso: Tracciamento di movimento non lineare in competizioni sportive, esibizioni di danza
Ambienti ad Alta Occlusione: Tracciamento multi-oggetto in scene affollate
Oggetti con Apparenza Simile: Scene che richiedono indizi spaziali aggiuntivi per la discriminazione
Requisiti di Tempo Reale Moderato: Applicazioni che possono tollerare un certo ritardo computazionale

Riferimenti Bibliografici

L'articolo cita 41 lavori correlati, coprendo i principali lavori nel campo MOT, inclusi metodi classici come ByteTrack, OC-SORT, FairMOT, e i metodi più recenti di consapevolezza della profondità e apprendimento auto-supervisionato, fornendo un riferimento di background completo per la ricerca correlata.