Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
다중 객체 추적(MOT) 방법은 일반적으로 교집합-합집합(IoU)에 의존하여 연관을 수행하지만, 객체가 유사하거나 가려질 때 신뢰할 수 없으며, 분할 마스크의 IoU를 계산하는 것은 계산 비용이 많이 듭니다. 본 논문은 분할 마스크를 사용하여 객체 형태를 포착하지만 분할 IoU를 계산하지 않습니다. 대신, 깊이와 마스크 특징을 융합하여 자기지도 학습된 컴팩트 인코더를 통해 처리하여, 경계 상자 IoU 및 재식별 특징 외에 추가적인 유사성 단서로 작용하는 안정적인 객체 표현을 생성합니다. 깊이 맵은 영점 샷 깊이 추정기를 통해 획득하고, 객체 마스크는 프롬프트 가능한 시각 분할 모델을 통해 획득하여 세밀한 공간 단서를 얻습니다. 본 방법은 마스크 IoU를 계산하지 않으면서 자기지도 인코더를 사용하여 분할 마스크를 최적화하는 첫 번째 방법입니다. 비선형 운동, 가림, 혼잡한 장면이 있는 SportsMOT 및 DanceTrack과 같은 도전적인 벤치마크에서의 실험은 본 방법이 대부분의 지표에서 최첨단 TBD 방법을 능가함을 보여줍니다.
기존 MOT 방법은 주로 2D 단서에 의존하여 복잡한 장면에서 성능이 저하됩니다. 예를 들어, 두 보행자가 평행하게 걷지만 서로 다른 깊이에 있을 때, 2D 뷰에서는 구별할 수 없을 수 있습니다. 본 논문은 깊이 및 분할 정보를 결합한 3D 공간 인식 방법을 제안하여 더욱 견고한 객체 연관을 제공합니다.