2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

다중 객체 추적을 위한 빠른 자기지도 깊이 및 마스크 인식 연관

기본 정보

논문 ID: 2510.09878
제목: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
저자: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09878
코드 링크: https://github.com/Milad-Khanchi/SelfTrEncMOT

초록

다중 객체 추적(MOT) 방법은 일반적으로 교집합-합집합(IoU)에 의존하여 연관을 수행하지만, 객체가 유사하거나 가려질 때 신뢰할 수 없으며, 분할 마스크의 IoU를 계산하는 것은 계산 비용이 많이 듭니다. 본 논문은 분할 마스크를 사용하여 객체 형태를 포착하지만 분할 IoU를 계산하지 않습니다. 대신, 깊이와 마스크 특징을 융합하여 자기지도 학습된 컴팩트 인코더를 통해 처리하여, 경계 상자 IoU 및 재식별 특징 외에 추가적인 유사성 단서로 작용하는 안정적인 객체 표현을 생성합니다. 깊이 맵은 영점 샷 깊이 추정기를 통해 획득하고, 객체 마스크는 프롬프트 가능한 시각 분할 모델을 통해 획득하여 세밀한 공간 단서를 얻습니다. 본 방법은 마스크 IoU를 계산하지 않으면서 자기지도 인코더를 사용하여 분할 마스크를 최적화하는 첫 번째 방법입니다. 비선형 운동, 가림, 혼잡한 장면이 있는 SportsMOT 및 DanceTrack과 같은 도전적인 벤치마크에서의 실험은 본 방법이 대부분의 지표에서 최첨단 TBD 방법을 능가함을 보여줍니다.

연구 배경 및 동기

문제 정의

다중 객체 추적이 직면한 핵심 과제는 다음을 포함합니다:

가림 문제: 객체가 부분적으로 또는 완전히 가려질 때, 경계 상자 IoU와 같은 전통적인 2D 단서가 신뢰할 수 없게 됨
외형 유사성: 유사한 외형을 가진 객체를 구별하기 어려워 빈번한 ID 전환 발생
계산 효율성: 분할 마스크 IoU를 직접 계산하는 계산 비용이 과도함
복잡한 운동: 비선형 운동 패턴에서의 객체 연관이 어려움

연구 동기

기존 MOT 방법은 주로 2D 단서에 의존하여 복잡한 장면에서 성능이 저하됩니다. 예를 들어, 두 보행자가 평행하게 걷지만 서로 다른 깊이에 있을 때, 2D 뷰에서는 구별할 수 없을 수 있습니다. 본 논문은 깊이 및 분할 정보를 결합한 3D 공간 인식 방법을 제안하여 더욱 견고한 객체 연관을 제공합니다.

기존 방법의 한계

결합 검출-재식별(JDR) 방법: 계산 요구 사항이 높으며 검출 및 추적의 결합 학습 필요
검출 기반 추적(TBD) 방법: 주로 외형 임베딩에 의존하며 공간 인식 단서 부족
깊이 인식 방법: 깊이를 보조 신호로 사용하지만 주요 연관 단서로 사용하지 않음
자기지도 재식별 학습: 대조 또는 클러스터링 목표에 의존하며 융합된 3D 공간 정보 미활용

핵심 기여

자기지도 인코더 설계: 깊이-분할 특징의 시간적 안정성 및 판별성 향상
혁신적 방법: 마스크 IoU를 계산하지 않으면서 자기지도 인코더를 사용하여 분할 마스크를 최적화하고 이를 매칭 점수에 통합하는 첫 번째 방법
경쟁력 있는 성능: 다양한 추적 장면에서 경쟁력 있는 성능 달성, 특히 가림 장면에서 우수한 성능
효율적인 구현: 비용이 많이 드는 마스크 IoU 계산을 회피하면서 세밀한 공간 추론 능력 유지

방법 상세 설명

작업 정의

입력: 비디오 시퀀스의 연속 프레임 및 객체 검출 경계 상자 출력: 프레임 간 객체 신원 연관, ID 일관성 유지 제약: 실시간 요구 사항, 가림 및 외형 유사성 처리

모델 아키텍처

1. 깊이-분할 융합 모듈

영점 샷 깊이 추정: Depth Pro를 사용하여 상대 공간 표현의 깊이 맵 생성
프롬프트 가능한 시각 분할(PVS): SAM2를 사용한 시공간 형태 정렬
- t-1 프레임의 추적 궤적에 대해 경계 상자를 프롬프트로 사용하여 정확한 분할 마스크 생성
- t 프레임의 새로운 검출에 대해 t-1 프레임으로 역전파하여 정렬
- 마스크를 해당 깊이 맵과 픽셀 단위로 곱하여 융합된 깊이-분할 임베딩 생성

2. 자기지도 깊이-분할 인코더

아키텍처 설계:

인코더: 3개의 컨볼루션 층(4×4 커널, 스트라이드 2), 채널 1→32→64→128
배치 정규화 및 ReLU 활성화
선형 층이 2048차원 병목 특징 생성
디코더: 미러 구조, 전치 컨볼루션 업샘플링

학습 목표:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

시간적 일관성 업데이트:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. 외형-운동 모듈

비선형 칼만 필터: 객체 운동 동역학 모델링, 관측 중심 재가중화(ORU) 메커니즘 통합
운동 매칭: S_IoU(공간 중첩) 및 S_ang(각도 일관성) 계산
외형 매칭: FastReID를 사용하여 외형 임베딩 추출, 코사인 유사도로 S_emb 계산

기술적 혁신점

마스크 IoU 계산 회피: 인코더 임베딩의 코사인 유사도로 비용이 많이 드는 마스크 IoU 대체
다중 모달 융합: 깊이 및 분할 정보의 픽셀 단위 융합으로 세밀한 공간 단서 제공
자기지도 최적화: 재구성 및 병목 일관성 손실을 통해 특징 품질 향상
시간적 안정성: 동적 가중치 임베딩 업데이트 전략으로 프레임 간 일관성 유지

전체 연관 전략

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

최적 데이터 연관을 위해 헝가리안 알고리즘 사용.

실험 설정

데이터셋

SportsMOT: 빠르고 예측 불가능한 운동, 빈번한 가림
DanceTrack: 고도로 비선형적인 운동, 빈번한 가림, 근거리 상호작용
- 40개 학습 시퀀스, 25개 검증 시퀀스, 35개 테스트 시퀀스
MOT17: 중간 밀도 군중, 구조화된 보행자 운동, 상대적으로 선형적이고 예측 가능

평가 지표

HOTA: 고차 추적 정확도, 검출 및 연관 정확도의 균형
AssA: 연관 정확도, 신원 유지 강조
DetA: 검출 정확도
IDF1: 신원 F1 점수, 신원 유지 및 연관 품질 중심
MOTA: 다중 객체 추적 정확도, 검출 수준 성능 중심
FPS: 추적 구성 요소 기반 프레임 속도

비교 방법

TBD 방법: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack 등 JDR 방법: FairMOT, TransTrack, MOTRv2 등

구현 세부사항

검출기: YOLOX (최신 MOT 방법과 일치)
학습: 단일 NVIDIA A100 GPU, 배치 크기 128, 12 에포크
최적화기: Adam, 학습률 1e-3
추론: 배치 크기 1, 연관 단계 125 FPS 초과 (DanceTrack 검증 세트)

실험 결과

주요 결과

SportsMOT 테스트 세트

방법	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

DanceTrack 테스트 세트

방법	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

MOT17 테스트 세트

방법	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

제거 실험

설정	DanceTrack-val	MOT17-val
외형 + 마스크 IoU	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
외형 + 경계 상자 IoU	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
외형 + 경계 상자 IoU + 깊이-분할	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

실험 발견

상호 보완성: 마스크 IoU에서 경계 상자 IoU로 전환하면 성능이 크게 향상되며, 깊이-분할 통합이 추가로 개선됨
장면 적응성: DanceTrack과 같은 비선형 운동 데이터셋에서 개선이 더 명확하며, MOT17과 같은 선형 운동 데이터셋에서는 개선이 상대적으로 적음
연관 품질: HOTA, AssA, IDF1 등의 연관 지표에서 지속적으로 향상되어 방법의 효과성 검증