2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

다중 객체 추적을 위한 빠른 자기지도 깊이 및 마스크 인식 연관

기본 정보

초록

다중 객체 추적(MOT) 방법은 일반적으로 교집합-합집합(IoU)에 의존하여 연관을 수행하지만, 객체가 유사하거나 가려질 때 신뢰할 수 없으며, 분할 마스크의 IoU를 계산하는 것은 계산 비용이 많이 듭니다. 본 논문은 분할 마스크를 사용하여 객체 형태를 포착하지만 분할 IoU를 계산하지 않습니다. 대신, 깊이와 마스크 특징을 융합하여 자기지도 학습된 컴팩트 인코더를 통해 처리하여, 경계 상자 IoU 및 재식별 특징 외에 추가적인 유사성 단서로 작용하는 안정적인 객체 표현을 생성합니다. 깊이 맵은 영점 샷 깊이 추정기를 통해 획득하고, 객체 마스크는 프롬프트 가능한 시각 분할 모델을 통해 획득하여 세밀한 공간 단서를 얻습니다. 본 방법은 마스크 IoU를 계산하지 않으면서 자기지도 인코더를 사용하여 분할 마스크를 최적화하는 첫 번째 방법입니다. 비선형 운동, 가림, 혼잡한 장면이 있는 SportsMOT 및 DanceTrack과 같은 도전적인 벤치마크에서의 실험은 본 방법이 대부분의 지표에서 최첨단 TBD 방법을 능가함을 보여줍니다.

연구 배경 및 동기

문제 정의

다중 객체 추적이 직면한 핵심 과제는 다음을 포함합니다:

  1. 가림 문제: 객체가 부분적으로 또는 완전히 가려질 때, 경계 상자 IoU와 같은 전통적인 2D 단서가 신뢰할 수 없게 됨
  2. 외형 유사성: 유사한 외형을 가진 객체를 구별하기 어려워 빈번한 ID 전환 발생
  3. 계산 효율성: 분할 마스크 IoU를 직접 계산하는 계산 비용이 과도함
  4. 복잡한 운동: 비선형 운동 패턴에서의 객체 연관이 어려움

연구 동기

기존 MOT 방법은 주로 2D 단서에 의존하여 복잡한 장면에서 성능이 저하됩니다. 예를 들어, 두 보행자가 평행하게 걷지만 서로 다른 깊이에 있을 때, 2D 뷰에서는 구별할 수 없을 수 있습니다. 본 논문은 깊이 및 분할 정보를 결합한 3D 공간 인식 방법을 제안하여 더욱 견고한 객체 연관을 제공합니다.

기존 방법의 한계

  1. 결합 검출-재식별(JDR) 방법: 계산 요구 사항이 높으며 검출 및 추적의 결합 학습 필요
  2. 검출 기반 추적(TBD) 방법: 주로 외형 임베딩에 의존하며 공간 인식 단서 부족
  3. 깊이 인식 방법: 깊이를 보조 신호로 사용하지만 주요 연관 단서로 사용하지 않음
  4. 자기지도 재식별 학습: 대조 또는 클러스터링 목표에 의존하며 융합된 3D 공간 정보 미활용

핵심 기여

  1. 자기지도 인코더 설계: 깊이-분할 특징의 시간적 안정성 및 판별성 향상
  2. 혁신적 방법: 마스크 IoU를 계산하지 않으면서 자기지도 인코더를 사용하여 분할 마스크를 최적화하고 이를 매칭 점수에 통합하는 첫 번째 방법
  3. 경쟁력 있는 성능: 다양한 추적 장면에서 경쟁력 있는 성능 달성, 특히 가림 장면에서 우수한 성능
  4. 효율적인 구현: 비용이 많이 드는 마스크 IoU 계산을 회피하면서 세밀한 공간 추론 능력 유지

방법 상세 설명

작업 정의

입력: 비디오 시퀀스의 연속 프레임 및 객체 검출 경계 상자 출력: 프레임 간 객체 신원 연관, ID 일관성 유지 제약: 실시간 요구 사항, 가림 및 외형 유사성 처리

모델 아키텍처

1. 깊이-분할 융합 모듈

  • 영점 샷 깊이 추정: Depth Pro를 사용하여 상대 공간 표현의 깊이 맵 생성
  • 프롬프트 가능한 시각 분할(PVS): SAM2를 사용한 시공간 형태 정렬
    • t-1 프레임의 추적 궤적에 대해 경계 상자를 프롬프트로 사용하여 정확한 분할 마스크 생성
    • t 프레임의 새로운 검출에 대해 t-1 프레임으로 역전파하여 정렬
    • 마스크를 해당 깊이 맵과 픽셀 단위로 곱하여 융합된 깊이-분할 임베딩 생성

2. 자기지도 깊이-분할 인코더

아키텍처 설계:

  • 인코더: 3개의 컨볼루션 층(4×4 커널, 스트라이드 2), 채널 1→32→64→128
  • 배치 정규화 및 ReLU 활성화
  • 선형 층이 2048차원 병목 특징 생성
  • 디코더: 미러 구조, 전치 컨볼루션 업샘플링

학습 목표:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

시간적 일관성 업데이트:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. 외형-운동 모듈

  • 비선형 칼만 필터: 객체 운동 동역학 모델링, 관측 중심 재가중화(ORU) 메커니즘 통합
  • 운동 매칭: S_IoU(공간 중첩) 및 S_ang(각도 일관성) 계산
  • 외형 매칭: FastReID를 사용하여 외형 임베딩 추출, 코사인 유사도로 S_emb 계산

기술적 혁신점

  1. 마스크 IoU 계산 회피: 인코더 임베딩의 코사인 유사도로 비용이 많이 드는 마스크 IoU 대체
  2. 다중 모달 융합: 깊이 및 분할 정보의 픽셀 단위 융합으로 세밀한 공간 단서 제공
  3. 자기지도 최적화: 재구성 및 병목 일관성 손실을 통해 특징 품질 향상
  4. 시간적 안정성: 동적 가중치 임베딩 업데이트 전략으로 프레임 간 일관성 유지

전체 연관 전략

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

최적 데이터 연관을 위해 헝가리안 알고리즘 사용.

실험 설정

데이터셋

  1. SportsMOT: 빠르고 예측 불가능한 운동, 빈번한 가림
  2. DanceTrack: 고도로 비선형적인 운동, 빈번한 가림, 근거리 상호작용
    • 40개 학습 시퀀스, 25개 검증 시퀀스, 35개 테스트 시퀀스
  3. MOT17: 중간 밀도 군중, 구조화된 보행자 운동, 상대적으로 선형적이고 예측 가능

평가 지표

  • HOTA: 고차 추적 정확도, 검출 및 연관 정확도의 균형
  • AssA: 연관 정확도, 신원 유지 강조
  • DetA: 검출 정확도
  • IDF1: 신원 F1 점수, 신원 유지 및 연관 품질 중심
  • MOTA: 다중 객체 추적 정확도, 검출 수준 성능 중심
  • FPS: 추적 구성 요소 기반 프레임 속도

비교 방법

TBD 방법: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack 등 JDR 방법: FairMOT, TransTrack, MOTRv2 등

구현 세부사항

  • 검출기: YOLOX (최신 MOT 방법과 일치)
  • 학습: 단일 NVIDIA A100 GPU, 배치 크기 128, 12 에포크
  • 최적화기: Adam, 학습률 1e-3
  • 추론: 배치 크기 1, 연관 단계 125 FPS 초과 (DanceTrack 검증 세트)

실험 결과

주요 결과

SportsMOT 테스트 세트

방법HOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

DanceTrack 테스트 세트

방법HOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

MOT17 테스트 세트

방법HOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

제거 실험

설정DanceTrack-valMOT17-val
외형 + 마스크 IoUHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
외형 + 경계 상자 IoUHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
외형 + 경계 상자 IoU + 깊이-분할HOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

실험 발견

  1. 상호 보완성: 마스크 IoU에서 경계 상자 IoU로 전환하면 성능이 크게 향상되며, 깊이-분할 통합이 추가로 개선됨
  2. 장면 적응성: DanceTrack과 같은 비선형 운동 데이터셋에서 개선이 더 명확하며, MOT17과 같은 선형 운동 데이터셋에서는 개선이 상대적으로 적음
  3. 연관 품질: HOTA, AssA, IDF1 등의 연관 지표에서 지속적으로 향상되어 방법의 효과성 검증

관련 연구

결합 검출-재식별 방법

  • FairMOT: 무앵커 검출 및 외형 임베딩을 결합한 이중 분기 방법
  • TransCenter: 변형 가능한 주의로 가림 처리 개선
  • AFMTrack: 주의 특징 매칭 네트워크

검출 기반 추적 방법

  • 시퀀스 수준 추적: 그래프 기반 방법(Brasó 등), 자기지도 경로 일관성(Lu 등)
  • 프레임 수준 추적: 주의 모델(TrackFormer, MOTRv2), 회귀 방법(OC-SORT, DiffMOT)

깊이 인식 및 자기지도 연관

  • 깊이 통합: 상대 깊이 순서(Quach 등), 자세 추정과 결합된 스테레오 깊이(Wang 등)
  • 자기지도 재식별: 경로 일관성 임베딩(Li 등)

결론 및 토론

주요 결론

  1. 깊이-분할 융합은 효과적인 3D 공간 인식 능력 제공
  2. 자기지도 인코더는 특징의 시간적 안정성 및 판별성을 성공적으로 향상
  3. 마스크 IoU 계산을 회피하면서 세밀한 공간 추론 능력 유지
  4. 복잡한 장면(가림, 비선형 운동)에서 우수한 성능

한계

  1. 계산 병목: 깊이 추정 단계(DepthPro 약 0.3초/프레임)가 주요 성능 병목
  2. 선형 운동 장면: MOT17과 같은 선형 운동 데이터셋에서 개선 제한적
  3. 의존성: 사전 학습된 SAM2 및 DepthPro 모델 품질에 의존

향후 방향

  1. 실시간 깊이 추정: 전체 속도 향상을 위한 더 빠른 깊이 추정기 연구
  2. 대조 학습: 인코더의 판별성 및 견고성 향상을 위한 대조 목표 도입
  3. 종단 간 학습: 깊이 추정 및 추적의 결합 최적화 탐색

심층 평가

장점

  1. 기술적 혁신: 깊이-분할 융합과 자기지도 인코더를 MOT에 처음으로 결합
  2. 실용적 가치: 비용이 많이 드는 마스크 IoU 계산을 회피하여 효율적인 솔루션 제공
  3. 충분한 실험: 여러 도전적인 데이터셋에서 검증, 완전한 제거 실험
  4. 성능 향상: 연관 품질 지표에서 기존 TBD 방법을 지속적으로 능가

부족한 점

  1. 계산 효율성: 마스크 IoU를 회피했지만 깊이 추정이 여전히 병목
  2. 적용 범위: 단순 선형 운동 장면에서는 장점이 명확하지 않음
  3. 강한 의존성: 사전 학습된 모델의 품질 및 가용성에 크게 의존
  4. 이론적 분석: 깊이-분할 융합 효과성에 대한 이론적 설명 부족

영향력

  1. 학술적 기여: MOT 분야에 새로운 다중 모달 융합 사상 도입
  2. 실제 응용: 스포츠, 무용 등 복잡한 장면 추적에 실용적 가치
  3. 재현성: 코드 및 상세 구현 세부사항 제공으로 재현 용이

적용 장면

  1. 복잡한 운동 장면: 스포츠 경기, 무용 공연 등 비선형 운동 추적
  2. 고 가림 환경: 혼잡한 장면의 다중 객체 추적
  3. 외형 유사 객체: 추가 공간 단서가 필요한 구별 장면
  4. 중간 실시간성 요구: 일정한 계산 지연을 허용하는 응용

참고문헌

논문은 MOT 분야의 주요 연구를 포함한 41개의 관련 문헌을 인용하며, ByteTrack, OC-SORT, FairMOT 등의 고전적 방법과 최신 깊이 인식 및 자기지도 학습 방법을 포함하여 관련 연구에 포괄적인 배경 참고 자료를 제공합니다.