2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

부트스트래핑 지칭 다중객체 추적

기본 정보

논문 ID: 2406.05039
제목: 포괄적 동적 표현을 이용한 지칭 다중객체 추적
저자: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
분류: cs.CV cs.CL
발표 시간: 2025년 10월 27일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2406.05039
코드 및 데이터셋: https://github.com/zyn213/TempRMOT

초록

본 논문은 자연언어 표현식을 의미론적 단서로 활용하여 다중객체 추적을 유도하는 새로운 비디오 이해 작업인 지칭 다중객체 추적(Referring Multi-Object Tracking, RMOT)을 제안한다. 목표 수의 변화와 시간적 의미를 포괄적으로 고려한다. 본 논문은 9,758개의 다양한 언어 표현식을 포함하는 Refer-KITTI-V2 벤치마크 데이터셋을 구축하고, 쿼리 기반 시간 증강 모듈을 통해 장기 시공간 상호작용을 실현하는 TempRMOT 프레임워크를 제안한다. TempRMOT는 Refer-KITTI와 Refer-KITTI-V2 모두에서 최고 성능을 달성한다.

연구 배경 및 동기

해결해야 할 문제

기존의 지칭 이해(Referring Understanding) 작업에는 두 가지 핵심 한계가 있다:

단일 객체 제한: 기존 데이터셋(RefCOCO 시리즈, Refer-DAVIS17 등)은 각 표현식에 대해 단일 객체만 주석을 달지만, 실제 장면에서는 하나의 표현식이 여러 개, 한 개 또는 0개의 객체를 지칭할 수 있다
시간적 일관성 부재: 기존 방법은 언어 표현식과 객체 진화 상태 간의 시간적 일관성을 모델링할 수 없다. 예를 들어, "회전 중인 자동차"라는 표현식은 순간적 상태를 설명하지만, 주석은 회전 동작이 완료된 후에도 해당 객체를 계속 추적한다

문제의 중요성

언어 유도 비디오 이해는 자연언어와 시각 콘텐츠를 연결하는 핵심 작업이다
자율주행 등 실제 응용에서는 자연언어 지시를 통해 여러 동적 객체를 동시에 추적해야 한다
시간적 동역학을 정확히 모델링하는 것은 운동 관련 의미를 이해하는 데 필수적이다

기존 방법의 한계

데이터셋 수준:
- 수작업 주석과 고정 템플릿 결합으로 언어 다양성이 제한됨
- 의미론적 중복이 심함(예: Refer-Dance는 48개의 고유 표현식만 보유)
- 암묵적 표현식과 복잡한 의미(예: 부정 설명)가 부족함
방법 수준:
- 2단계 방법은 복잡도가 높고 계산 오버헤드가 큼
- 단일 단계 방법은 주로 인접 프레임에 집중하여 장기 시간 모델링 능력이 부족함

핵심 기여

RMOT 새로운 작업 제안: 지칭 이해를 다중객체 동적 장면으로 체계적으로 확장하고 시간 상태 변화를 고려함
Refer-KITTI-V2 데이터셋 구축:
- 9,758개의 표현식, 7,193개의 고유 표현식, 617개의 서로 다른 어휘 포함
- 3단계 반자동 주석 프로세스 설계, LLM을 활용한 다양한 표현식 생성
- 암묵적 표현식 포함(예: "자차가 검은 자동차 뒤에 위치함")
TempRMOT 프레임워크 제안:
- 후처리가 필요 없는 엔드-투-엔드 Transformer 아키텍처
- 쿼리 기반 시간 증강 모듈로 장기 시공간 상호작용 실현
- 추적 쿼리와 검출 쿼리를 분리하여 가변 수의 객체 처리
SOTA 성능 달성:
- Refer-KITTI-V2에서 이전 작업 대비 약 4% HOTA 향상
- Refer-KITTI에서 52.21% HOTA 달성
효율적인 주석 프로세스 설계: 3단계 반자동 주석 방법으로 인적 비용 대폭 감소

방법 상세 설명

작업 정의

입력: 비디오 시퀀스(T 프레임) + 자연언어 표현식 출력: 각 프레임에서 표현식 설명과 일치하는 모든 객체의 경계 상자 및 ID 제약 조건:

객체 수 가변(0개 이상)
객체가 표현식 설명을 만족하는 시간 구간에서만 주석 달기
시간적 일관성이 있는 ID 연관성 유지

모델 아키텍처

TempRMOT는 두 개의 핵심 구성 요소로 이루어진다:

1. Transformer 기반 RMOT 모듈

특징 추출기:

시각 인코딩: CNN 주간선 네트워크가 다중 스케일 특징 추출 $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$
언어 인코딩: RoBERTa가 텍스트를 단어 임베딩으로 인코딩 $S \in \mathbb{R}^{L \times D}$

크로스모달 인코더(조기 융합 전략): $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

여기서 $P_V$ 와 $P_L$ 은 각각 시각 및 언어의 위치 인코딩이다. 융합 후 변형 가능한 인코더 레이어를 통과: $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

디코더(이중 쿼리 메커니즘):

추적 쿼리 $Q^{tra}_t$ : 이전 프레임의 디코더 임베딩 $D_{t-1}$ 에서 변환되어 추적된 인스턴스 연관에 사용
검출 쿼리 $Q^{det}$ : 무작위 초기화되어 새로 나타난 객체 검출에 사용

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

지칭 헤드: 3개 분기 포함

분류 분기: 이진 분류(실제 객체/빈 객체)
경계 상자 분기: 3층 FFN 좌표 회귀
지칭 분기: 표현식과의 일치 확률 출력

2. 시간 증강 모듈

쿼리 메모리 메커니즘:

$N \times K$ 메모리 큐 유지(N 프레임, 프레임당 K개 객체)
FIFO 원칙으로 업데이트, 일정한 메모리 소비 유지

시간 디코더(4층): 프레임 간 주의를 통해 과거 정보 집계: $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

여기서 $\tau_h$ 는 시간 윈도우 크기, $\text{Pos}$ 는 시간 위치를 인코딩한다.

객체 디코더(4층): 객체 간 주의를 통해 공간 상호작용 모델링: $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

궤적 정제: MLP를 사용하여 잔차 조정 예측: $B_t = B_t + \text{MLP}(Q^S_t)$

여기서 $Q^S_t$ 는 시공간 증강을 거친 쿼리 특징이다.

기술 혁신점

조기 크로스모달 융합: MDETR의 밀집 연결과 비교하여 효율적인 주의 가중치 전략을 채택하여 계산 복잡도 감소
이중 쿼리 분리 설계:
- 추적 쿼리는 과거 정보를 상속하여 ID 일관성 보장
- 검출 쿼리는 새 객체 처리로 유연성 향상
쿼리 기반 시간 모델링:
- 원본 특징 대신 컴팩트한 쿼리 표현을 사용하여 시간 집계
- 시간 및 공간 차원의 주의 메커니즘 분리
- 장기 의존성 지원(최대 8 프레임 과거)
엔드-투-엔드 미분 가능: NMS 등 후처리 불필요, 최종 결과 직접 출력

실험 설정

데이터셋

Refer-KITTI:

18개 비디오, 895개 표현식
훈련 세트: 15개 비디오/660개 표현식
테스트 세트: 3개 비디오/158개 표현식

Refer-KITTI-V2:

21개 비디오, 9,758개 표현식
훈련 세트: 17개 비디오/8,873개 표현식
테스트 세트: 4개 비디오/897개 표현식
특징: 7,193개의 고유 표현식, 617개의 서로 다른 어휘, 암묵적 표현식 포함

KITTI: 일반 MOT 능력 평가에 사용

데이터셋 구축 프로세스

1단계: 언어 항목 수집

기본 속성 주석: 클래스(자동차/사람), 색상(검은색/빨간색), 위치(왼쪽/오른쪽), 동작(이동/회전)
KITTI의 인스턴스 ID를 활용한 자동 전파 주석

2단계: 표현식 생성

사전 정의된 템플릿을 사용하여 언어 항목 조합
예: "{color}-{action}-cars" → "black turning cars"
AND 연산을 통해 경계 상자 연관

3단계: 표현식 확장

GPT-3.5를 사용하여 각 표현식에 대해 4개의 의미론적 동등 표현 생성
2단계 검증: LLM 검증 + 인적 검토
2,719개에서 9,758개로 확장

평가 지표

HOTA (Higher Order Tracking Accuracy): $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (Detection Accuracy): 프레임 수준 검출 IoU 점수
AssA (Association Accuracy): 시간 연관 IoU 점수
기타 지표: DetRe, DetPr, AssRe, AssPr, LocA

비교 방법

2단계 방법:

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

단일 단계 방법:

EchoTrack, DeepRMOT
TransRMOT (이전 작업)
MLS-Track

구현 세부사항

주간선 네트워크: ResNet-50 (시각) + RoBERTa (텍스트)
최적화기: Adam, 학습률 1e-5 (주간선 1e-5)
훈련: 60 에포크, 배치 크기=1, 4×RTX 4090
데이터 증강: 무작위 자르기, 다중 스케일(800-1536)
메모리 길이: Refer-KITTI N=4, Refer-KITTI-V2 N=5
추론 임계값: 분류 0.6, 지칭 0.4
손실 가중치: $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

실험 결과

주요 결과

Refer-KITTI 성능:

방법	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48.84	35.74	66.80	51.97	52.25
TransRMOT	✓	46.56	37.97	57.33	49.69	60.10
MLS-Track	✓	49.05	40.03	60.25	59.07	54.18
TempRMOT	✓	52.21	40.95	66.75	55.65	59.25

MLS-Track 대비 3.16% HOTA 향상
엔드-투-엔드 방법 중 전반적으로 우수

Refer-KITTI-V2 성능:

방법	HOTA	DetA	AssA
iKUN	10.32	2.17	49.77
TransRMOT	31.00	19.40	49.68
TempRMOT	35.04	22.97	53.58

TransRMOT 대비 4.04% HOTA 향상
더 복잡한 언어 장면에서의 효과성 검증

KITTI 성능:

방법	HOTA	AssA
TransRMOT	61.52	66.51
TempRMOT	63.47	72.04

AssA 5.53% 향상, 시간 모델링의 효과성 증명

제거 실험

모듈 효과성(Refer-KITTI-V2):

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31.00	19.40	49.68
✓	✗	34.46	22.73	52.37
✓	✓	35.04	22.97	53.58

시간 증강 모듈이 최대 기여(+3.46% HOTA)
궤적 정제가 성능을 추가로 향상(+0.58% HOTA)

훈련 시 메모리 길이:

$N_t$	HOTA	DetA	AssA
3	33.64	21.96	51.66
4	34.41	22.43	52.90
5	34.72	22.59	53.49

더 긴 과거 컨텍스트가 지속적인 향상을 가져옴

추론 시 메모리 길이:

$N_i$	HOTA	DetA	AssA
5	34.72	22.59	53.49
6	34.78	22.73	53.32
8	35.04	22.97	53.58

추론 시 더 긴 메모리 사용으로 추가 성능 향상 가능
시간 모듈의 일반화 능력 입증

사례 분석

운동 이해 능력:

지시문 "left cars which are parking": TempRMOT는 정지 차량을 올바르게 식별하고, TransRMOT는 보행자를 주차 중인 것으로 잘못 표시
지시문 "right persons who are walking": TempRMOT는 운동 상태를 정확히 이해

견고한 추적 능력:

지시문 "cars in front of ours": TransRMOT는 ID 전환 및 추적 손실 발생, TempRMOT는 일관된 ID 연관 유지

복잡한 의미 이해:

암묵적 표현식 처리 "the ego car is positioned after the black cars"
부정 설명 이해 "pedestrians lacking hair"
다중 속성 조합 "the men are on the right side and they have t-shirts on"

실험 발견

시간 모델링의 중요성: AssA 지표의 현저한 향상(+5.53%)은 장기 시간 의존성이 추적 품질에 중요함을 증명
엔드-투-엔드 장점: 단일 단계 방법이 전반적으로 2단계 방법보다 우수하며, 결합 최적화가 더 효과적
언어 복잡도 영향: Refer-KITTI-V2에서의 성능 저하는 더 풍부한 의미가 가져오는 도전을 반영
메모리 메커니즘의 일반화성: 추론 시 훈련보다 더 긴 과거 윈도우 사용 가능
쿼리 표현의 효율성: 원본 특징 대비 쿼리 표현이 더 컴팩트하면서도 핵심 정보 보존

데이터셋	비디오	어휘	표현식	고유 표현식	암묵적 표현식
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

결론 및 논의

주요 결론

RMOT 작업이 더 범용적: 단일 객체 제한을 극복하고 시간 동역학을 고려하여 현실 요구에 더 부합
Refer-KITTI-V2 품질 우수: 반자동 프로세스와 LLM을 통해 규모와 다양성의 균형 달성
TempRMOT 효과적: 시간 증강 모듈이 성능을 현저히 향상시키며, 두 벤치마크 모두에서 SOTA 달성
장기 의존성 핵심: 시공간 상호작용의 명시적 모델링이 정확한 추적과 의미 정렬에 중요

한계

데이터셋 규모: 표현식은 풍부하지만 비디오 수(21개)는 상대적으로 제한적이며 장면 다양성 부족
계산 복잡도: 쿼리 표현으로 오버헤드를 줄였지만 다중 프레임 메모리는 여전히 추가 계산 필요
언어 이해 깊이: 극도로 복잡한 논리 추론(예: 다중 부정, 복잡한 인과관계)에는 여전히 도전 과제
폐색 처리: 심각한 폐색 장면의 처리 전략이 상세히 논의되지 않음
실시간성: FPS 등 실시간 성능 지표가 보고되지 않아 실제 배포 가능성 불명확
일반화 능력: KITTI 장면(운전 장면)에서만 검증되었으며 다른 영역(보행자, 스포츠 등)의 일반화 미지수

향후 방향

더 많은 장면으로 확장: 다양한 영역을 포괄하는 RMOT 데이터셋 구축
실시간성 향상: 모델 구조 최적화로 실시간 추적 실현
언어 이해 강화: 더 강력한 언어 모델(GPT-4 등) 도입
3D 확장: 포인트 클라우드 데이터 결합, 3D RMOT로 확장
상호작용형 추적: 사용자 실시간 수정 및 피드백 지원

심층 평가

장점

1. 작업 정의의 선견지명

RMOT 작업은 다중객체 + 시간 동역학의 공백을 채움
시간적 일관성 모델링(예: "회전 중인" 순간적 상태)이 매우 실용적
언어 유도 자율주행을 위한 새로운 패러다임 제공

2. 데이터셋 구축의 과학성과 효율성

3단계 반자동 프로세스가 품질과 효율성 균형
LLM 보조 생성으로 다양성 대폭 향상(7,193개 고유 표현식)
암묵적 표현식 도입으로 도전성과 현실성 증가

3. 방법 설계의 합리성

조기 융합 전략으로 계산 복잡도 감소
이중 쿼리 분리 설계로 과거 연관과 신규 검출 동시 처리
시공간 분리 주의 메커니즘이 명확하고 효과적

4. 충분한 실험

3개 데이터셋에서 검증
상세한 제거 실험으로 각 모듈 기여도 정량화
풍부한 시각화 사례로 모델 능력 입증

5. 명확한 작문

논리 엄밀, 동기에서 방법에서 실험으로 단계적 진행
그래프 풍부(10개 그림, 5개 표), 정보 밀도 높음
기술 세부사항 완전하여 재현 가능성 높음

부족한 점

1. 데이터셋 한계

비디오 수 적음(21개), 장면 단일(운전만)
표현식은 많지만 제한된 언어 항목 조합 기반으로 심층 의미 다양성 부족
극한 날씨, 야간 등 도전적 장면 부재

2. 방법 한계

메모리 길이 고정(N=5), 자동 조정 불가
표현식 모호성 미처리(예: 다양한 시각에서 "왼쪽 자동차"의 모호성)
불확실성 추정 부재, 예측 신뢰도 정량화 불가

3. 실험 부족

추론 속도(FPS) 미보고, 실시간성 불명
크로스 데이터셋 일반화 실험 부재(예: Refer-Dance에서 테스트)
최신 시각-언어 모델(CLIP, BLIP-2 등)과의 비교 부재
오류 분석 부족, 주요 실패 패턴 통계 미제시

4. 이론 분석 부재

시간 모델링이 효과적인 이유를 이론적으로 설명하지 않음
주의 가중치의 시각화 분석 부재
모델의 학습 동역학과 수렴성 미논의

5. 사회적 영향 논의 부족

개인정보 보호 문제 미논의(보행자 추적의 윤리 문제)
잠재적 편견 분석 부재(특정 인구 집단의 인식 편차)

영향력

분야에 대한 기여:

작업 수준: RMOT 작업이 비디오 이해의 중요 방향이 될 것으로 예상되며 이미 다수의 후속 작업이 인용
데이터 수준: Refer-KITTI-V2가 커뮤니티에 고품질 벤치마크 제공, 코드와 데이터 공개로 연구 촉진
방법 수준: 시간 증강 모듈 설계 사상이 다른 비디오 작업으로 이전 가능

실용적 가치:

자율주행: 언어 지시 차량 제어 지원("앞의 빨간 자동차를 따라가")
지능형 감시: 설명 기반 다중객체 검색("빨간 옷을 입은 보행자")
인간-기계 상호작용: 자연언어 유도 비디오 편집

재현 가능성:

코드와 데이터셋 공개(https://github.com/zyn213/TempRMOT)
구현 세부사항 완전(하이퍼파라미터, 훈련 전략 등)
성숙한 프레임워크(Deformable DETR) 기반으로 재현 용이

예상 영향:

단기(1-2년): 더 많은 RMOT 데이터셋과 방법 촉발
중기(3-5년): 대규모 언어 모델과 결합으로 더 강력한 의미 이해 실현
장기(5년 이상): 다중모달 자율주행 시스템의 표준 구성 요소가 될 것으로 예상

적용 가능 장면

가장 적합한 장면:

자율주행: 언어 지시 유도 차량 추적 및 경로 계획
지능형 교통: 설명 기반 교통 참여자 검출("불법 주차 차량")
비디오 감시: 자연언어 쿼리 기반 목표 검색
로봇 네비게이션: 언어 유도 목표 추종

부적합한 장면:

고속 장면: 현재 방법이 실시간성 요구를 충족하지 못할 수 있음
극한 폐색: 심각한 폐색 하에서의 추적이 여전히 도전 과제
개방형 장면: 훈련 데이터가 운전 장면으로 제한되어 다른 영역의 일반화 미지수
세밀한 설명: 극도로 세밀한 외모 설명(예: "파란색 줄무늬 셔츠를 입은 사람")에 대해 능력 부족 가능

개선 제안:

더 많은 장면으로 확장(실내, 스포츠, 사회 활동)
모델 최적화로 실시간성 향상
능동 학습 도입으로 새 장면의 소수 샘플 적응 지원

참고 문헌

핵심 인용

RMOT 관련:

Wu et al. (2023) - TransRMOT: 첫 번째 RMOT 방법 및 Refer-KITTI 데이터셋
Du et al. (2024) - iKUN: 재훈련 불필요 추적기
Ma et al. (2024) - MLS-Track: 다층 의미 상호작용

Transformer 추적: 4. Zeng et al. (2022) - MOTR: 엔드-투-엔드 다중객체 추적 5. Zhu et al. (2020) - Deformable DETR: 변형 가능 주의 6. Gao & Wang (2023) - MeMOTR: 장기 메모리 강화 추적

지칭 이해: 7. Yu et al. (2016) - RefCOCO 시리즈 데이터셋 8. Kamath et al. (2021) - MDETR: 다중모달 검출

평가 지표: 9. Luiten et al. (2020) - HOTA: 고차 추적 정확도

종합 평가: 이는 작업 정의, 데이터셋 구축, 방법 설계 모든 측면에서 실질적 혁신을 이룬 고품질 컴퓨터 비전 논문이다. RMOT 작업은 중요한 이론적 의의와 응용 가치를 가지며, Refer-KITTI-V2는 커뮤니티에 귀중한 자산을 제공하고, TempRMOT 프레임워크는 합리적 설계와 효과적 성능을 보여준다. 주요 부족점은 장면의 제한성과 실시간성 미지수이다. 향후 작업에서 더 많은 영역으로 확장하고 더 심층적인 이론 분석을 수행할 것을 권장한다. 본 논문은 언어 유도 비디오 이해 분야의 중요한 참고 문헌이 될 것으로 예상된다.