2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.
Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
academic

부트스트래핑 지칭 다중객체 추적

기본 정보

  • 논문 ID: 2406.05039
  • 제목: 포괄적 동적 표현을 이용한 지칭 다중객체 추적
  • 저자: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
  • 분류: cs.CV cs.CL
  • 발표 시간: 2025년 10월 27일 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2406.05039
  • 코드 및 데이터셋: https://github.com/zyn213/TempRMOT

초록

본 논문은 자연언어 표현식을 의미론적 단서로 활용하여 다중객체 추적을 유도하는 새로운 비디오 이해 작업인 지칭 다중객체 추적(Referring Multi-Object Tracking, RMOT)을 제안한다. 목표 수의 변화와 시간적 의미를 포괄적으로 고려한다. 본 논문은 9,758개의 다양한 언어 표현식을 포함하는 Refer-KITTI-V2 벤치마크 데이터셋을 구축하고, 쿼리 기반 시간 증강 모듈을 통해 장기 시공간 상호작용을 실현하는 TempRMOT 프레임워크를 제안한다. TempRMOT는 Refer-KITTI와 Refer-KITTI-V2 모두에서 최고 성능을 달성한다.

연구 배경 및 동기

해결해야 할 문제

기존의 지칭 이해(Referring Understanding) 작업에는 두 가지 핵심 한계가 있다:

  1. 단일 객체 제한: 기존 데이터셋(RefCOCO 시리즈, Refer-DAVIS17 등)은 각 표현식에 대해 단일 객체만 주석을 달지만, 실제 장면에서는 하나의 표현식이 여러 개, 한 개 또는 0개의 객체를 지칭할 수 있다
  2. 시간적 일관성 부재: 기존 방법은 언어 표현식과 객체 진화 상태 간의 시간적 일관성을 모델링할 수 없다. 예를 들어, "회전 중인 자동차"라는 표현식은 순간적 상태를 설명하지만, 주석은 회전 동작이 완료된 후에도 해당 객체를 계속 추적한다

문제의 중요성

  • 언어 유도 비디오 이해는 자연언어와 시각 콘텐츠를 연결하는 핵심 작업이다
  • 자율주행 등 실제 응용에서는 자연언어 지시를 통해 여러 동적 객체를 동시에 추적해야 한다
  • 시간적 동역학을 정확히 모델링하는 것은 운동 관련 의미를 이해하는 데 필수적이다

기존 방법의 한계

  1. 데이터셋 수준:
    • 수작업 주석과 고정 템플릿 결합으로 언어 다양성이 제한됨
    • 의미론적 중복이 심함(예: Refer-Dance는 48개의 고유 표현식만 보유)
    • 암묵적 표현식과 복잡한 의미(예: 부정 설명)가 부족함
  2. 방법 수준:
    • 2단계 방법은 복잡도가 높고 계산 오버헤드가 큼
    • 단일 단계 방법은 주로 인접 프레임에 집중하여 장기 시간 모델링 능력이 부족함

핵심 기여

  1. RMOT 새로운 작업 제안: 지칭 이해를 다중객체 동적 장면으로 체계적으로 확장하고 시간 상태 변화를 고려함
  2. Refer-KITTI-V2 데이터셋 구축:
    • 9,758개의 표현식, 7,193개의 고유 표현식, 617개의 서로 다른 어휘 포함
    • 3단계 반자동 주석 프로세스 설계, LLM을 활용한 다양한 표현식 생성
    • 암묵적 표현식 포함(예: "자차가 검은 자동차 뒤에 위치함")
  3. TempRMOT 프레임워크 제안:
    • 후처리가 필요 없는 엔드-투-엔드 Transformer 아키텍처
    • 쿼리 기반 시간 증강 모듈로 장기 시공간 상호작용 실현
    • 추적 쿼리와 검출 쿼리를 분리하여 가변 수의 객체 처리
  4. SOTA 성능 달성:
    • Refer-KITTI-V2에서 이전 작업 대비 약 4% HOTA 향상
    • Refer-KITTI에서 52.21% HOTA 달성
  5. 효율적인 주석 프로세스 설계: 3단계 반자동 주석 방법으로 인적 비용 대폭 감소

방법 상세 설명

작업 정의

입력: 비디오 시퀀스(T 프레임) + 자연언어 표현식 출력: 각 프레임에서 표현식 설명과 일치하는 모든 객체의 경계 상자 및 ID 제약 조건:

  • 객체 수 가변(0개 이상)
  • 객체가 표현식 설명을 만족하는 시간 구간에서만 주석 달기
  • 시간적 일관성이 있는 ID 연관성 유지

모델 아키텍처

TempRMOT는 두 개의 핵심 구성 요소로 이루어진다:

1. Transformer 기반 RMOT 모듈

특징 추출기:

  • 시각 인코딩: CNN 주간선 네트워크가 다중 스케일 특징 추출 ItlRCl×Hl×WlI^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}
  • 언어 인코딩: RoBERTa가 텍스트를 단어 임베딩으로 인코딩 SRL×DS \in \mathbb{R}^{L \times D}

크로스모달 인코더(조기 융합 전략): Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSQ = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vSI^tl=QKTdV+Itl\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t

여기서 PVP_VPLP_L은 각각 시각 및 언어의 위치 인코딩이다. 융합 후 변형 가능한 인코더 레이어를 통과: Etl=DeformEnc(I^tl)E^l_t = \text{DeformEnc}(\hat{I}^l_t)

디코더(이중 쿼리 메커니즘):

  • 추적 쿼리 QttraQ^{tra}_t: 이전 프레임의 디코더 임베딩 Dt1D_{t-1}에서 변환되어 추적된 인스턴스 연관에 사용
  • 검출 쿼리 QdetQ^{det}: 무작위 초기화되어 새로 나타난 객체 검출에 사용

Qt=Decoder(Etl,concat(Qdet,Qttra))Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))

지칭 헤드: 3개 분기 포함

  • 분류 분기: 이진 분류(실제 객체/빈 객체)
  • 경계 상자 분기: 3층 FFN 좌표 회귀
  • 지칭 분기: 표현식과의 일치 확률 출력

2. 시간 증강 모듈

쿼리 메모리 메커니즘:

  • N×KN \times K 메모리 큐 유지(N 프레임, 프레임당 K개 객체)
  • FIFO 원칙으로 업데이트, 일정한 메모리 소비 유지

시간 디코더(4층): 프레임 간 주의를 통해 과거 정보 집계: Qt=CrossFrameAttn(Q=Qt,K=Qtτh:t,V=Qtτh:t,PE=Pos(tτh:t))Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))

여기서 τh\tau_h는 시간 윈도우 크기, Pos\text{Pos}는 시간 위치를 인코딩한다.

객체 디코더(4층): 객체 간 주의를 통해 공간 상호작용 모델링: Qt=CrossObjectAttn(Q,K,V=Qt,PE=Pos(O1:Nt))Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))

궤적 정제: MLP를 사용하여 잔차 조정 예측: Bt=Bt+MLP(QtS)B_t = B_t + \text{MLP}(Q^S_t)

여기서 QtSQ^S_t는 시공간 증강을 거친 쿼리 특징이다.

기술 혁신점

  1. 조기 크로스모달 융합: MDETR의 밀집 연결과 비교하여 효율적인 주의 가중치 전략을 채택하여 계산 복잡도 감소
  2. 이중 쿼리 분리 설계:
    • 추적 쿼리는 과거 정보를 상속하여 ID 일관성 보장
    • 검출 쿼리는 새 객체 처리로 유연성 향상
  3. 쿼리 기반 시간 모델링:
    • 원본 특징 대신 컴팩트한 쿼리 표현을 사용하여 시간 집계
    • 시간 및 공간 차원의 주의 메커니즘 분리
    • 장기 의존성 지원(최대 8 프레임 과거)
  4. 엔드-투-엔드 미분 가능: NMS 등 후처리 불필요, 최종 결과 직접 출력

실험 설정

데이터셋

Refer-KITTI:

  • 18개 비디오, 895개 표현식
  • 훈련 세트: 15개 비디오/660개 표현식
  • 테스트 세트: 3개 비디오/158개 표현식

Refer-KITTI-V2:

  • 21개 비디오, 9,758개 표현식
  • 훈련 세트: 17개 비디오/8,873개 표현식
  • 테스트 세트: 4개 비디오/897개 표현식
  • 특징: 7,193개의 고유 표현식, 617개의 서로 다른 어휘, 암묵적 표현식 포함

KITTI: 일반 MOT 능력 평가에 사용

데이터셋 구축 프로세스

1단계: 언어 항목 수집

  • 기본 속성 주석: 클래스(자동차/사람), 색상(검은색/빨간색), 위치(왼쪽/오른쪽), 동작(이동/회전)
  • KITTI의 인스턴스 ID를 활용한 자동 전파 주석

2단계: 표현식 생성

  • 사전 정의된 템플릿을 사용하여 언어 항목 조합
  • 예: "{color}-{action}-cars" → "black turning cars"
  • AND 연산을 통해 경계 상자 연관

3단계: 표현식 확장

  • GPT-3.5를 사용하여 각 표현식에 대해 4개의 의미론적 동등 표현 생성
  • 2단계 검증: LLM 검증 + 인적 검토
  • 2,719개에서 9,758개로 확장

평가 지표

HOTA (Higher Order Tracking Accuracy): HOTA=DetAAssA\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}

  • DetA (Detection Accuracy): 프레임 수준 검출 IoU 점수
  • AssA (Association Accuracy): 시간 연관 IoU 점수
  • 기타 지표: DetRe, DetPr, AssRe, AssPr, LocA

비교 방법

2단계 방법:

  • FairMOT, DeepSORT, ByteTrack, CStrack
  • TransTrack, TrackFormer
  • iKUN

단일 단계 방법:

  • EchoTrack, DeepRMOT
  • TransRMOT (이전 작업)
  • MLS-Track

구현 세부사항

  • 주간선 네트워크: ResNet-50 (시각) + RoBERTa (텍스트)
  • 최적화기: Adam, 학습률 1e-5 (주간선 1e-5)
  • 훈련: 60 에포크, 배치 크기=1, 4×RTX 4090
  • 데이터 증강: 무작위 자르기, 다중 스케일(800-1536)
  • 메모리 길이: Refer-KITTI N=4, Refer-KITTI-V2 N=5
  • 추론 임계값: 분류 0.6, 지칭 0.4
  • 손실 가중치: λclsD=5,λL1D=2,λgiouD=2,λrefD=2\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2

실험 결과

주요 결과

Refer-KITTI 성능:

방법E2EHOTADetAAssADetReDetPr
iKUN48.8435.7466.8051.9752.25
TransRMOT46.5637.9757.3349.6960.10
MLS-Track49.0540.0360.2559.0754.18
TempRMOT52.2140.9566.7555.6559.25
  • MLS-Track 대비 3.16% HOTA 향상
  • 엔드-투-엔드 방법 중 전반적으로 우수

Refer-KITTI-V2 성능:

방법HOTADetAAssA
iKUN10.322.1749.77
TransRMOT31.0019.4049.68
TempRMOT35.0422.9753.58
  • TransRMOT 대비 4.04% HOTA 향상
  • 더 복잡한 언어 장면에서의 효과성 검증

KITTI 성능:

방법HOTAAssA
TransRMOT61.5266.51
TempRMOT63.4772.04
  • AssA 5.53% 향상, 시간 모델링의 효과성 증명

제거 실험

모듈 효과성(Refer-KITTI-V2):

Temp.RefineHOTADetAAssA
31.0019.4049.68
34.4622.7352.37
35.0422.9753.58
  • 시간 증강 모듈이 최대 기여(+3.46% HOTA)
  • 궤적 정제가 성능을 추가로 향상(+0.58% HOTA)

훈련 시 메모리 길이:

NtN_tHOTADetAAssA
333.6421.9651.66
434.4122.4352.90
534.7222.5953.49
  • 더 긴 과거 컨텍스트가 지속적인 향상을 가져옴

추론 시 메모리 길이:

NiN_iHOTADetAAssA
534.7222.5953.49
634.7822.7353.32
835.0422.9753.58
  • 추론 시 더 긴 메모리 사용으로 추가 성능 향상 가능
  • 시간 모듈의 일반화 능력 입증

사례 분석

운동 이해 능력:

  • 지시문 "left cars which are parking": TempRMOT는 정지 차량을 올바르게 식별하고, TransRMOT는 보행자를 주차 중인 것으로 잘못 표시
  • 지시문 "right persons who are walking": TempRMOT는 운동 상태를 정확히 이해

견고한 추적 능력:

  • 지시문 "cars in front of ours": TransRMOT는 ID 전환 및 추적 손실 발생, TempRMOT는 일관된 ID 연관 유지

복잡한 의미 이해:

  • 암묵적 표현식 처리 "the ego car is positioned after the black cars"
  • 부정 설명 이해 "pedestrians lacking hair"
  • 다중 속성 조합 "the men are on the right side and they have t-shirts on"

실험 발견

  1. 시간 모델링의 중요성: AssA 지표의 현저한 향상(+5.53%)은 장기 시간 의존성이 추적 품질에 중요함을 증명
  2. 엔드-투-엔드 장점: 단일 단계 방법이 전반적으로 2단계 방법보다 우수하며, 결합 최적화가 더 효과적
  3. 언어 복잡도 영향: Refer-KITTI-V2에서의 성능 저하는 더 풍부한 의미가 가져오는 도전을 반영
  4. 메모리 메커니즘의 일반화성: 추론 시 훈련보다 더 긴 과거 윈도우 사용 가능
  5. 쿼리 표현의 효율성: 원본 특징 대비 쿼리 표현이 더 컴팩트하면서도 핵심 정보 보존

관련 작업

RMOT 벤치마크 데이터셋

기존 데이터셋의 한계:

  • RefCOCO 시리즈: 이미지만, 단일 객체
  • Talk2Car, VID-Sentence: 비디오이지만 단일 객체
  • Refer-DAVIS17, Refer-YV: 픽셀 수준 분할, 단일 객체

RMOT 데이터셋 비교:

데이터셋비디오어휘표현식고유 표현식암묵적 표현식
Refer-KITTI1849895215
GroOT*1426015471161
Refer-Dance6525198548
Refer-KITTI-V22161797587193

RMOT 방법

2단계 방법:

  • 먼저 궤적을 추출한 후 표현식과 일치
  • 장점: 세밀한 처리
  • 단점: 복잡도 높음, 계산 오버헤드 큼

단일 단계 방법:

  • 엔드-투-엔드 Transformer 프레임워크
  • TransRMOT: 첫 번째 RMOT 모델
  • 한계: 주로 인접 프레임에 집중, 장기 모델링 부족

쿼리 기반 시간 모델링

관련 작업:

  • MeMOT: 과거 쿼리를 저장하는 메모리 모듈
  • MeMOTR: 시간 컨텍스트 강화 추적 쿼리
  • BEVFormer: BEV 표현의 시공간 Transformer

본 논문의 혁신:

  • 언어 조건 비디오 이해에 집중
  • 시간 및 공간 주의 분리
  • 현재 프레임 공간 특징의 결합 추론

결론 및 논의

주요 결론

  1. RMOT 작업이 더 범용적: 단일 객체 제한을 극복하고 시간 동역학을 고려하여 현실 요구에 더 부합
  2. Refer-KITTI-V2 품질 우수: 반자동 프로세스와 LLM을 통해 규모와 다양성의 균형 달성
  3. TempRMOT 효과적: 시간 증강 모듈이 성능을 현저히 향상시키며, 두 벤치마크 모두에서 SOTA 달성
  4. 장기 의존성 핵심: 시공간 상호작용의 명시적 모델링이 정확한 추적과 의미 정렬에 중요

한계

  1. 데이터셋 규모: 표현식은 풍부하지만 비디오 수(21개)는 상대적으로 제한적이며 장면 다양성 부족
  2. 계산 복잡도: 쿼리 표현으로 오버헤드를 줄였지만 다중 프레임 메모리는 여전히 추가 계산 필요
  3. 언어 이해 깊이: 극도로 복잡한 논리 추론(예: 다중 부정, 복잡한 인과관계)에는 여전히 도전 과제
  4. 폐색 처리: 심각한 폐색 장면의 처리 전략이 상세히 논의되지 않음
  5. 실시간성: FPS 등 실시간 성능 지표가 보고되지 않아 실제 배포 가능성 불명확
  6. 일반화 능력: KITTI 장면(운전 장면)에서만 검증되었으며 다른 영역(보행자, 스포츠 등)의 일반화 미지수

향후 방향

  1. 더 많은 장면으로 확장: 다양한 영역을 포괄하는 RMOT 데이터셋 구축
  2. 실시간성 향상: 모델 구조 최적화로 실시간 추적 실현
  3. 언어 이해 강화: 더 강력한 언어 모델(GPT-4 등) 도입
  4. 3D 확장: 포인트 클라우드 데이터 결합, 3D RMOT로 확장
  5. 상호작용형 추적: 사용자 실시간 수정 및 피드백 지원

심층 평가

장점

1. 작업 정의의 선견지명

  • RMOT 작업은 다중객체 + 시간 동역학의 공백을 채움
  • 시간적 일관성 모델링(예: "회전 중인" 순간적 상태)이 매우 실용적
  • 언어 유도 자율주행을 위한 새로운 패러다임 제공

2. 데이터셋 구축의 과학성과 효율성

  • 3단계 반자동 프로세스가 품질과 효율성 균형
  • LLM 보조 생성으로 다양성 대폭 향상(7,193개 고유 표현식)
  • 암묵적 표현식 도입으로 도전성과 현실성 증가

3. 방법 설계의 합리성

  • 조기 융합 전략으로 계산 복잡도 감소
  • 이중 쿼리 분리 설계로 과거 연관과 신규 검출 동시 처리
  • 시공간 분리 주의 메커니즘이 명확하고 효과적

4. 충분한 실험

  • 3개 데이터셋에서 검증
  • 상세한 제거 실험으로 각 모듈 기여도 정량화
  • 풍부한 시각화 사례로 모델 능력 입증

5. 명확한 작문

  • 논리 엄밀, 동기에서 방법에서 실험으로 단계적 진행
  • 그래프 풍부(10개 그림, 5개 표), 정보 밀도 높음
  • 기술 세부사항 완전하여 재현 가능성 높음

부족한 점

1. 데이터셋 한계

  • 비디오 수 적음(21개), 장면 단일(운전만)
  • 표현식은 많지만 제한된 언어 항목 조합 기반으로 심층 의미 다양성 부족
  • 극한 날씨, 야간 등 도전적 장면 부재

2. 방법 한계

  • 메모리 길이 고정(N=5), 자동 조정 불가
  • 표현식 모호성 미처리(예: 다양한 시각에서 "왼쪽 자동차"의 모호성)
  • 불확실성 추정 부재, 예측 신뢰도 정량화 불가

3. 실험 부족

  • 추론 속도(FPS) 미보고, 실시간성 불명
  • 크로스 데이터셋 일반화 실험 부재(예: Refer-Dance에서 테스트)
  • 최신 시각-언어 모델(CLIP, BLIP-2 등)과의 비교 부재
  • 오류 분석 부족, 주요 실패 패턴 통계 미제시

4. 이론 분석 부재

  • 시간 모델링이 효과적인 이유를 이론적으로 설명하지 않음
  • 주의 가중치의 시각화 분석 부재
  • 모델의 학습 동역학과 수렴성 미논의

5. 사회적 영향 논의 부족

  • 개인정보 보호 문제 미논의(보행자 추적의 윤리 문제)
  • 잠재적 편견 분석 부재(특정 인구 집단의 인식 편차)

영향력

분야에 대한 기여:

  • 작업 수준: RMOT 작업이 비디오 이해의 중요 방향이 될 것으로 예상되며 이미 다수의 후속 작업이 인용
  • 데이터 수준: Refer-KITTI-V2가 커뮤니티에 고품질 벤치마크 제공, 코드와 데이터 공개로 연구 촉진
  • 방법 수준: 시간 증강 모듈 설계 사상이 다른 비디오 작업으로 이전 가능

실용적 가치:

  • 자율주행: 언어 지시 차량 제어 지원("앞의 빨간 자동차를 따라가")
  • 지능형 감시: 설명 기반 다중객체 검색("빨간 옷을 입은 보행자")
  • 인간-기계 상호작용: 자연언어 유도 비디오 편집

재현 가능성:

  • 코드와 데이터셋 공개(https://github.com/zyn213/TempRMOT)
  • 구현 세부사항 완전(하이퍼파라미터, 훈련 전략 등)
  • 성숙한 프레임워크(Deformable DETR) 기반으로 재현 용이

예상 영향:

  • 단기(1-2년): 더 많은 RMOT 데이터셋과 방법 촉발
  • 중기(3-5년): 대규모 언어 모델과 결합으로 더 강력한 의미 이해 실현
  • 장기(5년 이상): 다중모달 자율주행 시스템의 표준 구성 요소가 될 것으로 예상

적용 가능 장면

가장 적합한 장면:

  1. 자율주행: 언어 지시 유도 차량 추적 및 경로 계획
  2. 지능형 교통: 설명 기반 교통 참여자 검출("불법 주차 차량")
  3. 비디오 감시: 자연언어 쿼리 기반 목표 검색
  4. 로봇 네비게이션: 언어 유도 목표 추종

부적합한 장면:

  1. 고속 장면: 현재 방법이 실시간성 요구를 충족하지 못할 수 있음
  2. 극한 폐색: 심각한 폐색 하에서의 추적이 여전히 도전 과제
  3. 개방형 장면: 훈련 데이터가 운전 장면으로 제한되어 다른 영역의 일반화 미지수
  4. 세밀한 설명: 극도로 세밀한 외모 설명(예: "파란색 줄무늬 셔츠를 입은 사람")에 대해 능력 부족 가능

개선 제안:

  • 더 많은 장면으로 확장(실내, 스포츠, 사회 활동)
  • 모델 최적화로 실시간성 향상
  • 능동 학습 도입으로 새 장면의 소수 샘플 적응 지원

참고 문헌

핵심 인용

RMOT 관련:

  1. Wu et al. (2023) - TransRMOT: 첫 번째 RMOT 방법 및 Refer-KITTI 데이터셋
  2. Du et al. (2024) - iKUN: 재훈련 불필요 추적기
  3. Ma et al. (2024) - MLS-Track: 다층 의미 상호작용

Transformer 추적: 4. Zeng et al. (2022) - MOTR: 엔드-투-엔드 다중객체 추적 5. Zhu et al. (2020) - Deformable DETR: 변형 가능 주의 6. Gao & Wang (2023) - MeMOTR: 장기 메모리 강화 추적

지칭 이해: 7. Yu et al. (2016) - RefCOCO 시리즈 데이터셋 8. Kamath et al. (2021) - MDETR: 다중모달 검출

평가 지표: 9. Luiten et al. (2020) - HOTA: 고차 추적 정확도


종합 평가: 이는 작업 정의, 데이터셋 구축, 방법 설계 모든 측면에서 실질적 혁신을 이룬 고품질 컴퓨터 비전 논문이다. RMOT 작업은 중요한 이론적 의의와 응용 가치를 가지며, Refer-KITTI-V2는 커뮤니티에 귀중한 자산을 제공하고, TempRMOT 프레임워크는 합리적 설계와 효과적 성능을 보여준다. 주요 부족점은 장면의 제한성과 실시간성 미지수이다. 향후 작업에서 더 많은 영역으로 확장하고 더 심층적인 이론 분석을 수행할 것을 권장한다. 본 논문은 언어 유도 비디오 이해 분야의 중요한 참고 문헌이 될 것으로 예상된다.