2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

적을수록 좋다: 객체 추적을 위한 토큰 컨텍스트 인식 학습

기본 정보

논문 ID: 2501.00758
제목: Less is More: Token Context-aware Learning for Object Tracking
저자: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
분류: cs.CV (컴퓨터 비전)
발표 시간/학회: AAAI 2025
논문 링크: https://arxiv.org/abs/2501.00758
코드 링크: https://github.com/XuChenLong/LMTrack

초록

본 논문은 토큰 컨텍스트 인식 기반의 새로운 객체 추적 방법인 LMTrack을 제안한다. 기존의 컨텍스트 인식 추적 방법은 일반적으로 다중 프레임 정보를 통해 컨텍스트를 포착하지만, 이러한 단순한 프레임 수준 컨텍스트 방법은 참조 프레임 내 각 패치의 중요도 차이를 무시하며 노이즈와 중복 토큰의 영향을 받기 쉽다. LMTrack은 "적을수록 좋다"는 원칙을 따르며, 모든 참조 토큰의 중요도 분포를 분석하여 중요 토큰을 수집, 지속적으로 주목하고 업데이트한다. 본 방법은 Token Context Memory (TCM) 모듈과 단방향 토큰 주의 메커니즘이라는 두 가지 핵심 구성 요소를 포함하며, 여러 추적 벤치마크에서 최첨단 성능을 달성했다.

연구 배경 및 동기

문제 정의

객체 추적 작업은 초기 위치를 기반으로 비디오 시퀀스에서 임의의 목표를 찾아내고 추적하는 것을 목표로 한다. 최근 연구에 따르면 컨텍스트 정보를 활용하여 목표 상태를 인식하는 것이 객체 추적에 매우 중요하다.

기존 방법의 한계

프레임 수준 컨텍스트의 저해상도성: 기존 방법은 프레임을 컨텍스트의 최소 단위로 취급하여 참조 프레임 내 각 패치가 검색 프레임의 목표 위치 결정에 미치는 중요도 차이를 무시한다
중복 정보의 간섭: 모든 참조 토큰을 동등하게 취급하면 모델의 인지 및 계산 부담이 증가하며, 특히 복잡한 장면에서 그렇다
적응성 부족: 수동 전략을 사용하여 추적기가 참조 프레임을 수동적으로 수용하도록 하며, 추적기가 목표 참조 정보를 자율적으로 결정하지 못한다

연구 동기

간단한 Transformer 추적기 설계를 통한 분석에서 발견된 사항: 대부분의 배경 토큰은 추적 과정에서 거의 참조되지 않으며 결과에 미미한 영향을 미치는 반면, 목표 토큰은 장기 참조 단서로서 대량으로 보존된다. 이는 소수의 고품질 토큰이 추적 과정에서 핵심적인 역할을 한다는 가설을 검증한다.

핵심 기여

새로운 토큰 컨텍스트 인식 추적 파이프라인 LMTrack 제안: Token Context Memory 모듈을 기반으로 하며, 기존의 프레임 수준 컨텍스트 기반 추적 방법과 달리 LMTrack은 시각 추적을 위해 고품질 토큰 컨텍스트를 자동으로 수집하고 업데이트한다
효과적인 단방향 주의 메커니즘 도입: 단방향 전파 방식으로 참조 토큰과 검색 프레임 간의 의존성을 구축하여 강건한 프레임 간 연관성 및 위치 결정을 실현한다
최첨단 추적 성능 달성: LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020 등 5개의 시각 추적 벤치마크에서 새로운 최고 성능을 기록했다

방법 상세 설명

작업 정의

초기 목표 위치가 주어진 상태에서 비디오 시퀀스에서 해당 목표를 지속적으로 찾아내고 추적한다. 입력은 비디오 프레임 시퀀스이고 출력은 각 프레임의 목표 경계 상자이다.

모델 아키텍처

전체 프레임워크

LMTrack은 자회귀 토큰 컨텍스트 인식 추적 프레임워크를 채택하며, 다음 세 가지 주요 구성 요소를 포함한다:

단방향 주의 메커니즘을 갖춘 백본 네트워크
Token Context Memory (TCM) 모듈
예측 헤드

자회귀 추적 프로세스

추적 프로세스는 다음과 같이 정의된다:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

여기서 R은 참조 토큰, I는 이미지 프레임, B는 예측 경계 상자를 나타낸다.

Token Context Memory (TCM) 모듈

TCM 모듈은 세 가지 단계로 구성된다:

단계 1: 참조 토큰에서 중요 토큰 수집

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

여기서 A는 교차 주의 행렬, C는 분류 점수 맵, W는 중요도 분포를 나타낸다.

단계 2: 분류 맵과 검색 토큰 통합

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

단계 3: 참조 토큰 업데이트 단계 1과 2의 결과를 병합하여 새로운 참조 토큰 Rₜ를 형성한다.

단방향 주의 메커니즘

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

참조 토큰만 검색 토큰에 영향을 미치도록 허용하여 참조 토큰 표현의 일관성을 유지한다.

기술 혁신점

프레임 수준에서 토큰 수준 컨텍스트로의 전환: 전통적인 프레임 수준 컨텍스트를 버리고 중요한 참조 단서를 나타내는 세밀한 토큰 수준 컨텍스트 표현을 사용한다
적응형 중요도 분석: 고정 전략을 사용하지 않고 주의 행렬과 분류 결과를 결합하여 토큰 중요도를 분석한다
단방향 정보 흐름: 검색 토큰이 참조 토큰 표현을 오염시키는 것을 방지하여 융합 효율을 높인다

실험 설정

데이터셋

학습 데이터: LaSOT, GOT-10k, TrackingNet, COCO
테스트 벤치마크: GOT-10K (180개 테스트 시퀀스), TrackingNet (511개 비디오), LaSOT (280개 테스트 비디오), LaSOText (150개 비디오), VOT2020 (60개 도전 시퀀스)

평가 지표

GOT-10K: Average Overlap (AO), Success Rate (SR)
LaSOT/LaSOText: Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
TrackingNet: AUC, P, PNorm
VOT2020: Expected Average Overlap (EAO), Accuracy, Robustness

구현 세부사항

백본 네트워크: ViT-base
최적화기: AdamW, 학습률 4×10⁻⁵ (백본), 4×10⁻⁴ (기타)
학습: 300 에포크, 배치 크기 16, Tesla A100 GPU
추론: 기본적으로 400프레임마다 참조 업데이트 확인, 참조 토큰 최대 길이는 검색 토큰 길이의 2배

실험 결과

주요 결과

GOT-10K 벤치마크

LMTrack384는 GOT-10K에서 80.1% AO를 달성하여 이전 최고 방법인 ARTrackV2의 77.5% AO 대비 2.6% 향상을 이루었다.

기타 벤치마크 성능

TrackingNet: 85.7% AUC
LaSOT: 73.2% AUC
LaSOText: 53.6% AUC, ARTrackV2 대비 0.7% 향상
VOT2020: 58.6% EAO (LMTrack384), 55.0% EAO (LMTrack256)

효율성 비교

SeqTrack과 동일한 해상도에서의 LMTrack 비교:

매개변수 수: 92M vs 89M
계산량: 69G vs 148G FLOPs
추론 속도: 47fps vs 21fps

소거 실험

#	Attention	Autoregressive	Update	AO(%)
1	bidirectional	×	-	73.0
2	unidirectional	×	-	73.9
3	unidirectional	×	update template	74.1
4	unidirectional	×	TCM	75.0
5	unidirectional	✓	update template	75.6
6	unidirectional	✓	TCM	76.3

주요 발견:

단방향 주의: 양방향 주의 대비 0.9% AO 향상, 검색에서 참조로의 노이즈 전파 방지
자회귀 추적: 기존 방법 대비 1.3-1.5% AO 향상
TCM 모듈: 템플릿 업데이트 전략 대비 0.7-0.9% AO 향상

시각화 분석

TCM 모듈 시각화

TCM 모듈이 시간에 따라 중요한 참조 토큰을 추출하는 과정을 보여주며, 대부분의 배경 토큰은 중요도가 낮아지고 목표 외관을 설명하는 토큰이 주로 보존된다.

주의 비교

OSTrack과의 비교에서 LMTrack이 참조 토큰을 사용하여 외관 변화와 방해물에 더 잘 저항하고 목표에 대한 주의를 유지할 수 있음을 보여준다.

결론 및 논의

주요 결론

LMTrack은 토큰 수준 컨텍스트 인식을 통해 추적 성능을 크게 향상시킨다
TCM 모듈은 중요한 참조 토큰을 효과적으로 수집하고 업데이트할 수 있다
단방향 주의 메커니즘은 특징 융합 효율성과 정확성을 높인다
여러 벤치마크에서 최첨단 성능을 달성하면서 동시에 계산 효율을 개선한다

한계

계산 복잡도: SeqTrack에 비해 더 효율적이지만 여전히 참조 토큰의 유지 및 업데이트가 필요하다
초매개변수 민감성: k값 선택 및 업데이트 빈도가 성능에 영향을 미칠 수 있다
장기 추적: 매우 긴 시퀀스에서 참조 토큰 관리 전략이 추가 최적화가 필요하다

향후 방향

더 효율적인 토큰 중요도 평가 방법 탐색
자적응형 참조 토큰 길이 제어 전략 연구
다중 객체 추적 시나리오로 확장

심층 평가

장점

강한 혁신성: 프레임 수준에서 토큰 수준 컨텍스트로의 전환은 중요한 혁신이다
견고한 이론적 기초: 실험을 통해 중요 토큰 분포 가설을 검증한다
충분한 실험: 여러 벤치마크에서의 포괄적 평가 및 상세한 소거 실험
높은 실용 가치: 성능 향상과 동시에 계산 효율을 개선한다
명확한 시각화: 방법의 작동 원리를 효과적으로 보여준다

부족한 점

방법 복잡도: TCM 모듈 설계가 상대적으로 복잡하여 구현 및 조정에 영향을 미칠 수 있다
매개변수 민감성: 여러 초매개변수 (k값, 업데이트 빈도 등)가 신중한 조정이 필요하다
이론적 분석 부족: 방법의 수렴성 및 안정성에 대한 이론적 분석이 부족하다
적용 범위: 주로 단일 객체 추적에 초점을 맞추며 다중 객체 시나리오의 적용성이 검증되지 않았다

영향력

학술 기여: 컨텍스트 인식 추적을 위한 새로운 연구 방향을 제공한다
실용 가치: 높은 성능을 유지하면서 효율성을 개선한 방법이다
재현성: 완전한 구현 세부사항 및 코드를 제공한다

적용 시나리오

실시간 추적 애플리케이션: 높은 추론 속도가 실시간 시나리오에 적합하다
장기 추적 작업: 자적응형 토큰 관리가 장시간 시퀀스 추적에 적합하다
복잡한 환경 추적: 외관 변화 및 방해물을 효과적으로 처리할 수 있다

참고문헌

본 논문은 객체 추적 분야의 중요한 연구를 인용하며, 다음을 포함한다:

Siamese 네트워크 시리즈 (SiamRPN++, SiamFC++)
Transformer 추적기 (TransT, STARK, Mixformer)
컨텍스트 인식 방법 (STMTrack, SeqTrack, OSTrack)
주의 메커니즘 (Transformer, ViT)

종합 평가: 이는 높은 품질의 컴퓨터 비전 논문으로, 제안된 LMTrack 방법은 이론적 혁신과 실험 검증 측면에서 모두 우수한 성능을 보여준다. "적을수록 좋다"는 설계 철학과 토큰 수준 컨텍스트 인식은 객체 추적 분야에 새로운 연구 사상을 제공하며 중요한 학술 가치와 실용적 의미를 갖는다.