Less is More: Token Context-aware Learning for Object Tracking
Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
본 논문은 토큰 컨텍스트 인식 기반의 새로운 객체 추적 방법인 LMTrack을 제안한다. 기존의 컨텍스트 인식 추적 방법은 일반적으로 다중 프레임 정보를 통해 컨텍스트를 포착하지만, 이러한 단순한 프레임 수준 컨텍스트 방법은 참조 프레임 내 각 패치의 중요도 차이를 무시하며 노이즈와 중복 토큰의 영향을 받기 쉽다. LMTrack은 "적을수록 좋다"는 원칙을 따르며, 모든 참조 토큰의 중요도 분포를 분석하여 중요 토큰을 수집, 지속적으로 주목하고 업데이트한다. 본 방법은 Token Context Memory (TCM) 모듈과 단방향 토큰 주의 메커니즘이라는 두 가지 핵심 구성 요소를 포함하며, 여러 추적 벤치마크에서 최첨단 성능을 달성했다.
간단한 Transformer 추적기 설계를 통한 분석에서 발견된 사항: 대부분의 배경 토큰은 추적 과정에서 거의 참조되지 않으며 결과에 미미한 영향을 미치는 반면, 목표 토큰은 장기 참조 단서로서 대량으로 보존된다. 이는 소수의 고품질 토큰이 추적 과정에서 핵심적인 역할을 한다는 가설을 검증한다.
종합 평가: 이는 높은 품질의 컴퓨터 비전 논문으로, 제안된 LMTrack 방법은 이론적 혁신과 실험 검증 측면에서 모두 우수한 성능을 보여준다. "적을수록 좋다"는 설계 철학과 토큰 수준 컨텍스트 인식은 객체 추적 분야에 새로운 연구 사상을 제공하며 중요한 학술 가치와 실용적 의미를 갖는다.