Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
論文ID : 2501.00758タイトル : Less is More: Token Context-aware Learning for Object Tracking著者 : Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song分類 : cs.CV(コンピュータビジョン)発表時期/会議 : AAAI 2025論文リンク : https://arxiv.org/abs/2501.00758 コードリンク : https://github.com/XuChenLong/LMTrack 本論文は、トークンコンテキスト認識に基づく新しいオブジェクトトラッキング手法LMTrackを提案する。既存のコンテキスト認識トラッキング手法は通常、複数フレーム情報を通じてコンテキストをキャプチャするが、これらの素朴なフレームレベルのコンテキスト手法は参照フレーム内の各パッチの重要性の差異を無視し、ノイズと冗長トークンの影響を受けやすい。LMTrackは「より少ないことはより多い」という原則に従い、すべての参照トークンの重要性分布を分析することで、重要なトークンを収集し、継続的に注視し、更新する。本手法は2つのコア構成要素を含む:Token Context Memory(TCM)モジュールと単方向トークン注意機構であり、複数のトラッキングベンチマークで最先端の性能を達成した。
オブジェクトトラッキングタスクは、初期位置に基づいてビデオシーケンス内で任意のターゲットを検出し追跡することを目的とする。近年の研究により、コンテキスト情報を活用してターゲット状態を認識することがオブジェクトトラッキングに極めて重要であることが示されている。
フレームレベルコンテキストの粗粒度性 :既存手法はフレームをコンテキストの最小単位とするが、参照フレーム内の各パッチが検索フレーム内のターゲット定位に対する重要性の差異を無視している冗長情報による干渉 :すべての参照トークンを等しく扱うことは、特に複雑なシーンにおいて、モデルの知覚と計算負荷を増加させる適応性の欠如 :手工戦略を使用してトラッキングを受動的に参照フレームを受け入れさせるのではなく、トラッキングが自律的にターゲット参照情報を決定することができないシンプルなTransformerトラッキングの分析により、ほとんどの背景トークンはトラッキングプロセス中にほとんど参照されず、結果への影響は微小であり、一方ターゲットトークンは長期参照手がかりとして大量に保持されることが発見された。これは、少数の高品質トークンがトラッキングプロセスで重要な役割を果たすという仮説を検証している。
新しいトークンコンテキスト認識トラッキングパイプラインLMTrackの提案 :Token Context Memoryモジュールに基づき、既存のフレームレベルコンテキストに基づくトラッキング手法と異なり、LMTrackは自動的に高品質なトークンコンテキストを収集・更新してビジュアルトラッキングに使用する効果的な単方向注意機構の導入 :単方向伝播方式で参照トークンと検索フレーム間の依存関係を確立し、堅牢なクロスフレーム関連付けと定位を実現する最先端のトラッキング性能の達成 :LaSOT、TrackingNet、GOT10K、LaSOText、VOT2020の5つのビジュアルトラッキングベンチマークで新しい最適結果を達成した初期ターゲット位置が与えられた場合、ビデオシーケンス内で継続的にそのターゲットを定位し追跡する。入力はビデオフレームシーケンスであり、出力は各フレーム内のターゲットのバウンディングボックスである。
LMTrackは自己回帰的なトークンコンテキスト認識トラッキングフレームワークを採用し、3つの主要構成要素を含む:
単方向注意機構を備したバックボーンネットワーク Token Context Memory(TCM)モジュール 予測ヘッド トラッキングプロセスは以下のように定義される:
R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0
ここでRは参照トークン、Iはイメージフレーム、Bは予測バウンディングボックスを表す。
TCMモジュールは3つのステップに分かれている:
ステップ1:参照トークンから重要なトークンを収集
W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))
ここでAはクロス注意行列、Cは分類スコアマップ、Wは重要性分布を表す。
ステップ2:分類マップと検索トークンを統合
S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd
ステップ3:参照トークンを更新
ステップ1と2の結果を統合して新しい参照トークンRₜを形成する。
S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]
参照トークンのみが検索トークンに影響を与えることを許可し、参照トークン表現の一貫性を維持する。
フレームレベルからトークンレベルコンテキストへ :従来のフレームレベルコンテキストを廃止し、重要な参照手がかりを表現する細粒度のトークンレベルコンテキストを使用する適応的重要性分析 :注意行列と分類結果を組み合わせてトークン重要性を分析し、固定戦略を使用しない単方向情報フロー :検索トークンが参照トークン表現を汚染することを防ぎ、融合効率を向上させる訓練データ :LaSOT、GOT-10k、TrackingNet、COCOテストベンチマーク :GOT-10K(180テストシーケンス)、TrackingNet(511ビデオ)、LaSOT(280テストビデオ)、LaSOText(150ビデオ)、VOT2020(60チャレンジシーケンス)GOT-10K :Average Overlap(AO)、Success Rate(SR)LaSOT/LaSOText :Area Under Curve(AUC)、Precision(P)、Normalized Precision(PNorm)TrackingNet :AUC、P、PNormVOT2020 :Expected Average Overlap(EAO)、Accuracy、Robustnessバックボーンネットワーク :ViT-baseオプティマイザ :AdamW、学習率4×10⁻⁵(バックボーン)、4×10⁻⁴(その他)訓練 :300エポック、バッチサイズ16、Tesla A100 GPU推論 :デフォルトで400フレームごとに参照更新をチェック、参照トークンの最大長は検索トークン長の2倍LMTrack384はGOT-10Kで80.1% AOを達成し、以前の最良手法ARTrackV2の77.5% AOと比較して2.6%改善した。
TrackingNet :85.7% AUCLaSOT :73.2% AUCLaSOText :53.6% AUC、ARTrackV2比0.7%改善VOT2020 :58.6% EAO(LMTrack384)、55.0% EAO(LMTrack256)SeqTrackと比較して、同じ解像度でのLMTrack:
パラメータ数:92M対89M 計算量:69G対148G FLOPs 推論速度:47fps対21fps # 注意機構 自己回帰 更新 AO(%) 1 双方向 × - 73.0 2 単方向 × - 73.9 3 単方向 × テンプレート更新 74.1 4 単方向 × TCM 75.0 5 単方向 ✓ テンプレート更新 75.6 6 単方向 ✓ TCM 76.3
主要な発見:
単方向注意機構 :双方向注意と比較して0.9% AO改善、検索からの参照へのノイズ伝播を防止自己回帰トラッキング :従来手法と比較して1.3~1.5% AO改善TCMモジュール :テンプレート更新戦略と比較して0.7~0.9% AO改善TCMモジュールが時間経過とともに重要な参照トークンを抽出するプロセスを示し、ほとんどの背景トークンが重要でなくなり、主にターゲット外観を記述するトークンが保持される。
OSTrackとの比較により、LMTrackが参照トークンを使用することで外観変化と干渉物に対してより良く抵抗でき、ターゲットへの注視を維持できることが示される。
初期手法は主に初期テンプレート手法に依存し、Siamese networkなどが初期ターゲットテンプレートと候補領域をマッチングするが、ターゲット外観の顕著な変化に適応することが困難である。
外観変化に対処するため、多くのトラッキングは視覚トラッキングをオンライン学習問題としてモデル化する:
UpdateNet :カスタムネットワークを使用して累積テンプレートを融合ATOM :IoU予測ブランチを追加してテンプレート選択を制約STMTrack :固定間隔で動的テンプレートを更新SeqTrack :尤度ベースの戦略を使用して動的テンプレートを選択これらの手法の限界:
バウンディングボックスクロップに基づくテンプレート更新はノイズを導入しやすい 手動方法または追加の判別モデルを使用してテンプレートを更新し、どのコンテキストがトラッキングに重要かを区別できない LMTrackはトークンレベルのコンテキスト認識を通じてトラッキング性能を大幅に向上させた TCMモジュールは重要な参照トークンを効果的に収集・更新できる 単方向注意機構は特徴融合の効率と精度を向上させた 複数のベンチマークで最先端性能を達成しながら、計算効率を向上させた 計算複雑性 :SeqTrackと比較してより効率的だが、参照トークンの維持と更新が必要ハイパーパラメータ感度 :k値の選択と更新頻度が性能に影響する可能性がある長期トラッキング :極めて長いシーケンスにおける参照トークン管理戦略の最適化が必要より効率的なトークン重要性評価方法の探索 適応的な参照トークン長制御戦略の研究 マルチオブジェクトトラッキングシーンへの拡張 革新性が強い :フレームレベルからトークンレベルコンテキストへの転換は重要な革新理論基礎が堅実 :実験を通じて重要トークン分布仮説を検証実験が充分 :複数ベンチマークでの包括的評価と詳細なアブレーション実験実用価値が高い :性能向上と同時に計算効率を改善可視化が明確 :手法の動作原理を効果的に示す手法の複雑性 :TCMモジュール設計が相対的に複雑で、実装と調整に影響する可能性パラメータ感度 :複数のハイパーパラメータ(k値、更新頻度など)の慎重な調整が必要理論分析の不足 :手法の収束性と安定性に関する理論分析が不足適用範囲 :主にシングルオブジェクトトラッキングを対象とし、マルチオブジェクトシーンの適用性は未検証学術的貢献 :コンテキスト認識トラッキングに新しい研究方向を提供実用価値 :高性能を維持しながら効率を向上させた手法再現性 :完全な実装詳細とコードを提供リアルタイムトラッキング応用 :高速な推論速度がリアルタイムシーンに適する長期トラッキングタスク :適応的なトークン管理が長シーケンストラッキングに適する複雑環境トラッキング :外観変化と干渉物を効果的に処理できる本論文は目標トラッキング分野の重要な研究を引用している:
Siamesesネットワークシリーズ(SiamRPN++、SiamFC++) Transformerトラッキング(TransT、STARK、Mixformer) コンテキスト認識手法(STMTrack、SeqTrack、OSTrack) 注意機構(Transformer、ViT) 総合評価 :これはコンピュータビジョン分野の高品質論文であり、提案されたLMTrack手法は理論的革新と実験検証の両面で優れた性能を示している。「より少ないことはより多い」という設計理念とトークンレベルのコンテキスト認識は、オブジェクトトラッキング分野に新しい研究思路を提供し、重要な学術的価値と実用的意義を有している。