Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
論文ID : 2406.05039タイトル : 包括的な動的表現を用いた参照型マルチオブジェクトトラッキング著者 : Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du分類 : cs.CV cs.CL発表日 : 2025年10月27日 (arXiv v2)論文リンク : https://arxiv.org/abs/2406.05039 コードとデータセット : https://github.com/zyn213/TempRMOT 本論文は、参照型マルチオブジェクトトラッキング(RMOT: Referring Multi-Object Tracking)という新しいビデオ理解タスクを提案しており、自然言語表現を意味的手がかりとして用いることで、マルチオブジェクトトラッキング予測を導く。目標数の変化と時間的意味論を包括的に考慮する。論文ではRefer-KITTI-V2ベンチマークデータセットを構築し、9,758個の多様な言語表現を含む。さらに、クエリ駆動の時間増強モジュールを通じて長期時空間相互作用を実現するTempRMOTフレームワークを提案する。TempRMOTはRefer-KITTIおよびRefer-KITTI-V2の両方で最高性能を達成している。
既存の参照理解(Referring Understanding)タスクには2つの核心的な制限がある:
単一目標の制限 :既存データセット(RefCOCOシリーズ、Refer-DAVIS17など)では、各表現は単一の目標のみに注釈が付けられているが、現実のシーンでは1つの表現が複数の、単一の、またはゼロの目標を指す可能性がある時間的一貫性の欠如 :既存の方法は言語表現と目標の進化状態との間の時間的一貫性をモデル化できない。例えば、「カーブを曲がっている車」という表現は瞬間的な状態を記述しているが、注釈は曲がる動作が完了した後でも目標を追跡し続ける言語ガイド付きビデオ理解は、自然言語と視覚コンテンツを結びつける重要なタスク 自動運転などの実際の応用では、自然言語指令を通じて複数の動的目標を同時に追跡する必要がある 運動関連の意味論を理解するには、時間的ダイナミクスの正確なモデル化が重要 データセットレベル :手動注釈と固定テンプレートの組み合わせにより、言語の多様性が制限される 意味的冗長性が深刻(例:Refer-Danceは48個の独特な表現のみ) 暗黙的表現と複雑な意味論(否定記述など)が欠けている 手法レベル :2段階手法は複雑度が高く、計算コストが大きい 単段階手法は主に隣接フレームに焦点を当て、長期的な時間モデリング能力が不足している RMOT新タスクの提案 :参照理解をマルチオブジェクト動的シーンに初めて体系的に拡張し、時間的状態変化を考慮するRefer-KITTI-V2データセットの構築 :9,758個の表現、7,193個の独特な表現、617個の異なる語彙を含む 3段階の半自動注釈プロセスを設計し、LLMによる多様な表現生成と組み合わせる 暗黙的表現を含む(例:「自車は黒い車の後ろに位置している」) TempRMOTフレームワークの提案 :エンドツーエンドのTransformerアーキテクチャで後処理不要 クエリ駆動の時間増強モジュールで長期時空間相互作用を実現 トラッキングクエリと検出クエリを分離し、可変数の目標に対応 SOTA性能の達成 :Refer-KITTI-V2で前作比約4% HOTA向上 Refer-KITTIで52.21% HOTAを達成 効率的な注釈プロセスの設計 :3段階の半自動注釈方法で人的コストを大幅削減入力 :ビデオシーケンス(T フレーム) + 自然言語表現
出力 :各フレームにおいて表現の説明に合致するすべての目標のバウンディングボックスとID
制約 :
目標数は可変(0から複数) 目標が表現の説明を満たす時間区間内のみ注釈を付ける 時間的一貫性のあるID関連付けを保持 TempRMOTは2つの核心的なコンポーネントで構成される:
特徴抽出器 :
視覚エンコーディング:CNNバックボーンが多スケール特徴 I t l ∈ R C l × H l × W l I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l} I t l ∈ R C l × H l × W l を抽出 言語エンコーディング:RoBERTaがテキストを単語埋め込み S ∈ R L × D S \in \mathbb{R}^{L \times D} S ∈ R L × D にエンコード クロスモーダルエンコーダ (早期融合戦略):
Q = W q ( I t l + P V ) , K = W k ( S + P L ) , V = W v S Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS Q = W q ( I t l + P V ) , K = W k ( S + P L ) , V = W v S I ^ t l = Q K T d V + I t l \hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t I ^ t l = d Q K T V + I t l
ここで P V P_V P V と P L P_L P L はそれぞれ視覚と言語の位置エンコーディング。融合後は変形可能エンコーダ層を通す:
E t l = DeformEnc ( I ^ t l ) E^l_t = \text{DeformEnc}(\hat{I}^l_t) E t l = DeformEnc ( I ^ t l )
デコーダ (デュアルクエリメカニズム):
トラッキングクエリ Q t t r a Q^{tra}_t Q t t r a :前フレームのデコーダ埋め込み D t − 1 D_{t-1} D t − 1 から変換され、追跡済みインスタンスの関連付けに使用検出クエリ Q d e t Q^{det} Q d e t :ランダムに初期化され、新たに出現した目標の検出に使用Q t = Decoder ( E t l , concat ( Q d e t , Q t t r a ) ) Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t)) Q t = Decoder ( E t l , concat ( Q d e t , Q t t r a ))
参照ヘッド :3つのブランチを含む
分類ブランチ:二値分類(実際の目標/空オブジェクト) バウンディングボックスブランチ:3層FFNで座標回帰 参照ブランチ:表現とのマッチング確率を出力 クエリメモリメカニズム :
N × K N \times K N × K メモリキューを維持(N フレーム、各フレーム K 個のオブジェクト)FIFO原則で更新し、一定のメモリ消費を保持 時間デコーダ (4層):
フレーム間注意を通じて履歴情報を集約:
Q t = CrossFrameAttn ( Q = Q t , K = Q t − τ h : t , V = Q t − τ h : t , P E = Pos ( t − τ h : t ) ) Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t)) Q t = CrossFrameAttn ( Q = Q t , K = Q t − τ h : t , V = Q t − τ h : t , PE = Pos ( t − τ h : t ))
ここで τ h \tau_h τ h は時間ウィンドウサイズ、Pos \text{Pos} Pos は時間位置をエンコード。
オブジェクトデコーダ (4層):
クロスオブジェクト注意を通じて空間相互作用をモデル化:
Q t = CrossObjectAttn ( Q , K , V = Q t , P E = Pos ( O 1 : N t ) ) Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t})) Q t = CrossObjectAttn ( Q , K , V = Q t , PE = Pos ( O 1 : N t ))
軌跡精緻化 :
MLPを使用して残差調整を予測:
B t = B t + MLP ( Q t S ) B_t = B_t + \text{MLP}(Q^S_t) B t = B t + MLP ( Q t S )
ここで Q t S Q^S_t Q t S は時空間増強されたクエリ特徴。
早期クロスモーダル融合 :MDETRの密結合と比較して、効率的な注意重み付け戦略を採用し、計算複雑度を削減デュアルクエリ分離設計 :トラッキングクエリは履歴情報を継承し、ID一貫性を保証 検出クエリは新規目標を処理し、柔軟性を向上 クエリ駆動の時間モデリング :元の特徴ではなくコンパクトなクエリ表現を使用して時間集約 時間次元と空間次元の注意メカニズムを分離 長期依存をサポート(最大8フレームの履歴) エンドツーエンド微分可能 :NMSなどの後処理不要で、直接最終結果を出力Refer-KITTI :
18個のビデオ、895個の表現 訓練セット:15ビデオ/660表現 テストセット:3ビデオ/158表現 Refer-KITTI-V2 :
21個のビデオ、9,758個の表現 訓練セット:17ビデオ/8,873表現 テストセット:4ビデオ/897表現 特徴:7,193個の独特な表現、617個の異なる語彙、暗黙的表現を含む KITTI :汎用MOT能力を評価するために使用
ステップ1:言語項の収集
基本属性に注釈を付ける:クラス(car/people)、色(black/red)、位置(left/right)、動作(moving/turning) KITTIのインスタンスIDを使用して自動的に注釈を伝播 ステップ2:表現生成
事前定義テンプレートを使用して言語項を組み合わせる 例:"{color}-{action}-cars" → "black turning cars" AND操作を通じてバウンディングボックスを関連付ける ステップ3:表現拡張
GPT-3.5を使用して各表現の4つの意味的に等価な言い換えを生成 2段階検証:LLM検証 + 人間による審査 2,719から9,758個の表現に拡張 HOTA (Higher Order Tracking Accuracy) :
HOTA = DetA ⋅ AssA \text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}} HOTA = DetA ⋅ AssA
DetA (Detection Accuracy) :フレームレベルの検出IoUスコアAssA (Association Accuracy) :時間関連付けIoUスコアその他の指標:DetRe, DetPr, AssRe, AssPr, LocA 2段階手法 :
FairMOT, DeepSORT, ByteTrack, CStrack TransTrack, TrackFormer iKUN 単段階手法 :
EchoTrack, DeepRMOT TransRMOT (前作) MLS-Track バックボーンネットワーク :ResNet-50 (視覚) + RoBERTa (テキスト)最適化器 :Adam、学習率1e-5 (バックボーン1e-5)訓練 :60エポック、バッチサイズ=1、4×RTX 4090データ増強 :ランダムクロップ、マルチスケール(800-1536)メモリ長 :Refer-KITTI N=4、Refer-KITTI-V2 N=5推論閾値 :分類0.6、参照0.4損失重み :λ c l s D = 5 , λ L 1 D = 2 , λ g i o u D = 2 , λ r e f D = 2 \lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2 λ c l s D = 5 , λ L 1 D = 2 , λ g i o u D = 2 , λ re f D = 2 Refer-KITTIの性能 :
手法 E2E HOTA DetA AssA DetRe DetPr iKUN ✗ 48.84 35.74 66.80 51.97 52.25 TransRMOT ✓ 46.56 37.97 57.33 49.69 60.10 MLS-Track ✓ 49.05 40.03 60.25 59.07 54.18 TempRMOT ✓ 52.21 40.95 66.75 55.65 59.25
MLS-Trackと比較して3.16% HOTA向上 エンドツーエンド手法の中で全面的にリード Refer-KITTI-V2の性能 :
手法 HOTA DetA AssA iKUN 10.32 2.17 49.77 TransRMOT 31.00 19.40 49.68 TempRMOT 35.04 22.97 53.58
TransRMOTと比較して4.04% HOTA向上 より複雑な言語シーンでの有効性を検証 KITTIの性能 :
手法 HOTA AssA TransRMOT 61.52 66.51 TempRMOT 63.47 72.04
AssA 5.53%向上、時間モデリングの有効性を証明 モジュール有効性 (Refer-KITTI-V2):
Temp. Refine HOTA DetA AssA ✗ ✗ 31.00 19.40 49.68 ✓ ✗ 34.46 22.73 52.37 ✓ ✓ 35.04 22.97 53.58
時間増強モジュールが最大の寄与(+3.46% HOTA) 軌跡精緻化がさらに性能を向上(+0.58% HOTA) 訓練時メモリ長 :
N t N_t N t HOTA DetA AssA 3 33.64 21.96 51.66 4 34.41 22.43 52.90 5 34.72 22.59 53.49
推論時メモリ長 :
N i N_i N i HOTA DetA AssA 5 34.72 22.59 53.49 6 34.78 22.73 53.32 8 35.04 22.97 53.58
推論時により長いメモリを使用することでさらなる性能向上が可能 時間モジュールの汎化能力を示す 運動理解能力 :
指令「left cars which are parking」:TempRMOTは静止車両を正しく識別し、TransRMOTは誤って歩行者を駐車中として標記 指令「right persons who are walking」:TempRMOTは運動状態を正確に理解 堅牢なトラッキング能力 :
指令「cars in front of ours」:TransRMOTはID切り替えとトラッキング喪失が発生し、TempRMOTは一貫したID関連付けを保持 複雑な意味論の理解 :
暗黙的表現「the ego car is positioned after the black cars」の処理 否定記述「pedestrians lacking hair」の理解 複合属性「the men are on the right side and they have t-shirts on」 時間モデリングの重要性 :AssA指標の顕著な向上(+5.53%)は、長期時間依存がトラッキング品質に重要であることを証明エンドツーエンドの利点 :単段階手法は全体的に2段階手法を上回り、共同最適化がより効果的言語複雑度の影響 :Refer-KITTI-V2での性能低下は、より豊かな意味論がもたらす課題を反映メモリメカニズムの汎化性 :推論時に訓練より長い履歴ウィンドウを使用可能クエリ表現の効率性 :元の特徴と比較して、クエリ表現はより圧縮されており、重要な情報を保持既存データセットの制限 :
RefCOCOシリーズ :画像のみ、単一目標Talk2Car, VID-Sentence :ビデオだが単一目標Refer-DAVIS17, Refer-YV :ピクセルレベルのセグメンテーション、単一目標RMOTデータセット比較 :
データセット ビデオ 語彙 表現 独特な表現 暗黙的表現 Refer-KITTI 18 49 895 215 ✗ GroOT* 14 260 1547 1161 ✗ Refer-Dance 65 25 1985 48 ✗ Refer-KITTI-V2 21 617 9758 7193 ✓
2段階手法 :
最初に軌跡を抽出し、その後表現とマッチング 利点:細粒度処理 欠点:複雑度が高く、計算コストが大きい 単段階手法 :
エンドツーエンドのTransformerフレームワーク TransRMOT:最初のRMOTモデル 制限:主に隣接フレームに焦点を当て、長期モデリングが不足 関連研究 :
MeMOT :履歴クエリを保存するメモリモジュールMeMOTR :時間コンテキスト強化トラッキングクエリBEVFormer :BEV表現の時空間Transformer本論文の革新 :
言語条件付きビデオ理解に焦点 時間と空間の注意を分離 現在フレームの空間特徴を組み合わせた共同推論 RMOTタスクはより汎用的 :単一目標の制限を克服し、時間的ダイナミクスを考慮し、現実のニーズにより適合Refer-KITTI-V2は高品質 :半自動プロセスとLLMを通じて、規模と多様性のバランスを実現TempRMOTは有効 :時間増強モジュールが性能を大幅に向上させ、両ベンチマークでSOTA達成長期依存が重要 :時空間相互作用の明示的モデリングは、正確なトラッキングと意味論的アライメントに重要データセット規模 :表現は豊富だが、ビデオ数(21個)は相対的に限定的で、シーンの多様性に制約がある計算複雑度 :クエリ表現を使用して開消費を削減しているが、複数フレームのメモリはまだ追加計算が必要言語理解の深さ :極めて複雑な論理推論(多重否定、複雑な因果関係など)に対してはまだ課題がある遮蔽処理 :論文は深刻な遮蔽シーンの処理戦略について詳しく議論していないリアルタイム性 :FPSなどのリアルタイム性能指標が報告されておらず、実際の展開の実現可能性が不明確汎化能力 :KITTIシーン(運転シーン)でのみ検証され、他の領域(歩行者、スポーツなど)への汎化性は不明より多くのシーンへの拡張 :複数の領域をカバーするRMOTデータセットの構築リアルタイム性の向上 :モデル構造の最適化、リアルタイムトラッキングの実現言語理解の強化 :より強力な言語モデル(GPT-4など)の導入3D拡張 :点群データの統合、3D RMOTへの拡張インタラクティブトラッキング :ユーザーのリアルタイム修正とフィードバックのサポート1. タスク定義に先見性がある
RMOTタスクはマルチ目標+時間的ダイナミクスのギャップを埋める 時間的一貫性モデリング(「カーブを曲がっている」の瞬間的状態など)は非常に実用的 言語ガイド付き自動運転に新しいパラダイムを提供 2. データセット構築が科学的で効率的
3段階の半自動プロセスが品質と効率のバランスを取る LLM支援生成が多様性を大幅に向上(7193個の独特な表現) 暗黙的表現の導入が挑戦性と真実性を増加 3. 手法設計が合理的
早期融合戦略が計算複雑度を削減 デュアルクエリ分離設計が履歴関連付けと新規目標検出の両立 時空分離の注意メカニズムが明確で効果的 4. 実験が充分
3つのデータセットで検証 詳細なアブレーション実験で各モジュールの寄与を定量化 豊富な可視化ケースでモデル能力を展示 5. 執筆が明確
論理が厳密で、動機から手法から実験へと段階的に進行 図表が豊富(10個の図、5個の表)で情報密度が高い 技術詳細が完全で再現性が高い 1. データセットの制限
ビデオ数が少ない(21個)、シーンが単一(運転のみ) 表現は多いが、限定的な言語項の組み合わせに基づいており、深層的な意味論の多様性が不足 極端な天候、夜間などの挑戦的なシーンが欠けている 2. 手法の制限
メモリ長が固定(N=5)で、自適応的な調整ができない 表現の曖昧性を処理していない(例:異なる視点での「左の車」の曖昧性) 不確実性推定がなく、予測の信頼度を定量化できない 3. 実験の不足
推論速度(FPS)が報告されておらず、リアルタイム性が不明 クロスデータセット汎化実験が欠けている(例:Refer-Danceでのテスト) 最新の視覚言語モデル(CLIP、BLIP-2など)との比較がない エラー分析が十分でなく、主な失敗パターンの統計がない 4. 理論分析の欠如
時間モデリングが有効である理由を理論的に説明していない 注意重みの可視化分析がない モデルの学習ダイナミクスと収束性について議論していない 5. 社会的影響の議論が不足
プライバシー問題(歩行者トラッキングの倫理的問題)について議論していない 潜在的なバイアス(特定の人口集団の認識バイアスなど)を分析していない 領域への貢献 :
タスクレベル :RMOTタスクはビデオ理解の重要な方向となり、既に複数の後続研究が引用しているデータレベル :Refer-KITTI-V2はコミュニティに高品質なベンチマークを提供し、コードとデータの公開が研究を促進手法レベル :時間増強モジュールの設計思想は他のビデオタスクに転用可能実用的価値 :
自動運転 :言語指令による車両制御のサポート(「前の赤い車に従う」)インテリジェント監視 :説明に基づくマルチ目標検索(「赤い服を着ている歩行者」)人機相互作用 :自然言語ガイド付きビデオ編集再現性 :
コードとデータセットが公開(https://github.com/zyn213/TempRMOT ) 実装詳細が完全(ハイパーパラメータ、訓練戦略など) 成熟したフレームワーク(Deformable DETR)に基づいており、再現が容易 予想される影響 :
短期(1-2年):より多くのRMOTデータセットと手法を刺激 中期(3-5年):大規模言語モデルとの組み合わせで、より強力な意味論理解を実現 長期(5年以上):マルチモーダル自動運転システムの標準コンポーネントになる 最も適切なシーン :
自動運転 :言語指令ガイド付きの車両トラッキングと経路計画インテリジェント交通 :説明に基づく交通参加者検出(「違法駐車の車両」)ビデオ監視 :自然言語クエリによる目標検索ロボットナビゲーション :言語ガイド付きの目標追従あまり適切でないシーン :
高速シーン :現在の手法はリアルタイム性要件を満たせない可能性極端な遮蔽 :深刻な遮蔽下のトラッキングはまだ課題オープンドメインシーン :訓練データが運転シーンに限定され、汎化性が未検証細粒度記述 :極めて細かい外観記述(「青いストライプのシャツを着ている人」など)には力不足の可能性改善提案 :
より多くのシーン(室内、スポーツ、社交活動)への拡張 リアルタイム性向上のためのモデル最適化 主動学習の導入、新しいシーンへの少数サンプル適応のサポート RMOT関連 :
Wu et al. (2023) - TransRMOT:最初のRMOT手法とRefer-KITTIデータセット Du et al. (2024) - iKUN:再訓練不要なトラッカー Ma et al. (2024) - MLS-Track:多層意味相互作用 Transformerトラッキング :
4. Zeng et al. (2022) - MOTR:エンドツーエンドマルチオブジェクトトラッキング
5. Zhu et al. (2020) - Deformable DETR:変形可能注意
6. Gao & Wang (2023) - MeMOTR:長期メモリ強化トラッキング
参照理解 :
7. Yu et al. (2016) - RefCOCOシリーズデータセット
8. Kamath et al. (2021) - MDETR:マルチモーダル検出
評価指標 :
9. Luiten et al. (2020) - HOTA:高次トラッキング精度
総合評価 :これはコンピュータビジョン分野の高品質な論文であり、タスク定義、データセット構築、手法設計のすべてにおいて実質的な革新がある。RMOTタスクは重要な理論的意義と応用価値を持ち、Refer-KITTI-V2はコミュニティに貴重なリソースを提供し、TempRMOTフレームワークは合理的な設計で効果的である。主な不足は場面の制限性とリアルタイム性の不明確さにある。後続研究がより多くの領域への拡張と、より深い理論分析を行うことを推奨する。本論文は言語ガイド付きビデオ理解領域の重要な参考文献となる見込みがある。