2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

参照型マルチオブジェクトトラッキングのブートストラップ

基本情報

論文ID: 2406.05039
タイトル: 包括的な動的表現を用いた参照型マルチオブジェクトトラッキング
著者: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
分類: cs.CV cs.CL
発表日: 2025年10月27日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2406.05039
コードとデータセット: https://github.com/zyn213/TempRMOT

要約

本論文は、参照型マルチオブジェクトトラッキング(RMOT: Referring Multi-Object Tracking)という新しいビデオ理解タスクを提案しており、自然言語表現を意味的手がかりとして用いることで、マルチオブジェクトトラッキング予測を導く。目標数の変化と時間的意味論を包括的に考慮する。論文ではRefer-KITTI-V2ベンチマークデータセットを構築し、9,758個の多様な言語表現を含む。さらに、クエリ駆動の時間増強モジュールを通じて長期時空間相互作用を実現するTempRMOTフレームワークを提案する。TempRMOTはRefer-KITTIおよびRefer-KITTI-V2の両方で最高性能を達成している。

研究背景と動機

解決すべき問題

既存の参照理解(Referring Understanding)タスクには2つの核心的な制限がある：

単一目標の制限：既存データセット(RefCOCOシリーズ、Refer-DAVIS17など)では、各表現は単一の目標のみに注釈が付けられているが、現実のシーンでは1つの表現が複数の、単一の、またはゼロの目標を指す可能性がある
時間的一貫性の欠如：既存の方法は言語表現と目標の進化状態との間の時間的一貫性をモデル化できない。例えば、「カーブを曲がっている車」という表現は瞬間的な状態を記述しているが、注釈は曲がる動作が完了した後でも目標を追跡し続ける

問題の重要性

言語ガイド付きビデオ理解は、自然言語と視覚コンテンツを結びつける重要なタスク
自動運転などの実際の応用では、自然言語指令を通じて複数の動的目標を同時に追跡する必要がある
運動関連の意味論を理解するには、時間的ダイナミクスの正確なモデル化が重要

既存手法の制限

データセットレベル：
- 手動注釈と固定テンプレートの組み合わせにより、言語の多様性が制限される
- 意味的冗長性が深刻(例：Refer-Danceは48個の独特な表現のみ)
- 暗黙的表現と複雑な意味論(否定記述など)が欠けている
手法レベル：
- 2段階手法は複雑度が高く、計算コストが大きい
- 単段階手法は主に隣接フレームに焦点を当て、長期的な時間モデリング能力が不足している

核心的貢献

RMOT新タスクの提案：参照理解をマルチオブジェクト動的シーンに初めて体系的に拡張し、時間的状態変化を考慮する
Refer-KITTI-V2データセットの構築：
- 9,758個の表現、7,193個の独特な表現、617個の異なる語彙を含む
- 3段階の半自動注釈プロセスを設計し、LLMによる多様な表現生成と組み合わせる
- 暗黙的表現を含む(例：「自車は黒い車の後ろに位置している」)
TempRMOTフレームワークの提案：
- エンドツーエンドのTransformerアーキテクチャで後処理不要
- クエリ駆動の時間増強モジュールで長期時空間相互作用を実現
- トラッキングクエリと検出クエリを分離し、可変数の目標に対応
SOTA性能の達成：
- Refer-KITTI-V2で前作比約4% HOTA向上
- Refer-KITTIで52.21% HOTAを達成
効率的な注釈プロセスの設計：3段階の半自動注釈方法で人的コストを大幅削減

手法の詳細

タスク定義

入力：ビデオシーケンス(T フレーム) + 自然言語表現出力：各フレームにおいて表現の説明に合致するすべての目標のバウンディングボックスとID 制約：

目標数は可変(0から複数)
目標が表現の説明を満たす時間区間内のみ注釈を付ける
時間的一貫性のあるID関連付けを保持

モデルアーキテクチャ

TempRMOTは2つの核心的なコンポーネントで構成される：

1. Transformerベースの RMOT モジュール

特徴抽出器：

視覚エンコーディング：CNNバックボーンが多スケール特徴 $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$ を抽出
言語エンコーディング：RoBERTaがテキストを単語埋め込み $S \in \mathbb{R}^{L \times D}$ にエンコード

クロスモーダルエンコーダ(早期融合戦略)： $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

ここで $P_V$ と $P_L$ はそれぞれ視覚と言語の位置エンコーディング。融合後は変形可能エンコーダ層を通す： $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

デコーダ(デュアルクエリメカニズム)：

トラッキングクエリ $Q^{tra}_t$ ：前フレームのデコーダ埋め込み $D_{t-1}$ から変換され、追跡済みインスタンスの関連付けに使用
検出クエリ $Q^{det}$ ：ランダムに初期化され、新たに出現した目標の検出に使用

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

参照ヘッド：3つのブランチを含む

分類ブランチ：二値分類(実際の目標/空オブジェクト)
バウンディングボックスブランチ：3層FFNで座標回帰
参照ブランチ：表現とのマッチング確率を出力

2. 時間増強モジュール

クエリメモリメカニズム：

$N \times K$ メモリキューを維持(N フレーム、各フレーム K 個のオブジェクト)
FIFO原則で更新し、一定のメモリ消費を保持

時間デコーダ(4層)：フレーム間注意を通じて履歴情報を集約： $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

ここで $\tau_h$ は時間ウィンドウサイズ、 $\text{Pos}$ は時間位置をエンコード。

オブジェクトデコーダ(4層)：クロスオブジェクト注意を通じて空間相互作用をモデル化： $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

軌跡精緻化： MLPを使用して残差調整を予測： $B_t = B_t + \text{MLP}(Q^S_t)$

ここで $Q^S_t$ は時空間増強されたクエリ特徴。

技術的革新点

早期クロスモーダル融合：MDETRの密結合と比較して、効率的な注意重み付け戦略を採用し、計算複雑度を削減
デュアルクエリ分離設計：
- トラッキングクエリは履歴情報を継承し、ID一貫性を保証
- 検出クエリは新規目標を処理し、柔軟性を向上
クエリ駆動の時間モデリング：
- 元の特徴ではなくコンパクトなクエリ表現を使用して時間集約
- 時間次元と空間次元の注意メカニズムを分離
- 長期依存をサポート(最大8フレームの履歴)
エンドツーエンド微分可能：NMSなどの後処理不要で、直接最終結果を出力

実験設定

データセット

Refer-KITTI：

18個のビデオ、895個の表現
訓練セット：15ビデオ/660表現
テストセット：3ビデオ/158表現

Refer-KITTI-V2：

21個のビデオ、9,758個の表現
訓練セット：17ビデオ/8,873表現
テストセット：4ビデオ/897表現
特徴：7,193個の独特な表現、617個の異なる語彙、暗黙的表現を含む

KITTI：汎用MOT能力を評価するために使用

データセット構築プロセス

ステップ1：言語項の収集

基本属性に注釈を付ける：クラス(car/people)、色(black/red)、位置(left/right)、動作(moving/turning)
KITTIのインスタンスIDを使用して自動的に注釈を伝播

ステップ2：表現生成

事前定義テンプレートを使用して言語項を組み合わせる
例："{color}-{action}-cars" → "black turning cars"
AND操作を通じてバウンディングボックスを関連付ける

ステップ3：表現拡張

GPT-3.5を使用して各表現の4つの意味的に等価な言い換えを生成
2段階検証：LLM検証 + 人間による審査
2,719から9,758個の表現に拡張

評価指標

HOTA (Higher Order Tracking Accuracy)： $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (Detection Accuracy)：フレームレベルの検出IoUスコア
AssA (Association Accuracy)：時間関連付けIoUスコア
その他の指標：DetRe, DetPr, AssRe, AssPr, LocA

比較手法

2段階手法：

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

単段階手法：

EchoTrack, DeepRMOT
TransRMOT (前作)
MLS-Track

実装詳細

バックボーンネットワーク：ResNet-50 (視覚) + RoBERTa (テキスト)
最適化器：Adam、学習率1e-5 (バックボーン1e-5)
訓練：60エポック、バッチサイズ=1、4×RTX 4090
データ増強：ランダムクロップ、マルチスケール(800-1536)
メモリ長：Refer-KITTI N=4、Refer-KITTI-V2 N=5
推論閾値：分類0.6、参照0.4
損失重み： $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

実験結果

主要結果

Refer-KITTIの性能：

手法	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48.84	35.74	66.80	51.97	52.25
TransRMOT	✓	46.56	37.97	57.33	49.69	60.10
MLS-Track	✓	49.05	40.03	60.25	59.07	54.18
TempRMOT	✓	52.21	40.95	66.75	55.65	59.25

MLS-Trackと比較して3.16% HOTA向上
エンドツーエンド手法の中で全面的にリード

Refer-KITTI-V2の性能：

手法	HOTA	DetA	AssA
iKUN	10.32	2.17	49.77
TransRMOT	31.00	19.40	49.68
TempRMOT	35.04	22.97	53.58

TransRMOTと比較して4.04% HOTA向上
より複雑な言語シーンでの有効性を検証

KITTIの性能：

手法	HOTA	AssA
TransRMOT	61.52	66.51
TempRMOT	63.47	72.04

AssA 5.53%向上、時間モデリングの有効性を証明

アブレーション実験

モジュール有効性(Refer-KITTI-V2)：

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31.00	19.40	49.68
✓	✗	34.46	22.73	52.37
✓	✓	35.04	22.97	53.58

時間増強モジュールが最大の寄与(+3.46% HOTA)
軌跡精緻化がさらに性能を向上(+0.58% HOTA)

訓練時メモリ長：

$N_t$	HOTA	DetA	AssA
3	33.64	21.96	51.66
4	34.41	22.43	52.90
5	34.72	22.59	53.49

より長い履歴コンテキストが継続的な向上をもたらす

推論時メモリ長：

$N_i$	HOTA	DetA	AssA
5	34.72	22.59	53.49
6	34.78	22.73	53.32
8	35.04	22.97	53.58

推論時により長いメモリを使用することでさらなる性能向上が可能
時間モジュールの汎化能力を示す

ケース分析

運動理解能力：

指令「left cars which are parking」：TempRMOTは静止車両を正しく識別し、TransRMOTは誤って歩行者を駐車中として標記
指令「right persons who are walking」：TempRMOTは運動状態を正確に理解

堅牢なトラッキング能力：

指令「cars in front of ours」：TransRMOTはID切り替えとトラッキング喪失が発生し、TempRMOTは一貫したID関連付けを保持

複雑な意味論の理解：

暗黙的表現「the ego car is positioned after the black cars」の処理
否定記述「pedestrians lacking hair」の理解
複合属性「the men are on the right side and they have t-shirts on」

実験的発見

時間モデリングの重要性：AssA指標の顕著な向上(+5.53%)は、長期時間依存がトラッキング品質に重要であることを証明
エンドツーエンドの利点：単段階手法は全体的に2段階手法を上回り、共同最適化がより効果的
言語複雑度の影響：Refer-KITTI-V2での性能低下は、より豊かな意味論がもたらす課題を反映
メモリメカニズムの汎化性：推論時に訓練より長い履歴ウィンドウを使用可能
クエリ表現の効率性：元の特徴と比較して、クエリ表現はより圧縮されており、重要な情報を保持

データセット	ビデオ	語彙	表現	独特な表現	暗黙的表現
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

結論と考察

主要な結論

RMOTタスクはより汎用的：単一目標の制限を克服し、時間的ダイナミクスを考慮し、現実のニーズにより適合
Refer-KITTI-V2は高品質：半自動プロセスとLLMを通じて、規模と多様性のバランスを実現
TempRMOTは有効：時間増強モジュールが性能を大幅に向上させ、両ベンチマークでSOTA達成
長期依存が重要：時空間相互作用の明示的モデリングは、正確なトラッキングと意味論的アライメントに重要

制限事項

データセット規模：表現は豊富だが、ビデオ数(21個)は相対的に限定的で、シーンの多様性に制約がある
計算複雑度：クエリ表現を使用して開消費を削減しているが、複数フレームのメモリはまだ追加計算が必要
言語理解の深さ：極めて複雑な論理推論(多重否定、複雑な因果関係など)に対してはまだ課題がある
遮蔽処理：論文は深刻な遮蔽シーンの処理戦略について詳しく議論していない
リアルタイム性：FPSなどのリアルタイム性能指標が報告されておらず、実際の展開の実現可能性が不明確
汎化能力：KITTIシーン(運転シーン)でのみ検証され、他の領域(歩行者、スポーツなど)への汎化性は不明

今後の方向性

より多くのシーンへの拡張：複数の領域をカバーするRMOTデータセットの構築
リアルタイム性の向上：モデル構造の最適化、リアルタイムトラッキングの実現
言語理解の強化：より強力な言語モデル(GPT-4など)の導入
3D拡張：点群データの統合、3D RMOTへの拡張
インタラクティブトラッキング：ユーザーのリアルタイム修正とフィードバックのサポート

深い評価

利点

1. タスク定義に先見性がある

RMOTタスクはマルチ目標+時間的ダイナミクスのギャップを埋める
時間的一貫性モデリング(「カーブを曲がっている」の瞬間的状態など)は非常に実用的
言語ガイド付き自動運転に新しいパラダイムを提供

2. データセット構築が科学的で効率的

3段階の半自動プロセスが品質と効率のバランスを取る
LLM支援生成が多様性を大幅に向上(7193個の独特な表現)
暗黙的表現の導入が挑戦性と真実性を増加

3. 手法設計が合理的

早期融合戦略が計算複雑度を削減
デュアルクエリ分離設計が履歴関連付けと新規目標検出の両立
時空分離の注意メカニズムが明確で効果的

4. 実験が充分

3つのデータセットで検証
詳細なアブレーション実験で各モジュールの寄与を定量化
豊富な可視化ケースでモデル能力を展示

5. 執筆が明確

論理が厳密で、動機から手法から実験へと段階的に進行
図表が豊富(10個の図、5個の表)で情報密度が高い
技術詳細が完全で再現性が高い

不足

1. データセットの制限

ビデオ数が少ない(21個)、シーンが単一(運転のみ)
表現は多いが、限定的な言語項の組み合わせに基づいており、深層的な意味論の多様性が不足
極端な天候、夜間などの挑戦的なシーンが欠けている

2. 手法の制限

メモリ長が固定(N=5)で、自適応的な調整ができない
表現の曖昧性を処理していない(例：異なる視点での「左の車」の曖昧性)
不確実性推定がなく、予測の信頼度を定量化できない

3. 実験の不足

推論速度(FPS)が報告されておらず、リアルタイム性が不明
クロスデータセット汎化実験が欠けている(例：Refer-Danceでのテスト)
最新の視覚言語モデル(CLIP、BLIP-2など)との比較がない
エラー分析が十分でなく、主な失敗パターンの統計がない

4. 理論分析の欠如

時間モデリングが有効である理由を理論的に説明していない
注意重みの可視化分析がない
モデルの学習ダイナミクスと収束性について議論していない

5. 社会的影響の議論が不足

プライバシー問題(歩行者トラッキングの倫理的問題)について議論していない
潜在的なバイアス(特定の人口集団の認識バイアスなど)を分析していない

影響力

領域への貢献：

タスクレベル：RMOTタスクはビデオ理解の重要な方向となり、既に複数の後続研究が引用している
データレベル：Refer-KITTI-V2はコミュニティに高品質なベンチマークを提供し、コードとデータの公開が研究を促進
手法レベル：時間増強モジュールの設計思想は他のビデオタスクに転用可能

実用的価値：

自動運転：言語指令による車両制御のサポート(「前の赤い車に従う」)
インテリジェント監視：説明に基づくマルチ目標検索(「赤い服を着ている歩行者」)
人機相互作用：自然言語ガイド付きビデオ編集

再現性：

コードとデータセットが公開(https://github.com/zyn213/TempRMOT)
実装詳細が完全(ハイパーパラメータ、訓練戦略など)
成熟したフレームワーク(Deformable DETR)に基づいており、再現が容易

予想される影響：

短期(1-2年)：より多くのRMOTデータセットと手法を刺激
中期(3-5年)：大規模言語モデルとの組み合わせで、より強力な意味論理解を実現
長期(5年以上)：マルチモーダル自動運転システムの標準コンポーネントになる

適用シーン

最も適切なシーン：

自動運転：言語指令ガイド付きの車両トラッキングと経路計画
インテリジェント交通：説明に基づく交通参加者検出(「違法駐車の車両」)
ビデオ監視：自然言語クエリによる目標検索
ロボットナビゲーション：言語ガイド付きの目標追従

あまり適切でないシーン：

高速シーン：現在の手法はリアルタイム性要件を満たせない可能性
極端な遮蔽：深刻な遮蔽下のトラッキングはまだ課題
オープンドメインシーン：訓練データが運転シーンに限定され、汎化性が未検証
細粒度記述：極めて細かい外観記述(「青いストライプのシャツを着ている人」など)には力不足の可能性

改善提案：

より多くのシーン(室内、スポーツ、社交活動)への拡張
リアルタイム性向上のためのモデル最適化
主動学習の導入、新しいシーンへの少数サンプル適応のサポート

参考文献

主要な引用

RMOT関連：

Wu et al. (2023) - TransRMOT：最初のRMOT手法とRefer-KITTIデータセット
Du et al. (2024) - iKUN：再訓練不要なトラッカー
Ma et al. (2024) - MLS-Track：多層意味相互作用

Transformerトラッキング： 4. Zeng et al. (2022) - MOTR：エンドツーエンドマルチオブジェクトトラッキング 5. Zhu et al. (2020) - Deformable DETR：変形可能注意 6. Gao & Wang (2023) - MeMOTR：長期メモリ強化トラッキング

参照理解： 7. Yu et al. (2016) - RefCOCOシリーズデータセット 8. Kamath et al. (2021) - MDETR：マルチモーダル検出

評価指標： 9. Luiten et al. (2020) - HOTA：高次トラッキング精度

総合評価：これはコンピュータビジョン分野の高品質な論文であり、タスク定義、データセット構築、手法設計のすべてにおいて実質的な革新がある。RMOTタスクは重要な理論的意義と応用価値を持ち、Refer-KITTI-V2はコミュニティに貴重なリソースを提供し、TempRMOTフレームワークは合理的な設計で効果的である。主な不足は場面の制限性とリアルタイム性の不明確さにある。後続研究がより多くの領域への拡張と、より深い理論分析を行うことを推奨する。本論文は言語ガイド付きビデオ理解領域の重要な参考文献となる見込みがある。