2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

高速自己教師あり深度およびマスク認識型関連付けによるマルチオブジェクトトラッキング

基本情報

  • 論文ID: 2510.09878
  • タイトル: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
  • 著者: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
  • 分類: cs.CV (コンピュータビジョン)
  • 発表日時: 2025年10月10日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.09878
  • コードリンク: https://github.com/Milad-Khanchi/SelfTrEncMOT

概要

マルチオブジェクトトラッキング(MOT)手法は通常、交差比(IoU)に依存した関連付けを採用していますが、目標が類似している場合や遮蔽されている場合には信頼性が低下し、セグメンテーションマスクのIoUを計算するコストは高くなります。本論文ではセグメンテーションマスクを使用して目標形状を捉えていますが、セグメンテーションIoUは計算しません。代わりに、深度とマスク特徴を融合し、自己教師あり訓練されたコンパクトなエンコーダで処理することにより、バウンディングボックスIoUと再識別特徴を補完する安定した目標表現を生成します。深度マップはゼロショット深度推定器から取得し、目標マスクはプロンプト可能なビジュアルセグメンテーションモデルから取得して、細粒度の空間的手がかりを得ます。本手法は、マスクIoUを計算せずにセグメンテーションマスクを最適化するために自己教師あり学習エンコーダを使用する初めての試みです。非線形運動、遮蔽、混雑シーンを含む挑戦的なベンチマーク(SportsMOTおよびDanceTrack)での実験により、本手法はほとんどのメトリクスにおいてTBD最先端手法を上回ることが示されています。

研究背景と動機

問題定義

マルチオブジェクトトラッキングが直面する中核的な課題には以下が含まれます:

  1. 遮蔽問題: 目標が部分的または完全に遮蔽されている場合、従来の2D手がかり(バウンディングボックスIoUなど)は信頼性が低下します
  2. 外観の類似性: 類似した外観を持つ目標は区別が困難であり、頻繁なID切り替えが発生します
  3. 計算効率: セグメンテーションマスクIoUを直接計算する計算コストは過度に高くなります
  4. 複雑な運動: 非線形運動パターンの下での目標関連付けは困難です

研究動機

既存のMOT手法は主に2D手がかりに依存してデータ関連付けを行っており、複雑なシーンでは性能が低下します。例えば、2人の歩行者が並行して歩いているが異なる深度にある場合、2Dビューでは区別できない可能性があります。本論文は深度とセグメンテーション情報を組み合わせた3D空間認識手法を提案し、より堅牢な目標関連付けを提供します。

既存手法の限界

  1. 結合検出-再識別(JDR)手法: 計算要件が高く、検出とトラッキングの結合訓練が必要です
  2. 検出によるトラッキング(TBD)手法: 主に外観埋め込みに依存し、空間認識手がかりを利用していません
  3. 深度認識手法: 深度を補助信号として使用しており、主要な関連付け手がかりとしてではありません
  4. 自己教師あり再識別学習: 対比的またはクラスタリング目標に依存しており、融合された3D空間情報を利用していません

核心的貢献

  1. 自己教師あり学習エンコーダの設計: 深度-セグメンテーション特徴の時間的安定性と判別性を向上させます
  2. 革新的手法: マスクIoUを計算せずにセグメンテーションマスクを最適化し、マッチングスコアに統合するために自己教師あり学習エンコーダを使用する初めての試みです
  3. 競争力のある性能: 様々なトラッキングシーンで競争力のある性能を達成し、特に遮蔽シーンで優れた性能を発揮します
  4. 効率的な実装: 高コストなマスクIoU計算を回避しながら、細粒度の空間推論能力を維持します

手法の詳細説明

タスク定義

入力: ビデオシーケンス内の連続フレームと目標検出バウンディングボックス 出力: フレーム間の目標身元関連付け、ID一貫性の維持 制約: リアルタイム性要件、遮蔽と外観の類似性への対応

モデルアーキテクチャ

1. 深度-セグメンテーション融合モジュール

  • ゼロショット深度推定: Depth Proを使用して相対空間表現の深度マップを生成します
  • プロンプト可能なビジュアルセグメンテーション(PVS): SAM2を採用して時空間形状アライメントを実現します
    • t-1フレーム内の追跡軌跡に対して、バウンディングボックスをプロンプトとして使用して正確なセグメンテーションマスクを生成します
    • tフレーム内の新規検出に対して、t-1フレームに逆伝播してアライメントを実現します
    • ピクセル単位でマスクを対応する深度マップと乗算し、融合された深度-セグメンテーション埋め込みを生成します

2. 自己教師あり深度-セグメンテーションエンコーダ

アーキテクチャ設計:

  • エンコーダ: 3つの畳み込み層(4×4カーネル、ストライド2)、チャネル数1→32→64→128
  • バッチ正規化とReLU活性化
  • 線形層が2048次元のボトルネック特徴を生成
  • デコーダ: ミラー構造、転置畳み込みアップサンプリング

訓練目標:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

時間的一貫性更新:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. 外観-運動モジュール

  • 非線形カルマンフィルタ: 目標運動ダイナミクスをモデル化し、観測中心再更新(ORU)メカニズムを統合します
  • 運動マッチング: S_IoU(空間重複)とS_ang(角度一貫性)を計算します
  • 外観マッチング: FastReIDを使用して外観埋め込みを抽出し、コサイン類似度でS_embを計算します

技術的革新点

  1. マスクIoU計算の回避: エンコーダ埋め込みのコサイン類似度により高コストなマスクIoUを置き換えます
  2. マルチモーダル融合: 深度とセグメンテーション情報のピクセルレベル融合は細粒度の空間手がかりを提供します
  3. 自己教師あり学習最適化: 再構成とボトルネック一貫性損失を通じて特徴品質を向上させます
  4. 時間的安定性: 動的加重埋め込み更新戦略はフレーム間の一貫性を維持します

全体的な関連付け戦略

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

ハンガリアンアルゴリズムを使用して最適なデータ関連付けを実行します。

実験設定

データセット

  1. SportsMOT: 高速で予測不可能な運動、頻繁な遮蔽
  2. DanceTrack: 高度に非線形な運動、頻繁な遮蔽、近距離相互作用
    • 40個の訓練シーケンス、25個の検証シーケンス、35個のテストシーケンス
  3. MOT17: 中程度の密度の群衆、構造化された歩行者運動、相対的に線形で予測可能

評価メトリクス

  • HOTA: 高次トラッキング精度、検出と関連付け精度のバランス
  • AssA: 関連付け精度、身元保持を強調
  • DetA: 検出精度
  • IDF1: 身元F1スコア、身元保持と関連付け品質に焦点
  • MOTA: マルチオブジェクトトラッキング精度、検出レベルの性能に焦点
  • FPS: トラッキングコンポーネントに基づくフレームレート

比較手法

TBD手法: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrackなど JDR手法: FairMOT, TransTrack, MOTRv2など

実装詳細

  • 検出器: YOLOX (最新のMOT手法と一貫性)
  • 訓練: 単一NVIDIA A100 GPU、バッチサイズ128、12エポック
  • 最適化器: Adam、学習率1e-3
  • 推論: バッチサイズ1、関連付けステージで125 FPS以上 (DanceTrack検証セット)

実験結果

主要結果

SportsMOTテストセット

手法HOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

DanceTrackテストセット

手法HOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

MOT17テストセット

手法HOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

アブレーション実験

設定DanceTrack-valMOT17-val
外観 + マスクIoUHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
外観 + バウンディングボックスIoUHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
外観 + バウンディングボックスIoU + 深度-セグメンテーションHOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

実験的知見

  1. 相補性: マスクIoUからバウンディングボックスIoUへの切り替えは性能を大幅に向上させ、深度-セグメンテーション統合はさらなる改善をもたらします
  2. シーン適応性: DanceTrackなどの非線形運動データセットでの改善がより顕著であり、MOT17などの線形運動データセットでの改善は相対的に小さいです
  3. 関連付け品質: HOTA、AssA、IDF1などの関連付けメトリクスで一貫して向上し、手法の有効性を検証します

関連研究

結合検出-再識別手法

  • FairMOT: アンカーフリー検出と外観埋め込みを結合した双分岐手法
  • TransCenter: 変形可能な注意により遮蔽処理を改善
  • AFMTrack: 注意特徴マッチングネットワーク

検出によるトラッキング手法

  • シーケンスレベルトラッキング: グラフベース手法(Brasóら)、自己教師あり経路一貫性(Luら)
  • フレームレベルトラッキング: 注意モデル(TrackFormer, MOTRv2)、回帰手法(OC-SORT, DiffMOT)

深度認識と自己教師あり関連付け

  • 深度統合: 相対深度順序付け(Quachら)、立体深度と姿勢推定の結合(Wangら)
  • 自己教師あり再識別: 経路一貫性埋め込み(Liら)

結論と考察

主要な結論

  1. 深度-セグメンテーション融合は効果的な3D空間認識能力を提供します
  2. 自己教師あり学習エンコーダは特徴の時間的安定性と判別性を成功裏に向上させます
  3. マスクIoU計算を回避しながら細粒度の空間推論能力を維持します
  4. 複雑なシーン(遮蔽、非線形運動)で優れた性能を発揮します

限界

  1. 計算ボトルネック: 深度推定ステップ(DepthPro約0.3秒/フレーム)が主要な性能ボトルネックになります
  2. 線形運動シーン: MOT17などの線形運動データセットでの改善は限定的です
  3. 依存性: 事前訓練されたSAM2およびDepthProモデルの品質に依存します

今後の方向性

  1. リアルタイム深度推定: より高速な深度推定器を研究して全体的な速度を向上させます
  2. 対比学習: エンコーダに対比目標を導入して判別性と堅牢性を向上させます
  3. エンドツーエンド訓練: 深度推定とトラッキングの結合最適化を探索します

深い評価

利点

  1. 技術的革新: 深度-セグメンテーション融合と自己教師あり学習エンコーダをMOTに初めて組み合わせます
  2. 実用的価値: 高コストなマスクIoU計算を回避し、効率的なソリューションを提供します
  3. 十分な実験: 複数の挑戦的なデータセットで検証し、アブレーション実験は完全です
  4. 性能向上: 関連付け品質メトリクスで既存のTBD手法を一貫して上回ります

不足

  1. 計算効率: マスクIoUを回避していますが、深度推定は依然ボトルネックです
  2. 適用範囲: 単純な線形運動シーンでは利点が明確ではありません
  3. 強い依存性: 事前訓練モデルの品質と可用性に大きく依存します
  4. 理論的分析: 深度-セグメンテーション融合の有効性に関する理論的説明が不足しています

影響力

  1. 学術的貢献: MOT分野に新しいマルチモーダル融合の考え方をもたらします
  2. 実用的応用: スポーツ、ダンスなどの複雑なシーントラッキングで実用的価値があります
  3. 再現性: コードと詳細な実装詳細を提供し、再現を容易にします

適用シーン

  1. 複雑な運動シーン: スポーツ競技、ダンスパフォーマンスなどの非線形運動トラッキング
  2. 高遮蔽環境: 混雑したシーンでのマルチオブジェクトトラッキング
  3. 外観が類似した目標: 区別するために追加の空間手がかりが必要なシーン
  4. 中程度のリアルタイム性要件: 一定の計算遅延を許容できるアプリケーション

参考文献

論文は41篇の関連文献を引用しており、MOT分野の主要な研究を網羅しています。これには、ByteTrack、OC-SORT、FairMOTなどの古典的手法、および最新の深度認識と自己教師あり学習手法が含まれており、関連研究に包括的な背景参考を提供しています。