2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

高速自己教師あり深度およびマスク認識型関連付けによるマルチオブジェクトトラッキング

基本情報

論文ID: 2510.09878
タイトル: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
著者: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
分類: cs.CV (コンピュータビジョン)
発表日時: 2025年10月10日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.09878
コードリンク: https://github.com/Milad-Khanchi/SelfTrEncMOT

概要

マルチオブジェクトトラッキング(MOT)手法は通常、交差比(IoU)に依存した関連付けを採用していますが、目標が類似している場合や遮蔽されている場合には信頼性が低下し、セグメンテーションマスクのIoUを計算するコストは高くなります。本論文ではセグメンテーションマスクを使用して目標形状を捉えていますが、セグメンテーションIoUは計算しません。代わりに、深度とマスク特徴を融合し、自己教師あり訓練されたコンパクトなエンコーダで処理することにより、バウンディングボックスIoUと再識別特徴を補完する安定した目標表現を生成します。深度マップはゼロショット深度推定器から取得し、目標マスクはプロンプト可能なビジュアルセグメンテーションモデルから取得して、細粒度の空間的手がかりを得ます。本手法は、マスクIoUを計算せずにセグメンテーションマスクを最適化するために自己教師あり学習エンコーダを使用する初めての試みです。非線形運動、遮蔽、混雑シーンを含む挑戦的なベンチマーク(SportsMOTおよびDanceTrack)での実験により、本手法はほとんどのメトリクスにおいてTBD最先端手法を上回ることが示されています。

研究背景と動機

問題定義

マルチオブジェクトトラッキングが直面する中核的な課題には以下が含まれます:

遮蔽問題: 目標が部分的または完全に遮蔽されている場合、従来の2D手がかり(バウンディングボックスIoUなど)は信頼性が低下します
外観の類似性: 類似した外観を持つ目標は区別が困難であり、頻繁なID切り替えが発生します
計算効率: セグメンテーションマスクIoUを直接計算する計算コストは過度に高くなります
複雑な運動: 非線形運動パターンの下での目標関連付けは困難です

研究動機

既存のMOT手法は主に2D手がかりに依存してデータ関連付けを行っており、複雑なシーンでは性能が低下します。例えば、2人の歩行者が並行して歩いているが異なる深度にある場合、2Dビューでは区別できない可能性があります。本論文は深度とセグメンテーション情報を組み合わせた3D空間認識手法を提案し、より堅牢な目標関連付けを提供します。

既存手法の限界

結合検出-再識別(JDR)手法: 計算要件が高く、検出とトラッキングの結合訓練が必要です
検出によるトラッキング(TBD)手法: 主に外観埋め込みに依存し、空間認識手がかりを利用していません
深度認識手法: 深度を補助信号として使用しており、主要な関連付け手がかりとしてではありません
自己教師あり再識別学習: 対比的またはクラスタリング目標に依存しており、融合された3D空間情報を利用していません

核心的貢献

自己教師あり学習エンコーダの設計: 深度-セグメンテーション特徴の時間的安定性と判別性を向上させます
革新的手法: マスクIoUを計算せずにセグメンテーションマスクを最適化し、マッチングスコアに統合するために自己教師あり学習エンコーダを使用する初めての試みです
競争力のある性能: 様々なトラッキングシーンで競争力のある性能を達成し、特に遮蔽シーンで優れた性能を発揮します
効率的な実装: 高コストなマスクIoU計算を回避しながら、細粒度の空間推論能力を維持します

手法の詳細説明

タスク定義

入力: ビデオシーケンス内の連続フレームと目標検出バウンディングボックス出力: フレーム間の目標身元関連付け、ID一貫性の維持制約: リアルタイム性要件、遮蔽と外観の類似性への対応

モデルアーキテクチャ

1. 深度-セグメンテーション融合モジュール

ゼロショット深度推定: Depth Proを使用して相対空間表現の深度マップを生成します
プロンプト可能なビジュアルセグメンテーション(PVS): SAM2を採用して時空間形状アライメントを実現します
- t-1フレーム内の追跡軌跡に対して、バウンディングボックスをプロンプトとして使用して正確なセグメンテーションマスクを生成します
- tフレーム内の新規検出に対して、t-1フレームに逆伝播してアライメントを実現します
- ピクセル単位でマスクを対応する深度マップと乗算し、融合された深度-セグメンテーション埋め込みを生成します

2. 自己教師あり深度-セグメンテーションエンコーダ

アーキテクチャ設計:

エンコーダ: 3つの畳み込み層(4×4カーネル、ストライド2)、チャネル数1→32→64→128
バッチ正規化とReLU活性化
線形層が2048次元のボトルネック特徴を生成
デコーダ: ミラー構造、転置畳み込みアップサンプリング

訓練目標:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

時間的一貫性更新:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. 外観-運動モジュール

非線形カルマンフィルタ: 目標運動ダイナミクスをモデル化し、観測中心再更新(ORU)メカニズムを統合します
運動マッチング: S_IoU(空間重複)とS_ang(角度一貫性)を計算します
外観マッチング: FastReIDを使用して外観埋め込みを抽出し、コサイン類似度でS_embを計算します

技術的革新点

マスクIoU計算の回避: エンコーダ埋め込みのコサイン類似度により高コストなマスクIoUを置き換えます
マルチモーダル融合: 深度とセグメンテーション情報のピクセルレベル融合は細粒度の空間手がかりを提供します
自己教師あり学習最適化: 再構成とボトルネック一貫性損失を通じて特徴品質を向上させます
時間的安定性: 動的加重埋め込み更新戦略はフレーム間の一貫性を維持します

全体的な関連付け戦略

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

ハンガリアンアルゴリズムを使用して最適なデータ関連付けを実行します。

実験設定

データセット

SportsMOT: 高速で予測不可能な運動、頻繁な遮蔽
DanceTrack: 高度に非線形な運動、頻繁な遮蔽、近距離相互作用
- 40個の訓練シーケンス、25個の検証シーケンス、35個のテストシーケンス
MOT17: 中程度の密度の群衆、構造化された歩行者運動、相対的に線形で予測可能

評価メトリクス

HOTA: 高次トラッキング精度、検出と関連付け精度のバランス
AssA: 関連付け精度、身元保持を強調
DetA: 検出精度
IDF1: 身元F1スコア、身元保持と関連付け品質に焦点
MOTA: マルチオブジェクトトラッキング精度、検出レベルの性能に焦点
FPS: トラッキングコンポーネントに基づくフレームレート

比較手法

TBD手法: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrackなど JDR手法: FairMOT, TransTrack, MOTRv2など

実装詳細

検出器: YOLOX (最新のMOT手法と一貫性)
訓練: 単一NVIDIA A100 GPU、バッチサイズ128、12エポック
最適化器: Adam、学習率1e-3
推論: バッチサイズ1、関連付けステージで125 FPS以上 (DanceTrack検証セット)

実験結果

主要結果

SportsMOTテストセット

手法	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

DanceTrackテストセット

手法	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

MOT17テストセット

手法	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

アブレーション実験

設定	DanceTrack-val	MOT17-val
外観 + マスクIoU	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
外観 + バウンディングボックスIoU	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
外観 + バウンディングボックスIoU + 深度-セグメンテーション	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

実験的知見

相補性: マスクIoUからバウンディングボックスIoUへの切り替えは性能を大幅に向上させ、深度-セグメンテーション統合はさらなる改善をもたらします
シーン適応性: DanceTrackなどの非線形運動データセットでの改善がより顕著であり、MOT17などの線形運動データセットでの改善は相対的に小さいです
関連付け品質: HOTA、AssA、IDF1などの関連付けメトリクスで一貫して向上し、手法の有効性を検証します