2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

基本信息

论文ID: 2510.09878
标题: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
作者: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
分类: cs.CV (Computer Vision)
发表时间: 2025年10月10日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09878
代码链接: https://github.com/Milad-Khanchi/SelfTrEncMOT

摘要

多目标跟踪(MOT)方法通常依赖交并比(IoU)进行关联，但在目标相似或遮挡时变得不可靠，且计算分割掩码的IoU代价昂贵。本文使用分割掩码捕获目标形状，但不计算分割IoU。相反，融合深度和掩码特征，通过自监督训练的紧凑编码器处理，产生稳定的目标表示，作为边界框IoU和重识别特征之外的额外相似性线索。通过零样本深度估计器获取深度图，通过可提示视觉分割模型获取目标掩码，以获得细粒度空间线索。该方法首次使用自监督编码器优化分割掩码而不计算掩码IoU。在具有非线性运动、遮挡和拥挤场景的挑战性基准(如SportsMOT和DanceTrack)上的实验表明，该方法在大多数指标上优于TBD最先进方法。

研究背景与动机

问题定义

多目标跟踪面临的核心挑战包括：

遮挡问题：目标被部分或完全遮挡时，传统的2D线索(如边界框IoU)变得不可靠
外观相似性：具有相似外观的目标难以区分，导致频繁的ID切换
计算效率：直接计算分割掩码IoU的计算成本过高
复杂运动：非线性运动模式下的目标关联困难

研究动机

现有MOT方法主要依赖2D线索进行数据关联，在复杂场景下表现不佳。例如，两个行人平行行走但处于不同深度时，在2D视图中可能无法区分。本文提出结合深度和分割信息的3D空间感知方法，以提供更鲁棒的目标关联。

现有方法局限性

Joint Detection-ReID (JDR)方法：计算要求高，需要联合训练检测和跟踪
Tracking-by-Detection (TBD)方法：主要依赖外观嵌入而非空间感知线索
深度感知方法：将深度作为辅助信号而非主要关联线索
自监督ReID学习：依赖对比或聚类目标，未利用融合的3D空间信息

核心贡献

设计了自监督编码器：增强深度-分割特征的时间稳定性和判别性
首创性方法：首次使用自监督编码器优化分割掩码并将其集成到匹配分数中，而不计算掩码IoU
竞争性性能：在各种跟踪场景中实现竞争性能，特别是在遮挡场景中表现优异
高效实现：避免了昂贵的掩码IoU计算，同时保持了细粒度空间推理能力

零样本深度估计：使用Depth Pro生成相对空间表示的深度图
可提示视觉分割(PVS)：采用SAM2进行时空形状对齐
- 对t-1帧中的跟踪轨迹，使用边界框作为提示生成精确分割掩码
- 对t帧中的新检测，反向传播到t-1帧进行对齐
- 逐像素相乘掩码与对应深度图，生成融合的深度-分割嵌入

2. 自监督深度-分割编码器

架构设计：

编码器：3个卷积层(4×4核，步长2)，通道从1→32→64→128
批归一化和ReLU激活
线性层产生2048维瓶颈特征
解码器：镜像结构，转置卷积上采样

训练目标：

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

时间一致性更新：

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. 外观-运动模块

非线性卡尔曼滤波器：建模目标运动动态，集成观测中心重更新(ORU)机制
运动匹配：计算S_IoU(空间重叠)和S_ang(角度一致性)
外观匹配：使用FastReID提取外观嵌入，余弦相似度计算S_emb

技术创新点

避免掩码IoU计算：通过编码器嵌入的余弦相似度替代昂贵的掩码IoU
多模态融合：深度和分割信息的像素级融合提供细粒度空间线索
自监督优化：通过重构和瓶颈一致性损失增强特征质量
时间稳定性：动态加权的嵌入更新策略保持跨帧一致性

总体关联策略

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

使用匈牙利算法进行最优数据关联。

实验设置

数据集

SportsMOT：快速、不可预测的运动，频繁遮挡
DanceTrack：高度非线性运动，频繁遮挡，近距离交互
- 40个训练序列，25个验证序列，35个测试序列
MOT17：中等密度人群，结构化行人运动，相对线性和可预测

评价指标

HOTA：高阶跟踪准确性，平衡检测和关联准确性
AssA：关联准确性，强调身份保持
DetA：检测准确性
IDF1：身份F1分数，关注身份保持和关联质量
MOTA：多目标跟踪准确性，关注检测级性能
FPS：基于跟踪组件的帧率

对比方法

TBD方法：ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack等 JDR方法：FairMOT, TransTrack, MOTRv2等

实现细节

检测器：YOLOX (与最新MOT方法一致)
训练：单个NVIDIA A100 GPU，批大小128，12个epoch
优化器：Adam，学习率1e-3
推理：批大小1，关联阶段超过125 FPS (DanceTrack验证集)

方法	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

DanceTrack测试集

方法	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

MOT17测试集

方法	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

消融实验

设置	DanceTrack-val	MOT17-val
外观 + 掩码IoU	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
外观 + 边界框IoU	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
外观 + 边界框IoU + 深度-分割	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52