2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

基本信息

摘要

多目标跟踪(MOT)方法通常依赖交并比(IoU)进行关联,但在目标相似或遮挡时变得不可靠,且计算分割掩码的IoU代价昂贵。本文使用分割掩码捕获目标形状,但不计算分割IoU。相反,融合深度和掩码特征,通过自监督训练的紧凑编码器处理,产生稳定的目标表示,作为边界框IoU和重识别特征之外的额外相似性线索。通过零样本深度估计器获取深度图,通过可提示视觉分割模型获取目标掩码,以获得细粒度空间线索。该方法首次使用自监督编码器优化分割掩码而不计算掩码IoU。在具有非线性运动、遮挡和拥挤场景的挑战性基准(如SportsMOT和DanceTrack)上的实验表明,该方法在大多数指标上优于TBD最先进方法。

研究背景与动机

问题定义

多目标跟踪面临的核心挑战包括:

  1. 遮挡问题:目标被部分或完全遮挡时,传统的2D线索(如边界框IoU)变得不可靠
  2. 外观相似性:具有相似外观的目标难以区分,导致频繁的ID切换
  3. 计算效率:直接计算分割掩码IoU的计算成本过高
  4. 复杂运动:非线性运动模式下的目标关联困难

研究动机

现有MOT方法主要依赖2D线索进行数据关联,在复杂场景下表现不佳。例如,两个行人平行行走但处于不同深度时,在2D视图中可能无法区分。本文提出结合深度和分割信息的3D空间感知方法,以提供更鲁棒的目标关联。

现有方法局限性

  1. Joint Detection-ReID (JDR)方法:计算要求高,需要联合训练检测和跟踪
  2. Tracking-by-Detection (TBD)方法:主要依赖外观嵌入而非空间感知线索
  3. 深度感知方法:将深度作为辅助信号而非主要关联线索
  4. 自监督ReID学习:依赖对比或聚类目标,未利用融合的3D空间信息

核心贡献

  1. 设计了自监督编码器:增强深度-分割特征的时间稳定性和判别性
  2. 首创性方法:首次使用自监督编码器优化分割掩码并将其集成到匹配分数中,而不计算掩码IoU
  3. 竞争性性能:在各种跟踪场景中实现竞争性能,特别是在遮挡场景中表现优异
  4. 高效实现:避免了昂贵的掩码IoU计算,同时保持了细粒度空间推理能力

方法详解

任务定义

输入:视频序列中的连续帧和目标检测边界框 输出:跨帧的目标身份关联,维持ID一致性 约束:实时性要求,处理遮挡和外观相似性

模型架构

1. 深度-分割融合模块

  • 零样本深度估计:使用Depth Pro生成相对空间表示的深度图
  • 可提示视觉分割(PVS):采用SAM2进行时空形状对齐
    • 对t-1帧中的跟踪轨迹,使用边界框作为提示生成精确分割掩码
    • 对t帧中的新检测,反向传播到t-1帧进行对齐
    • 逐像素相乘掩码与对应深度图,生成融合的深度-分割嵌入

2. 自监督深度-分割编码器

架构设计

  • 编码器:3个卷积层(4×4核,步长2),通道从1→32→64→128
  • 批归一化和ReLU激活
  • 线性层产生2048维瓶颈特征
  • 解码器:镜像结构,转置卷积上采样

训练目标

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

时间一致性更新

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. 外观-运动模块

  • 非线性卡尔曼滤波器:建模目标运动动态,集成观测中心重更新(ORU)机制
  • 运动匹配:计算S_IoU(空间重叠)和S_ang(角度一致性)
  • 外观匹配:使用FastReID提取外观嵌入,余弦相似度计算S_emb

技术创新点

  1. 避免掩码IoU计算:通过编码器嵌入的余弦相似度替代昂贵的掩码IoU
  2. 多模态融合:深度和分割信息的像素级融合提供细粒度空间线索
  3. 自监督优化:通过重构和瓶颈一致性损失增强特征质量
  4. 时间稳定性:动态加权的嵌入更新策略保持跨帧一致性

总体关联策略

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

使用匈牙利算法进行最优数据关联。

实验设置

数据集

  1. SportsMOT:快速、不可预测的运动,频繁遮挡
  2. DanceTrack:高度非线性运动,频繁遮挡,近距离交互
    • 40个训练序列,25个验证序列,35个测试序列
  3. MOT17:中等密度人群,结构化行人运动,相对线性和可预测

评价指标

  • HOTA:高阶跟踪准确性,平衡检测和关联准确性
  • AssA:关联准确性,强调身份保持
  • DetA:检测准确性
  • IDF1:身份F1分数,关注身份保持和关联质量
  • MOTA:多目标跟踪准确性,关注检测级性能
  • FPS:基于跟踪组件的帧率

对比方法

TBD方法:ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack等 JDR方法:FairMOT, TransTrack, MOTRv2等

实现细节

  • 检测器:YOLOX (与最新MOT方法一致)
  • 训练:单个NVIDIA A100 GPU,批大小128,12个epoch
  • 优化器:Adam,学习率1e-3
  • 推理:批大小1,关联阶段超过125 FPS (DanceTrack验证集)

实验结果

主要结果

SportsMOT测试集

方法HOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT*76.276.165.197.189.3
SelfTrEncMOT*76.477.166.095.8488.4

DanceTrack测试集

方法HOTA↑IDF1↑AssA↑MOTA↑DetA↑
DiffMOT62.363.047.292.882.5
SelfTrEncMOT64.1466.4750.8590.0881.06
MOTRv2 (JDR)69.971.759.091.983.0

MOT17测试集

方法HOTA↑IDF1↑AssA↑MOTA↑IDs↓
CMTrack65.581.566.180.7912
SelfTrEncMOT63.4878.1263.2579.161,008

消融实验

设置DanceTrack-valMOT17-val
外观 + 掩码IoUHOTA: 54.78, AssA: 38.52, IDF1: 52.71HOTA: 68.26, AssA: 66.81, IDF1: 77.20
外观 + 边界框IoUHOTA: 59.46, AssA: 43.93, IDF1: 59.11HOTA: 70.43, AssA: 70.83, IDF1: 80.73
外观 + 边界框IoU + 深度-分割HOTA: 60.61, AssA: 47.04, IDF1: 62.34HOTA: 72.22, AssA: 71.79, IDF1: 82.52

实验发现

  1. 互补性:从掩码IoU切换到边界框IoU显著提升性能,深度-分割集成进一步改善
  2. 场景适应性:在DanceTrack等非线性运动数据集上改善更明显,在MOT17等线性运动数据集上改善相对较小
  3. 关联质量:在HOTA、AssA、IDF1等关联指标上consistently提升,验证了方法的有效性

相关工作

Joint Detection-ReID方法

  • FairMOT:双分支方法结合无锚检测和外观嵌入
  • TransCenter:可变形注意力改善遮挡处理
  • AFMTrack:注意力特征匹配网络

Tracking-by-Detection方法

  • 序列级跟踪:图基方法(Brasó等),自监督路径一致性(Lu等)
  • 帧级跟踪:注意力模型(TrackFormer, MOTRv2),回归方法(OC-SORT, DiffMOT)

深度感知和自监督关联

  • 深度集成:相对深度排序(Quach等),立体深度结合姿态估计(Wang等)
  • 自监督ReID:路径一致性嵌入(Li等)

结论与讨论

主要结论

  1. 深度-分割融合提供了有效的3D空间感知能力
  2. 自监督编码器成功增强了特征的时间稳定性和判别性
  3. 避免掩码IoU计算的同时保持了细粒度空间推理能力
  4. 在复杂场景(遮挡、非线性运动)中表现优异

局限性

  1. 计算瓶颈:深度估计步骤(DepthPro约0.3秒/帧)成为主要性能瓶颈
  2. 线性运动场景:在MOT17等线性运动数据集上提升有限
  3. 依赖性:依赖预训练的SAM2和DepthPro模型质量

未来方向

  1. 实时深度估计:研究更快的深度估计器以提高整体速度
  2. 对比学习:为编码器引入对比目标以增强判别性和鲁棒性
  3. 端到端训练:探索深度估计和跟踪的联合优化

深度评价

优点

  1. 技术创新:首次将深度-分割融合与自监督编码器结合用于MOT
  2. 实用价值:避免昂贵的掩码IoU计算,提供高效解决方案
  3. 实验充分:在多个具有挑战性的数据集上验证,消融实验完整
  4. 性能提升:在关联质量指标上consistently超越现有TBD方法

不足

  1. 计算效率:虽然避免了掩码IoU,但深度估计仍是瓶颈
  2. 适用范围:在简单线性运动场景中优势不明显
  3. 依赖性强:严重依赖预训练模型的质量和可用性
  4. 理论分析:缺乏对深度-分割融合有效性的理论解释

影响力

  1. 学术贡献:为MOT领域引入了新的多模态融合思路
  2. 实际应用:在体育、舞蹈等复杂场景跟踪中具有实用价值
  3. 可复现性:提供代码和详细实现细节,便于复现

适用场景

  1. 复杂运动场景:体育竞技、舞蹈表演等非线性运动跟踪
  2. 高遮挡环境:拥挤场景中的多目标跟踪
  3. 外观相似目标:需要额外空间线索进行区分的场景
  4. 中等实时性要求:能容忍一定计算延迟的应用

参考文献

论文引用了41篇相关文献,涵盖了MOT领域的主要工作,包括经典的ByteTrack、OC-SORT、FairMOT等方法,以及最新的深度感知和自监督学习方法,为相关研究提供了全面的背景参考。