2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.
Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
academic

Bootstrapping Referring Multi-Object Tracking

基本信息

  • 论文ID: 2406.05039
  • 标题: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
  • 作者: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
  • 分类: cs.CV cs.CL
  • 发表时间: 2025年10月27日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2406.05039
  • 代码和数据集: https://github.com/zyn213/TempRMOT

摘要

本文提出了一个新的视频理解任务——指代多目标跟踪(Referring Multi-Object Tracking, RMOT),旨在通过自然语言表达式作为语义线索来指导多目标跟踪预测,全面考虑目标数量变化和时间语义。论文构建了Refer-KITTI-V2基准数据集,包含9,758个多样化的语言表达式,并提出了TempRMOT框架,该框架通过查询驱动的时间增强模块实现长期时空交互。TempRMOT在Refer-KITTI和Refer-KITTI-V2上均达到最优性能。

研究背景与动机

要解决的问题

现有的指代理解(Referring Understanding)任务存在两个核心局限:

  1. 单目标限制:现有数据集(如RefCOCO系列、Refer-DAVIS17)每个表达式仅标注单一目标,而现实场景中一个表达式可能指代多个、单个或零个目标
  2. 时间一致性缺失:现有方法无法建模语言表达与目标演化状态之间的时间一致性。例如,"正在转弯的汽车"这一表达描述的是瞬时状态,但标注会持续跟踪该目标即使转弯动作已完成

问题的重要性

  • 语言引导的视频理解是连接自然语言与视觉内容的关键任务
  • 在自动驾驶等实际应用中,需要通过自然语言指令同时跟踪多个动态目标
  • 准确建模时间动态对于理解运动相关的语义至关重要

现有方法的局限性

  1. 数据集层面
    • 手工标注结合固定模板,语言多样性受限
    • 语义冗余严重(如Refer-Dance仅48个独特表达式)
    • 缺乏隐式表达和复杂语义(如否定描述)
  2. 方法层面
    • 两阶段方法复杂度高,计算开销大
    • 单阶段方法主要关注相邻帧,缺乏长期时间建模能力

核心贡献

  1. 提出RMOT新任务:首次系统性地将指代理解扩展到多目标动态场景,并考虑时间状态变化
  2. 构建Refer-KITTI-V2数据集
    • 包含9,758个表达式,7,193个独特表达式,617个不同词汇
    • 设计三步半自动标注流程,结合LLM生成多样化表达式
    • 包含隐式表达(如"自车位于黑色汽车之后")
  3. 提出TempRMOT框架
    • 端到端Transformer架构,无需后处理
    • 查询驱动的时间增强模块,实现长期时空交互
    • 解耦跟踪查询和检测查询,处理可变数量目标
  4. 取得SOTA性能
    • 在Refer-KITTI-V2上比前作提升约4% HOTA
    • 在Refer-KITTI上达到52.21% HOTA
  5. 设计高效标注流程:三步半自动标注方法显著降低人工成本

方法详解

任务定义

输入:视频序列(T帧) + 自然语言表达式 输出:每帧中所有符合表达式描述的目标的边界框和ID 约束

  • 目标数量可变(0到多个)
  • 仅在目标满足表达式描述的时间段内进行标注
  • 需保持时间一致性的ID关联

模型架构

TempRMOT由两个核心组件构成:

1. Transformer-Based RMOT模块

特征提取器

  • 视觉编码:CNN主干网络提取多尺度特征 ItlRCl×Hl×WlI^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}
  • 语言编码:RoBERTa编码文本为词嵌入 SRL×DS \in \mathbb{R}^{L \times D}

跨模态编码器(早期融合策略): Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSQ = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vSI^tl=QKTdV+Itl\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t

其中PVP_VPLP_L分别是视觉和语言的位置编码。融合后通过可变形编码器层: Etl=DeformEnc(I^tl)E^l_t = \text{DeformEnc}(\hat{I}^l_t)

解码器(双查询机制):

  • 跟踪查询 QttraQ^{tra}_t:从前一帧的解码器嵌入Dt1D_{t-1}转换而来,用于关联已跟踪实例
  • 检测查询 QdetQ^{det}:随机初始化,用于检测新出现目标

Qt=Decoder(Etl,concat(Qdet,Qttra))Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))

指代头:包含三个分支

  • 分类分支:二分类(真实目标/空对象)
  • 边界框分支:3层FFN回归坐标
  • 指代分支:输出与表达式的匹配概率

2. 时间增强模块

查询记忆机制

  • 维护N×KN \times K记忆队列(N帧,每帧K个对象)
  • FIFO原则更新,保持恒定内存消耗

时间解码器(4层): 通过跨帧注意力聚合历史信息: Qt=CrossFrameAttn(Q=Qt,K=Qtτh:t,V=Qtτh:t,PE=Pos(tτh:t))Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))

其中τh\tau_h是时间窗口大小,Pos\text{Pos}编码时间位置。

对象解码器(4层): 通过跨对象注意力建模空间交互: Qt=CrossObjectAttn(Q,K,V=Qt,PE=Pos(O1:Nt))Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))

轨迹精炼: 使用MLP预测残差调整: Bt=Bt+MLP(QtS)B_t = B_t + \text{MLP}(Q^S_t)

其中QtSQ^S_t是经过时空增强的查询特征。

技术创新点

  1. 早期跨模态融合:相比MDETR的密集连接,采用高效的注意力加权策略,降低计算复杂度
  2. 双查询解耦设计
    • 跟踪查询继承历史信息,保证ID一致性
    • 检测查询处理新目标,提高灵活性
  3. 查询驱动的时间建模
    • 使用紧凑的查询表示而非原始特征进行时间聚合
    • 分离时间维度和空间维度的注意力机制
    • 支持长期依赖(最多8帧历史)
  4. 端到端可微分:无需NMS等后处理,直接输出最终结果

实验设置

数据集

Refer-KITTI

  • 18个视频,895个表达式
  • 训练集:15视频/660表达式
  • 测试集:3视频/158表达式

Refer-KITTI-V2

  • 21个视频,9,758个表达式
  • 训练集:17视频/8,873表达式
  • 测试集:4视频/897表达式
  • 特点:7,193个独特表达式,617个不同词汇,包含隐式表达

KITTI:用于评估通用MOT能力

数据集构建流程

Step 1: 语言项收集

  • 标注基础属性:类别(car/people)、颜色(black/red)、位置(left/right)、动作(moving/turning)
  • 利用KITTI的实例ID自动传播标注

Step 2: 表达式生成

  • 使用预定义模板组合语言项
  • 例如:"{color}-{action}-cars" → "black turning cars"
  • 通过AND操作关联边界框

Step 3: 表达式扩展

  • 使用GPT-3.5对每个表达式生成4个语义等价的改写
  • 两阶段验证:LLM验证 + 人工审核
  • 从2,719扩展到9,758个表达式

评价指标

HOTA (Higher Order Tracking Accuracy)HOTA=DetAAssA\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}

  • DetA (Detection Accuracy):帧级检测IoU得分
  • AssA (Association Accuracy):时间关联IoU得分
  • 其他指标:DetRe, DetPr, AssRe, AssPr, LocA

对比方法

两阶段方法

  • FairMOT, DeepSORT, ByteTrack, CStrack
  • TransTrack, TrackFormer
  • iKUN

单阶段方法

  • EchoTrack, DeepRMOT
  • TransRMOT (前作)
  • MLS-Track

实现细节

  • 主干网络:ResNet-50 (视觉) + RoBERTa (文本)
  • 优化器:Adam,学习率1e-5 (主干1e-5)
  • 训练:60 epochs,batch size=1,4×RTX 4090
  • 数据增强:随机裁剪,多尺度(800-1536)
  • 记忆长度:Refer-KITTI N=4,Refer-KITTI-V2 N=5
  • 推理阈值:分类0.6,指代0.4
  • 损失权重λclsD=5,λL1D=2,λgiouD=2,λrefD=2\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2

实验结果

主要结果

Refer-KITTI性能

方法E2EHOTADetAAssADetReDetPr
iKUN48.8435.7466.8051.9752.25
TransRMOT46.5637.9757.3349.6960.10
MLS-Track49.0540.0360.2559.0754.18
TempRMOT52.2140.9566.7555.6559.25
  • 相比MLS-Track提升3.16% HOTA
  • 在端到端方法中全面领先

Refer-KITTI-V2性能

方法HOTADetAAssA
iKUN10.322.1749.77
TransRMOT31.0019.4049.68
TempRMOT35.0422.9753.58
  • 相比TransRMOT提升4.04% HOTA
  • 验证了在更复杂语言场景下的有效性

KITTI性能

方法HOTAAssA
TransRMOT61.5266.51
TempRMOT63.4772.04
  • AssA提升5.53%,证明时间建模的有效性

消融实验

模块有效性(Refer-KITTI-V2):

Temp.RefineHOTADetAAssA
31.0019.4049.68
34.4622.7352.37
35.0422.9753.58
  • 时间增强模块贡献最大(+3.46% HOTA)
  • 轨迹精炼进一步提升性能(+0.58% HOTA)

训练时记忆长度

NtN_tHOTADetAAssA
333.6421.9651.66
434.4122.4352.90
534.7222.5953.49
  • 更长的历史上下文带来持续提升

推理时记忆长度

NiN_iHOTADetAAssA
534.7222.5953.49
634.7822.7353.32
835.0422.9753.58
  • 推理时使用更长记忆可进一步提升性能
  • 展示了时间模块的泛化能力

案例分析

运动理解能力

  • 指令"left cars which are parking":TempRMOT正确识别静止车辆,TransRMOT误将行人标记为停车
  • 指令"right persons who are walking":TempRMOT准确理解运动状态

鲁棒跟踪能力

  • 指令"cars in front of ours":TransRMOT出现ID切换和跟踪丢失,TempRMOT保持一致的ID关联

复杂语义理解

  • 处理隐式表达"the ego car is positioned after the black cars"
  • 理解否定描述"pedestrians lacking hair"
  • 组合多属性"the men are on the right side and they have t-shirts on"

实验发现

  1. 时间建模的重要性:AssA指标的显著提升(+5.53%)证明长期时间依赖对跟踪质量至关重要
  2. 端到端优势:单阶段方法整体优于两阶段方法,联合优化更有效
  3. 语言复杂度影响:Refer-KITTI-V2上的性能下降反映了更丰富语义带来的挑战
  4. 记忆机制的泛化性:推理时可使用比训练更长的历史窗口
  5. 查询表示的高效性:相比原始特征,查询表示更紧凑且保留关键信息

相关工作

RMOT基准数据集

现有数据集的局限

  • RefCOCO系列:仅图像,单目标
  • Talk2Car, VID-Sentence:视频但单目标
  • Refer-DAVIS17, Refer-YV:像素级分割,单目标

RMOT数据集对比

数据集视频词汇表达式独特表达式隐式表达
Refer-KITTI1849895215
GroOT*1426015471161
Refer-Dance6525198548
Refer-KITTI-V22161797587193

RMOT方法

两阶段方法

  • 先提取轨迹,再匹配表达式
  • 优点:精细化处理
  • 缺点:复杂度高,计算开销大

单阶段方法

  • 端到端Transformer框架
  • TransRMOT:首个RMOT模型
  • 局限:主要关注相邻帧,缺乏长期建模

查询驱动的时间建模

相关工作

  • MeMOT:记忆模块存储历史查询
  • MeMOTR:时间上下文增强跟踪查询
  • BEVFormer:BEV表示的时空Transformer

本文创新

  • 专注于语言条件下的视频理解
  • 分离时间和空间注意力
  • 结合当前帧空间特征的联合推理

结论与讨论

主要结论

  1. RMOT任务更通用:克服了单目标限制,考虑时间动态,更符合现实需求
  2. Refer-KITTI-V2质量高:通过半自动流程和LLM,实现了规模和多样性的平衡
  3. TempRMOT有效:时间增强模块显著提升性能,在两个基准上均达到SOTA
  4. 长期依赖关键:显式建模时空交互对准确跟踪和语义对齐至关重要

局限性

  1. 数据集规模:虽然表达式丰富,但视频数量(21个)相对有限,场景多样性受限
  2. 计算复杂度:虽然采用查询表示降低开销,但多帧记忆仍需额外计算
  3. 语言理解深度:对于极其复杂的逻辑推理(如多重否定、复杂因果关系)仍有挑战
  4. 遮挡处理:论文未详细讨论严重遮挡场景的处理策略
  5. 实时性:未报告FPS等实时性能指标,实际部署可行性不明确
  6. 泛化能力:仅在KITTI场景(驾驶场景)验证,其他领域(如行人、体育)的泛化性未知

未来方向

  1. 扩展到更多场景:构建涵盖更多领域的RMOT数据集
  2. 提升实时性:优化模型结构,实现实时跟踪
  3. 增强语言理解:引入更强的语言模型(如GPT-4)
  4. 3D扩展:结合点云数据,扩展到3D RMOT
  5. 交互式跟踪:支持用户实时修正和反馈

深度评价

优点

1. 任务定义具有前瞻性

  • RMOT任务填补了多目标+时间动态的空白
  • 时间一致性建模(如"正在转弯"的瞬时状态)非常实用
  • 为语言引导的自动驾驶提供了新范式

2. 数据集构建科学高效

  • 三步半自动流程平衡了质量和效率
  • LLM辅助生成显著提升多样性(7193个独特表达式)
  • 隐式表达的引入增加了挑战性和真实性

3. 方法设计合理

  • 早期融合策略降低计算复杂度
  • 双查询解耦设计兼顾历史关联和新目标检测
  • 时空分离的注意力机制清晰有效

4. 实验充分

  • 在三个数据集上验证
  • 详细的消融实验量化各模块贡献
  • 丰富的可视化案例展示模型能力

5. 写作清晰

  • 逻辑严密,从动机到方法到实验层层递进
  • 图表丰富(10个图,5个表),信息密度高
  • 技术细节完整,可复现性强

不足

1. 数据集局限

  • 视频数量少(21个),场景单一(仅驾驶)
  • 表达式虽多,但基于有限的语言项组合,深层语义多样性不足
  • 缺乏极端天气、夜间等挑战场景

2. 方法局限

  • 记忆长度固定(N=5),无法自适应调整
  • 未处理表达式歧义(如"左边的车"在不同视角下的歧义)
  • 缺少不确定性估计,无法量化预测置信度

3. 实验不足

  • 未报告推理速度(FPS),实时性不明
  • 缺少跨数据集泛化实验(如在Refer-Dance上测试)
  • 未与最新的视觉语言模型(如CLIP, BLIP-2)对比
  • 错误分析不够深入,未统计主要失败模式

4. 理论分析缺失

  • 未从理论角度解释为何时间建模有效
  • 缺少注意力权重的可视化分析
  • 未讨论模型的学习动态和收敛性

5. 社会影响讨论不足

  • 未讨论隐私问题(行人跟踪的伦理问题)
  • 未分析潜在的偏见(如对特定人群的识别偏差)

影响力

对领域的贡献

  • 任务层面:RMOT任务将成为视频理解的重要方向,已有多篇后续工作引用
  • 数据层面:Refer-KITTI-V2为社区提供了高质量基准,代码和数据开源促进研究
  • 方法层面:时间增强模块的设计思路可迁移到其他视频任务

实用价值

  • 自动驾驶:支持语言指令的车辆控制("跟随前面的红色汽车")
  • 智能监控:基于描述的多目标检索("穿红衣服的行人")
  • 人机交互:自然语言引导的视频编辑

可复现性

预期影响

  • 短期(1-2年):激发更多RMOT数据集和方法
  • 中期(3-5年):与大语言模型结合,实现更强的语义理解
  • 长期(5年+):成为多模态自动驾驶系统的标准组件

适用场景

最适合的场景

  1. 自动驾驶:语言指令引导的车辆跟踪和路径规划
  2. 智能交通:基于描述的交通参与者检测("违章停车的车辆")
  3. 视频监控:自然语言查询的目标检索
  4. 机器人导航:语言引导的目标跟随

不太适合的场景

  1. 高速场景:当前方法可能无法满足实时性要求
  2. 极端遮挡:严重遮挡下的跟踪仍有挑战
  3. 开放域场景:训练数据局限于驾驶场景,泛化性待验证
  4. 细粒度描述:对于极其细致的外观描述(如"穿蓝色条纹衬衫的人")可能力不从心

改进建议

  • 扩展到更多场景(室内、体育、社交活动)
  • 优化模型以提升实时性
  • 引入主动学习,支持少样本适应新场景

参考文献

关键引用

RMOT相关

  1. Wu et al. (2023) - TransRMOT: 首个RMOT方法和Refer-KITTI数据集
  2. Du et al. (2024) - iKUN: 免重训练的跟踪器
  3. Ma et al. (2024) - MLS-Track: 多层次语义交互

Transformer跟踪: 4. Zeng et al. (2022) - MOTR: 端到端多目标跟踪 5. Zhu et al. (2020) - Deformable DETR: 可变形注意力 6. Gao & Wang (2023) - MeMOTR: 长期记忆增强跟踪

指代理解: 7. Yu et al. (2016) - RefCOCO系列数据集 8. Kamath et al. (2021) - MDETR: 多模态检测

评估指标: 9. Luiten et al. (2020) - HOTA: 高阶跟踪准确度


总体评价:这是一篇高质量的计算机视觉论文,在任务定义、数据集构建和方法设计上都有实质性创新。RMOT任务具有重要的理论意义和应用价值,Refer-KITTI-V2为社区提供了宝贵资源,TempRMOT框架设计合理且有效。主要不足在于场景局限性和实时性未知。建议后续工作扩展到更多领域,并进行更深入的理论分析。该论文有望成为语言引导视频理解领域的重要参考文献。