Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
论文ID : 2406.05039标题 : Referring Multi-Object Tracking with Comprehensive Dynamic Expressions作者 : Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du分类 : cs.CV cs.CL发表时间 : 2025年10月27日 (arXiv v2)论文链接 : https://arxiv.org/abs/2406.05039 代码和数据集 : https://github.com/zyn213/TempRMOT 本文提出了一个新的视频理解任务——指代多目标跟踪(Referring Multi-Object Tracking, RMOT),旨在通过自然语言表达式作为语义线索来指导多目标跟踪预测,全面考虑目标数量变化和时间语义。论文构建了Refer-KITTI-V2基准数据集,包含9,758个多样化的语言表达式,并提出了TempRMOT框架,该框架通过查询驱动的时间增强模块实现长期时空交互。TempRMOT在Refer-KITTI和Refer-KITTI-V2上均达到最优性能。
现有的指代理解(Referring Understanding)任务存在两个核心局限:
单目标限制 :现有数据集(如RefCOCO系列、Refer-DAVIS17)每个表达式仅标注单一目标,而现实场景中一个表达式可能指代多个、单个或零个目标时间一致性缺失 :现有方法无法建模语言表达与目标演化状态之间的时间一致性。例如,"正在转弯的汽车"这一表达描述的是瞬时状态,但标注会持续跟踪该目标即使转弯动作已完成语言引导的视频理解是连接自然语言与视觉内容的关键任务 在自动驾驶等实际应用中,需要通过自然语言指令同时跟踪多个动态目标 准确建模时间动态对于理解运动相关的语义至关重要 数据集层面 :手工标注结合固定模板,语言多样性受限 语义冗余严重(如Refer-Dance仅48个独特表达式) 缺乏隐式表达和复杂语义(如否定描述) 方法层面 :两阶段方法复杂度高,计算开销大 单阶段方法主要关注相邻帧,缺乏长期时间建模能力 提出RMOT新任务 :首次系统性地将指代理解扩展到多目标动态场景,并考虑时间状态变化构建Refer-KITTI-V2数据集 :包含9,758个表达式,7,193个独特表达式,617个不同词汇 设计三步半自动标注流程,结合LLM生成多样化表达式 包含隐式表达(如"自车位于黑色汽车之后") 提出TempRMOT框架 :端到端Transformer架构,无需后处理 查询驱动的时间增强模块,实现长期时空交互 解耦跟踪查询和检测查询,处理可变数量目标 取得SOTA性能 :在Refer-KITTI-V2上比前作提升约4% HOTA 在Refer-KITTI上达到52.21% HOTA 设计高效标注流程 :三步半自动标注方法显著降低人工成本输入 :视频序列(T帧) + 自然语言表达式
输出 :每帧中所有符合表达式描述的目标的边界框和ID
约束 :
目标数量可变(0到多个) 仅在目标满足表达式描述的时间段内进行标注 需保持时间一致性的ID关联 TempRMOT由两个核心组件构成:
特征提取器 :
视觉编码:CNN主干网络提取多尺度特征 I t l ∈ R C l × H l × W l I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l} I t l ∈ R C l × H l × W l 语言编码:RoBERTa编码文本为词嵌入 S ∈ R L × D S \in \mathbb{R}^{L \times D} S ∈ R L × D 跨模态编码器 (早期融合策略):
Q = W q ( I t l + P V ) , K = W k ( S + P L ) , V = W v S Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS Q = W q ( I t l + P V ) , K = W k ( S + P L ) , V = W v S I ^ t l = Q K T d V + I t l \hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t I ^ t l = d Q K T V + I t l
其中P V P_V P V 和P L P_L P L 分别是视觉和语言的位置编码。融合后通过可变形编码器层:
E t l = DeformEnc ( I ^ t l ) E^l_t = \text{DeformEnc}(\hat{I}^l_t) E t l = DeformEnc ( I ^ t l )
解码器 (双查询机制):
跟踪查询 Q t t r a Q^{tra}_t Q t t r a :从前一帧的解码器嵌入D t − 1 D_{t-1} D t − 1 转换而来,用于关联已跟踪实例检测查询 Q d e t Q^{det} Q d e t :随机初始化,用于检测新出现目标Q t = Decoder ( E t l , concat ( Q d e t , Q t t r a ) ) Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t)) Q t = Decoder ( E t l , concat ( Q d e t , Q t t r a ))
指代头 :包含三个分支
分类分支:二分类(真实目标/空对象) 边界框分支:3层FFN回归坐标 指代分支:输出与表达式的匹配概率 查询记忆机制 :
维护N × K N \times K N × K 记忆队列(N帧,每帧K个对象) FIFO原则更新,保持恒定内存消耗 时间解码器 (4层):
通过跨帧注意力聚合历史信息:
Q t = CrossFrameAttn ( Q = Q t , K = Q t − τ h : t , V = Q t − τ h : t , P E = Pos ( t − τ h : t ) ) Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t)) Q t = CrossFrameAttn ( Q = Q t , K = Q t − τ h : t , V = Q t − τ h : t , PE = Pos ( t − τ h : t ))
其中τ h \tau_h τ h 是时间窗口大小,Pos \text{Pos} Pos 编码时间位置。
对象解码器 (4层):
通过跨对象注意力建模空间交互:
Q t = CrossObjectAttn ( Q , K , V = Q t , P E = Pos ( O 1 : N t ) ) Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t})) Q t = CrossObjectAttn ( Q , K , V = Q t , PE = Pos ( O 1 : N t ))
轨迹精炼 :
使用MLP预测残差调整:
B t = B t + MLP ( Q t S ) B_t = B_t + \text{MLP}(Q^S_t) B t = B t + MLP ( Q t S )
其中Q t S Q^S_t Q t S 是经过时空增强的查询特征。
早期跨模态融合 :相比MDETR的密集连接,采用高效的注意力加权策略,降低计算复杂度双查询解耦设计 :跟踪查询继承历史信息,保证ID一致性 检测查询处理新目标,提高灵活性 查询驱动的时间建模 :使用紧凑的查询表示而非原始特征进行时间聚合 分离时间维度和空间维度的注意力机制 支持长期依赖(最多8帧历史) 端到端可微分 :无需NMS等后处理,直接输出最终结果Refer-KITTI :
18个视频,895个表达式 训练集:15视频/660表达式 测试集:3视频/158表达式 Refer-KITTI-V2 :
21个视频,9,758个表达式 训练集:17视频/8,873表达式 测试集:4视频/897表达式 特点:7,193个独特表达式,617个不同词汇,包含隐式表达 KITTI :用于评估通用MOT能力
Step 1: 语言项收集
标注基础属性:类别(car/people)、颜色(black/red)、位置(left/right)、动作(moving/turning) 利用KITTI的实例ID自动传播标注 Step 2: 表达式生成
使用预定义模板组合语言项 例如:"{color}-{action}-cars" → "black turning cars" 通过AND操作关联边界框 Step 3: 表达式扩展
使用GPT-3.5对每个表达式生成4个语义等价的改写 两阶段验证:LLM验证 + 人工审核 从2,719扩展到9,758个表达式 HOTA (Higher Order Tracking Accuracy) :
HOTA = DetA ⋅ AssA \text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}} HOTA = DetA ⋅ AssA
DetA (Detection Accuracy) :帧级检测IoU得分AssA (Association Accuracy) :时间关联IoU得分其他指标:DetRe, DetPr, AssRe, AssPr, LocA 两阶段方法 :
FairMOT, DeepSORT, ByteTrack, CStrack TransTrack, TrackFormer iKUN 单阶段方法 :
EchoTrack, DeepRMOT TransRMOT (前作) MLS-Track 主干网络 :ResNet-50 (视觉) + RoBERTa (文本)优化器 :Adam,学习率1e-5 (主干1e-5)训练 :60 epochs,batch size=1,4×RTX 4090数据增强 :随机裁剪,多尺度(800-1536)记忆长度 :Refer-KITTI N=4,Refer-KITTI-V2 N=5推理阈值 :分类0.6,指代0.4损失权重 :λ c l s D = 5 , λ L 1 D = 2 , λ g i o u D = 2 , λ r e f D = 2 \lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2 λ c l s D = 5 , λ L 1 D = 2 , λ g i o u D = 2 , λ re f D = 2 Refer-KITTI性能 :
方法 E2E HOTA DetA AssA DetRe DetPr iKUN ✗ 48.84 35.74 66.80 51.97 52.25 TransRMOT ✓ 46.56 37.97 57.33 49.69 60.10 MLS-Track ✓ 49.05 40.03 60.25 59.07 54.18 TempRMOT ✓ 52.21 40.95 66.75 55.65 59.25
相比MLS-Track提升3.16% HOTA 在端到端方法中全面领先 Refer-KITTI-V2性能 :
方法 HOTA DetA AssA iKUN 10.32 2.17 49.77 TransRMOT 31.00 19.40 49.68 TempRMOT 35.04 22.97 53.58
相比TransRMOT提升4.04% HOTA 验证了在更复杂语言场景下的有效性 KITTI性能 :
方法 HOTA AssA TransRMOT 61.52 66.51 TempRMOT 63.47 72.04
模块有效性 (Refer-KITTI-V2):
Temp. Refine HOTA DetA AssA ✗ ✗ 31.00 19.40 49.68 ✓ ✗ 34.46 22.73 52.37 ✓ ✓ 35.04 22.97 53.58
时间增强模块贡献最大(+3.46% HOTA) 轨迹精炼进一步提升性能(+0.58% HOTA) 训练时记忆长度 :
N t N_t N t HOTA DetA AssA 3 33.64 21.96 51.66 4 34.41 22.43 52.90 5 34.72 22.59 53.49
推理时记忆长度 :
N i N_i N i HOTA DetA AssA 5 34.72 22.59 53.49 6 34.78 22.73 53.32 8 35.04 22.97 53.58
推理时使用更长记忆可进一步提升性能 展示了时间模块的泛化能力 运动理解能力 :
指令"left cars which are parking":TempRMOT正确识别静止车辆,TransRMOT误将行人标记为停车 指令"right persons who are walking":TempRMOT准确理解运动状态 鲁棒跟踪能力 :
指令"cars in front of ours":TransRMOT出现ID切换和跟踪丢失,TempRMOT保持一致的ID关联 复杂语义理解 :
处理隐式表达"the ego car is positioned after the black cars" 理解否定描述"pedestrians lacking hair" 组合多属性"the men are on the right side and they have t-shirts on" 时间建模的重要性 :AssA指标的显著提升(+5.53%)证明长期时间依赖对跟踪质量至关重要端到端优势 :单阶段方法整体优于两阶段方法,联合优化更有效语言复杂度影响 :Refer-KITTI-V2上的性能下降反映了更丰富语义带来的挑战记忆机制的泛化性 :推理时可使用比训练更长的历史窗口查询表示的高效性 :相比原始特征,查询表示更紧凑且保留关键信息现有数据集的局限 :
RefCOCO系列 :仅图像,单目标Talk2Car, VID-Sentence :视频但单目标Refer-DAVIS17, Refer-YV :像素级分割,单目标RMOT数据集对比 :
数据集 视频 词汇 表达式 独特表达式 隐式表达 Refer-KITTI 18 49 895 215 ✗ GroOT* 14 260 1547 1161 ✗ Refer-Dance 65 25 1985 48 ✗ Refer-KITTI-V2 21 617 9758 7193 ✓
两阶段方法 :
先提取轨迹,再匹配表达式 优点:精细化处理 缺点:复杂度高,计算开销大 单阶段方法 :
端到端Transformer框架 TransRMOT:首个RMOT模型 局限:主要关注相邻帧,缺乏长期建模 相关工作 :
MeMOT :记忆模块存储历史查询MeMOTR :时间上下文增强跟踪查询BEVFormer :BEV表示的时空Transformer本文创新 :
专注于语言条件下的视频理解 分离时间和空间注意力 结合当前帧空间特征的联合推理 RMOT任务更通用 :克服了单目标限制,考虑时间动态,更符合现实需求Refer-KITTI-V2质量高 :通过半自动流程和LLM,实现了规模和多样性的平衡TempRMOT有效 :时间增强模块显著提升性能,在两个基准上均达到SOTA长期依赖关键 :显式建模时空交互对准确跟踪和语义对齐至关重要数据集规模 :虽然表达式丰富,但视频数量(21个)相对有限,场景多样性受限计算复杂度 :虽然采用查询表示降低开销,但多帧记忆仍需额外计算语言理解深度 :对于极其复杂的逻辑推理(如多重否定、复杂因果关系)仍有挑战遮挡处理 :论文未详细讨论严重遮挡场景的处理策略实时性 :未报告FPS等实时性能指标,实际部署可行性不明确泛化能力 :仅在KITTI场景(驾驶场景)验证,其他领域(如行人、体育)的泛化性未知扩展到更多场景 :构建涵盖更多领域的RMOT数据集提升实时性 :优化模型结构,实现实时跟踪增强语言理解 :引入更强的语言模型(如GPT-4)3D扩展 :结合点云数据,扩展到3D RMOT交互式跟踪 :支持用户实时修正和反馈1. 任务定义具有前瞻性
RMOT任务填补了多目标+时间动态的空白 时间一致性建模(如"正在转弯"的瞬时状态)非常实用 为语言引导的自动驾驶提供了新范式 2. 数据集构建科学高效
三步半自动流程平衡了质量和效率 LLM辅助生成显著提升多样性(7193个独特表达式) 隐式表达的引入增加了挑战性和真实性 3. 方法设计合理
早期融合策略降低计算复杂度 双查询解耦设计兼顾历史关联和新目标检测 时空分离的注意力机制清晰有效 4. 实验充分
在三个数据集上验证 详细的消融实验量化各模块贡献 丰富的可视化案例展示模型能力 5. 写作清晰
逻辑严密,从动机到方法到实验层层递进 图表丰富(10个图,5个表),信息密度高 技术细节完整,可复现性强 1. 数据集局限
视频数量少(21个),场景单一(仅驾驶) 表达式虽多,但基于有限的语言项组合,深层语义多样性不足 缺乏极端天气、夜间等挑战场景 2. 方法局限
记忆长度固定(N=5),无法自适应调整 未处理表达式歧义(如"左边的车"在不同视角下的歧义) 缺少不确定性估计,无法量化预测置信度 3. 实验不足
未报告推理速度(FPS),实时性不明 缺少跨数据集泛化实验(如在Refer-Dance上测试) 未与最新的视觉语言模型(如CLIP, BLIP-2)对比 错误分析不够深入,未统计主要失败模式 4. 理论分析缺失
未从理论角度解释为何时间建模有效 缺少注意力权重的可视化分析 未讨论模型的学习动态和收敛性 5. 社会影响讨论不足
未讨论隐私问题(行人跟踪的伦理问题) 未分析潜在的偏见(如对特定人群的识别偏差) 对领域的贡献 :
任务层面 :RMOT任务将成为视频理解的重要方向,已有多篇后续工作引用数据层面 :Refer-KITTI-V2为社区提供了高质量基准,代码和数据开源促进研究方法层面 :时间增强模块的设计思路可迁移到其他视频任务实用价值 :
自动驾驶 :支持语言指令的车辆控制("跟随前面的红色汽车")智能监控 :基于描述的多目标检索("穿红衣服的行人")人机交互 :自然语言引导的视频编辑可复现性 :
代码和数据集已开源(https://github.com/zyn213/TempRMOT ) 实现细节完整(超参数、训练策略等) 基于成熟框架(Deformable DETR),易于复现 预期影响 :
短期(1-2年):激发更多RMOT数据集和方法 中期(3-5年):与大语言模型结合,实现更强的语义理解 长期(5年+):成为多模态自动驾驶系统的标准组件 最适合的场景 :
自动驾驶 :语言指令引导的车辆跟踪和路径规划智能交通 :基于描述的交通参与者检测("违章停车的车辆")视频监控 :自然语言查询的目标检索机器人导航 :语言引导的目标跟随不太适合的场景 :
高速场景 :当前方法可能无法满足实时性要求极端遮挡 :严重遮挡下的跟踪仍有挑战开放域场景 :训练数据局限于驾驶场景,泛化性待验证细粒度描述 :对于极其细致的外观描述(如"穿蓝色条纹衬衫的人")可能力不从心改进建议 :
扩展到更多场景(室内、体育、社交活动) 优化模型以提升实时性 引入主动学习,支持少样本适应新场景 RMOT相关 :
Wu et al. (2023) - TransRMOT: 首个RMOT方法和Refer-KITTI数据集 Du et al. (2024) - iKUN: 免重训练的跟踪器 Ma et al. (2024) - MLS-Track: 多层次语义交互 Transformer跟踪 :
4. Zeng et al. (2022) - MOTR: 端到端多目标跟踪
5. Zhu et al. (2020) - Deformable DETR: 可变形注意力
6. Gao & Wang (2023) - MeMOTR: 长期记忆增强跟踪
指代理解 :
7. Yu et al. (2016) - RefCOCO系列数据集
8. Kamath et al. (2021) - MDETR: 多模态检测
评估指标 :
9. Luiten et al. (2020) - HOTA: 高阶跟踪准确度
总体评价 :这是一篇高质量的计算机视觉论文,在任务定义、数据集构建和方法设计上都有实质性创新。RMOT任务具有重要的理论意义和应用价值,Refer-KITTI-V2为社区提供了宝贵资源,TempRMOT框架设计合理且有效。主要不足在于场景局限性和实时性未知。建议后续工作扩展到更多领域,并进行更深入的理论分析。该论文有望成为语言引导视频理解领域的重要参考文献。