Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
تقدم هذه الورقة مهمة جديدة لفهم الفيديو تسمى تتبع الكائنات المتعددة المرجعية (RMOT)، والتي تهدف إلى توجيه التنبؤ بتتبع الكائنات المتعددة من خلال تعبيرات اللغة الطبيعية كإشارات دلالية، مع الأخذ في الاعتبار الشامل لتغيرات عدد الكائنات والدلالات الزمنية. تقدم الورقة مجموعة بيانات معيار Refer-KITTI-V2 التي تحتوي على 9,758 تعبيراً لغوياً متنوعاً، وتقترح إطار عمل TempRMOT الذي يحقق التفاعل الزمكاني طويل الأجل من خلال وحدة تعزيز زمنية مدفوعة بالاستعلامات. يحقق TempRMOT أداءً أمثل على كل من Refer-KITTI و Refer-KITTI-V2.
قيد الكائن الواحد: مجموعات البيانات الموجودة (مثل سلسلة RefCOCO و Refer-DAVIS17) تشرح كل تعبير بهدف واحد فقط، بينما في السيناريوهات الحقيقية قد يشير تعبير واحد إلى عدة كائنات أو كائن واحد أو لا شيء
غياب الاتساق الزمني: الطرق الموجودة لا تستطيع نمذجة الاتساق الزمني بين التعبيرات اللغوية وحالات تطور الكائنات. على سبيل المثال، التعبير "سيارة تنعطف" يصف حالة فورية، لكن التشريح سيتابع الكائن حتى بعد انتهاء حركة الانعطاف
اقتراح مهمة RMOT الجديدة: توسيع الفهم المرجعي بشكل منهجي لأول مرة إلى سيناريوهات متعددة الكائنات الديناميكية، مع الأخذ في الاعتبار التغييرات في الحالة الزمنية
بناء مجموعة بيانات Refer-KITTI-V2:
تحتوي على 9,758 تعبيراً، 7,193 تعبيراً فريداً، 617 كلمة مختلفة
تصميم عملية تشريح شبه آلية من ثلاث خطوات، مع دمج نماذج اللغة الكبيرة لتوليد تعبيرات متنوعة
تتضمن تعبيرات ضمنية (مثل "السيارة الخاصة بنا تقع خلف السيارة السوداء")
اقتراح إطار عمل TempRMOT:
معمارية Transformer من طرف إلى طرف، بدون معالجة لاحقة
وحدة تعزيز زمنية مدفوعة بالاستعلامات، تحقق التفاعل الزمكاني طويل الأجل
فصل استعلامات التتبع واستعلامات الكشف، للتعامل مع عدد متغير من الكائنات
تحقيق أداء SOTA:
تحسن بحوالي 4% HOTA مقارنة بالعمل السابق على Refer-KITTI-V2
تحقيق 52.21% HOTA على Refer-KITTI
تصميم عملية تشريح فعالة: طريقة تشريح شبه آلية من ثلاث خطوات تقلل بشكل كبير من التكاليف اليدوية
الحفاظ على قائمة انتظار ذاكرة N×K (N إطار، K كائن لكل إطار)
التحديث بمبدأ FIFO، الحفاظ على استهلاك ذاكرة ثابت
فك التشفير الزمني (4 طبقات):
تجميع المعلومات التاريخية من خلال الانتباه عبر الإطارات:
Qt=CrossFrameAttn(Q=Qt,K=Qt−τh:t,V=Qt−τh:t,PE=Pos(t−τh:t))
حيث τh هو حجم النافذة الزمنية، و Pos يرمز الموضع الزمني.
فك التشفير للكائن (4 طبقات):
نمذجة التفاعلات المكانية من خلال الانتباه عبر الكائنات:
Qt=CrossObjectAttn(Q,K,V=Qt,PE=Pos(O1:Nt))
تحسين المسار:
استخدام MLP للتنبؤ بالبقايا للتعديل:
Bt=Bt+MLP(QtS)
Wu et al. (2023) - TransRMOT: أول طريقة RMOT ومجموعة بيانات Refer-KITTI
Du et al. (2024) - iKUN: متتبع بدون إعادة تدريب
Ma et al. (2024) - MLS-Track: تفاعل دلالي متعدد المستويات
تتبع Transformer:
4. Zeng et al. (2022) - MOTR: تتبع متعدد الأهداف من طرف إلى طرف
5. Zhu et al. (2020) - Deformable DETR: انتباه قابل للتشويه
6. Gao & Wang (2023) - MeMOTR: تتبع محسن بالذاكرة طويلة الأجل
الفهم المرجعي:
7. Yu et al. (2016) - سلسلة بيانات RefCOCO
8. Kamath et al. (2021) - MDETR: كشف متعدد الأنماط
مؤشرات التقييم:
9. Luiten et al. (2020) - HOTA: دقة التتبع من الدرجة الأعلى
التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، مع ابتكارات جوهرية في تعريف المهمة وبناء مجموعة البيانات وتصميم الطريقة. تتمتع مهمة RMOT بأهمية نظرية وقيمة تطبيقية كبيرة، وتوفر Refer-KITTI-V2 موارد قيمة للمجتمع، وإطار عمل TempRMOT مصمم بعقلانية وفعال. أوجه القصور الرئيسية تكمن في محدودية السيناريو والوقت الفعلي غير المعروف. يُنصح بأن تركز الأعمال اللاحقة على التوسع إلى مجالات أكثر وإجراء تحليل نظري أعمق. من المتوقع أن تصبح هذه الورقة مرجعاً مهماً في مجال فهم الفيديو الموجه باللغة.