Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
الجمع السريع الواعي بالعمق والقناع ذاتي الإشراف لتتبع الأجسام المتعددة
تعتمد طرق تتبع الأجسام المتعددة (MOT) عادةً على نسبة الاتحاد والتقاطع (IoU) للجمع، لكنها تصبح غير موثوقة عندما تكون الأجسام متشابهة أو مغطاة، وحساب IoU قناع التقسيم مكلف حسابياً. تستخدم هذه الورقة أقنعة التقسيم لالتقاط شكل الجسم، لكن دون حساب IoU التقسيم. بدلاً من ذلك، تدمج ميزات العمق والقناع، معالجة من خلال مشفر مضغوط مدرب بإشراف ذاتي، مما ينتج تمثيلاً مستقراً للجسم، بمثابة إشارة تشابه إضافية تتجاوز IoU صندوق الحدود وميزات إعادة التعريف. يتم الحصول على خرائط العمق من خلال مقدّر عمق بدون عينات، والأقنعة من خلال نموذج تقسيم بصري قابل للتوجيه، للحصول على إشارات مكانية دقيقة. تستخدم هذه الطريقة لأول مرة مشفر مدرب بإشراف ذاتي لتحسين أقنعة التقسيم دون حساب IoU القناع. تُظهر التجارب على معايير تحديية تتميز بحركة غير خطية واحتجاب وتزاحم (مثل SportsMOT و DanceTrack) أن الطريقة تتفوق على أحدث طرق TBD في معظم المقاييس.
تعتمد طرق MOT الحالية بشكل أساسي على إشارات ثنائية الأبعاد للجمع بين البيانات، وتؤدي بشكل سيء في السيناريوهات المعقدة. على سبيل المثال، عندما يمشي شخصان بالتوازي لكن على أعماق مختلفة، قد يكون من المستحيل تمييزهما في العرض ثنائي الأبعاد. تقترح هذه الورقة طريقة واعية بالمكان ثلاثي الأبعاد تجمع بين معلومات العمق والتقسيم لتوفير جمع أجسام أكثر قوة.
الإدخال: إطارات متتالية في تسلسل فيديو وصناديق حدود الكشف عن الأجسام
الإخراج: جمع هوية الجسم عبر الإطارات، الحفاظ على اتساق المعرّف
القيود: متطلبات الوقت الفعلي، معالجة الاحتجاب والتشابه الظاهري
التكامل: التبديل من IoU القناع إلى IoU صندوق الحدود يحسن الأداء بشكل كبير، ودمج العمق والقناع يحسنها أكثر
التكيف مع السيناريو: التحسن أكثر وضوحاً في مجموعات البيانات ذات الحركة غير الخطية مثل DanceTrack، والتحسن نسبي أقل في مجموعات البيانات ذات الحركة الخطية مثل MOT17
جودة الجمع: تحسن ثابت في مقاييس الجمع HOTA و AssA و IDF1، مما يتحقق من فعالية الطريقة
تستشهد الورقة بـ 41 مرجعاً ذا صلة، تغطي الأعمال الرئيسية في مجال MOT، بما في ذلك الطرق الكلاسيكية مثل ByteTrack و OC-SORT و FairMOT، وكذلك أحدث طرق الوعي بالعمق والتعلم ذاتي الإشراف، مما يوفر مرجعية خلفية شاملة للبحث ذي الصلة.