2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

الجمع السريع الواعي بالعمق والقناع ذاتي الإشراف لتتبع الأجسام المتعددة

المعلومات الأساسية

معرّف الورقة: 2510.09878
العنوان: الجمع السريع الواعي بالعمق والقناع ذاتي الإشراف لتتبع الأجسام المتعددة
المؤلفون: ميلاد خانچي، ماريا أمير، كاراليمبوس بوليس (جامعة كونكوردیا)
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.09878
رابط الكود: https://github.com/Milad-Khanchi/SelfTrEncMOT

الملخص

تعتمد طرق تتبع الأجسام المتعددة (MOT) عادةً على نسبة الاتحاد والتقاطع (IoU) للجمع، لكنها تصبح غير موثوقة عندما تكون الأجسام متشابهة أو مغطاة، وحساب IoU قناع التقسيم مكلف حسابياً. تستخدم هذه الورقة أقنعة التقسيم لالتقاط شكل الجسم، لكن دون حساب IoU التقسيم. بدلاً من ذلك، تدمج ميزات العمق والقناع، معالجة من خلال مشفر مضغوط مدرب بإشراف ذاتي، مما ينتج تمثيلاً مستقراً للجسم، بمثابة إشارة تشابه إضافية تتجاوز IoU صندوق الحدود وميزات إعادة التعريف. يتم الحصول على خرائط العمق من خلال مقدّر عمق بدون عينات، والأقنعة من خلال نموذج تقسيم بصري قابل للتوجيه، للحصول على إشارات مكانية دقيقة. تستخدم هذه الطريقة لأول مرة مشفر مدرب بإشراف ذاتي لتحسين أقنعة التقسيم دون حساب IoU القناع. تُظهر التجارب على معايير تحديية تتميز بحركة غير خطية واحتجاب وتزاحم (مثل SportsMOT و DanceTrack) أن الطريقة تتفوق على أحدث طرق TBD في معظم المقاييس.

خلفية البحث والدافع

تعريف المشكلة

يواجه تتبع الأجسام المتعددة تحديات أساسية تشمل:

مشكلة الاحتجاب: عندما يتم حجب الأجسام جزئياً أو كلياً، تصبح الإشارات ثنائية الأبعاد التقليدية (مثل IoU صندوق الحدود) غير موثوقة
تشابه المظهر: يصعب تمييز الأجسام ذات المظهر المتشابه، مما يؤدي إلى تبديلات معرّف متكررة
الكفاءة الحسابية: تكلفة حساب IoU قناع التقسيم مباشرة مرتفعة جداً
الحركة المعقدة: يصعب جمع الأجسام ذات أنماط الحركة غير الخطية

دافع البحث

تعتمد طرق MOT الحالية بشكل أساسي على إشارات ثنائية الأبعاد للجمع بين البيانات، وتؤدي بشكل سيء في السيناريوهات المعقدة. على سبيل المثال، عندما يمشي شخصان بالتوازي لكن على أعماق مختلفة، قد يكون من المستحيل تمييزهما في العرض ثنائي الأبعاد. تقترح هذه الورقة طريقة واعية بالمكان ثلاثي الأبعاد تجمع بين معلومات العمق والتقسيم لتوفير جمع أجسام أكثر قوة.

قيود الطرق الموجودة

طرق الكشف المشترك-إعادة التعريف (JDR): متطلبات حسابية عالية، تتطلب تدريباً مشتركاً للكشف والتتبع
طرق التتبع بالكشف (TBD): تعتمد بشكل أساسي على التضمينات الظاهرية وليس على إشارات واعية بالمكان
طرق الوعي بالعمق: تستخدم العمق كإشارة مساعدة وليس كإشارة جمع رئيسية
تعلم إعادة التعريف ذاتي الإشراف: يعتمد على الأجسام المتناقضة أو المجمعة، لا يستفيد من معلومات المكان ثلاثي الأبعاد المدمجة

المساهمات الأساسية

تصميم مشفر ذاتي الإشراف: تحسين الاستقرار الزمني والقوة التمييزية لميزات العمق والقناع
طريقة رائدة: أول استخدام لمشفر مدرب بإشراف ذاتي لتحسين أقنعة التقسيم ودمجها في درجة المطابقة، دون حساب IoU القناع
أداء تنافسي: تحقيق أداء تنافسية في سيناريوهات تتبع مختلفة، خاصة في السيناريوهات المحتجبة
تنفيذ فعال: تجنب حساب IoU القناع المكلف مع الحفاظ على قدرة الاستدلال المكاني الدقيق

شرح الطريقة

تعريف المهمة

الإدخال: إطارات متتالية في تسلسل فيديو وصناديق حدود الكشف عن الأجسام الإخراج: جمع هوية الجسم عبر الإطارات، الحفاظ على اتساق المعرّف القيود: متطلبات الوقت الفعلي، معالجة الاحتجاب والتشابه الظاهري

معمارية النموذج

1. وحدة دمج العمق والقناع

تقدير العمق بدون عينات: استخدام Depth Pro لإنشاء خرائط عمق تمثل المساحة النسبية
التقسيم البصري القابل للتوجيه (PVS): اعتماد SAM2 لمحاذاة الشكل الزمكاني
- بالنسبة للمسارات المتتبعة في الإطار t-1، استخدام صندوق الحدود كتلميح لإنشاء قناع تقسيم دقيق
- بالنسبة للكشف الجديد في الإطار t، الانتشار العكسي إلى الإطار t-1 للمحاذاة
- الضرب بكسل تلو الآخر للقناع مع خريطة العمق المقابلة، مما ينتج عنه تضمين عمق-قناع مدمج

2. مشفر العمق والقناع ذاتي الإشراف

تصميم المعمارية:

المشفر: 3 طبقات التفافية (نواة 4×4، خطوة 2)، قنوات من 1→32→64→128
تطبيع دفعي وتفعيل ReLU
طبقة خطية تنتج ميزة عنق الزجاجة بحجم 2048
فك التشفير: هيكل معكوس، تحويل التفافي لأعلى

أهداف التدريب:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

تحديث الاتساق الزمني:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. وحدة المظهر والحركة

مرشح كالمان غير الخطي: نمذجة ديناميكيات حركة الجسم، دمج آلية تحديث مركز الملاحظة (ORU)
مطابقة الحركة: حساب S_IoU (التداخل المكاني) و S_ang (اتساق الزاوية)
مطابقة المظهر: استخدام FastReID لاستخراج تضمينات المظهر، حساب التشابه بجيب التمام S_emb

نقاط الابتكار التقني

تجنب حساب IoU القناع: استبدال حساب IoU القناع المكلف بتشابه جيب التمام لتضمينات المشفر
دمج متعدد الأنماط: دمج معلومات العمق والقناع على مستوى البكسل يوفر إشارات مكانية دقيقة
تحسين ذاتي الإشراف: تحسين جودة الميزات من خلال خسائر إعادة البناء واتساق عنق الزجاجة
الاستقرار الزمني: استراتيجية تحديث التضمين المرجحة ديناميكياً تحافظ على الاتساق عبر الإطارات

استراتيجية الجمع الشاملة

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

استخدام خوارزمية المجر للجمع الأمثل بين البيانات.

إعداد التجارب

مجموعات البيانات

SportsMOT: حركة سريعة وغير متوقعة، احتجاب متكرر
DanceTrack: حركة غير خطية للغاية، احتجاب متكرر، تفاعل قريب
- 40 تسلسل تدريب، 25 تسلسل تحقق، 35 تسلسل اختبار
MOT17: حشود متوسطة الكثافة، حركة المشاة المنظمة، نسبياً خطية وقابلة للتنبؤ

مقاييس التقييم

HOTA: دقة التتبع من الدرجة الأعلى، توازن بين دقة الكشف والجمع
AssA: دقة الجمع، التركيز على الحفاظ على الهوية
DetA: دقة الكشف
IDF1: درجة F1 للهوية، التركيز على الحفاظ على الهوية وجودة الجمع
MOTA: دقة التتبع متعدد الأجسام، التركيز على أداء مستوى الكشف
FPS: معدل الإطارات بناءً على مكون التتبع

طرق المقارنة

طرق TBD: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack وغيرها طرق JDR: FairMOT, TransTrack, MOTRv2 وغيرها

تفاصيل التنفيذ

الكاشف: YOLOX (متسق مع أحدث طرق MOT)
التدريب: وحدة معالجة رسومات NVIDIA A100 واحدة، حجم الدفعة 128، 12 حقبة
المحسّن: Adam، معدل التعلم 1e-3
الاستدلال: حجم الدفعة 1، مرحلة الجمع تتجاوز 125 FPS (مجموعة التحقق من DanceTrack)

نتائج التجارب

النتائج الرئيسية

مجموعة اختبار SportsMOT

الطريقة	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

مجموعة اختبار DanceTrack

الطريقة	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

مجموعة اختبار MOT17

الطريقة	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

تجارب الاستئصال

الإعداد	DanceTrack-val	MOT17-val
المظهر + IoU القناع	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
المظهر + IoU صندوق الحدود	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
المظهر + IoU صندوق الحدود + العمق والقناع	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

نتائج التجارب

التكامل: التبديل من IoU القناع إلى IoU صندوق الحدود يحسن الأداء بشكل كبير، ودمج العمق والقناع يحسنها أكثر
التكيف مع السيناريو: التحسن أكثر وضوحاً في مجموعات البيانات ذات الحركة غير الخطية مثل DanceTrack، والتحسن نسبي أقل في مجموعات البيانات ذات الحركة الخطية مثل MOT17
جودة الجمع: تحسن ثابت في مقاييس الجمع HOTA و AssA و IDF1، مما يتحقق من فعالية الطريقة

الأعمال ذات الصلة

طرق الكشف المشترك-إعادة التعريف

FairMOT: طريقة ثنائية الفرع تجمع بين الكشف بدون مرساة والتضمينات الظاهرية
TransCenter: انتباه قابل للتشوه يحسن معالجة الاحتجاب
AFMTrack: شبكة مطابقة الميزات الانتباهية

طرق التتبع بالكشف

التتبع على مستوى التسلسل: طرق قائمة على الرسم البياني (Brasó وآخرون)، اتساق المسار ذاتي الإشراف (Lu وآخرون)
التتبع على مستوى الإطار: نماذج الانتباه (TrackFormer, MOTRv2)، طرق الانحدار (OC-SORT, DiffMOT)

دمج العمق والجمع ذاتي الإشراف

دمج العمق: ترتيب العمق النسبي (Quach وآخرون)، العمق المجسم مع تقدير الموضع (Wang وآخرون)
إعادة التعريف ذاتية الإشراف: تضمينات اتساق المسار (Li وآخرون)

الخلاصة والمناقشة

الاستنتاجات الرئيسية

دمج العمق والقناع يوفر قدرة فعالة على الوعي بالمكان ثلاثي الأبعاد
مشفر ذاتي الإشراف يحسن بنجاح الاستقرار الزمني والقوة التمييزية للميزات
تجنب حساب IoU القناع مع الحفاظ على قدرة الاستدلال المكاني الدقيق
أداء متفوقة في السيناريوهات المعقدة (احتجاب، حركة غير خطية)

القيود

الاختناق الحسابي: خطوة تقدير العمق (DepthPro حوالي 0.3 ثانية/إطار) هي الاختناق الرئيسي للأداء
سيناريوهات الحركة الخطية: التحسن محدود في مجموعات البيانات ذات الحركة الخطية مثل MOT17
الاعتماد: يعتمد على جودة نماذج SAM2 و DepthPro المدربة مسبقاً

الاتجاهات المستقبلية

تقدير العمق في الوقت الفعلي: البحث عن مقدّرات عمق أسرع لتحسين السرعة الإجمالية
التعلم المتناقض: إدخال أهداف متناقضة للمشفر لتحسين القوة التمييزية والقوة
التدريب من النهاية إلى النهاية: استكشاف التحسين المشترك لتقدير العمق والتتبع

التقييم المتعمق

المزايا

الابتكار التقني: أول دمج لميزات العمق والقناع مع مشفر ذاتي الإشراف لـ MOT
القيمة العملية: تجنب حساب IoU القناع المكلف، توفير حل فعال
التجارب الشاملة: التحقق على مجموعات بيانات متعددة تحديية، تجارب استئصال كاملة
تحسن الأداء: تحسن ثابت في مقاييس جودة الجمع مقارنة بطرق TBD الموجودة

أوجه القصور

الكفاءة الحسابية: على الرغم من تجنب IoU القناع، تقدير العمق لا يزال اختناقاً
نطاق التطبيق: الميزة غير واضحة في السيناريوهات البسيطة ذات الحركة الخطية
الاعتماد القوي: يعتمد بشكل كبير على جودة وتوفر النماذج المدربة مسبقاً
التحليل النظري: يفتقر إلى شرح نظري لفعالية دمج العمق والقناع

التأثير

المساهمة الأكاديمية: إدخال فكرة دمج متعدد الأنماط جديدة لمجال MOT
التطبيق العملي: قيمة عملية في تتبع السيناريوهات المعقدة مثل الرياضة والرقص
قابلية التكرار: توفير الكود والتفاصيل التنفيذية الشاملة، تسهيل التكرار

السيناريوهات المناسبة

سيناريوهات الحركة المعقدة: تتبع الحركة غير الخطية في المنافسات الرياضية وعروض الرقص
البيئات عالية الاحتجاب: تتبع الأجسام المتعددة في المشاهد المزدحمة
الأجسام ذات المظهر المتشابه: السيناريوهات التي تتطلب إشارات مكانية إضافية للتمييز
متطلبات الوقت الفعلي المعتدلة: التطبيقات التي يمكنها تحمل تأخير حسابي معين

المراجع

تستشهد الورقة بـ 41 مرجعاً ذا صلة، تغطي الأعمال الرئيسية في مجال MOT، بما في ذلك الطرق الكلاسيكية مثل ByteTrack و OC-SORT و FairMOT، وكذلك أحدث طرق الوعي بالعمق والتعلم ذاتي الإشراف، مما يوفر مرجعية خلفية شاملة للبحث ذي الصلة.