Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
तीव्र स्व-पर्यवेक्षित गहराई और मुखौटा जागरूक संबद्धता बहु-वस्तु ट्रैकिंग के लिए
बहु-वस्तु ट्रैकिंग (MOT) विधियाँ आमतौर पर संबद्धता के लिए प्रतिच्छेदन-संघ (IoU) पर निर्भर करती हैं, लेकिन जब वस्तुएं समान हों या अवरुद्ध हों तो अविश्वसनीय हो जाती हैं, और विभाजन मुखौटे के IoU की गणना करना महंगा है। यह पेपर विभाजन मुखौटे का उपयोग करके वस्तु आकार को कैप्चर करता है, लेकिन विभाजन IoU की गणना नहीं करता है। इसके बजाय, गहराई और मुखौटा विशेषताओं को स्व-पर्यवेक्षित प्रशिक्षित कॉम्पैक्ट एनकोडर के माध्यम से संसाधित किया जाता है, जो सीमा बॉक्स IoU और पुनः पहचान विशेषताओं के अतिरिक्त स्थिर वस्तु प्रतिनिधित्व और समानता संकेत प्रदान करता है। गहराई मानचित्र शून्य-शॉट गहराई अनुमानक के माध्यम से प्राप्त किए जाते हैं, और वस्तु मुखौटे संकेत योग्य दृश्य विभाजन मॉडल के माध्यम से प्राप्त किए जाते हैं। यह विधि पहली बार विभाजन मुखौटे को अनुकूलित करने के लिए स्व-पर्यवेक्षित एनकोडर का उपयोग करती है बिना मुखौटा IoU की गणना किए। SportsMOT और DanceTrack जैसे चुनौतीपूर्ण बेंचमार्क पर प्रयोग, जिनमें अरैखिक गति, अवरोध और भीड़ वाले दृश्य हैं, दर्शाते हैं कि यह विधि अधिकांश मेट्रिक्स पर TBD अत्याधुनिक विधियों से बेहतर है।
मौजूदा MOT विधियाँ मुख्य रूप से डेटा संबद्धता के लिए 2D संकेतों पर निर्भर करती हैं और जटिल दृश्यों में खराब प्रदर्शन करती हैं। उदाहरण के लिए, दो पैदल यात्री समानांतर चल रहे हों लेकिन विभिन्न गहराई पर हों, तो 2D दृश्य में उन्हें अलग नहीं किया जा सकता। यह पेपर अधिक मजबूत वस्तु संबद्धता प्रदान करने के लिए गहराई और विभाजन जानकारी को जोड़ने वाली 3D स्थान-जागरूक विधि का प्रस्ताव करता है।
स्व-पर्यवेक्षित एनकोडर डिज़ाइन: गहराई-विभाजन विशेषताओं की अस्थायी स्थिरता और विभेदकारी क्षमता को बढ़ाता है
अभूतपूर्व विधि: पहली बार विभाजन मुखौटे को अनुकूलित करने के लिए स्व-पर्यवेक्षित एनकोडर का उपयोग करता है और इसे मिलान स्कोर में एकीकृत करता है, बिना मुखौटा IoU की गणना किए
प्रतिस्पर्धी प्रदर्शन: विभिन्न ट्रैकिंग दृश्यों में प्रतिस्पर्धी प्रदर्शन, विशेषकर अवरोध दृश्यों में उत्कृष्ट प्रदर्शन
कुशल कार्यान्वयन: महंगे मुखौटा IoU गणना से बचता है, जबकि सूक्ष्म-दानेदार स्थान तर्क क्षमता बनाए रखता है
इनपुट: वीडियो अनुक्रम में क्रमिक फ्रेम और वस्तु पहचान सीमा बॉक्स
आउटपुट: फ्रेम के पार वस्तु पहचान संबद्धता, ID सुसंगतता बनाए रखना
बाधाएँ: वास्तविक समय आवश्यकताएँ, अवरोध और उपस्थिति समानता को संभालना
पेपर ने 41 संबंधित संदर्भों का हवाला दिया है, जो MOT क्षेत्र के मुख्य कार्यों को कवर करते हैं, जिनमें ByteTrack, OC-SORT, FairMOT जैसी शास्त्रीय विधियाँ, साथ ही नवीनतम गहराई-जागरूक और स्व-पर्यवेक्षित शिक्षण विधियाँ शामिल हैं, जो संबंधित अनुसंधान के लिए व्यापक पृष्ठभूमि संदर्भ प्रदान करते हैं।