2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

तीव्र स्व-पर्यवेक्षित गहराई और मुखौटा जागरूक संबद्धता बहु-वस्तु ट्रैकिंग के लिए

मूल जानकारी

पेपर ID: 2510.09878
शीर्षक: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
लेखक: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन समय: 25 अक्टूबर 10, 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09878
कोड लिंक: https://github.com/Milad-Khanchi/SelfTrEncMOT

सारांश

बहु-वस्तु ट्रैकिंग (MOT) विधियाँ आमतौर पर संबद्धता के लिए प्रतिच्छेदन-संघ (IoU) पर निर्भर करती हैं, लेकिन जब वस्तुएं समान हों या अवरुद्ध हों तो अविश्वसनीय हो जाती हैं, और विभाजन मुखौटे के IoU की गणना करना महंगा है। यह पेपर विभाजन मुखौटे का उपयोग करके वस्तु आकार को कैप्चर करता है, लेकिन विभाजन IoU की गणना नहीं करता है। इसके बजाय, गहराई और मुखौटा विशेषताओं को स्व-पर्यवेक्षित प्रशिक्षित कॉम्पैक्ट एनकोडर के माध्यम से संसाधित किया जाता है, जो सीमा बॉक्स IoU और पुनः पहचान विशेषताओं के अतिरिक्त स्थिर वस्तु प्रतिनिधित्व और समानता संकेत प्रदान करता है। गहराई मानचित्र शून्य-शॉट गहराई अनुमानक के माध्यम से प्राप्त किए जाते हैं, और वस्तु मुखौटे संकेत योग्य दृश्य विभाजन मॉडल के माध्यम से प्राप्त किए जाते हैं। यह विधि पहली बार विभाजन मुखौटे को अनुकूलित करने के लिए स्व-पर्यवेक्षित एनकोडर का उपयोग करती है बिना मुखौटा IoU की गणना किए। SportsMOT और DanceTrack जैसे चुनौतीपूर्ण बेंचमार्क पर प्रयोग, जिनमें अरैखिक गति, अवरोध और भीड़ वाले दृश्य हैं, दर्शाते हैं कि यह विधि अधिकांश मेट्रिक्स पर TBD अत्याधुनिक विधियों से बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बहु-वस्तु ट्रैकिंग के मुख्य चुनौतियाँ हैं:

अवरोध समस्या: जब वस्तुएं आंशिक या पूर्ण रूप से अवरुद्ध हों, तो पारंपरिक 2D संकेत (जैसे सीमा बॉक्स IoU) अविश्वसनीय हो जाते हैं
समान उपस्थिति: समान उपस्थिति वाली वस्तुओं को अलग करना कठिन है, जिससे बार-बार ID स्विच होते हैं
कम्प्यूटेशनल दक्षता: विभाजन मुखौटे के IoU की सीधी गणना करना कम्प्यूटेशनल रूप से महंगा है
जटिल गति: अरैखिक गति पैटर्न के तहत वस्तु संबद्धता कठिन है

अनुसंधान प्रेरणा

मौजूदा MOT विधियाँ मुख्य रूप से डेटा संबद्धता के लिए 2D संकेतों पर निर्भर करती हैं और जटिल दृश्यों में खराब प्रदर्शन करती हैं। उदाहरण के लिए, दो पैदल यात्री समानांतर चल रहे हों लेकिन विभिन्न गहराई पर हों, तो 2D दृश्य में उन्हें अलग नहीं किया जा सकता। यह पेपर अधिक मजबूत वस्तु संबद्धता प्रदान करने के लिए गहराई और विभाजन जानकारी को जोड़ने वाली 3D स्थान-जागरूक विधि का प्रस्ताव करता है।

मौजूदा विधियों की सीमाएँ

संयुक्त पहचान-पुनः पहचान (JDR) विधियाँ: उच्च कम्प्यूटेशनल आवश्यकताएँ, संयुक्त प्रशिक्षण की आवश्यकता
ट्रैकिंग-बाय-डिटेक्शन (TBD) विधियाँ: मुख्य रूप से उपस्थिति एम्बेडिंग पर निर्भर, स्थान-जागरूक संकेतों का उपयोग नहीं
गहराई-जागरूक विधियाँ: गहराई को सहायक संकेत के रूप में उपयोग करती हैं, मुख्य संबद्धता संकेत नहीं
स्व-पर्यवेक्षित ReID शिक्षा: विपरीत या क्लस्टरिंग वस्तुओं पर निर्भर, संलयित 3D स्थान जानकारी का उपयोग नहीं करती

मुख्य योगदान

स्व-पर्यवेक्षित एनकोडर डिज़ाइन: गहराई-विभाजन विशेषताओं की अस्थायी स्थिरता और विभेदकारी क्षमता को बढ़ाता है
अभूतपूर्व विधि: पहली बार विभाजन मुखौटे को अनुकूलित करने के लिए स्व-पर्यवेक्षित एनकोडर का उपयोग करता है और इसे मिलान स्कोर में एकीकृत करता है, बिना मुखौटा IoU की गणना किए
प्रतिस्पर्धी प्रदर्शन: विभिन्न ट्रैकिंग दृश्यों में प्रतिस्पर्धी प्रदर्शन, विशेषकर अवरोध दृश्यों में उत्कृष्ट प्रदर्शन
कुशल कार्यान्वयन: महंगे मुखौटा IoU गणना से बचता है, जबकि सूक्ष्म-दानेदार स्थान तर्क क्षमता बनाए रखता है

विधि विवरण

कार्य परिभाषा

इनपुट: वीडियो अनुक्रम में क्रमिक फ्रेम और वस्तु पहचान सीमा बॉक्स आउटपुट: फ्रेम के पार वस्तु पहचान संबद्धता, ID सुसंगतता बनाए रखना बाधाएँ: वास्तविक समय आवश्यकताएँ, अवरोध और उपस्थिति समानता को संभालना

मॉडल आर्किटेक्चर

1. गहराई-विभाजन संलयन मॉड्यूल

शून्य-शॉट गहराई अनुमान: Depth Pro का उपयोग करके सापेक्ष स्थान प्रतिनिधित्व के लिए गहराई मानचित्र उत्पन्न करता है
संकेत योग्य दृश्य विभाजन (PVS): समय-स्थान आकार संरेखण के लिए SAM2 अपनाता है
- t-1 फ्रेम में ट्रैक किए गए प्रक्षेपवक्र के लिए, सीमा बॉक्स को संकेत के रूप में उपयोग करके सटीक विभाजन मुखौटा उत्पन्न करता है
- t फ्रेम में नई पहचान के लिए, संरेखण के लिए t-1 फ्रेम में वापस प्रचारित करता है
- मुखौटे को संबंधित गहराई मानचित्र के साथ पिक्सेल-वार गुणा करके संलयित गहराई-विभाजन एम्बेडिंग उत्पन्न करता है

2. स्व-पर्यवेक्षित गहराई-विभाजन एनकोडर

आर्किटेक्चर डिज़ाइन:

एनकोडर: 3 कनवोल्यूशनल परतें (4×4 कर्नेल, स्ट्राइड 2), चैनल 1→32→64→128
बैच सामान्यीकरण और ReLU सक्रियण
2048-आयामी बोतल गर्दन विशेषता उत्पन्न करने वाली रैखिक परत
डिकोडर: दर्पण संरचना, ट्रांसपोज़्ड कनवोल्यूशन अपसैंपलिंग

प्रशिक्षण उद्देश्य:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

अस्थायी सुसंगतता अपडेट:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. उपस्थिति-गति मॉड्यूल

अरैखिक कलमन फिल्टर: वस्तु गति गतिशीलता को मॉडल करता है, अवलोकन केंद्र पुनः भारण (ORU) तंत्र को एकीकृत करता है
गति मिलान: S_IoU (स्थान ओवरलैप) और S_ang (कोण सुसंगतता) की गणना करता है
उपस्थिति मिलान: FastReID का उपयोग करके उपस्थिति एम्बेडिंग निकालता है, कोसाइन समानता S_emb की गणना करता है

तकनीकी नवाचार

मुखौटा IoU गणना से बचना: एनकोडर एम्बेडिंग की कोसाइन समानता के साथ महंगे मुखौटा IoU को प्रतिस्थापित करता है
बहु-मोडल संलयन: गहराई और विभाजन जानकारी का पिक्सेल-स्तरीय संलयन सूक्ष्म-दानेदार स्थान संकेत प्रदान करता है
स्व-पर्यवेक्षित अनुकूलन: पुनर्निर्माण और बोतल गर्दन सुसंगतता हानि के माध्यम से विशेषता गुणवत्ता को बढ़ाता है
अस्थायी स्थिरता: गतिशील भारित एम्बेडिंग अपडेट रणनीति फ्रेम के पार सुसंगतता बनाए रखती है

समग्र संबद्धता रणनीति

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

इष्टतम डेटा संबद्धता के लिए हंगेरियन एल्गोरिथ्म का उपयोग करता है।

प्रायोगिक सेटअप

डेटासेट

SportsMOT: तीव्र, अप्रत्याशित गति, बार-बार अवरोध
DanceTrack: अत्यधिक अरैखिक गति, बार-बार अवरोध, निकट दूरी पर अंतःक्रिया
- 40 प्रशिक्षण अनुक्रम, 25 सत्यापन अनुक्रम, 35 परीक्षण अनुक्रम
MOT17: मध्यम घनत्व भीड़, संरचित पैदल यात्री गति, अपेक्षाकृत रैखिक और पूर्वानुमानित

मूल्यांकन मेट्रिक्स

HOTA: उच्च-क्रम ट्रैकिंग सटीकता, पहचान और संबद्धता सटीकता को संतुलित करता है
AssA: संबद्धता सटीकता, पहचान संरक्षण पर जोर देता है
DetA: पहचान सटीकता
IDF1: पहचान F1 स्कोर, पहचान संरक्षण और संबद्धता गुणवत्ता पर ध्यान केंद्रित करता है
MOTA: बहु-वस्तु ट्रैकिंग सटीकता, पहचान-स्तरीय प्रदर्शन पर ध्यान केंद्रित करता है
FPS: ट्रैकिंग घटक के आधार पर फ्रेम दर

तुलनात्मक विधियाँ

TBD विधियाँ: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack आदि JDR विधियाँ: FairMOT, TransTrack, MOTRv2 आदि

कार्यान्वयन विवरण

डिटेक्टर: YOLOX (नवीनतम MOT विधियों के अनुरूप)
प्रशिक्षण: एकल NVIDIA A100 GPU, बैच आकार 128, 12 epoch
अनुकूलक: Adam, शिक्षण दर 1e-3
अनुमान: बैच आकार 1, संबद्धता चरण 125 FPS से अधिक (DanceTrack सत्यापन सेट)

प्रायोगिक परिणाम

मुख्य परिणाम

SportsMOT परीक्षण सेट

विधि	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

DanceTrack परीक्षण सेट

विधि	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

MOT17 परीक्षण सेट

विधि	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

विलोपन प्रयोग

सेटअप	DanceTrack-val	MOT17-val
उपस्थिति + मुखौटा IoU	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
उपस्थिति + सीमा बॉक्स IoU	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
उपस्थिति + सीमा बॉक्स IoU + गहराई-विभाजन	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

प्रायोगिक निष्कर्ष

पूरकता: मुखौटा IoU से सीमा बॉक्स IoU में स्विच करने से प्रदर्शन में उल्लेखनीय सुधार होता है, गहराई-विभाजन एकीकरण से आगे सुधार होता है
दृश्य अनुकूलन: DanceTrack जैसे अरैखिक गति डेटासेट पर अधिक सुधार, MOT17 जैसे रैखिक गति डेटासेट पर अपेक्षाकृत कम सुधार
संबद्धता गुणवत्ता: HOTA, AssA, IDF1 जैसे संबद्धता मेट्रिक्स पर लगातार सुधार, विधि की प्रभावशीलता को सत्यापित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

गहराई-विभाजन संलयन प्रभावी 3D स्थान-जागरूक क्षमता प्रदान करता है
स्व-पर्यवेक्षित एनकोडर विशेषता की अस्थायी स्थिरता और विभेदकारी क्षमता को सफलतापूर्वक बढ़ाता है
मुखौटा IoU गणना से बचता है जबकि सूक्ष्म-दानेदार स्थान तर्क क्षमता बनाए रखता है
जटिल दृश्यों (अवरोध, अरैखिक गति) में उत्कृष्ट प्रदर्शन

सीमाएँ

कम्प्यूटेशनल बाधा: गहराई अनुमान चरण (DepthPro लगभग 0.3 सेकंड/फ्रेम) मुख्य प्रदर्शन बाधा है
रैखिक गति दृश्य: MOT17 जैसे रैखिक गति डेटासेट पर सीमित सुधार
निर्भरता: पूर्व-प्रशिक्षित SAM2 और DepthPro मॉडल गुणवत्ता पर निर्भरता

भविष्य की दिशाएँ

वास्तविक समय गहराई अनुमान: समग्र गति में सुधार के लिए तीव्र गहराई अनुमानकों की खोज
विपरीत शिक्षा: एनकोडर के लिए विपरीत उद्देश्य पेश करके विभेदकारी क्षमता और दृढ़ता को बढ़ाना
अंत-से-अंत प्रशिक्षण: गहराई अनुमान और ट्रैकिंग के संयुक्त अनुकूलन की खोज

गहन मूल्यांकन

शक्तियाँ

तकनीकी नवाचार: पहली बार गहराई-विभाजन संलयन को स्व-पर्यवेक्षित एनकोडर के साथ MOT के लिए जोड़ता है
व्यावहारिक मूल्य: महंगे मुखौटा IoU गणना से बचता है, कुशल समाधान प्रदान करता है
पर्याप्त प्रयोग: कई चुनौतीपूर्ण डेटासेट पर सत्यापन, संपूर्ण विलोपन प्रयोग
प्रदर्शन सुधार: संबद्धता गुणवत्ता मेट्रिक्स पर मौजूदा TBD विधियों से लगातार बेहतर

कमियाँ

कम्प्यूटेशनल दक्षता: हालांकि मुखौटा IoU से बचता है, गहराई अनुमान अभी भी बाधा है
आवेदन सीमा: सरल रैखिक गति दृश्यों में स्पष्ट लाभ नहीं
मजबूत निर्भरता: पूर्व-प्रशिक्षित मॉडल गुणवत्ता और उपलब्धता पर गंभीर निर्भरता
सैद्धांतिक विश्लेषण: गहराई-विभाजन संलयन प्रभावशीलता के लिए सैद्धांतिक व्याख्या की कमी

प्रभाव

शैक्षणिक योगदान: MOT क्षेत्र में नई बहु-मोडल संलयन सोच लाता है
व्यावहारिक अनुप्रयोग: खेल, नृत्य आदि जटिल दृश्य ट्रैकिंग में व्यावहारिक मूल्य
पुनरुत्पादनीयता: कोड और विस्तृत कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन में सहायता करता है

लागू दृश्य

जटिल गति दृश्य: खेल प्रतियोगिता, नृत्य प्रदर्शन आदि अरैखिक गति ट्रैकिंग
उच्च अवरोध वातावरण: भीड़ वाले दृश्यों में बहु-वस्तु ट्रैकिंग
समान उपस्थिति वस्तुएँ: अतिरिक्त स्थान संकेतों द्वारा अलग करने की आवश्यकता वाले दृश्य
मध्यम वास्तविक समय आवश्यकताएँ: कुछ कम्प्यूटेशनल विलंब को सहन कर सकने वाले अनुप्रयोग

संदर्भ

पेपर ने 41 संबंधित संदर्भों का हवाला दिया है, जो MOT क्षेत्र के मुख्य कार्यों को कवर करते हैं, जिनमें ByteTrack, OC-SORT, FairMOT जैसी शास्त्रीय विधियाँ, साथ ही नवीनतम गहराई-जागरूक और स्व-पर्यवेक्षित शिक्षण विधियाँ शामिल हैं, जो संबंधित अनुसंधान के लिए व्यापक पृष्ठभूमि संदर्भ प्रदान करते हैं।