2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

बूटस्ट्रैपिंग रेफरिंग मल्टी-ऑब्जेक्ट ट्रैकिंग

मूल जानकारी

पेपर ID: 2406.05039
शीर्षक: व्यापक गतिशील अभिव्यक्तियों के साथ रेफरिंग मल्टी-ऑब्जेक्ट ट्रैकिंग
लेखक: यानी झांग, डोंगमिंग वू, वेंचेंग हान, जिंगपिंग डोंग, शेंगकाई लिआओ, बो डू
वर्गीकरण: cs.CV cs.CL
प्रकाशन समय: 27 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2406.05039
कोड और डेटासेट: https://github.com/zyn213/TempRMOT

सारांश

यह पेपर एक नया वीडियो समझ कार्य प्रस्तावित करता है—रेफरिंग मल्टी-ऑब्जेक्ट ट्रैकिंग (RMOT), जिसका उद्देश्य प्राकृतिक भाषा अभिव्यक्तियों को शब्दार्थ संकेत के रूप में उपयोग करके मल्टी-ऑब्जेक्ट ट्रैकिंग भविष्यवाणी को निर्देशित करना है, जो लक्ष्य संख्या परिवर्तन और अस्थायी शब्दार्थ पर व्यापक विचार करता है। पेपर Refer-KITTI-V2 बेंचमार्क डेटासेट का निर्माण करता है, जिसमें 9,758 विविध भाषा अभिव्यक्तियां हैं, और TempRMOT फ्रेमवर्क प्रस्तावित करता है, जो क्वेरी-संचालित अस्थायी वर्धन मॉड्यूल के माध्यम से दीर्घकालीन स्पेस-टाइम इंटरैक्शन को प्राप्त करता है। TempRMOT Refer-KITTI और Refer-KITTI-V2 दोनों पर सर्वोत्तम प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या को हल करना

मौजूदा रेफरिंग समझ (Referring Understanding) कार्यों में दो मुख्य सीमाएं हैं:

एकल-लक्ष्य सीमा: मौजूदा डेटासेट (जैसे RefCOCO श्रृंखला, Refer-DAVIS17) प्रत्येक अभिव्यक्ति के लिए केवल एक लक्ष्य को एनोटेट करते हैं, जबकि वास्तविक परिदृश्यों में एक अभिव्यक्ति कई, एकल, या शून्य लक्ष्यों को संदर्भित कर सकती है
अस्थायी सुसंगतता की कमी: मौजूदा विधियां भाषा अभिव्यक्ति और लक्ष्य विकास स्थिति के बीच अस्थायी सुसंगतता को मॉडल नहीं कर सकती हैं। उदाहरण के लिए, "मुड़ रहा हुआ कार" अभिव्यक्ति एक क्षणिक स्थिति का वर्णन करती है, लेकिन एनोटेशन उस लक्ष्य को लगातार ट्रैक करेगा भले ही मोड़ की क्रिया पूरी हो गई हो

समस्या की महत्ता

भाषा-निर्देशित वीडियो समझ प्राकृतिक भाषा और दृश्य सामग्री को जोड़ने का एक महत्वपूर्ण कार्य है
स्वायत्त ड्राइविंग जैसे व्यावहारिक अनुप्रयोगों में, प्राकृतिक भाषा निर्देशों के माध्यम से एक साथ कई गतिशील लक्ष्यों को ट्रैक करने की आवश्यकता है
अस्थायी गतिशीलता को सटीक रूप से मॉडल करना गति-संबंधित शब्दार्थ को समझने के लिए महत्वपूर्ण है

मौजूदा विधियों की सीमाएं

डेटासेट स्तर:
- हाथ से एनोटेट किए गए निश्चित टेम्पलेट के साथ, भाषा विविधता सीमित है
- गंभीर शब्दार्थ अतिरेक (जैसे Refer-Dance में केवल 48 अद्वितीय अभिव्यक्तियां)
- निहित अभिव्यक्तियों और जटिल शब्दार्थ की कमी (जैसे नकारात्मक विवरण)
विधि स्तर:
- दो-चरणीय विधियां जटिल हैं, उच्च कम्प्यूटेशनल ओवरहेड
- एकल-चरणीय विधियां मुख्य रूप से आसन्न फ्रेम पर ध्यान केंद्रित करती हैं, दीर्घकालीन अस्थायी मॉडलिंग क्षमता की कमी

मुख्य योगदान

RMOT नया कार्य प्रस्तावित करें: पहली बार रेफरिंग समझ को मल्टी-ऑब्जेक्ट गतिशील परिदृश्यों तक व्यवस्थित रूप से विस्तारित करें, और अस्थायी स्थिति परिवर्तन पर विचार करें
Refer-KITTI-V2 डेटासेट का निर्माण करें:
- 9,758 अभिव्यक्तियां, 7,193 अद्वितीय अभिव्यक्तियां, 617 विभिन्न शब्दावली
- तीन-चरणीय अर्ध-स्वचालित एनोटेशन प्रक्रिया डिज़ाइन करें, LLM द्वारा विविध अभिव्यक्तियों के साथ संयुक्त
- निहित अभिव्यक्तियां शामिल करें (जैसे "ईगो कार काली कार के पीछे स्थित है")
TempRMOT फ्रेमवर्क प्रस्तावित करें:
- अंत-से-अंत Transformer आर्किटेक्चर, पोस्ट-प्रोसेसिंग की आवश्यकता नहीं
- क्वेरी-संचालित अस्थायी वर्धन मॉड्यूल, दीर्घकालीन स्पेस-टाइम इंटरैक्शन को प्राप्त करता है
- ट्रैकिंग क्वेरी और डिटेक्शन क्वेरी को अलग करें, परिवर्तनशील संख्या लक्ष्यों को संभालें
SOTA प्रदर्शन प्राप्त करें:
- Refer-KITTI-V2 पर पिछले काम की तुलना में लगभग 4% HOTA में सुधार
- Refer-KITTI पर 52.21% HOTA प्राप्त करें
कुशल एनोटेशन प्रक्रिया डिज़ाइन करें: तीन-चरणीय अर्ध-स्वचालित एनोटेशन विधि मानव लागत को काफी कम करती है

विधि विवरण

कार्य परिभाषा

इनपुट: वीडियो अनुक्रम (T फ्रेम) + प्राकृतिक भाषा अभिव्यक्ति आउटपुट: प्रत्येक फ्रेम में सभी लक्ष्यों की सीमा बॉक्स और ID जो अभिव्यक्ति विवरण से मेल खाते हैं बाधाएं:

परिवर्तनशील लक्ष्य संख्या (0 से कई)
केवल उन समय अवधि में एनोटेट करें जहां लक्ष्य अभिव्यक्ति विवरण को संतुष्ट करता है
अस्थायी सुसंगतता ID संबंध बनाए रखें

मॉडल आर्किटेक्चर

TempRMOT दो मुख्य घटकों से बना है:

1. Transformer-आधारित RMOT मॉड्यूल

विशेषता निष्कर्षण:

दृश्य एन्कोडिंग: CNN मुख्य नेटवर्क बहु-स्तरीय विशेषताओं को निकालता है $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$
भाषा एन्कोडिंग: RoBERTa पाठ को शब्द एम्बेडिंग में एन्कोड करता है $S \in \mathbb{R}^{L \times D}$

क्रॉस-मोडल एन्कोडर (प्रारंभिक संलयन रणनीति): $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

जहां $P_V$ और $P_L$ क्रमशः दृश्य और भाषा की स्थिति एन्कोडिंग हैं। संलयन के बाद विकृत एन्कोडर परत के माध्यम से: $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

डिकोडर (दोहरी क्वेरी तंत्र):

ट्रैकिंग क्वेरी $Q^{tra}_t$ : पिछले फ्रेम के डिकोडर एम्बेडिंग $D_{t-1}$ से रूपांतरित, पहले से ट्रैक किए गए उदाहरणों को जोड़ने के लिए उपयोग किया जाता है
डिटेक्शन क्वेरी $Q^{det}$ : यादृच्छिक रूप से आरंभीकृत, नई दिखाई देने वाली लक्ष्यों को डिटेक्ट करने के लिए उपयोग किया जाता है

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

रेफरिंग हेड: तीन शाखाएं शामिल हैं

वर्गीकरण शाखा: बाइनरी वर्गीकरण (वास्तविक लक्ष्य/खाली वस्तु)
सीमा बॉक्स शाखा: 3-परत FFN निर्देशांक प्रतिगमन
रेफरिंग शाखा: अभिव्यक्ति के साथ मिलान संभावना आउटपुट करता है

2. अस्थायी वर्धन मॉड्यूल

क्वेरी मेमोरी तंत्र:

$N \times K$ मेमोरी कतार बनाए रखें (N फ्रेम, प्रत्येक फ्रेम K ऑब्जेक्ट)
FIFO सिद्धांत अपडेट करें, निरंतर मेमोरी खपत बनाए रखें

अस्थायी डिकोडर (4 परत): क्रॉस-फ्रेम ध्यान के माध्यम से ऐतिहासिक जानकारी को एकत्रित करें: $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

जहां $\tau_h$ अस्थायी विंडो आकार है, $\text{Pos}$ अस्थायी स्थिति को एन्कोड करता है।

ऑब्जेक्ट डिकोडर (4 परत): क्रॉस-ऑब्जेक्ट ध्यान के माध्यम से स्थानिक इंटरैक्शन को मॉडल करें: $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

ट्रैजेक्टरी परिशोधन: अवशिष्ट समायोजन की भविष्यवाणी करने के लिए MLP का उपयोग करें: $B_t = B_t + \text{MLP}(Q^S_t)$

जहां $Q^S_t$ स्पेस-टाइम वर्धित क्वेरी विशेषता है।

तकनीकी नवाचार बिंदु

प्रारंभिक क्रॉस-मोडल संलयन: MDETR के घने कनेक्शन की तुलना में, कुशल ध्यान-भारित रणनीति अपनाएं, कम्प्यूटेशनल जटिलता को कम करें
दोहरी क्वेरी अलग डिजाइन:
- ट्रैकिंग क्वेरी ऐतिहासिक जानकारी को विरासत में देता है, ID सुसंगतता सुनिश्चित करता है
- डिटेक्शन क्वेरी नई लक्ष्यों को संभालता है, लचीलापन बढ़ाता है
क्वेरी-संचालित अस्थायी मॉडलिंग:
- अस्थायी एकत्रीकरण के लिए कॉम्पैक्ट क्वेरी प्रतिनिधित्व का उपयोग करें, कच्ची विशेषताओं के बजाय
- अस्थायी आयाम और स्थानिक आयाम के ध्यान तंत्र को अलग करें
- दीर्घकालीन निर्भरता का समर्थन करें (अधिकतम 8 फ्रेम इतिहास)
अंत-से-अंत अवकलनीय: NMS जैसी पोस्ट-प्रोसेसिंग की आवश्यकता नहीं, सीधे अंतिम परिणाम आउटपुट करें

प्रायोगिक सेटअप

डेटासेट

Refer-KITTI:

18 वीडियो, 895 अभिव्यक्तियां
प्रशिक्षण सेट: 15 वीडियो/660 अभिव्यक्तियां
परीक्षण सेट: 3 वीडियो/158 अभिव्यक्तियां

Refer-KITTI-V2:

21 वीडियो, 9,758 अभिव्यक्तियां
प्रशिक्षण सेट: 17 वीडियो/8,873 अभिव्यक्तियां
परीक्षण सेट: 4 वीडियो/897 अभिव्यक्तियां
विशेषताएं: 7,193 अद्वितीय अभिव्यक्तियां, 617 विभिन्न शब्दावली, निहित अभिव्यक्तियां शामिल हैं

KITTI: सामान्य MOT क्षमता का मूल्यांकन करने के लिए उपयोग किया जाता है

डेटासेट निर्माण प्रक्रिया

चरण 1: भाषा आइटम संग्रह

मूल विशेषताओं को एनोटेट करें: वर्ग (कार/लोग), रंग (काला/लाल), स्थिति (बाएं/दाएं), क्रिया (चलना/मुड़ना)
KITTI के उदाहरण ID का उपयोग करके स्वचालित रूप से एनोटेशन प्रसारित करें

चरण 2: अभिव्यक्ति पीढ़ी

पूर्वनिर्धारित टेम्पलेट का उपयोग करके भाषा आइटम को संयोजित करें
उदाहरण: "{color}-{action}-cars" → "काली मुड़ती कारें"
AND ऑपरेशन के माध्यम से सीमा बॉक्स को जोड़ें

चरण 3: अभिव्यक्ति विस्तार

प्रत्येक अभिव्यक्ति के लिए 4 शब्दार्थ समकक्ष पुनर्लेखन उत्पन्न करने के लिए GPT-3.5 का उपयोग करें
दो-चरणीय सत्यापन: LLM सत्यापन + मानव समीक्षा
2,719 से 9,758 अभिव्यक्तियों तक विस्तारित करें

मूल्यांकन मेट्रिक्स

HOTA (उच्च क्रम ट्रैकिंग सटीकता): $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (डिटेक्शन सटीकता): फ्रेम-स्तरीय डिटेक्शन IoU स्कोर
AssA (संबंध सटीकता): अस्थायी संबंध IoU स्कोर
अन्य मेट्रिक्स: DetRe, DetPr, AssRe, AssPr, LocA

तुलना विधियां

दो-चरणीय विधियां:

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

एकल-चरणीय विधियां:

EchoTrack, DeepRMOT
TransRMOT (पिछला काम)
MLS-Track

कार्यान्वयन विवरण

मुख्य नेटवर्क: ResNet-50 (दृश्य) + RoBERTa (पाठ)
अनुकूलक: Adam, सीखने की दर 1e-5 (मुख्य 1e-5)
प्रशिक्षण: 60 epochs, batch size=1, 4×RTX 4090
डेटा वर्धन: यादृच्छिक क्रॉपिंग, बहु-स्तरीय (800-1536)
मेमोरी लंबाई: Refer-KITTI N=4, Refer-KITTI-V2 N=5
अनुमान थ्रेसहोल्ड: वर्गीकरण 0.6, रेफरिंग 0.4
नुकसान वजन: $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

प्रायोगिक परिणाम

मुख्य परिणाम

Refer-KITTI प्रदर्शन:

विधि	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48.84	35.74	66.80	51.97	52.25
TransRMOT	✓	46.56	37.97	57.33	49.69	60.10
MLS-Track	✓	49.05	40.03	60.25	59.07	54.18
TempRMOT	✓	52.21	40.95	66.75	55.65	59.25

MLS-Track की तुलना में 3.16% HOTA में सुधार
अंत-से-अंत विधियों में पूरी तरह से आगे

Refer-KITTI-V2 प्रदर्शन:

विधि	HOTA	DetA	AssA
iKUN	10.32	2.17	49.77
TransRMOT	31.00	19.40	49.68
TempRMOT	35.04	22.97	53.58

TransRMOT की तुलना में 4.04% HOTA में सुधार
अधिक जटिल भाषा परिदृश्यों में प्रभावशीलता को सत्यापित करता है

KITTI प्रदर्शन:

विधि	HOTA	AssA
TransRMOT	61.52	66.51
TempRMOT	63.47	72.04

AssA में 5.53% सुधार, अस्थायी मॉडलिंग की प्रभावशीलता साबित करता है

विलोपन प्रयोग

मॉड्यूल प्रभावशीलता (Refer-KITTI-V2):

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31.00	19.40	49.68
✓	✗	34.46	22.73	52.37
✓	✓	35.04	22.97	53.58

अस्थायी वर्धन मॉड्यूल सबसे बड़ा योगदान देता है (+3.46% HOTA)
ट्रैजेक्टरी परिशोधन प्रदर्शन को आगे बढ़ाता है (+0.58% HOTA)

प्रशिक्षण समय मेमोरी लंबाई:

$N_t$	HOTA	DetA	AssA
3	33.64	21.96	51.66
4	34.41	22.43	52.90
5	34.72	22.59	53.49

लंबे ऐतिहासिक संदर्भ निरंतर सुधार लाते हैं

अनुमान समय मेमोरी लंबाई:

$N_i$	HOTA	DetA	AssA
5	34.72	22.59	53.49
6	34.78	22.73	53.32
8	35.04	22.97	53.58

अनुमान समय में लंबी मेमोरी का उपयोग प्रदर्शन को आगे बढ़ा सकता है
अस्थायी मॉड्यूल की सामान्यीकरण क्षमता प्रदर्शित करता है

केस विश्लेषण

गति समझ क्षमता:

निर्देश "left cars which are parking": TempRMOT सही ढंग से स्थिर वाहनों की पहचान करता है, TransRMOT गलती से पैदल चलने वालों को पार्किंग के रूप में चिह्नित करता है
निर्देश "right persons who are walking": TempRMOT गति स्थिति को सटीक रूप से समझता है

मजबूत ट्रैकिंग क्षमता:

निर्देश "cars in front of ours": TransRMOT ID स्विचिंग और ट्रैकिंग हानि दिखाता है, TempRMOT सुसंगत ID संबंध बनाए रखता है

जटिल शब्दार्थ समझ:

निहित अभिव्यक्ति "the ego car is positioned after the black cars" को संभालें
नकारात्मक विवरण "pedestrians lacking hair" को समझें
बहु-विशेषता "the men are on the right side and they have t-shirts on" को संयोजित करें

प्रायोगिक निष्कर्ष

अस्थायी मॉडलिंग की महत्ता: AssA मेट्रिक में महत्वपूर्ण सुधार (+5.53%) साबित करता है कि दीर्घकालीन अस्थायी निर्भरता ट्रैकिंग गुणवत्ता के लिए महत्वपूर्ण है
अंत-से-अंत लाभ: एकल-चरणीय विधियां सामान्य रूप से दो-चरणीय विधियों से बेहतर हैं, संयुक्त अनुकूलन अधिक प्रभावी है
भाषा जटिलता प्रभाव: Refer-KITTI-V2 पर प्रदर्शन में कमी अधिक समृद्ध शब्दार्थ द्वारा लाई गई चुनौतियों को दर्शाती है
मेमोरी तंत्र की सामान्यीकरण क्षमता: अनुमान समय में प्रशिक्षण से अधिक लंबी ऐतिहासिक विंडो का उपयोग किया जा सकता है
क्वेरी प्रतिनिधित्व की दक्षता: कच्ची विशेषताओं की तुलना में, क्वेरी प्रतिनिधित्व अधिक कॉम्पैक्ट है और मुख्य जानकारी को बनाए रखता है

डेटासेट	वीडियो	शब्दावली	अभिव्यक्तियां	अद्वितीय अभिव्यक्तियां	निहित अभिव्यक्तियां
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RMOT कार्य अधिक सामान्य है: एकल-लक्ष्य सीमा को दूर करता है, अस्थायी गतिशीलता पर विचार करता है, वास्तविक आवश्यकताओं के अनुरूप है
Refer-KITTI-V2 उच्च गुणवत्ता का है: अर्ध-स्वचालित प्रक्रिया और LLM के माध्यम से, पैमाने और विविधता के बीच संतुलन प्राप्त किया गया है
TempRMOT प्रभावी है: अस्थायी वर्धन मॉड्यूल प्रदर्शन को काफी बढ़ाता है, दोनों बेंचमार्क पर SOTA प्राप्त करता है
दीर्घकालीन निर्भरता महत्वपूर्ण है: स्पेस-टाइम इंटरैक्शन को स्पष्ट रूप से मॉडल करना सटीक ट्रैकिंग और शब्दार्थ संरेखण के लिए महत्वपूर्ण है

सीमाएं

डेटासेट पैमाना: हालांकि अभिव्यक्तियां समृद्ध हैं, लेकिन वीडियो संख्या (21) अपेक्षाकृत सीमित है, दृश्य विविधता सीमित है
कम्प्यूटेशनल जटिलता: हालांकि क्वेरी प्रतिनिधित्व ओवरहेड को कम करता है, लेकिन बहु-फ्रेम मेमोरी अभी भी अतिरिक्त गणना की आवश्यकता है
भाषा समझ की गहराई: अत्यंत जटिल तार्किक अनुमान (जैसे बहु-स्तरीय नकारात्मक, जटिल कारण संबंध) के लिए अभी भी चुनौतियां हैं
अवरोध प्रबंधन: पेपर गंभीर अवरोध परिदृश्यों के प्रबंधन रणनीति पर विस्तार से चर्चा नहीं करता है
वास्तविक समय: FPS जैसे वास्तविक समय प्रदर्शन मेट्रिक्स की रिपोर्ट नहीं की गई है, व्यावहारिक तैनाती व्यवहार्यता अस्पष्ट है
सामान्यीकरण क्षमता: केवल KITTI परिदृश्य (ड्राइविंग परिदृश्य) पर सत्यापित, अन्य डोमेन (जैसे पैदल चलने वाले, खेल) में सामान्यीकरण क्षमता अज्ञात है

भविष्य की दिशाएं

अधिक परिदृश्यों तक विस्तार करें: अधिक डोमेन को कवर करने वाला RMOT डेटासेट बनाएं
वास्तविक समय में सुधार करें: मॉडल संरचना को अनुकूलित करें, वास्तविक समय ट्रैकिंग प्राप्त करें
भाषा समझ बढ़ाएं: मजबूत भाषा मॉडल (जैसे GPT-4) का परिचय दें
3D विस्तार: बिंदु क्लाउड डेटा को संयोजित करें, 3D RMOT तक विस्तार करें
इंटरैक्टिव ट्रैकिंग: उपयोगकर्ता वास्तविक समय सुधार और प्रतिक्रिया का समर्थन करें

गहन मूल्यांकन

लाभ

1. कार्य परिभाषा दूरदर्शी है

RMOT कार्य बहु-लक्ष्य + अस्थायी गतिशीलता के अंतर को भरता है
अस्थायी सुसंगतता मॉडलिंग (जैसे "मुड़ रहा हुआ" क्षणिक स्थिति) बहुत व्यावहारिक है
भाषा-निर्देशित स्वायत्त ड्राइविंग के लिए नया प्रतिमान प्रदान करता है

2. डेटासेट निर्माण वैज्ञानिक और कुशल है

तीन-चरणीय अर्ध-स्वचालित प्रक्रिया गुणवत्ता और दक्षता को संतुलित करती है
LLM-सहायता पीढ़ी विविधता को काफी बढ़ाती है (7193 अद्वितीय अभिव्यक्तियां)
निहित अभिव्यक्तियों का परिचय चुनौती और वास्तविकता को बढ़ाता है

3. विधि डिजाइन तर्कसंगत है

प्रारंभिक संलयन रणनीति कम्प्यूटेशनल जटिलता को कम करती है
दोहरी क्वेरी अलग डिजाइन ऐतिहासिक संबंध और नई लक्ष्य डिटेक्शन दोनों को संभालता है
स्पेस-टाइम अलग ध्यान तंत्र स्पष्ट और प्रभावी है

4. प्रयोग व्यापक है

तीन डेटासेट पर सत्यापन
विस्तृत विलोपन प्रयोग प्रत्येक मॉड्यूल के योगदान को परिमाणित करते हैं
समृद्ध दृश्य केस अध्ययन मॉडल क्षमता प्रदर्शित करते हैं

5. लेखन स्पष्ट है

तर्क सख्त, प्रेरणा से विधि से प्रयोग तक परत-दर-परत प्रगति
समृद्ध आंकड़े (10 आंकड़े, 5 तालिकाएं), उच्च सूचना घनत्व
तकनीकी विवरण पूर्ण, पुनरुत्पादन क्षमता मजबूत

कमियां

1. डेटासेट सीमाएं

वीडियो संख्या कम (21), दृश्य एकल (केवल ड्राइविंग)
अभिव्यक्तियां कई हैं, लेकिन सीमित भाषा आइटम संयोजन पर आधारित हैं, गहरी शब्दार्थ विविधता अपर्याप्त है
चरम मौसम, रात्रि जैसे चुनौतीपूर्ण परिदृश्यों की कमी

2. विधि सीमाएं

मेमोरी लंबाई निश्चित (N=5), स्वचालित समायोजन नहीं कर सकता
अभिव्यक्ति अस्पष्टता को संभाला नहीं गया है (जैसे विभिन्न दृष्टिकोणों में "बाईं ओर की कार" की अस्पष्टता)
अनिश्चितता अनुमान की कमी, पूर्वानुमान आत्मविश्वास को परिमाणित नहीं कर सकता

3. प्रयोग अपर्याप्त

अनुमान गति (FPS) की रिपोर्ट नहीं की गई, वास्तविक समय स्पष्ट नहीं है
क्रॉस-डेटासेट सामान्यीकरण प्रयोग की कमी (जैसे Refer-Dance पर परीक्षण)
नवीनतम दृश्य-भाषा मॉडल (जैसे CLIP, BLIP-2) के साथ तुलना की कमी
त्रुटि विश्लेषण अपर्याप्त, मुख्य विफलता पैटर्न की गणना नहीं की गई

4. सैद्धांतिक विश्लेषण की कमी

अस्थायी मॉडलिंग प्रभावी क्यों है, इसे सैद्धांतिक दृष्टिकोण से समझाया नहीं गया है
ध्यान वजन दृश्य विश्लेषण की कमी
मॉडल सीखने की गतिशीलता और अभिसरण पर चर्चा नहीं की गई

5. सामाजिक प्रभाव चर्चा अपर्याप्त

गोपनीयता मुद्दों पर चर्चा नहीं की गई (पैदल चलने वाले ट्रैकिंग की नैतिक समस्याएं)
संभावित पूर्वाग्रह विश्लेषण नहीं किया गया (जैसे विशिष्ट समूहों के लिए पहचान पूर्वाग्रह)

प्रभाव

क्षेत्र पर योगदान:

कार्य स्तर: RMOT कार्य वीडियो समझ की महत्वपूर्ण दिशा बनेगा, पहले से कई अनुवर्ती कार्य उद्धृत हैं
डेटा स्तर: Refer-KITTI-V2 समुदाय को उच्च गुणवत्ता का बेंचमार्क प्रदान करता है, खुला कोड और डेटा अनुसंधान को बढ़ावा देता है
विधि स्तर: अस्थायी वर्धन मॉड्यूल डिजाइन विचार अन्य वीडियो कार्यों में स्थानांतरणीय है

व्यावहारिक मूल्य:

स्वायत्त ड्राइविंग: भाषा निर्देश-संचालित वाहन नियंत्रण का समर्थन करता है ("सामने की लाल कार का पालन करें")
स्मार्ट निगरानी: विवरण-आधारित बहु-लक्ष्य पुनः प्राप्ति ("लाल कपड़े पहने पैदल चलने वाले")
मानव-मशीन इंटरैक्शन: प्राकृतिक भाषा-निर्देशित वीडियो संपादन

पुनरुत्पादन क्षमता:

कोड और डेटासेट खुले स्रोत हैं (https://github.com/zyn213/TempRMOT)
कार्यान्वयन विवरण पूर्ण (हाइपरपैरामीटर, प्रशिक्षण रणनीति आदि)
परिपक्व फ्रेमवर्क (Deformable DETR) पर आधारित, पुनरुत्पादन आसान है

अपेक्षित प्रभाव:

अल्पकालीन (1-2 वर्ष): अधिक RMOT डेटासेट और विधियों को प्रेरित करता है
मध्यकालीन (3-5 वर्ष): बड़े भाषा मॉडल के साथ संयोजन, मजबूत शब्दार्थ समझ प्राप्त करता है
दीर्घकालीन (5+ वर्ष): बहु-मोडल स्वायत्त ड्राइविंग प्रणाली का मानक घटक बनता है

लागू परिदृश्य

सबसे उपयुक्त परिदृश्य:

स्वायत्त ड्राइविंग: भाषा निर्देश-निर्देशित वाहन ट्रैकिंग और पथ योजना
स्मार्ट परिवहन: विवरण-आधारित ट्रैफिक प्रतिभागी डिटेक्शन ("अवैध पार्किंग वाली कारें")
वीडियो निगरानी: प्राकृतिक भाषा क्वेरी लक्ष्य पुनः प्राप्ति
रोबोट नेविगेशन: भाषा-निर्देशित लक्ष्य अनुसरण

कम उपयुक्त परिदृश्य:

उच्च गति परिदृश्य: वर्तमान विधि वास्तविक समय आवश्यकताओं को पूरा नहीं कर सकती
चरम अवरोध: गंभीर अवरोध के तहत ट्रैकिंग अभी भी चुनौतीपूर्ण है
खुली डोमेन परिदृश्य: प्रशिक्षण डेटा ड्राइविंग परिदृश्य तक सीमित है, सामान्यीकरण क्षमता सत्यापित नहीं है
सूक्ष्म विवरण: अत्यंत विस्तृत बाहरी विवरण (जैसे "नीली पट्टी वाली शर्ट पहने व्यक्ति") के लिए अपर्याप्त हो सकता है

सुधार सुझाव:

अधिक परिदृश्यों तक विस्तार करें (इनडोर, खेल, सामाजिक गतिविधियां)
वास्तविक समय प्रदर्शन में सुधार के लिए मॉडल को अनुकूलित करें
सक्रिय सीखन का परिचय दें, नए परिदृश्यों के लिए कम-नमूना अनुकूलन का समर्थन करें

संदर्भ

मुख्य उद्धरण

RMOT संबंधित:

Wu et al. (2023) - TransRMOT: पहली RMOT विधि और Refer-KITTI डेटासेट
Du et al. (2024) - iKUN: पुनः प्रशिक्षण-मुक्त ट्रैकर
Ma et al. (2024) - MLS-Track: बहु-स्तरीय शब्दार्थ इंटरैक्शन

Transformer ट्रैकिंग: 4. Zeng et al. (2022) - MOTR: अंत-से-अंत बहु-लक्ष्य ट्रैकिंग 5. Zhu et al. (2020) - Deformable DETR: विकृत ध्यान 6. Gao & Wang (2023) - MeMOTR: दीर्घकालीन मेमोरी-वर्धित ट्रैकिंग

रेफरिंग समझ: 7. Yu et al. (2016) - RefCOCO श्रृंखला डेटासेट 8. Kamath et al. (2021) - MDETR: बहु-मोडल डिटेक्शन

मूल्यांकन मेट्रिक्स: 9. Luiten et al. (2020) - HOTA: उच्च क्रम ट्रैकिंग सटीकता

समग्र मूल्यांकन: यह कंप्यूटर दृष्टि का एक उच्च गुणवत्ता वाला पेपर है, जिसमें कार्य परिभाषा, डेटासेट निर्माण और विधि डिजाइन में पर्याप्त नवाचार है। RMOT कार्य में महत्वपूर्ण सैद्धांतिक अर्थ और अनुप्रयोग मूल्य है, Refer-KITTI-V2 समुदाय के लिए मूल्यवान संसाधन प्रदान करता है, TempRMOT फ्रेमवर्क तर्कसंगत डिजाइन और प्रभावी है। मुख्य कमियां परिदृश्य सीमा और अज्ञात वास्तविक समय हैं। अनुवर्ती कार्य अधिक डोमेन तक विस्तार करने और गहन सैद्धांतिक विश्लेषण करने की सिफारिश की जाती है। यह पेपर भाषा-निर्देशित वीडियो समझ क्षेत्र का एक महत्वपूर्ण संदर्भ साहित्य बनने की संभावना है।