2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM: 3D विजुअल ग्राउंडिंग के लिए विविध सिमेंटिक मैप का निर्माण

बुनियादी जानकारी

पेपर ID: 2504.08307
शीर्षक: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
लेखक: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (थिंघुआ विश्वविद्यालय शेनझेन अंतर्राष्ट्रीय स्नातक अनुसंधान संस्थान)
वर्गीकरण: cs.CV cs.RO
प्रकाशन समय/सम्मेलन: arXiv 2025 (प्रस्तुतिकरण में)
पेपर लिंक: https://arxiv.org/abs/2504.08307
प्रोजेक्ट होमपेज: https://binicey.github.io/DSM/

सारांश

प्रभावी दृश्य प्रतिनिधित्व विजुअल ग्राउंडिंग क्षमता के लिए महत्वपूर्ण है, हालांकि मौजूदा 3D विजुअल ग्राउंडिंग विधियों में अक्सर सीमाएं होती हैं। वे या तो केवल ज्यामितीय और दृश्य संकेतों पर ध्यान केंद्रित करते हैं, या पारंपरिक 3D दृश्य ग्राफ़ की तरह, जटिल तर्क के लिए आवश्यक बहु-आयामी विशेषताओं की कमी है। इस अंतर को पूरा करने के लिए, यह पेपर विविध सिमेंटिक मैप (DSM) ढांचा प्रस्तुत करता है, जो एक नोवल दृश्य प्रतिनिधित्व ढांचा है जो VLM-व्युत्पन्न सिमेंटिक्स (उपस्थिति, भौतिक विशेषताएं और कार्यात्मकता सहित) के साथ एक मजबूत ज्यामितीय मॉडल को समृद्ध करता है। DSM पहले समय-स्लाइडिंग विंडो के भीतर बहु-दृश्य अवलोकनों को फ्यूज करके ऑनलाइन निर्मित होता है, एक स्थायी और व्यापक विश्व मॉडल बनाता है। इसके आधार पर, DSM-ग्राउंडिंग प्रस्तावित किया गया है, जो ग्राउंडिंग को मुक्त-रूप VLM क्वेरी से सिमेंटिक-समृद्ध मैप पर संरचित तर्क प्रक्रिया में परिवर्तित करता है, जो सटीकता और व्याख्यात्मकता को महत्वपूर्ण रूप से बढ़ाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या को हल करना

मौजूदा 3D विजुअल ग्राउंडिंग विधियों को दो मुख्य सीमाओं का सामना करना पड़ता है:

अपर्याप्त सिमेंटिक प्रतिनिधित्व: अधिकांश विधियां केवल ज्यामितीय और दृश्य संकेतों पर ध्यान केंद्रित करती हैं, वस्तुओं की आंतरिक विशेषताओं और संदर्भ अंतर्निर्भरता को नजरअंदाज करती हैं
सीमित तर्क क्षमता: पारंपरिक 3D दृश्य ग्राफ़ केवल सरल सिमेंटिक्स को कैप्चर कर सकते हैं, जटिल वातावरण में बड़े मॉडल के तर्क को समर्थन देना मुश्किल है

समस्या की महत्ता

सेवा रोबोट जैसे अनुप्रयोगों के लिए, केवल वस्तुओं को पहचानना पर्याप्त नहीं है, बल्कि वस्तुओं की बहु-आयामी विशेषताओं (जैसे रंग, ताजगी, वजन, स्थिति) और उनके बीच जटिल संबंधों को समझना आवश्यक है, जो जटिल कार्य निष्पादन के लिए महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

ज्यामिति-केंद्रित विधियां: जैसे दृश्य चयन अनुकूलन, मुख्य रूप से ज्यामितीय और दृश्य विशेषताओं पर ध्यान केंद्रित करते हैं, सिमेंटिक समझ की कमी है
पारंपरिक 3D दृश्य ग्राफ़: केवल सरल सिमेंटिक्स और स्थानिक संबंधों पर ध्यान केंद्रित करते हैं, सूक्ष्म-दाने वाली बहु-आयामी विशेषताओं की कमी है
VLM प्रत्यक्ष क्वेरी: जटिल स्थानिक और संबंध तर्क में खराब प्रदर्शन करते हैं, इनपुट प्रारूप द्वारा सीमित हैं

अनुसंधान प्रेरणा

एक ऐसा दृश्य प्रतिनिधित्व बनाना जो अभिव्यक्तिपूर्ण (समृद्ध जानकारी को एन्कोड करता है) और कॉम्पैक्ट (क्रॉस-प्लेटफॉर्म अनुकूलता सुनिश्चित करता है) दोनों हो, जटिल बहु-आयामी तर्क का समर्थन करता है।

मुख्य योगदान

DSM ढांचा प्रस्तावित करना: जटिल बहु-आयामी दृश्य प्रतिनिधित्व का समर्थन करने वाला एक नोवल ढांचा, सिमेंटिक समझ और सटीक ग्राउंडिंग का एकीकरण
समय-विंडो मैपिंग विधि विकसित करना: ज्यामितीय और सिमेंटिक-जागरूक ऑनलाइन निर्माण विधि, समृद्ध सिमेंटिक DSM घटकों का निर्माण
DSM-ग्राउंडिंग प्रस्तावित करना: DSM का उपयोग करके गहरे दृश्य तर्क को सक्षम करने वाली एक नोवल 3D ग्राउंडिंग विधि

विधि विवरण

कार्य परिभाषा

इनपुट: RGB-D अवलोकनों का निरंतर प्रवाह, प्राकृतिक भाषा क्वेरी आउटपुट: लक्ष्य वस्तु की 3D स्थिति और बाउंडिंग बॉक्स बाधाएं: शून्य-शॉट सेटिंग, पूर्व-प्रशिक्षित विशिष्ट वर्ग लेबल की आवश्यकता नहीं

DSM परिभाषा

DSM को 3D दृश्य ग्राफ़ G=(O,R) के रूप में परिभाषित किया गया है, जहां:

O: वस्तु नोड्स का सेट
R: संबंधों का प्रतिनिधित्व करने वाले किनारों का सेट

प्रत्येक वस्तु नोड O_i ∈ O में शामिल है:

ज्यामितीय प्रतिनिधित्व (O_g^i):

3D बिंदु क्लाउड P_i
निर्देशित बाउंडिंग बॉक्स B_i

सिमेंटिक प्रतिनिधित्व (O_s^i):

पहचान N_i: वर्ग लेबल या नाम
विशेषताएं A_i: संरचित VLM-व्युत्पन्न विवरण
- उपस्थिति विशेषताएं (a_a): रंग, पैटर्न, बनावट
- भौतिक विशेषताएं (a_p): वजन, सामग्री, सतह विशेषताएं
- कार्यात्मक विशेषताएं (a_o): उद्देश्य, संचालन विधि

DSM निर्माण प्रक्रिया

1. एकल-दृश्य विश्लेषण

प्रत्येक RGB-D फ्रेम के लिए निष्पादित:

वस्तु पहचान और विभाजन: खुली शब्दावली पहचान के लिए YoloWorld का उपयोग, विभाजन के लिए SAM2
बिंदु क्लाउड पीढ़ी: गहराई और कैमरा पोज़ जानकारी के माध्यम से 2D मास्क को पुनः प्रक्षेपित करना
सिमेंटिक निष्कर्षण: संरचित सिमेंटिक विवरण उत्पन्न करने के लिए VLM और विचार-श्रृंखला तर्क का उपयोग

2. बहु-दृश्य मैपिंग

बहु-मोडल डेटा संबद्धता: भारित समानता स्कोर की गणना

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # दृश्य समानता
s_g = IoU(bbox_p, bbox_q)         # ज्यामितीय समानता  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # सिमेंटिक समानता

ज्यामितीय स्लाइडिंग विंडो विधि:

प्रत्येक फ्रेम के लिए दृश्य शंकु का निर्माण
हाल के बिंदु क्लाउड अवलोकनों को एकत्रित करना
शोर को फ़िल्टर करने और आकार को पूरा करने के लिए स्थानिक वोटिंग योजना लागू करना

DSM-ग्राउंडिंग विधि

1. उम्मीदवार पुनर्प्राप्ति

प्राकृतिक भाषा क्वेरी को पार्स करने के लिए LLM का उपयोग, लक्ष्य इकाई, एंकर इकाई और उनकी विशेषताओं की पहचान, DSM से पाठ मिलान के माध्यम से प्रारंभिक उम्मीदवार सेट पुनर्प्राप्त करना।

2. संभावित संबंध फ़िल्टरिंग (LRF)

क्वेरी में वर्णित संबंध बाधाओं को सत्यापित करना:

DSM में संग्रहीत संबंधों R को क्वेरी करना
संग्रहीत संबंधों और क्वेरी संबंधों के बीच संगति का मूल्यांकन करने के लिए LLM का उपयोग
शीर्ष-k उम्मीदवारों का चयन, परिष्कृत सेट O_filtered का उत्पादन

3. बहु-स्तरीय सत्यापन

अंतिम उम्मीदवार सेट के लिए तीन दृष्टिकोणों की छवियां प्रस्तुत करना:

वस्तु-स्तर: वस्तु पूरी स्क्रीन भरती है, विस्तृत वर्ग और विशेषता जानकारी प्रदान करती है
स्थिति-स्तर: आसन्न क्षेत्रों के साथ वस्तु के संबंध को दिखाने वाला व्यापक दृश्य
दृश्य-स्तर: लगभग पूरे दृश्य को शामिल करने वाली वैश्विक संदर्भ जानकारी

अंतिम निर्णय:

pred = VLM(I, O_filtered, Q)

प्रयोगात्मक सेटअप

डेटासेट

ScanRefer: 8 दृश्य, लिविंग रूम, डाइनिंग रूम, अध्ययन, बेडरूम आदि सहित
Nr3D/Sr3D: समग्र, आसान, कठिन, दृश्य-निर्भर, दृश्य-स्वतंत्र मेट्रिक्स की रिपोर्ट
AI2-THOR: उच्च-निष्ठा सिम्युलेटर वातावरण
Replica: बड़े पैमाने पर इनडोर वातावरण डेटासेट

मूल्यांकन मेट्रिक्स

3D विजुअल ग्राउंडिंग: Acc@0.25, Acc@0.5 (IoU थ्रेसहोल्ड)
सिमेंटिक विभाजन: mAcc (औसत सटीकता), F-mIoU (अग्रभाग औसत IoU)

कार्यान्वयन विवरण

पहचान मॉडल: YoloWorld
विभाजन मॉडल: SAM2
एनकोडर: SigLip (पाठ), DINOv2 (दृश्य)
VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
थ्रेसहोल्ड सेटिंग: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

प्रयोगात्मक परिणाम

मुख्य परिणाम

3D सिमेंटिक विभाजन (Replica डेटासेट)

विधि	mAcc	F-mIoU
LSeg (विशेषाधिकार प्राप्त)	33.39	51.54
OpenSeg (विशेषाधिकार प्राप्त)	41.19	53.74
ConceptFusion (शून्य-शॉट)	31.53	38.70
ConceptGraphs (शून्य-शॉट)	40.63	35.95
हमारा	38.76	67.93

3D विजुअल ग्राउंडिंग (ScanRefer डेटासेट)

Qwen2.5-VL-72B का उपयोग करके सर्वोत्तम परिणाम:

समग्र Acc@0.5: 59.06% (SOTA, मौजूदा विधियों से लगभग 10% आगे)
एकाधिक Acc@0.5: 53.65% (बहु-वस्तु दृश्यों में उत्कृष्ट प्रदर्शन)

विलोपन प्रयोग (AI2-THOR डेटासेट)

LRF	उपस्थिति विशेषता	भौतिक विशेषता	कार्यात्मक विशेषता	समग्र Acc@0.5
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

मुख्य निष्कर्ष:

LRF मॉड्यूल सबसे बड़ा योगदान देता है (लगभग 6-7 प्रतिशत बिंदु सुधार)
उपस्थिति विशेषताएं सबसे महत्वपूर्ण संकेत प्रदान करती हैं
सभी तीन प्रकार की सिमेंटिक विशेषताएं सकारात्मक योगदान देती हैं

रोबोटिक्स प्रयोग

सिम्युलेटेड वातावरण: AI2-THOR में मौजूदा शून्य-शॉट विधियों से महत्वपूर्ण रूप से बेहतर वास्तविक वातावरण: भौतिक रोबोट पर सफलतापूर्वक तैनात किया गया:

सिमेंटिक नेविगेशन कार्य: "कंप्यूटर डेस्क के पास केंद्रीय कमरे में नेविगेट करें"
सिमेंटिक ग्रैस्पिंग कार्य: "सफेद कैबिनेट पर सफेद शेल्फ पर सेब पकड़ें"

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DSM ढांचा ज्यामितीय सटीकता और सिमेंटिक समृद्धि के संयोजन को सफलतापूर्वक प्राप्त करता है
बहु-आयामी सिमेंटिक विशेषताएं (उपस्थिति, भौतिक, कार्यात्मक) ग्राउंडिंग प्रदर्शन को महत्वपूर्ण रूप से बढ़ाती हैं
संरचित तर्क प्रतिमान प्रत्यक्ष VLM क्वेरी विधियों से बेहतर है
विधि सिम्युलेटेड और वास्तविक वातावरण दोनों में उत्कृष्ट प्रदर्शन करती है

सीमाएं

अपस्ट्रीम मॉड्यूल पर निर्भरता: प्रदर्शन वस्तु पहचान, विभाजन गुणवत्ता से प्रभावित है
कम्प्यूटेशनल विलंब: बड़े VLM की अनुमान समय लंबा है
वातावरण अनुकूलन: मुख्य रूप से इनडोर वातावरण में परीक्षण किया गया, आउटडोर दृश्य प्रयोज्यता अज्ञात है

भविष्य की दिशाएं

वास्तविक समय प्रदर्शन बढ़ाने के लिए अधिक कुशल मॉडलों की खोज
मजबूतता बढ़ाने के लिए वैकल्पिक 3D प्रतिनिधित्व विधियों का अनुसंधान
अधिक जटिल आउटडोर वातावरण में विस्तार

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत: पहली बार 3D दृश्य प्रतिनिधित्व में बहु-आयामी सिमेंटिक विशेषताओं को व्यवस्थित रूप से एकीकृत करना
तकनीकी समाधान संपूर्ण: दृश्य निर्माण से ग्राउंडिंग तर्क तक अंत-से-अंत समाधान
प्रयोग व्यापक: कई डेटासेट, विलोपन अध्ययन और वास्तविक रोबोट सत्यापन को कवर करता है
प्रदर्शन सुधार महत्वपूर्ण: कई बेंचमार्क पर SOTA प्राप्त करता है, विशेष रूप से F-mIoU में स्पष्ट सुधार

कमियां

कम्प्यूटेशनल जटिलता: कई VLM कॉल की आवश्यकता है, वास्तविक समय अनुप्रयोगों को प्रभावित कर सकता है
मूल्यांकन सीमाएं: मुख्य रूप से इनडोर दृश्यों में मूल्यांकन, बड़े पैमाने पर आउटडोर सत्यापन की कमी
मजबूत निर्भरता: VLM गुणवत्ता पर उच्च निर्भरता, मॉडल पूर्वाग्रह से प्रभावित हो सकता है
मेमोरी आवश्यकताएं: समृद्ध सिमेंटिक जानकारी संग्रहीत करने से मेमोरी दबाव आ सकता है

प्रभाव

शैक्षणिक योगदान: 3D दृश्य समझ के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: सेवा रोबोट जैसे वास्तविक अनुप्रयोगों के लिए सीधे लागू होता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और प्रोजेक्ट होमपेज प्रदान करता है

लागू दृश्य

इनडोर सेवा रोबोट: घर, कार्यालय वातावरण में नेविगेशन और संचालन
संवर्धित वास्तविकता अनुप्रयोग: समृद्ध सिमेंटिक समझ की आवश्यकता वाली AR प्रणालियां
बुद्धिमान निगरानी: सिमेंटिक-आधारित दृश्य समझ और विसंगति पहचान
सहायक प्रौद्योगिकी: दृष्टिहीन व्यक्तियों के लिए वातावरण विवरण प्रदान करना

संदर्भ

पेपर 40 संबंधित संदर्भों का हवाला देता है, जो 3D दृश्य प्रतिनिधित्व, विजुअल ग्राउंडिंग, रोबोटिक्स और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, पाठकों को व्यापक पृष्ठभूमि ज्ञान प्रदान करता है।

समग्र मूल्यांकन: यह 3D विजुअल ग्राउंडिंग क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो एक नोवल समाधान प्रस्तुत करता है। DSM ढांचा ज्यामितीय सटीकता और सिमेंटिक समृद्धि को सफलतापूर्वक जोड़ता है, जटिल वातावरण में रोबोट की समझ और इंटरैक्शन के लिए मजबूत तकनीकी समर्थन प्रदान करता है। हालांकि कम्प्यूटेशनल और प्रयोज्यता पहलुओं में कुछ सीमाएं हैं, इसकी तकनीकी नवाचार और प्रयोगात्मक सत्यापन दोनों उत्कृष्ट हैं, जो इस क्षेत्र के विकास में महत्वपूर्ण प्रेरक भूमिका निभाता है।