DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM: 3D विजुअल ग्राउंडिंग के लिए विविध सिमेंटिक मैप का निर्माण
प्रभावी दृश्य प्रतिनिधित्व विजुअल ग्राउंडिंग क्षमता के लिए महत्वपूर्ण है, हालांकि मौजूदा 3D विजुअल ग्राउंडिंग विधियों में अक्सर सीमाएं होती हैं। वे या तो केवल ज्यामितीय और दृश्य संकेतों पर ध्यान केंद्रित करते हैं, या पारंपरिक 3D दृश्य ग्राफ़ की तरह, जटिल तर्क के लिए आवश्यक बहु-आयामी विशेषताओं की कमी है। इस अंतर को पूरा करने के लिए, यह पेपर विविध सिमेंटिक मैप (DSM) ढांचा प्रस्तुत करता है, जो एक नोवल दृश्य प्रतिनिधित्व ढांचा है जो VLM-व्युत्पन्न सिमेंटिक्स (उपस्थिति, भौतिक विशेषताएं और कार्यात्मकता सहित) के साथ एक मजबूत ज्यामितीय मॉडल को समृद्ध करता है। DSM पहले समय-स्लाइडिंग विंडो के भीतर बहु-दृश्य अवलोकनों को फ्यूज करके ऑनलाइन निर्मित होता है, एक स्थायी और व्यापक विश्व मॉडल बनाता है। इसके आधार पर, DSM-ग्राउंडिंग प्रस्तावित किया गया है, जो ग्राउंडिंग को मुक्त-रूप VLM क्वेरी से सिमेंटिक-समृद्ध मैप पर संरचित तर्क प्रक्रिया में परिवर्तित करता है, जो सटीकता और व्याख्यात्मकता को महत्वपूर्ण रूप से बढ़ाता है।
मौजूदा 3D विजुअल ग्राउंडिंग विधियों को दो मुख्य सीमाओं का सामना करना पड़ता है:
अपर्याप्त सिमेंटिक प्रतिनिधित्व: अधिकांश विधियां केवल ज्यामितीय और दृश्य संकेतों पर ध्यान केंद्रित करती हैं, वस्तुओं की आंतरिक विशेषताओं और संदर्भ अंतर्निर्भरता को नजरअंदाज करती हैं
सीमित तर्क क्षमता: पारंपरिक 3D दृश्य ग्राफ़ केवल सरल सिमेंटिक्स को कैप्चर कर सकते हैं, जटिल वातावरण में बड़े मॉडल के तर्क को समर्थन देना मुश्किल है
सेवा रोबोट जैसे अनुप्रयोगों के लिए, केवल वस्तुओं को पहचानना पर्याप्त नहीं है, बल्कि वस्तुओं की बहु-आयामी विशेषताओं (जैसे रंग, ताजगी, वजन, स्थिति) और उनके बीच जटिल संबंधों को समझना आवश्यक है, जो जटिल कार्य निष्पादन के लिए महत्वपूर्ण है।
एक ऐसा दृश्य प्रतिनिधित्व बनाना जो अभिव्यक्तिपूर्ण (समृद्ध जानकारी को एन्कोड करता है) और कॉम्पैक्ट (क्रॉस-प्लेटफॉर्म अनुकूलता सुनिश्चित करता है) दोनों हो, जटिल बहु-आयामी तर्क का समर्थन करता है।
इनपुट: RGB-D अवलोकनों का निरंतर प्रवाह, प्राकृतिक भाषा क्वेरी
आउटपुट: लक्ष्य वस्तु की 3D स्थिति और बाउंडिंग बॉक्स
बाधाएं: शून्य-शॉट सेटिंग, पूर्व-प्रशिक्षित विशिष्ट वर्ग लेबल की आवश्यकता नहीं
प्राकृतिक भाषा क्वेरी को पार्स करने के लिए LLM का उपयोग, लक्ष्य इकाई, एंकर इकाई और उनकी विशेषताओं की पहचान, DSM से पाठ मिलान के माध्यम से प्रारंभिक उम्मीदवार सेट पुनर्प्राप्त करना।
पेपर 40 संबंधित संदर्भों का हवाला देता है, जो 3D दृश्य प्रतिनिधित्व, विजुअल ग्राउंडिंग, रोबोटिक्स और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, पाठकों को व्यापक पृष्ठभूमि ज्ञान प्रदान करता है।
समग्र मूल्यांकन: यह 3D विजुअल ग्राउंडिंग क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो एक नोवल समाधान प्रस्तुत करता है। DSM ढांचा ज्यामितीय सटीकता और सिमेंटिक समृद्धि को सफलतापूर्वक जोड़ता है, जटिल वातावरण में रोबोट की समझ और इंटरैक्शन के लिए मजबूत तकनीकी समर्थन प्रदान करता है। हालांकि कम्प्यूटेशनल और प्रयोज्यता पहलुओं में कुछ सीमाएं हैं, इसकी तकनीकी नवाचार और प्रयोगात्मक सत्यापन दोनों उत्कृष्ट हैं, जो इस क्षेत्र के विकास में महत्वपूर्ण प्रेरक भूमिका निभाता है।