DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM: بناء خريطة دلالية متنوعة للتأريض البصري ثلاثي الأبعاد
يعتبر التمثيل الفعال للمشهد أمراً حاسماً لقدرات التأريض البصري، إلا أن الطرق الحالية للتأريض البصري ثلاثي الأبعاد غالباً ما تعاني من قيود. فهي إما تركز فقط على الإشارات الهندسية والبصرية، أو تفتقر إلى السمات متعددة الأبعاد المطلوبة للاستدلال المعقد، مثل الرسوم البيانية للمشاهد ثلاثية الأبعاد التقليدية. لسد هذه الفجوة، تقدم هذه الورقة إطار عمل الخريطة الدلالية المتنوعة (DSM)، وهو إطار عمل جديد لتمثيل المشهد يثري النموذج الهندسي القوي بالدلالات المشتقة من نماذج اللغة والرؤية (VLM)، بما في ذلك المظهر والخصائص الفيزيائية والوظيفية. يتم بناء DSM أولاً عبر الإنترنت من خلال دمج الملاحظات متعددة المناظر ضمن نافذة زمنية منزلقة، مما يخلق نموذج عالم دائم وشامل. بناءً على ذلك، يتم اقتراح DSM-Grounding، وهو نموذج جديد يحول التأريض من استعلامات VLM ذات الشكل الحر إلى عملية استدلال منظمة على خريطة غنية دلالياً، مما يحسن بشكل كبير من الدقة والقابلية للتفسير.
بالنسبة للتطبيقات مثل الروبوتات الخدمية، فإن التعرف على الأشياء وحده غير كافٍ؛ بل يتطلب فهم السمات متعددة الأبعاد للأشياء (مثل اللون والطزاجة والوزن والموقع) والعلاقات المعقدة بينها، وهو أمر حاسم لتنفيذ المهام المعقدة.
الإدخال: تدفق ملاحظات RGB-D مستمر، استعلام باللغة الطبيعية
الإخراج: الموقع ثلاثي الأبعاد والصندوق المحيط للكائن المستهدف
القيود: إعداد بدون عينات، بدون تسميات فئات محددة مسبقة التدريب
استخدام نموذج لغة كبير لتحليل الاستعلام باللغة الطبيعية، وتحديد الكائن المستهدف والكائنات الرسية وسماتها، واسترجاع مجموعة مرشحين أولية من DSM من خلال المطابقة النصية.
تستشهد الورقة بـ 40 مرجعاً ذا صلة، تغطي تمثيل المشهد ثلاثي الأبعاد والتأريض البصري والروبوتات وغيرها من المجالات المهمة، مما توفر للقراء معرفة شاملة بالخلفية.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً في مجال التأريض البصري ثلاثي الأبعاد. نجح إطار عمل DSM في دمج الدقة الهندسية والثراء الدلالي، مما يوفر دعماً تقنياً قوياً لفهم الروبوتات والتفاعل في البيئات المعقدة. على الرغم من وجود بعض القيود في الحسابات والقابلية للتطبيق، فإن الابتكار التقني والتحقق التجريبي يظهران أداءً ممتازاً، مما يلعب دوراً مهماً في دفع تطور هذا المجال.