2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM: بناء خريطة دلالية متنوعة للتأريض البصري ثلاثي الأبعاد

المعلومات الأساسية

معرّف الورقة: 2504.08307
العنوان: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
المؤلفون: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (كلية الدراسات العليا الدولية بجامعة تسينغهوا بشنتشن)
التصنيف: cs.CV cs.RO
وقت النشر/المؤتمر: arXiv 2025 (قيد الإرسال)
رابط الورقة: https://arxiv.org/abs/2504.08307
الصفحة الرئيسية للمشروع: https://binicey.github.io/DSM/

الملخص

يعتبر التمثيل الفعال للمشهد أمراً حاسماً لقدرات التأريض البصري، إلا أن الطرق الحالية للتأريض البصري ثلاثي الأبعاد غالباً ما تعاني من قيود. فهي إما تركز فقط على الإشارات الهندسية والبصرية، أو تفتقر إلى السمات متعددة الأبعاد المطلوبة للاستدلال المعقد، مثل الرسوم البيانية للمشاهد ثلاثية الأبعاد التقليدية. لسد هذه الفجوة، تقدم هذه الورقة إطار عمل الخريطة الدلالية المتنوعة (DSM)، وهو إطار عمل جديد لتمثيل المشهد يثري النموذج الهندسي القوي بالدلالات المشتقة من نماذج اللغة والرؤية (VLM)، بما في ذلك المظهر والخصائص الفيزيائية والوظيفية. يتم بناء DSM أولاً عبر الإنترنت من خلال دمج الملاحظات متعددة المناظر ضمن نافذة زمنية منزلقة، مما يخلق نموذج عالم دائم وشامل. بناءً على ذلك، يتم اقتراح DSM-Grounding، وهو نموذج جديد يحول التأريض من استعلامات VLM ذات الشكل الحر إلى عملية استدلال منظمة على خريطة غنية دلالياً، مما يحسن بشكل كبير من الدقة والقابلية للتفسير.

الخلفية البحثية والدافع

المشاكل المراد حلها

تواجه طرق التأريض البصري ثلاثي الأبعاد الحالية قيودين رئيسيين:

عدم كفاية التمثيل الدلالي: تركز معظم الطرق فقط على الإشارات الهندسية والبصرية، متجاهلة السمات الجوهرية للأشياء والتبعيات السياقية المتبادلة
قدرة استدلالية محدودة: الرسوم البيانية للمشاهد ثلاثية الأبعاد التقليدية يمكنها فقط التقاط دلالات بسيطة، مما يصعب دعم الاستدلال في البيئات المعقدة

أهمية المشكلة

بالنسبة للتطبيقات مثل الروبوتات الخدمية، فإن التعرف على الأشياء وحده غير كافٍ؛ بل يتطلب فهم السمات متعددة الأبعاد للأشياء (مثل اللون والطزاجة والوزن والموقع) والعلاقات المعقدة بينها، وهو أمر حاسم لتنفيذ المهام المعقدة.

قيود الطرق الموجودة

الطرق الموجهة هندسياً: مثل تحسين اختيار المنظور، تركز بشكل أساسي على الميزات الهندسية والبصرية، وتفتقر إلى الفهم الدلالي
الرسوم البيانية للمشاهد ثلاثية الأبعاد التقليدية: تركز فقط على الدلالات البسيطة والعلاقات المكانية، وتفتقر إلى السمات متعددة الأبعاد الدقيقة
استعلامات VLM المباشرة: تؤدي أداءً سيئاً في الاستدلال المكاني والعلاقات المعقدة، وتتأثر بقيود صيغة الإدخال

الدافع البحثي

بناء تمثيل مشهد يتمتع بخاصية التعبيرية (ترميز معلومات غنية) والإحكام (ضمان التوافقية عبر الأنظمة الأساسية)، مع دعم الاستدلال المعقد متعدد الأبعاد.

المساهمات الأساسية

اقتراح إطار عمل DSM: إطار عمل جديد يدعم تمثيل مشهد معقد متعدد الأبعاد، مما يحقق التكامل بين الفهم الدلالي والتأريض الدقيق
تطوير طريقة الخريطة ذات النافذة الزمنية: طريقة بناء عبر الإنترنت تدمج الحس الهندسي والدلالي، لبناء مكونات DSM غنية دلالياً
اقتراح DSM-Grounding: طريقة تأريض ثلاثية الأبعاد جديدة تستفيد من DSM لتحقيق استدلال مشهد أعمق

شرح الطريقة

تعريف المهمة

الإدخال: تدفق ملاحظات RGB-D مستمر، استعلام باللغة الطبيعية الإخراج: الموقع ثلاثي الأبعاد والصندوق المحيط للكائن المستهدف القيود: إعداد بدون عينات، بدون تسميات فئات محددة مسبقة التدريب

تعريف DSM

يُعرّف DSM كرسم بياني للمشهد ثلاثي الأبعاد G=(O,R)، حيث:

O: مجموعة عقد الكائنات
R: مجموعة الحواف التي تمثل العلاقات

تحتوي كل عقدة كائن O_i ∈ O على:

التمثيل الهندسي (O_g^i):

سحابة نقاط ثلاثية الأبعاد P_i
صندوق محيط موجه B_i

التمثيل الدلالي (O_s^i):

معرّف الهوية N_i: تسمية الفئة أو الاسم
السمات A_i: وصف منظم مشتق من VLM
- سمات المظهر (a_a): اللون والنمط والملمس
- السمات الفيزيائية (a_p): الوزن والمادة والخصائص السطحية
- السمات الوظيفية (a_o): الاستخدام وطرق التشغيل

عملية بناء DSM

1. تحليل المنظور الواحد

تنفيذ لكل إطار RGB-D:

كشف الكائنات والتقسيم: استخدام YoloWorld للكشف بمفردات مفتوحة، SAM2 للتقسيم
توليد سحابة النقاط: إعادة إسقاط قناع ثنائي الأبعاد من خلال معلومات العمق وموضع الكاميرا
استخراج الدلالات: استخدام VLM والاستدلال بسلسلة الأفكار لتوليد وصف دلالي منظم

2. الخريطة متعددة المناظر

ربط البيانات متعددة الأنماط: حساب درجة التشابه المرجحة

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # التشابه البصري
s_g = IoU(bbox_p, bbox_q)         # التشابه الهندسي
s_c = CosSimilarity(f_sp̂, f_sq̂)  # التشابه الدلالي

طريقة النافذة المنزلقة الهندسية:

بناء مخروط الرؤية لكل إطار
تجميع ملاحظات سحابة النقاط الأخيرة
تطبيق مخطط التصويت المكاني لتصفية الضوضاء واستكمال الشكل

طريقة DSM-Grounding

1. استرجاع المرشحين

استخدام نموذج لغة كبير لتحليل الاستعلام باللغة الطبيعية، وتحديد الكائن المستهدف والكائنات الرسية وسماتها، واسترجاع مجموعة مرشحين أولية من DSM من خلال المطابقة النصية.

2. تصفية العلاقات الكامنة (LRF)

التحقق من قيود العلاقات الموصوفة في الاستعلام:

الاستعلام عن العلاقات المخزنة R في DSM
استخدام نموذج لغة كبير لتقييم اتساق العلاقات المخزنة مع العلاقات في الاستعلام
اختيار أفضل k مرشح، مما ينتج عنه مجموعة منقحة O_filtered

3. التحقق متعدد المستويات

عرض ثلاث وجهات نظر للصور للمرشحين النهائيين:

مستوى الكائن: ملء الكائن للشاشة، توفير معلومات تفصيلية عن الفئة والسمات
مستوى الموقع: عرض أوسع يظهر العلاقة بين الكائن والمناطق المجاورة
مستوى المشهد: السياق العام الذي يتضمن تقريباً المشهد بأكمله

القرار النهائي:

pred = VLM(I, O_filtered, Q)

إعداد التجارب

مجموعات البيانات

ScanRefer: 8 مشاهد، تشمل غرف المعيشة والطعام والمكاتب والغرف النوم وغيرها
Nr3D/Sr3D: تقرير المؤشرات الإجمالية والسهلة والصعبة والمعتمدة على المنظور والمستقلة عن المنظور
AI2-THOR: بيئة محاكاة عالية الدقة
Replica: مجموعة بيانات بيئة داخلية واسعة النطاق

مؤشرات التقييم

التأريض البصري ثلاثي الأبعاد: Acc@0.25, Acc@0.5 (عتبات IoU)
التقسيم الدلالي: mAcc (متوسط الدقة)، F-mIoU (متوسط IoU الأمامي)

تفاصيل التنفيذ

نموذج الكشف: YoloWorld
نموذج التقسيم: SAM2
المشفرات: SigLip (نص)، DINOv2 (بصري)
VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
إعدادات العتبة: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

نتائج التجارب

النتائج الرئيسية

التقسيم الدلالي ثلاثي الأبعاد (مجموعة بيانات Replica)

الطريقة	mAcc	F-mIoU
LSeg (Privileged)	33.39	51.54
OpenSeg (Privileged)	41.19	53.74
ConceptFusion (Zero-shot)	31.53	38.70
ConceptGraphs (Zero-shot)	40.63	35.95
طريقتنا	38.76	67.93

التأريض البصري ثلاثي الأبعاد (مجموعة بيانات ScanRefer)

أفضل النتائج باستخدام Qwen2.5-VL-72B:

دقة Acc@0.5 الإجمالية: 59.06% (أفضل أداء حالياً، متفوقة على الطرق الموجودة بحوالي 10%)
دقة Acc@0.5 المتعددة: 53.65% (أداء متميزة في مشاهد الكائنات المتعددة)

دراسات الاستئصال (مجموعة بيانات AI2-THOR)

LRF	سمات المظهر	السمات الفيزيائية	السمات الوظيفية	دقة Acc@0.5 الإجمالية
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

النتائج الرئيسية:

وحدة LRF تساهم بأكبر قدر (تحسن حوالي 6-7 نقاط مئوية)
سمات المظهر توفر الإشارة الأكثر أهمية
جميع السمات الدلالية الثلاث لها مساهمة إيجابية

تجارب الروبوتات

البيئة المحاكاة: متفوقة بشكل كبير على الطرق الحالية بدون عينات في AI2-THOR البيئة الحقيقية: نشر ناجح على روبوت فيزيائي لتنفيذ:

مهام الملاحة الدلالية: "التنقل إلى الغرفة المركزية بجانب مكتب الكمبيوتر"
مهام الإمساك الدلالي: "إمساك التفاحة على الرف الأبيض على الخزانة البيضاء"

الأعمال ذات الصلة

تمثيل المشهد ثلاثي الأبعاد

الطرق المبكرة: Kimera وغيرها تركز على الخرائط المترية-الدلالية
الخرائط بمفردات مفتوحة: ConceptFusion ينشئ خرائط ثلاثية الأبعاد مستندة إلى اللغة
الرسوم البيانية للمشاهد ثلاثية الأبعاد: SceneGraphFusion و Hydra تبني تمثيلات هرمية
مزايا هذه الورقة: DSM يوفر تمثيل سمات متعددة الأبعاد أكثر ثراءً

التأريض البصري ثلاثي الأبعاد

طرق المفردات المفتوحة: OpenScene و NuGrounding تحقق التأريض من خلال محاذاة الميزات
طرق VLM: SeeGround و ScanReason تعتمد استراتيجية العرض والتلميح
الابتكار في هذه الورقة: الانتقال من استعلامات VLM المباشرة إلى عملية استدلال منظمة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجح إطار عمل DSM في دمج الدقة الهندسية والثراء الدلالي
السمات الدلالية متعددة الأبعاد (المظهر والفيزيائية والوظيفية) تحسن بشكل كبير من أداء التأريض
نموذج الاستدلال المنظم متفوق على طرق استعلام VLM المباشرة
الطريقة تظهر أداءً ممتازاً في البيئات المحاكاة والحقيقية

القيود

الاعتماد على الوحدات الأعلى: تتأثر الأداء بجودة كشف الكائنات والتقسيم
التأخير الحسابي: وقت الاستدلال لنماذج VLM الكبيرة طويل نسبياً
التوافقية البيئية: تم الاختبار بشكل أساسي في البيئات الداخلية، وقابلية التطبيق في المشاهد الخارجية غير معروفة

الاتجاهات المستقبلية

استكشاف نماذج أكثر كفاءة لتحسين الأداء في الوقت الفعلي
دراسة طرق تمثيل ثلاثية الأبعاد بديلة لتعزيز الاستقرار
التوسع إلى بيئات خارجية أكثر تعقيداً

التقييم المتعمق

المزايا

قوة الابتكار الطريقة: أول تكامل منهجي للسمات الدلالية متعددة الأبعاد في تمثيل المشهد ثلاثي الأبعاد
اكتمال الحل التقني: حل شامل من طرف إلى طرف من بناء المشهد إلى استدلال التأريض
كفاية التجارب: تغطي مجموعات بيانات متعددة ودراسات استئصال والتحقق من الروبوتات الحقيقية
تحسن الأداء الملحوظ: تحقيق أفضل أداء حالياً على معايير متعددة، خاصة تحسن F-mIoU الملحوظ

أوجه القصور

التعقيد الحسابي: يتطلب استدعاءات VLM متعددة، قد يؤثر على التطبيقات في الوقت الفعلي
قيود التقييم: التقييم بشكل أساسي في المشاهد الداخلية، يفتقر إلى التحقق الخارجي واسع النطاق
الاعتماد القوي: يعتمد بشكل كبير على جودة VLM، قد يتأثر بانحيازات النموذج
متطلبات الذاكرة: تخزين المعلومات الدلالية الغنية قد يفرض ضغطاً على الذاكرة

التأثير

المساهمة الأكاديمية: توفر اتجاهاً بحثياً جديداً لفهم المشهد ثلاثي الأبعاد
القيمة العملية: قابلة للتطبيق مباشرة على الروبوتات الخدمية والتطبيقات الفعلية
قابلية التكرار: توفر تفاصيل تنفيذ مفصلة وصفحة مشروع رئيسية

السيناريوهات المناسبة

الروبوتات الخدمية الداخلية: الملاحة والتشغيل في المنازل والمكاتب
تطبيقات الواقع المعزز: أنظمة AR التي تتطلب فهماً دلالياً غنياً
المراقبة الذكية: فهم المشهد والكشف عن الشذوذ بناءً على الدلالات
التكنولوجيا المساعدة: توفير وصف البيئة للأشخاص ذوي الإعاقة البصرية

المراجع

تستشهد الورقة بـ 40 مرجعاً ذا صلة، تغطي تمثيل المشهد ثلاثي الأبعاد والتأريض البصري والروبوتات وغيرها من المجالات المهمة، مما توفر للقراء معرفة شاملة بالخلفية.

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً في مجال التأريض البصري ثلاثي الأبعاد. نجح إطار عمل DSM في دمج الدقة الهندسية والثراء الدلالي، مما يوفر دعماً تقنياً قوياً لفهم الروبوتات والتفاعل في البيئات المعقدة. على الرغم من وجود بعض القيود في الحسابات والقابلية للتطبيق، فإن الابتكار التقني والتحقق التجريبي يظهران أداءً ممتازاً، مما يلعب دوراً مهماً في دفع تطور هذا المجال.