DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM: Konstruktion einer vielfältigen semantischen Karte für 3D-Visuelle Verankerung
Eine effektive Szenendarstellung ist für die Fähigkeit zur visuellen Verankerung von entscheidender Bedeutung. Allerdings weisen bestehende 3D-Methoden zur visuellen Verankerung Einschränkungen auf. Sie konzentrieren sich entweder nur auf geometrische und visuelle Hinweise oder ihnen fehlen, wie bei traditionellen 3D-Szenengraphen, die multidimensionalen Attribute, die für komplexe Schlussfolgerungen erforderlich sind. Um diese Lücke zu schließen, führt dieses Papier das Framework für vielfältige semantische Karten (DSM) ein – ein neuartiges Szenendarstellungs-Framework, das ein robustes geometrisches Modell durch VLM-abgeleitete Semantik bereichert, einschließlich Erscheinungsbild, physikalischer Eigenschaften und Funktionalität. DSM wird zunächst online durch Fusion von Multi-View-Beobachtungen innerhalb eines zeitlichen Schiebefensters konstruiert und erstellt so ein dauerhaftes und umfassendes Weltmodell. Darauf aufbauend wird DSM-Grounding vorgeschlagen – ein neues Paradigma, das die Verankerung von freiformatigen VLM-Abfragen in strukturierte Schlussfolgerungsprozesse auf semantisch angereicherten Karten umwandelt und die Genauigkeit und Interpretierbarkeit erheblich verbessert.
Bestehende 3D-Methoden zur visuellen Verankerung sehen sich zwei Haupteinschränkungen gegenüber:
Unzureichende semantische Darstellung: Die meisten Methoden konzentrieren sich nur auf geometrische und visuelle Hinweise und ignorieren die inneren Eigenschaften von Objekten und kontextuelle gegenseitige Abhängigkeiten
Begrenzte Schlussfolgerungsfähigkeit: Traditionelle 3D-Szenengraphen können nur einfache Semantik erfassen und unterstützen schwer komplexe Schlussfolgerungen großer Modelle in komplexen Umgebungen
Für Anwendungen wie Serviceroboter reicht es nicht aus, Objekte nur zu erkennen; es ist auch notwendig, die multidimensionalen Eigenschaften von Objekten (wie Farbe, Frische, Gewicht, Position) und ihre komplexen Beziehungen zu verstehen, was für die Ausführung komplexer Aufgaben von entscheidender Bedeutung ist.
Geometrieorientierte Methoden: Wie Ansichtsauswahloptimierung konzentrieren sich hauptsächlich auf geometrische und visuelle Merkmale und ermangeln semantischem Verständnis
Traditionelle 3D-Szenengraphen: Konzentrieren sich nur auf einfache Semantik und räumliche Beziehungen, ermangeln feingranularer multidimensionaler Attribute
Direkte VLM-Abfragen: Zeigen schlechte Leistung bei komplexen räumlichen und Beziehungsschlussfolgerungen, begrenzt durch Eingabeformat
Konstruktion einer Szenendarstellung, die sowohl ausdrucksstark (kodiert reichhaltige Informationen) als auch kompakt (gewährleistet plattformübergreifende Anpassungsfähigkeit) ist und komplexe multidimensionale Schlussfolgerungen unterstützt.
Vorschlag des DSM-Frameworks: Ein neuartiges Framework, das komplexe multidimensionale Szenendarstellung unterstützt und die Integration von semantischem Verständnis und präziser Verankerung ermöglicht
Entwicklung der Zeitfenster-Kartierungsmethode: Online-Konstruktionsmethode, die geometrische und semantische Wahrnehmung integriert, um reichhaltige semantische DSM-Komponenten zu konstruieren
Vorschlag von DSM-Grounding: Eine neue 3D-Verankerungsmethode, die DSM nutzt, um tiefere Szenenschlussfolgerungen zu ermöglichen
Verwendung von LLM zur Analyse natürlichsprachiger Abfragen, Identifikation der Zielentität, Ankerentitäten und ihrer Attribute, Abfrage des DSM durch Textabgleich zur Abfrage des anfänglichen Kandidatensatzes.
Simulierte Umgebung: Deutlich überlegen gegenüber bestehenden Zero-Shot-Methoden in AI2-THOR
Echte Umgebung: Erfolgreiche Bereitstellung auf physischen Robotern zur Ausführung von:
Semantischen Navigationsaufgaben: "Navigiere zum zentralen Raum neben dem Computertisch"
Semantischen Greifaufgaben: "Greife den Apfel auf dem weißen Regal auf dem weißen Schrank"
Das Papier zitiert 40 verwandte Arbeiten, die 3D-Szenendarstellung, visuelle Verankerung, Robotik und andere wichtige Arbeiten in mehreren Bereichen abdecken und Lesern umfassendes Hintergrundwissen bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Bereich der 3D-visuellen Verankerung vorschlägt. Das DSM-Framework vereint erfolgreich geometrische Präzision mit semantischer Reichhaltigkeit und bietet starke technische Unterstützung für das Verständnis und die Interaktion von Robotern in komplexen Umgebungen. Trotz einiger Einschränkungen in Bezug auf Berechnung und Anwendbarkeit zeigen sowohl die technische Innovation als auch die experimentelle Validierung hervorragende Leistungen und haben wichtige Auswirkungen auf die Entwicklung dieses Bereichs.