2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM: Konstruktion einer vielfältigen semantischen Karte für 3D-Visuelle Verankerung

Grundlegende Informationen

Papier-ID: 2504.08307
Titel: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Autoren: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (Shenzhen International Graduate School, Tsinghua University)
Klassifizierung: cs.CV cs.RO
Veröffentlichungszeit/Konferenz: arXiv 2025 (eingereicht)
Papierlink: https://arxiv.org/abs/2504.08307
Projektseite: https://binicey.github.io/DSM/

Zusammenfassung

Eine effektive Szenendarstellung ist für die Fähigkeit zur visuellen Verankerung von entscheidender Bedeutung. Allerdings weisen bestehende 3D-Methoden zur visuellen Verankerung Einschränkungen auf. Sie konzentrieren sich entweder nur auf geometrische und visuelle Hinweise oder ihnen fehlen, wie bei traditionellen 3D-Szenengraphen, die multidimensionalen Attribute, die für komplexe Schlussfolgerungen erforderlich sind. Um diese Lücke zu schließen, führt dieses Papier das Framework für vielfältige semantische Karten (DSM) ein – ein neuartiges Szenendarstellungs-Framework, das ein robustes geometrisches Modell durch VLM-abgeleitete Semantik bereichert, einschließlich Erscheinungsbild, physikalischer Eigenschaften und Funktionalität. DSM wird zunächst online durch Fusion von Multi-View-Beobachtungen innerhalb eines zeitlichen Schiebefensters konstruiert und erstellt so ein dauerhaftes und umfassendes Weltmodell. Darauf aufbauend wird DSM-Grounding vorgeschlagen – ein neues Paradigma, das die Verankerung von freiformatigen VLM-Abfragen in strukturierte Schlussfolgerungsprozesse auf semantisch angereicherten Karten umwandelt und die Genauigkeit und Interpretierbarkeit erheblich verbessert.

Forschungshintergrund und Motivation

Zu lösende Probleme

Bestehende 3D-Methoden zur visuellen Verankerung sehen sich zwei Haupteinschränkungen gegenüber:

Unzureichende semantische Darstellung: Die meisten Methoden konzentrieren sich nur auf geometrische und visuelle Hinweise und ignorieren die inneren Eigenschaften von Objekten und kontextuelle gegenseitige Abhängigkeiten
Begrenzte Schlussfolgerungsfähigkeit: Traditionelle 3D-Szenengraphen können nur einfache Semantik erfassen und unterstützen schwer komplexe Schlussfolgerungen großer Modelle in komplexen Umgebungen

Bedeutung des Problems

Für Anwendungen wie Serviceroboter reicht es nicht aus, Objekte nur zu erkennen; es ist auch notwendig, die multidimensionalen Eigenschaften von Objekten (wie Farbe, Frische, Gewicht, Position) und ihre komplexen Beziehungen zu verstehen, was für die Ausführung komplexer Aufgaben von entscheidender Bedeutung ist.

Einschränkungen bestehender Methoden

Geometrieorientierte Methoden: Wie Ansichtsauswahloptimierung konzentrieren sich hauptsächlich auf geometrische und visuelle Merkmale und ermangeln semantischem Verständnis
Traditionelle 3D-Szenengraphen: Konzentrieren sich nur auf einfache Semantik und räumliche Beziehungen, ermangeln feingranularer multidimensionaler Attribute
Direkte VLM-Abfragen: Zeigen schlechte Leistung bei komplexen räumlichen und Beziehungsschlussfolgerungen, begrenzt durch Eingabeformat

Forschungsmotivation

Konstruktion einer Szenendarstellung, die sowohl ausdrucksstark (kodiert reichhaltige Informationen) als auch kompakt (gewährleistet plattformübergreifende Anpassungsfähigkeit) ist und komplexe multidimensionale Schlussfolgerungen unterstützt.

Kernbeiträge

Vorschlag des DSM-Frameworks: Ein neuartiges Framework, das komplexe multidimensionale Szenendarstellung unterstützt und die Integration von semantischem Verständnis und präziser Verankerung ermöglicht
Entwicklung der Zeitfenster-Kartierungsmethode: Online-Konstruktionsmethode, die geometrische und semantische Wahrnehmung integriert, um reichhaltige semantische DSM-Komponenten zu konstruieren
Vorschlag von DSM-Grounding: Eine neue 3D-Verankerungsmethode, die DSM nutzt, um tiefere Szenenschlussfolgerungen zu ermöglichen

Methodische Details

Aufgabendefinition

Eingabe: Kontinuierlicher RGB-D-Beobachtungsstrom, natürlichsprachige Abfrage Ausgabe: 3D-Position und Begrenzungsrahmen des Zielobjekts Einschränkungen: Zero-Shot-Einstellung, keine vortrainierten klassenspezifischen Etiketten erforderlich

DSM-Definition

DSM ist als 3D-Szenengraph G=(O,R) definiert, wobei:

O: Menge von Objektknoten
R: Kantenmenge, die Beziehungen darstellt

Jeder Objektknoten O_i ∈ O enthält:

Geometrische Darstellung (O_g^i):

3D-Punktwolke P_i
Gerichteter Begrenzungsrahmen B_i

Semantische Darstellung (O_s^i):

Identitätsbezeichnung N_i: Klassenetikett oder Name
Attribute A_i: Strukturierte VLM-abgeleitete Beschreibungen
- Erscheinungsattribute (a_a): Farbe, Muster, Textur
- Physikalische Attribute (a_p): Gewicht, Material, Oberflächeneigenschaften
- Funktionale Attribute (a_o): Zweck, Bedienungsweise

DSM-Konstruktionsprozess

1. Einzelansicht-Analyse

Für jeden RGB-D-Frame ausgeführt:

Objekterkennung und Segmentierung: Verwendung von YoloWorld für offene Vokabular-Erkennung, SAM2 für Segmentierung
Punktwolken-Generierung: Rückprojektion von 2D-Masken durch Tiefe und Kamera-Pose-Informationen
Semantische Extraktion: Verwendung von VLM und Gedankenketten-Reasoning zur Generierung strukturierter semantischer Beschreibungen

2. Multi-View-Kartierung

Multimodale Datenzuordnung: Berechnung gewichteter Ähnlichkeitswerte

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # Visuelle Ähnlichkeit
s_g = IoU(bbox_p, bbox_q)         # Geometrische Ähnlichkeit  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # Semantische Ähnlichkeit

Geometrische Schiebefenster-Methode:

Konstruktion eines Sichtpyramiden für jeden Frame
Aggregation der neuesten Punktwolken-Beobachtungen
Anwendung eines räumlichen Abstimmungsschemas zur Rauschfilterung und Formvervollständigung

DSM-Grounding-Methode

1. Kandidatenabfrage

Verwendung von LLM zur Analyse natürlichsprachiger Abfragen, Identifikation der Zielentität, Ankerentitäten und ihrer Attribute, Abfrage des DSM durch Textabgleich zur Abfrage des anfänglichen Kandidatensatzes.

2. Latente Beziehungsfilterung (LRF)

Validierung der in der Abfrage beschriebenen Beziehungsbeschränkungen:

Abfrage der im DSM gespeicherten Beziehungen R
Verwendung von LLM zur Bewertung der Konsistenz zwischen gespeicherten Beziehungen und Abfragebeziehungen
Auswahl der Top-k-Kandidaten, Erzeugung eines verfeinerten Satzes O_filtered

3. Mehrschichtige Validierung

Rendering von drei Ansichtsperspektiven für den endgültigen Kandidatensatz:

Objektebene: Objekt füllt den Bildschirm, bietet detaillierte Klassen- und Attributinformationen
Positionsebene: Breitere Ansicht, die die Beziehung des Objekts zu benachbarten Bereichen zeigt
Szenenebene: Globale Kontextinformationen, die fast die gesamte Szene enthalten

Endgültige Entscheidung:

pred = VLM(I, O_filtered, Q)

Experimentelle Einrichtung

Datensätze

ScanRefer: 8 Szenen, einschließlich Wohnzimmer, Esszimmer, Arbeitszimmer, Schlafzimmer usw.
Nr3D/Sr3D: Berichterstattung von Overall-, Easy-, Hard-, View-dependent- und View-independent-Metriken
AI2-THOR: Hochauflösende Simulatorumgebung
Replica: Großflächiger Innenraum-Datensatz

Bewertungsmetriken

3D-Visuelle Verankerung: Acc@0.25, Acc@0.5 (IoU-Schwellenwert)
Semantische Segmentierung: mAcc (durchschnittliche Genauigkeit), F-mIoU (Vordergrund-durchschnittliches IoU)

Implementierungsdetails

Erkennungsmodell: YoloWorld
Segmentierungsmodell: SAM2
Encoder: SigLip (Text), DINOv2 (Visuell)
VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
Schwellenwerteinstellung: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Experimentelle Ergebnisse

Hauptergebnisse

3D-Semantische Segmentierung (Replica-Datensatz)

Methode	mAcc	F-mIoU
LSeg (Privilegiert)	33.39	51.54
OpenSeg (Privilegiert)	41.19	53.74
ConceptFusion (Zero-Shot)	31.53	38.70
ConceptGraphs (Zero-Shot)	40.63	35.95
Unsere Methode	38.76	67.93

3D-Visuelle Verankerung (ScanRefer-Datensatz)

Beste Ergebnisse mit Qwen2.5-VL-72B:

Overall Acc@0.5: 59.06% (SOTA, übertrifft bestehende Methoden um etwa 10%)
Multiple Acc@0.5: 53.65% (hervorragende Leistung in Multi-Objekt-Szenen)

Ablationsstudien (AI2-THOR-Datensatz)

LRF	Erscheinungsattribute	Physikalische Attribute	Funktionale Attribute	Overall Acc@0.5
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

Wichtigste Erkenntnisse:

Das LRF-Modul trägt am meisten bei (etwa 6-7 Prozentpunkte Verbesserung)
Erscheinungsattribute bieten das wichtigste Signal
Alle drei Arten von semantischen Attributen tragen positiv bei

Roboterexperimente

Simulierte Umgebung: Deutlich überlegen gegenüber bestehenden Zero-Shot-Methoden in AI2-THOR Echte Umgebung: Erfolgreiche Bereitstellung auf physischen Robotern zur Ausführung von:

Semantischen Navigationsaufgaben: "Navigiere zum zentralen Raum neben dem Computertisch"
Semantischen Greifaufgaben: "Greife den Apfel auf dem weißen Regal auf dem weißen Schrank"

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Das DSM-Framework vereint erfolgreich geometrische Präzision mit semantischer Reichhaltigkeit
Multidimensionale semantische Attribute (Erscheinungsbild, Physik, Funktionalität) verbessern die Verankerungsleistung erheblich
Das strukturierte Schlussfolgerungsparadigma ist dem direkten VLM-Abfrage-Ansatz überlegen
Die Methode zeigt sowohl in simulierten als auch in echten Umgebungen hervorragende Leistungen

Einschränkungen

Abhängigkeit von vorgelagerten Modulen: Die Leistung wird durch die Qualität der Objekterkennung und Segmentierung beeinflusst
Rechenverzögerung: Die Inferenzzeit großer VLMs ist relativ lang
Umgebungsanpassungsfähigkeit: Hauptsächlich in Innenräumen getestet, Anwendbarkeit in Außenszenen unbekannt

Zukünftige Richtungen

Erforschung effizienterer Modelle zur Verbesserung der Echtzeitfähigkeit
Untersuchung alternativer 3D-Darstellungsmethoden zur Verbesserung der Robustheit
Erweiterung auf komplexere Außenumgebungen

Tiefgreifende Bewertung

Stärken

Starke methodische Innovation: Erstmalige systematische Integration multidimensionaler semantischer Attribute in 3D-Szenendarstellung
Vollständige technische Lösung: End-to-End-Lösung von Szenenkonstruktion bis Verankerungsschlussfolgerung
Umfangreiche Experimente: Mehrere Datensätze, Ablationsstudien und echte Robotervalidierung
Signifikante Leistungsverbesserung: Erreicht SOTA auf mehreren Benchmarks, besonders deutliche F-mIoU-Verbesserung

Mängel

Rechenkomplexität: Erfordert mehrere VLM-Aufrufe, könnte Echtzeitanwendungen beeinträchtigen
Bewertungsbeschränkungen: Hauptsächlich in Innenräumen bewertet, mangelnde großflächige Außenvalidierung
Starke Abhängigkeit: Stark abhängig von VLM-Qualität, könnte durch Modellverzerrungen beeinflusst werden
Speicheranforderungen: Speicherung reichhaltiger semantischer Informationen könnte zu Speicherdruck führen

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Forschungsrichtung für 3D-Szeneverständnis
Praktischer Wert: Direkt anwendbar auf praktische Anwendungen wie Serviceroboter
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Projektseite

Anwendungsszenarien

Innenraum-Serviceroboter: Navigation und Manipulation in Heim- und Büroumgebungen
Erweiterte Realität-Anwendungen: AR-Systeme, die reichhaltiges semantisches Verständnis erfordern
Intelligente Überwachung: Szeneverständnis und Anomalieerkennung auf semantischer Basis
Unterstützungstechnologie: Umgebungsbeschreibung für Menschen mit Sehbehinderungen

Literaturverzeichnis

Das Papier zitiert 40 verwandte Arbeiten, die 3D-Szenendarstellung, visuelle Verankerung, Robotik und andere wichtige Arbeiten in mehreren Bereichen abdecken und Lesern umfassendes Hintergrundwissen bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Bereich der 3D-visuellen Verankerung vorschlägt. Das DSM-Framework vereint erfolgreich geometrische Präzision mit semantischer Reichhaltigkeit und bietet starke technische Unterstützung für das Verständnis und die Interaktion von Robotern in komplexen Umgebungen. Trotz einiger Einschränkungen in Bezug auf Berechnung und Anwendbarkeit zeigen sowohl die technische Innovation als auch die experimentelle Validierung hervorragende Leistungen und haben wichtige Auswirkungen auf die Entwicklung dieses Bereichs.