2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic

DSM: Konstruktion einer vielfältigen semantischen Karte für 3D-Visuelle Verankerung

Grundlegende Informationen

  • Papier-ID: 2504.08307
  • Titel: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
  • Autoren: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (Shenzhen International Graduate School, Tsinghua University)
  • Klassifizierung: cs.CV cs.RO
  • Veröffentlichungszeit/Konferenz: arXiv 2025 (eingereicht)
  • Papierlink: https://arxiv.org/abs/2504.08307
  • Projektseite: https://binicey.github.io/DSM/

Zusammenfassung

Eine effektive Szenendarstellung ist für die Fähigkeit zur visuellen Verankerung von entscheidender Bedeutung. Allerdings weisen bestehende 3D-Methoden zur visuellen Verankerung Einschränkungen auf. Sie konzentrieren sich entweder nur auf geometrische und visuelle Hinweise oder ihnen fehlen, wie bei traditionellen 3D-Szenengraphen, die multidimensionalen Attribute, die für komplexe Schlussfolgerungen erforderlich sind. Um diese Lücke zu schließen, führt dieses Papier das Framework für vielfältige semantische Karten (DSM) ein – ein neuartiges Szenendarstellungs-Framework, das ein robustes geometrisches Modell durch VLM-abgeleitete Semantik bereichert, einschließlich Erscheinungsbild, physikalischer Eigenschaften und Funktionalität. DSM wird zunächst online durch Fusion von Multi-View-Beobachtungen innerhalb eines zeitlichen Schiebefensters konstruiert und erstellt so ein dauerhaftes und umfassendes Weltmodell. Darauf aufbauend wird DSM-Grounding vorgeschlagen – ein neues Paradigma, das die Verankerung von freiformatigen VLM-Abfragen in strukturierte Schlussfolgerungsprozesse auf semantisch angereicherten Karten umwandelt und die Genauigkeit und Interpretierbarkeit erheblich verbessert.

Forschungshintergrund und Motivation

Zu lösende Probleme

Bestehende 3D-Methoden zur visuellen Verankerung sehen sich zwei Haupteinschränkungen gegenüber:

  1. Unzureichende semantische Darstellung: Die meisten Methoden konzentrieren sich nur auf geometrische und visuelle Hinweise und ignorieren die inneren Eigenschaften von Objekten und kontextuelle gegenseitige Abhängigkeiten
  2. Begrenzte Schlussfolgerungsfähigkeit: Traditionelle 3D-Szenengraphen können nur einfache Semantik erfassen und unterstützen schwer komplexe Schlussfolgerungen großer Modelle in komplexen Umgebungen

Bedeutung des Problems

Für Anwendungen wie Serviceroboter reicht es nicht aus, Objekte nur zu erkennen; es ist auch notwendig, die multidimensionalen Eigenschaften von Objekten (wie Farbe, Frische, Gewicht, Position) und ihre komplexen Beziehungen zu verstehen, was für die Ausführung komplexer Aufgaben von entscheidender Bedeutung ist.

Einschränkungen bestehender Methoden

  1. Geometrieorientierte Methoden: Wie Ansichtsauswahloptimierung konzentrieren sich hauptsächlich auf geometrische und visuelle Merkmale und ermangeln semantischem Verständnis
  2. Traditionelle 3D-Szenengraphen: Konzentrieren sich nur auf einfache Semantik und räumliche Beziehungen, ermangeln feingranularer multidimensionaler Attribute
  3. Direkte VLM-Abfragen: Zeigen schlechte Leistung bei komplexen räumlichen und Beziehungsschlussfolgerungen, begrenzt durch Eingabeformat

Forschungsmotivation

Konstruktion einer Szenendarstellung, die sowohl ausdrucksstark (kodiert reichhaltige Informationen) als auch kompakt (gewährleistet plattformübergreifende Anpassungsfähigkeit) ist und komplexe multidimensionale Schlussfolgerungen unterstützt.

Kernbeiträge

  1. Vorschlag des DSM-Frameworks: Ein neuartiges Framework, das komplexe multidimensionale Szenendarstellung unterstützt und die Integration von semantischem Verständnis und präziser Verankerung ermöglicht
  2. Entwicklung der Zeitfenster-Kartierungsmethode: Online-Konstruktionsmethode, die geometrische und semantische Wahrnehmung integriert, um reichhaltige semantische DSM-Komponenten zu konstruieren
  3. Vorschlag von DSM-Grounding: Eine neue 3D-Verankerungsmethode, die DSM nutzt, um tiefere Szenenschlussfolgerungen zu ermöglichen

Methodische Details

Aufgabendefinition

Eingabe: Kontinuierlicher RGB-D-Beobachtungsstrom, natürlichsprachige Abfrage Ausgabe: 3D-Position und Begrenzungsrahmen des Zielobjekts Einschränkungen: Zero-Shot-Einstellung, keine vortrainierten klassenspezifischen Etiketten erforderlich

DSM-Definition

DSM ist als 3D-Szenengraph G=(O,R) definiert, wobei:

  • O: Menge von Objektknoten
  • R: Kantenmenge, die Beziehungen darstellt

Jeder Objektknoten O_i ∈ O enthält:

Geometrische Darstellung (O_g^i):

  • 3D-Punktwolke P_i
  • Gerichteter Begrenzungsrahmen B_i

Semantische Darstellung (O_s^i):

  • Identitätsbezeichnung N_i: Klassenetikett oder Name
  • Attribute A_i: Strukturierte VLM-abgeleitete Beschreibungen
    • Erscheinungsattribute (a_a): Farbe, Muster, Textur
    • Physikalische Attribute (a_p): Gewicht, Material, Oberflächeneigenschaften
    • Funktionale Attribute (a_o): Zweck, Bedienungsweise

DSM-Konstruktionsprozess

1. Einzelansicht-Analyse

Für jeden RGB-D-Frame ausgeführt:

  • Objekterkennung und Segmentierung: Verwendung von YoloWorld für offene Vokabular-Erkennung, SAM2 für Segmentierung
  • Punktwolken-Generierung: Rückprojektion von 2D-Masken durch Tiefe und Kamera-Pose-Informationen
  • Semantische Extraktion: Verwendung von VLM und Gedankenketten-Reasoning zur Generierung strukturierter semantischer Beschreibungen

2. Multi-View-Kartierung

Multimodale Datenzuordnung: Berechnung gewichteter Ähnlichkeitswerte

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # Visuelle Ähnlichkeit
s_g = IoU(bbox_p, bbox_q)         # Geometrische Ähnlichkeit  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # Semantische Ähnlichkeit

Geometrische Schiebefenster-Methode:

  • Konstruktion eines Sichtpyramiden für jeden Frame
  • Aggregation der neuesten Punktwolken-Beobachtungen
  • Anwendung eines räumlichen Abstimmungsschemas zur Rauschfilterung und Formvervollständigung

DSM-Grounding-Methode

1. Kandidatenabfrage

Verwendung von LLM zur Analyse natürlichsprachiger Abfragen, Identifikation der Zielentität, Ankerentitäten und ihrer Attribute, Abfrage des DSM durch Textabgleich zur Abfrage des anfänglichen Kandidatensatzes.

2. Latente Beziehungsfilterung (LRF)

Validierung der in der Abfrage beschriebenen Beziehungsbeschränkungen:

  • Abfrage der im DSM gespeicherten Beziehungen R
  • Verwendung von LLM zur Bewertung der Konsistenz zwischen gespeicherten Beziehungen und Abfragebeziehungen
  • Auswahl der Top-k-Kandidaten, Erzeugung eines verfeinerten Satzes O_filtered

3. Mehrschichtige Validierung

Rendering von drei Ansichtsperspektiven für den endgültigen Kandidatensatz:

  • Objektebene: Objekt füllt den Bildschirm, bietet detaillierte Klassen- und Attributinformationen
  • Positionsebene: Breitere Ansicht, die die Beziehung des Objekts zu benachbarten Bereichen zeigt
  • Szenenebene: Globale Kontextinformationen, die fast die gesamte Szene enthalten

Endgültige Entscheidung:

pred = VLM(I, O_filtered, Q)

Experimentelle Einrichtung

Datensätze

  • ScanRefer: 8 Szenen, einschließlich Wohnzimmer, Esszimmer, Arbeitszimmer, Schlafzimmer usw.
  • Nr3D/Sr3D: Berichterstattung von Overall-, Easy-, Hard-, View-dependent- und View-independent-Metriken
  • AI2-THOR: Hochauflösende Simulatorumgebung
  • Replica: Großflächiger Innenraum-Datensatz

Bewertungsmetriken

  • 3D-Visuelle Verankerung: Acc@0.25, Acc@0.5 (IoU-Schwellenwert)
  • Semantische Segmentierung: mAcc (durchschnittliche Genauigkeit), F-mIoU (Vordergrund-durchschnittliches IoU)

Implementierungsdetails

  • Erkennungsmodell: YoloWorld
  • Segmentierungsmodell: SAM2
  • Encoder: SigLip (Text), DINOv2 (Visuell)
  • VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
  • Schwellenwerteinstellung: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Experimentelle Ergebnisse

Hauptergebnisse

3D-Semantische Segmentierung (Replica-Datensatz)

MethodemAccF-mIoU
LSeg (Privilegiert)33.3951.54
OpenSeg (Privilegiert)41.1953.74
ConceptFusion (Zero-Shot)31.5338.70
ConceptGraphs (Zero-Shot)40.6335.95
Unsere Methode38.7667.93

3D-Visuelle Verankerung (ScanRefer-Datensatz)

Beste Ergebnisse mit Qwen2.5-VL-72B:

  • Overall Acc@0.5: 59.06% (SOTA, übertrifft bestehende Methoden um etwa 10%)
  • Multiple Acc@0.5: 53.65% (hervorragende Leistung in Multi-Objekt-Szenen)

Ablationsstudien (AI2-THOR-Datensatz)

LRFErscheinungsattributePhysikalische AttributeFunktionale AttributeOverall Acc@0.5
60.00
53.64 (-6.36)
49.55
49.09
48.41

Wichtigste Erkenntnisse:

  1. Das LRF-Modul trägt am meisten bei (etwa 6-7 Prozentpunkte Verbesserung)
  2. Erscheinungsattribute bieten das wichtigste Signal
  3. Alle drei Arten von semantischen Attributen tragen positiv bei

Roboterexperimente

Simulierte Umgebung: Deutlich überlegen gegenüber bestehenden Zero-Shot-Methoden in AI2-THOR Echte Umgebung: Erfolgreiche Bereitstellung auf physischen Robotern zur Ausführung von:

  • Semantischen Navigationsaufgaben: "Navigiere zum zentralen Raum neben dem Computertisch"
  • Semantischen Greifaufgaben: "Greife den Apfel auf dem weißen Regal auf dem weißen Schrank"

Verwandte Arbeiten

3D-Szenendarstellung

  • Frühe Methoden: Kimera konzentriert sich auf metrisch-semantische Kartierung
  • Offene Vokabular-Kartierung: ConceptFusion erstellt sprachgestützte 3D-Karten
  • 3D-Szenengraphen: SceneGraphFusion, Hydra konstruieren hierarchische Darstellungen
  • Vorteil dieses Papiers: DSM bietet reichhaltigere multidimensionale Attributdarstellung

3D-Visuelle Verankerung

  • Offene Vokabular-Methoden: OpenScene, NuGrounding ermöglichen Verankerung durch Merkmalausrichtung
  • VLM-Methoden: SeeGround, ScanReason verwenden Rendering-Prompt-Strategien
  • Innovation dieses Papiers: Übergang von direkter VLM-Abfrage zu strukturiertem Schlussfolgerungsprozess

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Das DSM-Framework vereint erfolgreich geometrische Präzision mit semantischer Reichhaltigkeit
  2. Multidimensionale semantische Attribute (Erscheinungsbild, Physik, Funktionalität) verbessern die Verankerungsleistung erheblich
  3. Das strukturierte Schlussfolgerungsparadigma ist dem direkten VLM-Abfrage-Ansatz überlegen
  4. Die Methode zeigt sowohl in simulierten als auch in echten Umgebungen hervorragende Leistungen

Einschränkungen

  1. Abhängigkeit von vorgelagerten Modulen: Die Leistung wird durch die Qualität der Objekterkennung und Segmentierung beeinflusst
  2. Rechenverzögerung: Die Inferenzzeit großer VLMs ist relativ lang
  3. Umgebungsanpassungsfähigkeit: Hauptsächlich in Innenräumen getestet, Anwendbarkeit in Außenszenen unbekannt

Zukünftige Richtungen

  1. Erforschung effizienterer Modelle zur Verbesserung der Echtzeitfähigkeit
  2. Untersuchung alternativer 3D-Darstellungsmethoden zur Verbesserung der Robustheit
  3. Erweiterung auf komplexere Außenumgebungen

Tiefgreifende Bewertung

Stärken

  1. Starke methodische Innovation: Erstmalige systematische Integration multidimensionaler semantischer Attribute in 3D-Szenendarstellung
  2. Vollständige technische Lösung: End-to-End-Lösung von Szenenkonstruktion bis Verankerungsschlussfolgerung
  3. Umfangreiche Experimente: Mehrere Datensätze, Ablationsstudien und echte Robotervalidierung
  4. Signifikante Leistungsverbesserung: Erreicht SOTA auf mehreren Benchmarks, besonders deutliche F-mIoU-Verbesserung

Mängel

  1. Rechenkomplexität: Erfordert mehrere VLM-Aufrufe, könnte Echtzeitanwendungen beeinträchtigen
  2. Bewertungsbeschränkungen: Hauptsächlich in Innenräumen bewertet, mangelnde großflächige Außenvalidierung
  3. Starke Abhängigkeit: Stark abhängig von VLM-Qualität, könnte durch Modellverzerrungen beeinflusst werden
  4. Speicheranforderungen: Speicherung reichhaltiger semantischer Informationen könnte zu Speicherdruck führen

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für 3D-Szeneverständnis
  2. Praktischer Wert: Direkt anwendbar auf praktische Anwendungen wie Serviceroboter
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Projektseite

Anwendungsszenarien

  1. Innenraum-Serviceroboter: Navigation und Manipulation in Heim- und Büroumgebungen
  2. Erweiterte Realität-Anwendungen: AR-Systeme, die reichhaltiges semantisches Verständnis erfordern
  3. Intelligente Überwachung: Szeneverständnis und Anomalieerkennung auf semantischer Basis
  4. Unterstützungstechnologie: Umgebungsbeschreibung für Menschen mit Sehbehinderungen

Literaturverzeichnis

Das Papier zitiert 40 verwandte Arbeiten, die 3D-Szenendarstellung, visuelle Verankerung, Robotik und andere wichtige Arbeiten in mehreren Bereichen abdecken und Lesern umfassendes Hintergrundwissen bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Bereich der 3D-visuellen Verankerung vorschlägt. Das DSM-Framework vereint erfolgreich geometrische Präzision mit semantischer Reichhaltigkeit und bietet starke technische Unterstützung für das Verständnis und die Interaktion von Robotern in komplexen Umgebungen. Trotz einiger Einschränkungen in Bezug auf Berechnung und Anwendbarkeit zeigen sowohl die technische Innovation als auch die experimentelle Validierung hervorragende Leistungen und haben wichtige Auswirkungen auf die Entwicklung dieses Bereichs.