2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic

DSM: Costruzione di una Mappa Semantica Diversificata per il Grounding Visivo 3D

Informazioni Fondamentali

  • ID Articolo: 2504.08307
  • Titolo: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
  • Autori: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (Tsinghua University Shenzhen International Graduate School)
  • Classificazione: cs.CV cs.RO
  • Data di Pubblicazione/Conferenza: arXiv 2025 (in fase di sottomissione)
  • Link Articolo: https://arxiv.org/abs/2504.08307
  • Pagina Progetto: https://binicey.github.io/DSM/

Riassunto

Una rappresentazione efficace della scena è cruciale per le capacità di localizzazione visiva; tuttavia, i metodi attuali di grounding visivo 3D presentano limitazioni significative. Essi si concentrano esclusivamente su indizi geometrici e visivi, oppure, come i grafici di scena 3D tradizionali, mancano degli attributi multidimensionali necessari per il ragionamento complesso. Per colmare questo divario, il presente articolo introduce il framework Diverse Semantic Map (DSM), una nuova rappresentazione di scena che arricchisce un modello geometrico robusto con semantica derivata da VLM (inclusi attributi di apparenza, proprietà fisiche e funzionalità). DSM viene costruito online mediante la fusione di osservazioni multivista all'interno di una finestra temporale scorrevole, creando un modello mondiale persistente e completo. Su questa base, viene proposto DSM-Grounding, un nuovo paradigma che trasforma il grounding da query VLM in forma libera a un processo di ragionamento strutturato su mappe semanticamente ricche, migliorando significativamente l'accuratezza e l'interpretabilità.

Contesto di Ricerca e Motivazione

Problemi da Risolvere

I metodi attuali di grounding visivo 3D affrontano due limitazioni principali:

  1. Rappresentazione Semantica Insufficiente: La maggior parte dei metodi si concentra esclusivamente su indizi geometrici e visivi, trascurando gli attributi intrinseci degli oggetti e le interdipendenze contestuali
  2. Capacità di Ragionamento Limitata: I grafici di scena 3D tradizionali possono catturare solo semantica semplice, difficilmente supportando il ragionamento dei modelli di grandi dimensioni in ambienti complessi

Importanza del Problema

Per applicazioni come i robot di servizio, il semplice riconoscimento degli oggetti è insufficiente; è necessario comprendere gli attributi multidimensionali degli oggetti (come colore, freschezza, peso, posizione) e le loro relazioni complesse, il che è cruciale per l'esecuzione di compiti sofisticati.

Limitazioni dei Metodi Esistenti

  1. Metodi Orientati alla Geometria: Come l'ottimizzazione della selezione della vista, si concentrano principalmente su caratteristiche geometriche e visive, mancando di comprensione semantica
  2. Grafici di Scena 3D Tradizionali: Si focalizzano solo su semantica semplice e relazioni spaziali, mancando di attributi multidimensionali a grana fine
  3. Query Dirette VLM: Mostrano prestazioni scadenti nel ragionamento spaziale e relazionale complesso, limitati dal formato di input

Motivazione della Ricerca

Costruire una rappresentazione di scena che sia sia espressiva (codificando informazioni ricche) che compatta (garantendo adattabilità multipiattaforma), supportando ragionamento multidimensionale complesso.

Contributi Fondamentali

  1. Proposta del Framework DSM: Un nuovo framework in grado di supportare rappresentazioni di scena complesse e multidimensionali, realizzando l'integrazione tra comprensione semantica e localizzazione precisa
  2. Sviluppo del Metodo di Mappatura a Finestra Temporale: Un metodo di costruzione online che integra consapevolezza geometrica e semantica, costruendo componenti DSM semanticamente ricche
  3. Proposta di DSM-Grounding: Un nuovo metodo di grounding 3D che sfrutta DSM per realizzare ragionamento di scena più profondo

Dettagli del Metodo

Definizione del Compito

Input: Flusso continuo di osservazioni RGB-D, query in linguaggio naturale Output: Posizione 3D e bounding box dell'oggetto target Vincoli: Impostazione zero-shot, senza necessità di etichette di categoria pre-addestrate specifiche

Definizione di DSM

DSM è definito come grafo di scena 3D G=(O,R), dove:

  • O: Insieme di nodi oggetto
  • R: Insieme di archi che rappresentano relazioni

Ogni nodo oggetto O_i ∈ O contiene:

Rappresentazione Geometrica (O_g^i):

  • Nuvola di punti 3D P_i
  • Bounding box orientato B_i

Rappresentazione Semantica (O_s^i):

  • Identificazione I_i: Etichetta di categoria o nome
  • Attributi A_i: Descrizioni strutturate derivate da VLM
    • Attributi di apparenza (a_a): Colore, motivo, texture
    • Attributi fisici (a_p): Peso, materiale, caratteristiche superficiali
    • Attributi funzionali (a_o): Scopo, metodi di operazione

Procedura di Costruzione di DSM

1. Analisi Monovista

Eseguita su ogni frame RGB-D:

  • Rilevamento e Segmentazione di Oggetti: Utilizzo di YoloWorld per rilevamento a vocabolario aperto, SAM2 per segmentazione
  • Generazione di Nuvola di Punti: Retro-proiezione di maschere 2D mediante informazioni di profondità e postura della fotocamera
  • Estrazione Semantica: Utilizzo di VLM e ragionamento chain-of-thought per generare descrizioni semantiche strutturate

2. Mappatura Multivista

Associazione Dati Multimodale: Calcolo di punteggi di similarità ponderati

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # Similarità visiva
s_g = IoU(bbox_p, bbox_q)         # Similarità geometrica  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # Similarità semantica

Metodo di Finestra Scorrevole Geometrica:

  • Costruzione di frustum di vista per ogni frame
  • Aggregazione di osservazioni di nuvola di punti recenti
  • Applicazione di schema di votazione spaziale per filtrare rumore e completare forme

Metodo DSM-Grounding

1. Recupero Candidati

Utilizzo di LLM per analizzare query in linguaggio naturale, identificando entità target, entità di ancoraggio e relativi attributi, recuperando l'insieme iniziale di candidati da DSM mediante corrispondenza testuale.

2. Filtraggio Relazioni Latenti (LRF)

Verifica dei vincoli di relazione descritti nella query:

  • Interrogazione delle relazioni R memorizzate in DSM
  • Utilizzo di LLM per valutare la coerenza tra relazioni memorizzate e relazioni di query
  • Selezione dei Top-k candidati, producendo insieme raffinato O_filtered

3. Verifica Multilivello

Rendering di immagini da tre prospettive per l'insieme finale di candidati:

  • Livello Oggetto: Oggetto che riempie il fotogramma, fornendo informazioni dettagliate su categoria e attributi
  • Livello Posizione: Vista più ampia che mostra la relazione dell'oggetto con aree adiacenti
  • Livello Scena: Contesto globale che include quasi l'intera scena

Decisione finale:

pred = VLM(I, O_filtered, Q)

Configurazione Sperimentale

Dataset

  • ScanRefer: 8 scene, incluse soggiorni, sale da pranzo, studi, camere da letto, ecc.
  • Nr3D/Sr3D: Rapporto di metriche Overall, Easy, Hard, View-dependent, View-independent
  • AI2-THOR: Ambiente simulatore ad alta fedeltà
  • Replica: Dataset di ambienti interni su larga scala

Metriche di Valutazione

  • Grounding Visivo 3D: Acc@0.25, Acc@0.5 (soglie IoU)
  • Segmentazione Semantica: mAcc (accuratezza media), F-mIoU (IoU media in primo piano)

Dettagli di Implementazione

  • Modello di Rilevamento: YoloWorld
  • Modello di Segmentazione: SAM2
  • Encoder: SigLip (testo), DINOv2 (visivo)
  • VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
  • Impostazione Soglie: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Risultati Sperimentali

Risultati Principali

Segmentazione Semantica 3D (Dataset Replica)

MetodomAccF-mIoU
LSeg (Privileged)33.3951.54
OpenSeg (Privileged)41.1953.74
ConceptFusion (Zero-shot)31.5338.70
ConceptGraphs (Zero-shot)40.6335.95
Nostro Metodo38.7667.93

Grounding Visivo 3D (Dataset ScanRefer)

Risultati migliori utilizzando Qwen2.5-VL-72B:

  • Overall Acc@0.5: 59.06% (SOTA, superando i metodi esistenti di circa il 10%)
  • Multiple Acc@0.5: 53.65% (prestazioni eccellenti in scene multi-oggetto)

Studi di Ablazione (Dataset AI2-THOR)

LRFAttributi ApparenzaAttributi FisiciAttributi FunzionaliOverall Acc@0.5
60.00
53.64 (-6.36)
49.55
49.09
48.41

Scoperte Chiave:

  1. Il modulo LRF fornisce il contributo maggiore (circa 6-7 punti percentuali di miglioramento)
  2. Gli attributi di apparenza forniscono il segnale più importante
  3. Tutti e tre i tipi di attributi semantici contribuiscono positivamente

Esperimenti Robotici

Ambiente Simulato: Prestazioni significativamente superiori rispetto ai metodi zero-shot esistenti in AI2-THOR Ambiente Reale: Distribuzione riuscita su robot fisico per eseguire:

  • Compiti di navigazione semantica: "Naviga accanto al tavolo del computer nella stanza centrale"
  • Compiti di afferraggio semantico: "Afferra la mela sul ripiano bianco dell'armadio bianco"

Lavori Correlati

Rappresentazione di Scena 3D

  • Metodi Iniziali: Kimera e altri focalizzati su mappatura metrico-semantica
  • Mappatura a Vocabolario Aperto: ConceptFusion crea mappe 3D ancorate al linguaggio
  • Grafici di Scena 3D: SceneGraphFusion, Hydra costruiscono rappresentazioni gerarchiche
  • Vantaggi di questo Articolo: DSM fornisce rappresentazione di attributi multidimensionali più ricca

Grounding Visivo 3D

  • Metodi a Vocabolario Aperto: OpenScene, NuGrounding realizzano grounding mediante allineamento di caratteristiche
  • Metodi VLM: SeeGround, ScanReason adottano strategie di rendering-prompting
  • Innovazione di questo Articolo: Transizione da query VLM dirette a processo di ragionamento strutturato

Conclusioni e Discussione

Conclusioni Principali

  1. Il framework DSM integra con successo precisione geometrica e ricchezza semantica
  2. Gli attributi semantici multidimensionali (apparenza, fisica, funzionalità) migliorano significativamente le prestazioni di grounding
  3. Il paradigma di ragionamento strutturato supera i metodi di query VLM diretta
  4. Il metodo mostra prestazioni eccellenti sia in ambienti simulati che reali

Limitazioni

  1. Dipendenza dai Moduli Upstream: Le prestazioni sono influenzate dalla qualità del rilevamento e della segmentazione di oggetti
  2. Latenza Computazionale: Il tempo di inferenza dei VLM di grandi dimensioni è considerevole
  3. Adattabilità Ambientale: Principalmente testato in ambienti interni; l'applicabilità a scene esterne rimane sconosciuta

Direzioni Future

  1. Esplorare modelli più efficienti per migliorare le prestazioni in tempo reale
  2. Investigare metodi di rappresentazione 3D alternativi per aumentare la robustezza
  3. Estendere a ambienti esterni più complessi

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: Primo integrazione sistematica di attributi semantici multidimensionali in rappresentazioni di scena 3D
  2. Soluzione Tecnica Completa: Soluzione end-to-end dalla costruzione di scena al ragionamento di grounding
  3. Sperimentazione Completa: Copre più dataset, studi di ablazione e validazione robotica reale
  4. Miglioramento Significativo delle Prestazioni: Raggiunge SOTA su più benchmark, con miglioramento particolarmente evidente in F-mIoU

Insufficienze

  1. Complessità Computazionale: Richiede multiple invocazioni VLM, potenzialmente impattando applicazioni in tempo reale
  2. Limitazioni di Valutazione: Principalmente valutato in scene interne, mancanza di validazione su larga scala in ambienti esterni
  3. Forte Dipendenza: Altamente dipendente dalla qualità VLM, potenzialmente influenzato da bias del modello
  4. Requisiti di Memoria: L'archiviazione di informazioni semantiche ricche potrebbe causare pressione sulla memoria

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per la comprensione di scene 3D
  2. Valore Pratico: Direttamente applicabile a applicazioni pratiche come robot di servizio
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e pagina del progetto

Scenari Applicabili

  1. Robot di Servizio Interno: Navigazione e operazione in ambienti domestici e uffici
  2. Applicazioni di Realtà Aumentata: Sistemi AR che richiedono comprensione semantica ricca
  3. Sorveglianza Intelligente: Comprensione di scena basata su semantica e rilevamento anomalie
  4. Tecnologie Assistive: Fornire descrizioni ambientali per persone con disabilità visive

Riferimenti Bibliografici

L'articolo cita 40 lavori correlati, coprendo rappresentazione di scena 3D, localizzazione visiva, robotica e altri campi, fornendo ai lettori una conoscenza di base completa.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo del grounding visivo 3D. Il framework DSM integra con successo precisione geometrica e ricchezza semantica, fornendo un supporto tecnico robusto per la comprensione e l'interazione dei robot in ambienti complessi. Nonostante alcune limitazioni in termini di calcolo e applicabilità, sia l'innovazione tecnica che la validazione sperimentale sono eccellenti, esercitando un'importante spinta allo sviluppo del settore.