DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM: Costruzione di una Mappa Semantica Diversificata per il Grounding Visivo 3D
Una rappresentazione efficace della scena è cruciale per le capacità di localizzazione visiva; tuttavia, i metodi attuali di grounding visivo 3D presentano limitazioni significative. Essi si concentrano esclusivamente su indizi geometrici e visivi, oppure, come i grafici di scena 3D tradizionali, mancano degli attributi multidimensionali necessari per il ragionamento complesso. Per colmare questo divario, il presente articolo introduce il framework Diverse Semantic Map (DSM), una nuova rappresentazione di scena che arricchisce un modello geometrico robusto con semantica derivata da VLM (inclusi attributi di apparenza, proprietà fisiche e funzionalità). DSM viene costruito online mediante la fusione di osservazioni multivista all'interno di una finestra temporale scorrevole, creando un modello mondiale persistente e completo. Su questa base, viene proposto DSM-Grounding, un nuovo paradigma che trasforma il grounding da query VLM in forma libera a un processo di ragionamento strutturato su mappe semanticamente ricche, migliorando significativamente l'accuratezza e l'interpretabilità.
I metodi attuali di grounding visivo 3D affrontano due limitazioni principali:
Rappresentazione Semantica Insufficiente: La maggior parte dei metodi si concentra esclusivamente su indizi geometrici e visivi, trascurando gli attributi intrinseci degli oggetti e le interdipendenze contestuali
Capacità di Ragionamento Limitata: I grafici di scena 3D tradizionali possono catturare solo semantica semplice, difficilmente supportando il ragionamento dei modelli di grandi dimensioni in ambienti complessi
Per applicazioni come i robot di servizio, il semplice riconoscimento degli oggetti è insufficiente; è necessario comprendere gli attributi multidimensionali degli oggetti (come colore, freschezza, peso, posizione) e le loro relazioni complesse, il che è cruciale per l'esecuzione di compiti sofisticati.
Metodi Orientati alla Geometria: Come l'ottimizzazione della selezione della vista, si concentrano principalmente su caratteristiche geometriche e visive, mancando di comprensione semantica
Grafici di Scena 3D Tradizionali: Si focalizzano solo su semantica semplice e relazioni spaziali, mancando di attributi multidimensionali a grana fine
Query Dirette VLM: Mostrano prestazioni scadenti nel ragionamento spaziale e relazionale complesso, limitati dal formato di input
Costruire una rappresentazione di scena che sia sia espressiva (codificando informazioni ricche) che compatta (garantendo adattabilità multipiattaforma), supportando ragionamento multidimensionale complesso.
Proposta del Framework DSM: Un nuovo framework in grado di supportare rappresentazioni di scena complesse e multidimensionali, realizzando l'integrazione tra comprensione semantica e localizzazione precisa
Sviluppo del Metodo di Mappatura a Finestra Temporale: Un metodo di costruzione online che integra consapevolezza geometrica e semantica, costruendo componenti DSM semanticamente ricche
Proposta di DSM-Grounding: Un nuovo metodo di grounding 3D che sfrutta DSM per realizzare ragionamento di scena più profondo
Input: Flusso continuo di osservazioni RGB-D, query in linguaggio naturale
Output: Posizione 3D e bounding box dell'oggetto target
Vincoli: Impostazione zero-shot, senza necessità di etichette di categoria pre-addestrate specifiche
Utilizzo di LLM per analizzare query in linguaggio naturale, identificando entità target, entità di ancoraggio e relativi attributi, recuperando l'insieme iniziale di candidati da DSM mediante corrispondenza testuale.
Ambiente Simulato: Prestazioni significativamente superiori rispetto ai metodi zero-shot esistenti in AI2-THOR
Ambiente Reale: Distribuzione riuscita su robot fisico per eseguire:
Compiti di navigazione semantica: "Naviga accanto al tavolo del computer nella stanza centrale"
Compiti di afferraggio semantico: "Afferra la mela sul ripiano bianco dell'armadio bianco"
L'articolo cita 40 lavori correlati, coprendo rappresentazione di scena 3D, localizzazione visiva, robotica e altri campi, fornendo ai lettori una conoscenza di base completa.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo del grounding visivo 3D. Il framework DSM integra con successo precisione geometrica e ricchezza semantica, fornendo un supporto tecnico robusto per la comprensione e l'interazione dei robot in ambienti complessi. Nonostante alcune limitazioni in termini di calcolo e applicabilità, sia l'innovazione tecnica che la validazione sperimentale sono eccellenti, esercitando un'importante spinta allo sviluppo del settore.