2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM: Costruzione di una Mappa Semantica Diversificata per il Grounding Visivo 3D

Informazioni Fondamentali

ID Articolo: 2504.08307
Titolo: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Autori: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (Tsinghua University Shenzhen International Graduate School)
Classificazione: cs.CV cs.RO
Data di Pubblicazione/Conferenza: arXiv 2025 (in fase di sottomissione)
Link Articolo: https://arxiv.org/abs/2504.08307
Pagina Progetto: https://binicey.github.io/DSM/

Riassunto

Una rappresentazione efficace della scena è cruciale per le capacità di localizzazione visiva; tuttavia, i metodi attuali di grounding visivo 3D presentano limitazioni significative. Essi si concentrano esclusivamente su indizi geometrici e visivi, oppure, come i grafici di scena 3D tradizionali, mancano degli attributi multidimensionali necessari per il ragionamento complesso. Per colmare questo divario, il presente articolo introduce il framework Diverse Semantic Map (DSM), una nuova rappresentazione di scena che arricchisce un modello geometrico robusto con semantica derivata da VLM (inclusi attributi di apparenza, proprietà fisiche e funzionalità). DSM viene costruito online mediante la fusione di osservazioni multivista all'interno di una finestra temporale scorrevole, creando un modello mondiale persistente e completo. Su questa base, viene proposto DSM-Grounding, un nuovo paradigma che trasforma il grounding da query VLM in forma libera a un processo di ragionamento strutturato su mappe semanticamente ricche, migliorando significativamente l'accuratezza e l'interpretabilità.

Contesto di Ricerca e Motivazione

Problemi da Risolvere

I metodi attuali di grounding visivo 3D affrontano due limitazioni principali:

Rappresentazione Semantica Insufficiente: La maggior parte dei metodi si concentra esclusivamente su indizi geometrici e visivi, trascurando gli attributi intrinseci degli oggetti e le interdipendenze contestuali
Capacità di Ragionamento Limitata: I grafici di scena 3D tradizionali possono catturare solo semantica semplice, difficilmente supportando il ragionamento dei modelli di grandi dimensioni in ambienti complessi

Importanza del Problema

Per applicazioni come i robot di servizio, il semplice riconoscimento degli oggetti è insufficiente; è necessario comprendere gli attributi multidimensionali degli oggetti (come colore, freschezza, peso, posizione) e le loro relazioni complesse, il che è cruciale per l'esecuzione di compiti sofisticati.

Limitazioni dei Metodi Esistenti

Metodi Orientati alla Geometria: Come l'ottimizzazione della selezione della vista, si concentrano principalmente su caratteristiche geometriche e visive, mancando di comprensione semantica
Grafici di Scena 3D Tradizionali: Si focalizzano solo su semantica semplice e relazioni spaziali, mancando di attributi multidimensionali a grana fine
Query Dirette VLM: Mostrano prestazioni scadenti nel ragionamento spaziale e relazionale complesso, limitati dal formato di input

Motivazione della Ricerca

Costruire una rappresentazione di scena che sia sia espressiva (codificando informazioni ricche) che compatta (garantendo adattabilità multipiattaforma), supportando ragionamento multidimensionale complesso.

Contributi Fondamentali

Proposta del Framework DSM: Un nuovo framework in grado di supportare rappresentazioni di scena complesse e multidimensionali, realizzando l'integrazione tra comprensione semantica e localizzazione precisa
Sviluppo del Metodo di Mappatura a Finestra Temporale: Un metodo di costruzione online che integra consapevolezza geometrica e semantica, costruendo componenti DSM semanticamente ricche
Proposta di DSM-Grounding: Un nuovo metodo di grounding 3D che sfrutta DSM per realizzare ragionamento di scena più profondo

Dettagli del Metodo

Definizione del Compito

Input: Flusso continuo di osservazioni RGB-D, query in linguaggio naturale Output: Posizione 3D e bounding box dell'oggetto target Vincoli: Impostazione zero-shot, senza necessità di etichette di categoria pre-addestrate specifiche

Definizione di DSM

DSM è definito come grafo di scena 3D G=(O,R), dove:

O: Insieme di nodi oggetto
R: Insieme di archi che rappresentano relazioni

Ogni nodo oggetto O_i ∈ O contiene:

Rappresentazione Geometrica (O_g^i):

Nuvola di punti 3D P_i
Bounding box orientato B_i

Rappresentazione Semantica (O_s^i):

Identificazione I_i: Etichetta di categoria o nome
Attributi A_i: Descrizioni strutturate derivate da VLM
- Attributi di apparenza (a_a): Colore, motivo, texture
- Attributi fisici (a_p): Peso, materiale, caratteristiche superficiali
- Attributi funzionali (a_o): Scopo, metodi di operazione

Procedura di Costruzione di DSM

1. Analisi Monovista

Eseguita su ogni frame RGB-D:

Rilevamento e Segmentazione di Oggetti: Utilizzo di YoloWorld per rilevamento a vocabolario aperto, SAM2 per segmentazione
Generazione di Nuvola di Punti: Retro-proiezione di maschere 2D mediante informazioni di profondità e postura della fotocamera
Estrazione Semantica: Utilizzo di VLM e ragionamento chain-of-thought per generare descrizioni semantiche strutturate

2. Mappatura Multivista

Associazione Dati Multimodale: Calcolo di punteggi di similarità ponderati

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # Similarità visiva
s_g = IoU(bbox_p, bbox_q)         # Similarità geometrica  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # Similarità semantica

Metodo di Finestra Scorrevole Geometrica:

Costruzione di frustum di vista per ogni frame
Aggregazione di osservazioni di nuvola di punti recenti
Applicazione di schema di votazione spaziale per filtrare rumore e completare forme

Metodo DSM-Grounding

1. Recupero Candidati

Utilizzo di LLM per analizzare query in linguaggio naturale, identificando entità target, entità di ancoraggio e relativi attributi, recuperando l'insieme iniziale di candidati da DSM mediante corrispondenza testuale.

2. Filtraggio Relazioni Latenti (LRF)

Verifica dei vincoli di relazione descritti nella query:

Interrogazione delle relazioni R memorizzate in DSM
Utilizzo di LLM per valutare la coerenza tra relazioni memorizzate e relazioni di query
Selezione dei Top-k candidati, producendo insieme raffinato O_filtered

3. Verifica Multilivello

Rendering di immagini da tre prospettive per l'insieme finale di candidati:

Livello Oggetto: Oggetto che riempie il fotogramma, fornendo informazioni dettagliate su categoria e attributi
Livello Posizione: Vista più ampia che mostra la relazione dell'oggetto con aree adiacenti
Livello Scena: Contesto globale che include quasi l'intera scena

Decisione finale:

pred = VLM(I, O_filtered, Q)

Configurazione Sperimentale

Dataset

ScanRefer: 8 scene, incluse soggiorni, sale da pranzo, studi, camere da letto, ecc.
Nr3D/Sr3D: Rapporto di metriche Overall, Easy, Hard, View-dependent, View-independent
AI2-THOR: Ambiente simulatore ad alta fedeltà
Replica: Dataset di ambienti interni su larga scala

Metriche di Valutazione

Grounding Visivo 3D: Acc@0.25, Acc@0.5 (soglie IoU)
Segmentazione Semantica: mAcc (accuratezza media), F-mIoU (IoU media in primo piano)

Dettagli di Implementazione

Modello di Rilevamento: YoloWorld
Modello di Segmentazione: SAM2
Encoder: SigLip (testo), DINOv2 (visivo)
VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
Impostazione Soglie: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Risultati Sperimentali

Risultati Principali

Segmentazione Semantica 3D (Dataset Replica)

Metodo	mAcc	F-mIoU
LSeg (Privileged)	33.39	51.54
OpenSeg (Privileged)	41.19	53.74
ConceptFusion (Zero-shot)	31.53	38.70
ConceptGraphs (Zero-shot)	40.63	35.95
Nostro Metodo	38.76	67.93

Grounding Visivo 3D (Dataset ScanRefer)

Risultati migliori utilizzando Qwen2.5-VL-72B:

Overall Acc@0.5: 59.06% (SOTA, superando i metodi esistenti di circa il 10%)
Multiple Acc@0.5: 53.65% (prestazioni eccellenti in scene multi-oggetto)

Studi di Ablazione (Dataset AI2-THOR)

LRF	Attributi Apparenza	Attributi Fisici	Attributi Funzionali	Overall Acc@0.5
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

Scoperte Chiave:

Il modulo LRF fornisce il contributo maggiore (circa 6-7 punti percentuali di miglioramento)
Gli attributi di apparenza forniscono il segnale più importante
Tutti e tre i tipi di attributi semantici contribuiscono positivamente

Esperimenti Robotici

Ambiente Simulato: Prestazioni significativamente superiori rispetto ai metodi zero-shot esistenti in AI2-THOR Ambiente Reale: Distribuzione riuscita su robot fisico per eseguire:

Compiti di navigazione semantica: "Naviga accanto al tavolo del computer nella stanza centrale"
Compiti di afferraggio semantico: "Afferra la mela sul ripiano bianco dell'armadio bianco"

Lavori Correlati

Rappresentazione di Scena 3D

Metodi Iniziali: Kimera e altri focalizzati su mappatura metrico-semantica
Mappatura a Vocabolario Aperto: ConceptFusion crea mappe 3D ancorate al linguaggio
Grafici di Scena 3D: SceneGraphFusion, Hydra costruiscono rappresentazioni gerarchiche
Vantaggi di questo Articolo: DSM fornisce rappresentazione di attributi multidimensionali più ricca

Grounding Visivo 3D

Metodi a Vocabolario Aperto: OpenScene, NuGrounding realizzano grounding mediante allineamento di caratteristiche
Metodi VLM: SeeGround, ScanReason adottano strategie di rendering-prompting
Innovazione di questo Articolo: Transizione da query VLM dirette a processo di ragionamento strutturato

Conclusioni e Discussione

Conclusioni Principali

Il framework DSM integra con successo precisione geometrica e ricchezza semantica
Gli attributi semantici multidimensionali (apparenza, fisica, funzionalità) migliorano significativamente le prestazioni di grounding
Il paradigma di ragionamento strutturato supera i metodi di query VLM diretta
Il metodo mostra prestazioni eccellenti sia in ambienti simulati che reali

Limitazioni

Dipendenza dai Moduli Upstream: Le prestazioni sono influenzate dalla qualità del rilevamento e della segmentazione di oggetti
Latenza Computazionale: Il tempo di inferenza dei VLM di grandi dimensioni è considerevole
Adattabilità Ambientale: Principalmente testato in ambienti interni; l'applicabilità a scene esterne rimane sconosciuta

Direzioni Future

Esplorare modelli più efficienti per migliorare le prestazioni in tempo reale
Investigare metodi di rappresentazione 3D alternativi per aumentare la robustezza
Estendere a ambienti esterni più complessi

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Primo integrazione sistematica di attributi semantici multidimensionali in rappresentazioni di scena 3D
Soluzione Tecnica Completa: Soluzione end-to-end dalla costruzione di scena al ragionamento di grounding
Sperimentazione Completa: Copre più dataset, studi di ablazione e validazione robotica reale
Miglioramento Significativo delle Prestazioni: Raggiunge SOTA su più benchmark, con miglioramento particolarmente evidente in F-mIoU

Insufficienze

Complessità Computazionale: Richiede multiple invocazioni VLM, potenzialmente impattando applicazioni in tempo reale
Limitazioni di Valutazione: Principalmente valutato in scene interne, mancanza di validazione su larga scala in ambienti esterni
Forte Dipendenza: Altamente dipendente dalla qualità VLM, potenzialmente influenzato da bias del modello
Requisiti di Memoria: L'archiviazione di informazioni semantiche ricche potrebbe causare pressione sulla memoria

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per la comprensione di scene 3D
Valore Pratico: Direttamente applicabile a applicazioni pratiche come robot di servizio
Riproducibilità: Fornisce dettagli di implementazione dettagliati e pagina del progetto

Scenari Applicabili

Robot di Servizio Interno: Navigazione e operazione in ambienti domestici e uffici
Applicazioni di Realtà Aumentata: Sistemi AR che richiedono comprensione semantica ricca
Sorveglianza Intelligente: Comprensione di scena basata su semantica e rilevamento anomalie
Tecnologie Assistive: Fornire descrizioni ambientali per persone con disabilità visive

Riferimenti Bibliografici

L'articolo cita 40 lavori correlati, coprendo rappresentazione di scena 3D, localizzazione visiva, robotica e altri campi, fornendo ai lettori una conoscenza di base completa.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo del grounding visivo 3D. Il framework DSM integra con successo precisione geometrica e ricchezza semantica, fornendo un supporto tecnico robusto per la comprensione e l'interazione dei robot in ambienti complessi. Nonostante alcune limitazioni in termini di calcolo e applicabilità, sia l'innovazione tecnica che la validazione sperimentale sono eccellenti, esercitando un'importante spinta allo sviluppo del settore.