2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM : Construction d'une Carte Sémantique Diversifiée pour l'Ancrage Visuel 3D

Informations Fondamentales

ID de l'article : 2504.08307
Titre : DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Auteurs : Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (École Supérieure Internationale de Shenzhen, Université Tsinghua)
Classification : cs.CV cs.RO
Date de publication/Conférence : arXiv 2025 (en soumission)
Lien de l'article : https://arxiv.org/abs/2504.08307
Page du projet : https://binicey.github.io/DSM/

Résumé

Une représentation efficace de la scène est cruciale pour les capacités d'ancrage visuel, cependant les méthodes actuelles d'ancrage visuel 3D présentent des limitations. Elles se concentrent soit uniquement sur les indices géométriques et visuels, soit manquent, comme les graphes de scène 3D traditionnels, des attributs multidimensionnels nécessaires pour un raisonnement complexe. Pour combler cette lacune, cet article introduit le cadre de Carte Sémantique Diversifiée (DSM), une nouvelle approche de représentation de scène qui enrichit un modèle géométrique robuste avec des sémantiques dérivées de VLM (incluant l'apparence, les propriétés physiques et les fonctionnalités). La DSM est d'abord construite en ligne en fusionnant les observations multi-vues dans une fenêtre temporelle glissante, créant un modèle du monde persistant et complet. Sur cette base, nous proposons DSM-Grounding, un nouveau paradigme qui transforme l'ancrage de requêtes VLM en texte libre en un processus de raisonnement structuré sur une carte enrichie sémantiquement, améliorant significativement la précision et l'interprétabilité.

Contexte de Recherche et Motivation

Problèmes à Résoudre

Les méthodes actuelles d'ancrage visuel 3D font face à deux limitations principales :

Représentation sémantique insuffisante : La plupart des méthodes se concentrent uniquement sur les indices géométriques et visuels, ignorant les attributs intrinsèques des objets et les interdépendances contextuelles
Capacités de raisonnement limitées : Les graphes de scène 3D traditionnels ne peuvent capturer que des sémantiques simples, ce qui rend difficile le support du raisonnement des grands modèles dans des environnements complexes

Importance du Problème

Pour les applications telles que les robots de service, la simple identification des objets est insuffisante ; il est également nécessaire de comprendre les attributs multidimensionnels des objets (tels que la couleur, la fraîcheur, le poids, la position) et les relations complexes entre eux, ce qui est crucial pour l'exécution de tâches complexes.

Limitations des Méthodes Existantes

Méthodes orientées géométrie : Comme l'optimisation de la sélection de vues, se concentrant principalement sur les caractéristiques géométriques et visuelles, manquant de compréhension sémantique
Graphes de scène 3D traditionnels : Se concentrant uniquement sur les sémantiques simples et les relations spatiales, manquant d'attributs multidimensionnels à grain fin
Requêtes VLM directes : Performances médiocres en raisonnement spatial et relationnel complexe, limitées par le format d'entrée

Motivation de la Recherche

Construire une représentation de scène qui soit à la fois expressive (codant des informations riches) et compacte (assurant l'adaptabilité multiplateforme), supportant le raisonnement multidimensionnel complexe.

Contributions Principales

Proposition du cadre DSM : Un nouveau cadre capable de supporter une représentation de scène complexe et multidimensionnelle, réalisant l'intégration de la compréhension sémantique et de l'ancrage précis
Développement d'une méthode de cartographie à fenêtre temporelle : Une méthode de construction en ligne intégrant la conscience géométrique et sémantique, construisant des composants DSM enrichis sémantiquement
Proposition de DSM-Grounding : Une nouvelle méthode d'ancrage visuel 3D exploitant la DSM pour un raisonnement de scène plus profond

Détails de la Méthode

Définition de la Tâche

Entrée : Flux continu d'observations RGB-D, requête en langage naturel Sortie : Position 3D et boîte englobante de l'objet cible Contrainte : Configuration sans exemple, sans étiquettes de classe pré-entraînées spécifiques

Définition de la DSM

La DSM est définie comme un graphe de scène 3D G=(O,R), où :

O : Ensemble de nœuds d'objets
R : Ensemble d'arêtes représentant les relations

Chaque nœud d'objet O_i ∈ O contient :

Représentation géométrique (O_g^i) :

Nuage de points 3D P_i
Boîte englobante orientée B_i

Représentation sémantique (O_s^i) :

Identifiant d'identité N_i : Étiquette de catégorie ou nom
Attributs A_i : Description structurée dérivée de VLM
- Attributs d'apparence (a_a) : Couleur, motif, texture
- Attributs physiques (a_p) : Poids, matériau, caractéristiques de surface
- Attributs fonctionnels (a_o) : Utilité, méthode d'opération

Processus de Construction de la DSM

1. Analyse Monovue

Exécutée pour chaque trame RGB-D :

Détection et segmentation d'objets : Utilisation de YoloWorld pour la détection à vocabulaire ouvert, SAM2 pour la segmentation
Génération de nuage de points : Rétroprojection du masque 2D via les informations de profondeur et de pose de caméra
Extraction sémantique : Utilisation de VLM et raisonnement par chaîne de pensée pour générer des descriptions sémantiques structurées

2. Cartographie Multi-vues

Association de données multimodales : Calcul d'un score de similarité pondéré

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # Similarité visuelle
s_g = IoU(bbox_p, bbox_q)         # Similarité géométrique  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # Similarité sémantique

Méthode de fenêtre glissante géométrique :

Construction d'un frustum de vue pour chaque trame
Agrégation des observations de nuage de points récentes
Application d'un schéma de vote spatial pour filtrer le bruit et compléter la forme

Méthode DSM-Grounding

1. Récupération de Candidats

Utilisation d'un LLM pour analyser la requête en langage naturel, identifier l'entité cible, les entités d'ancrage et leurs attributs, récupérer l'ensemble initial de candidats de la DSM par correspondance textuelle.

2. Filtrage de Relations Latentes (LRF)

Vérification des contraintes de relations décrites dans la requête :

Interrogation des relations R stockées dans la DSM
Utilisation d'un LLM pour évaluer la cohérence entre les relations stockées et les relations de la requête
Sélection des Top-k candidats, produisant un ensemble affiné O_filtered

3. Validation Multi-niveaux

Rendu de trois perspectives d'image pour l'ensemble final de candidats :

Niveau objet : L'objet remplit l'écran, fournissant des informations détaillées de catégorie et d'attributs
Niveau position : Vue plus large montrant la relation de l'objet avec les zones adjacentes
Niveau scène : Contexte global contenant presque toute la scène

Décision finale :

pred = VLM(I, O_filtered, Q)

Configuration Expérimentale

Ensembles de Données

ScanRefer : 8 scènes, incluant salon, salle à manger, bureau, chambre à coucher, etc.
Nr3D/Sr3D : Rapportage des métriques Overall, Easy, Hard, View-dependent, View-independent
AI2-THOR : Environnement simulateur haute fidélité
Replica : Ensemble de données d'environnement intérieur à grande échelle

Métriques d'Évaluation

Ancrage visuel 3D : Acc@0.25, Acc@0.5 (seuils IoU)
Segmentation sémantique : mAcc (précision moyenne), F-mIoU (IoU moyenne au premier plan)

Détails d'Implémentation

Modèle de détection : YoloWorld
Modèle de segmentation : SAM2
Encodeurs : SigLip (texte), DINOv2 (vision)
VLM : GPT-4o-mini, Qwen2.5-VL-7B/72B
Réglage des seuils : t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Résultats Expérimentaux

Résultats Principaux

Segmentation Sémantique 3D (Ensemble de Données Replica)

Méthode	mAcc	F-mIoU
LSeg (Privilégié)	33.39	51.54
OpenSeg (Privilégié)	41.19	53.74
ConceptFusion (Sans exemple)	31.53	38.70
ConceptGraphs (Sans exemple)	40.63	35.95
Notre approche	38.76	67.93

Ancrage Visuel 3D (Ensemble de Données ScanRefer)

Meilleurs résultats utilisant Qwen2.5-VL-72B :

Overall Acc@0.5 : 59.06% (SOTA, dépassant les méthodes existantes d'environ 10%)
Multiple Acc@0.5 : 53.65% (performance exceptionnelle dans les scènes multi-objets)

Étude d'Ablation (Ensemble de Données AI2-THOR)

LRF	Attributs d'apparence	Attributs physiques	Attributs fonctionnels	Overall Acc@0.5
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

Découvertes Clés :

Le module LRF contribue le plus (amélioration d'environ 6-7 points de pourcentage)
Les attributs d'apparence fournissent le signal le plus important
Les trois types d'attributs sémantiques contribuent positivement

Expériences Robotiques

Environnement simulé : Performance significativement supérieure aux méthodes sans exemple existantes dans AI2-THOR Environnement réel : Déploiement réussi sur un robot physique pour exécuter :

Tâches de navigation sémantique : « Naviguer vers la pièce centrale à côté du bureau informatique »
Tâches de saisie sémantique : « Saisir la pomme sur l'étagère blanche du placard blanc »

Travaux Connexes

Représentation de Scène 3D

Méthodes précoces : Kimera et autres se concentrant sur la cartographie métrique-sémantique
Cartographie à vocabulaire ouvert : ConceptFusion créant des cartes 3D fondées sur le langage
Graphes de scène 3D : SceneGraphFusion, Hydra construisant des représentations hiérarchiques
Avantage de cet article : DSM fournit une représentation d'attributs multidimensionnels plus riche

Ancrage Visuel 3D

Méthodes à vocabulaire ouvert : OpenScene, NuGrounding réalisant l'ancrage par alignement de caractéristiques
Méthodes VLM : SeeGround, ScanReason adoptant des stratégies de rendu-incitation
Innovation de cet article : Transition des requêtes VLM directes vers un processus de raisonnement structuré

Conclusion et Discussion

Conclusions Principales

Le cadre DSM réussit à combiner la précision géométrique et la richesse sémantique
Les attributs sémantiques multidimensionnels (apparence, physique, fonctionnel) améliorent significativement la performance d'ancrage
Le paradigme de raisonnement structuré surpasse les méthodes de requête VLM directe
La méthode montre d'excellentes performances dans les environnements simulés et réels

Limitations

Dépendance des modules en amont : La performance est affectée par la qualité de la détection et segmentation d'objets
Latence de calcul : Le temps d'inférence des grands VLM est relativement long
Adaptabilité environnementale : Principalement testée dans des environnements intérieurs, l'applicabilité aux scènes extérieures est inconnue

Directions Futures

Explorer des modèles plus efficaces pour améliorer les performances en temps réel
Étudier des méthodes de représentation 3D alternatives pour améliorer la robustesse
Étendre à des environnements extérieurs plus complexes

Évaluation Approfondie

Points Forts

Forte innovativité méthodologique : Première intégration systématique d'attributs sémantiques multidimensionnels dans une représentation de scène 3D
Solution technique complète : Solution de bout en bout de la construction de scène au raisonnement d'ancrage
Expérimentation approfondie : Couvrant plusieurs ensembles de données, études d'ablation et validation sur robot réel
Amélioration de performance significative : Atteinte de SOTA sur plusieurs repères, amélioration particulièrement notable du F-mIoU

Insuffisances

Complexité de calcul : Nécessite plusieurs appels VLM, pouvant affecter les applications en temps réel
Limitations d'évaluation : Principalement évaluée dans des scènes intérieures, manquant de validation à grande échelle en extérieur
Forte dépendance : Hautement dépendante de la qualité du VLM, pouvant être affectée par les biais du modèle
Exigences mémoire : Le stockage d'informations sémantiques riches peut entraîner une pression mémoire

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour la compréhension de scène 3D
Valeur pratique : Directement applicable aux applications réelles telles que les robots de service
Reproductibilité : Fournit des détails d'implémentation détaillés et une page de projet

Scénarios d'Application

Robots de service intérieurs : Navigation et opération dans les environnements domestiques et de bureau
Applications de réalité augmentée : Systèmes AR nécessitant une compréhension sémantique riche
Surveillance intelligente : Compréhension de scène basée sur la sémantique et détection d'anomalies
Technologie d'assistance : Fourniture de descriptions d'environnement pour les personnes malvoyantes

Références

L'article cite 40 références pertinentes, couvrant plusieurs domaines incluant la représentation de scène 3D, l'ancrage visuel, la robotique et autres travaux importants, fournissant aux lecteurs une base de connaissances complète.

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante dans le domaine de l'ancrage visuel 3D. Le cadre DSM réussit à combiner la précision géométrique et la richesse sémantique, fournissant un support technique puissant pour la compréhension et l'interaction des robots dans des environnements complexes. Bien que présentant certaines limitations en termes de calcul et d'applicabilité, son innovation technique et sa validation expérimentale sont exceptionnelles, jouant un rôle important dans l'avancement du domaine.