DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM : Construction d'une Carte Sémantique Diversifiée pour l'Ancrage Visuel 3D
Une représentation efficace de la scène est cruciale pour les capacités d'ancrage visuel, cependant les méthodes actuelles d'ancrage visuel 3D présentent des limitations. Elles se concentrent soit uniquement sur les indices géométriques et visuels, soit manquent, comme les graphes de scène 3D traditionnels, des attributs multidimensionnels nécessaires pour un raisonnement complexe. Pour combler cette lacune, cet article introduit le cadre de Carte Sémantique Diversifiée (DSM), une nouvelle approche de représentation de scène qui enrichit un modèle géométrique robuste avec des sémantiques dérivées de VLM (incluant l'apparence, les propriétés physiques et les fonctionnalités). La DSM est d'abord construite en ligne en fusionnant les observations multi-vues dans une fenêtre temporelle glissante, créant un modèle du monde persistant et complet. Sur cette base, nous proposons DSM-Grounding, un nouveau paradigme qui transforme l'ancrage de requêtes VLM en texte libre en un processus de raisonnement structuré sur une carte enrichie sémantiquement, améliorant significativement la précision et l'interprétabilité.
Les méthodes actuelles d'ancrage visuel 3D font face à deux limitations principales :
Représentation sémantique insuffisante : La plupart des méthodes se concentrent uniquement sur les indices géométriques et visuels, ignorant les attributs intrinsèques des objets et les interdépendances contextuelles
Capacités de raisonnement limitées : Les graphes de scène 3D traditionnels ne peuvent capturer que des sémantiques simples, ce qui rend difficile le support du raisonnement des grands modèles dans des environnements complexes
Pour les applications telles que les robots de service, la simple identification des objets est insuffisante ; il est également nécessaire de comprendre les attributs multidimensionnels des objets (tels que la couleur, la fraîcheur, le poids, la position) et les relations complexes entre eux, ce qui est crucial pour l'exécution de tâches complexes.
Méthodes orientées géométrie : Comme l'optimisation de la sélection de vues, se concentrant principalement sur les caractéristiques géométriques et visuelles, manquant de compréhension sémantique
Graphes de scène 3D traditionnels : Se concentrant uniquement sur les sémantiques simples et les relations spatiales, manquant d'attributs multidimensionnels à grain fin
Requêtes VLM directes : Performances médiocres en raisonnement spatial et relationnel complexe, limitées par le format d'entrée
Construire une représentation de scène qui soit à la fois expressive (codant des informations riches) et compacte (assurant l'adaptabilité multiplateforme), supportant le raisonnement multidimensionnel complexe.
Proposition du cadre DSM : Un nouveau cadre capable de supporter une représentation de scène complexe et multidimensionnelle, réalisant l'intégration de la compréhension sémantique et de l'ancrage précis
Développement d'une méthode de cartographie à fenêtre temporelle : Une méthode de construction en ligne intégrant la conscience géométrique et sémantique, construisant des composants DSM enrichis sémantiquement
Proposition de DSM-Grounding : Une nouvelle méthode d'ancrage visuel 3D exploitant la DSM pour un raisonnement de scène plus profond
Entrée : Flux continu d'observations RGB-D, requête en langage naturel
Sortie : Position 3D et boîte englobante de l'objet cible
Contrainte : Configuration sans exemple, sans étiquettes de classe pré-entraînées spécifiques
Utilisation d'un LLM pour analyser la requête en langage naturel, identifier l'entité cible, les entités d'ancrage et leurs attributs, récupérer l'ensemble initial de candidats de la DSM par correspondance textuelle.
Environnement simulé : Performance significativement supérieure aux méthodes sans exemple existantes dans AI2-THOR
Environnement réel : Déploiement réussi sur un robot physique pour exécuter :
Tâches de navigation sémantique : « Naviguer vers la pièce centrale à côté du bureau informatique »
Tâches de saisie sémantique : « Saisir la pomme sur l'étagère blanche du placard blanc »
L'article cite 40 références pertinentes, couvrant plusieurs domaines incluant la représentation de scène 3D, l'ancrage visuel, la robotique et autres travaux importants, fournissant aux lecteurs une base de connaissances complète.
Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante dans le domaine de l'ancrage visuel 3D. Le cadre DSM réussit à combiner la précision géométrique et la richesse sémantique, fournissant un support technique puissant pour la compréhension et l'interaction des robots dans des environnements complexes. Bien que présentant certaines limitations en termes de calcul et d'applicabilité, son innovation technique et sa validation expérimentale sont exceptionnelles, jouant un rôle important dans l'avancement du domaine.