DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM: Construcción de un Mapa Semántico Diverso para Anclaje Visual 3D
Una representación efectiva de la escena es crucial para las capacidades de anclaje visual, sin embargo, los métodos existentes de anclaje visual 3D presentan limitaciones significativas. Algunos se enfocaban únicamente en pistas geométricas y visuales, mientras que otros, como los gráficos de escena 3D tradicionales, carecen de los atributos multidimensionales necesarios para el razonamiento complejo. Para cerrar esta brecha, este artículo introduce el marco de Mapa Semántico Diverso (DSM), una representación de escena novedosa que enriquece un modelo geométrico robusto con semántica derivada de VLM (incluyendo apariencia, atributos físicos y funcionalidad). DSM se construye en línea mediante la fusión de observaciones multivista dentro de una ventana deslizante temporal, creando un modelo mundial persistente y comprehensivo. Sobre esta base, se propone DSM-Grounding, un nuevo paradigma que transforma el anclaje de consultas VLM de forma libre en un proceso de razonamiento estructurado sobre mapas semánticamente ricos, mejorando significativamente la precisión e interpretabilidad.
Los métodos existentes de anclaje visual 3D enfrentan dos limitaciones principales:
Representación Semántica Insuficiente: La mayoría de los métodos se enfocaban únicamente en pistas geométricas y visuales, ignorando los atributos intrínsecos de los objetos y las interdependencias contextuales
Capacidad de Razonamiento Limitada: Los gráficos de escena 3D tradicionales solo pueden capturar semántica simple, dificultando el apoyo al razonamiento de modelos grandes en entornos complejos
Para aplicaciones como robots de servicio, no es suficiente simplemente identificar objetos; también es necesario comprender sus atributos multidimensionales (como color, frescura, peso, ubicación) y sus relaciones complejas, lo cual es crítico para la ejecución de tareas complejas.
Métodos Orientados a Geometría: Como la optimización de selección de vistas, que se enfocaban principalmente en características geométricas y visuales, careciendo de comprensión semántica
Gráficos de Escena 3D Tradicionales: Solo consideraban semántica simple y relaciones espaciales, careciendo de atributos multidimensionales de grano fino
Consultas Directas de VLM: Desempeño deficiente en razonamiento espacial y relacional complejo, limitados por el formato de entrada
Construir una representación de escena que sea tanto expresiva (codificando información rica) como compacta (asegurando adaptabilidad multiplataforma), apoyando razonamiento multidimensional complejo.
Propuesta del Marco DSM: Un nuevo marco capaz de soportar representación de escena multidimensional compleja, logrando la integración de comprensión semántica y anclaje preciso
Desarrollo del Método de Mapeo de Ventana Temporal: Método de construcción en línea que integra percepción geométrica y semántica, construyendo componentes DSM con semántica rica
Propuesta de DSM-Grounding: Un nuevo método de anclaje visual 3D que aprovecha DSM para lograr razonamiento de escena más profundo
Entrada: Flujo continuo de observaciones RGB-D, consultas en lenguaje natural
Salida: Posición 3D y cuadro delimitador del objeto objetivo
Restricción: Configuración de cero disparos, sin necesidad de etiquetas de clase específicas preentrenadas
Uso de LLM para analizar consultas en lenguaje natural, identificando entidades objetivo, entidades ancla y sus atributos, recuperando conjunto inicial de candidatos de DSM mediante coincidencia de texto.
Entorno Simulado: Desempeño significativamente superior a métodos de cero disparos existentes en AI2-THOR
Entorno Real: Despliegue exitoso en robot físico ejecutando:
Tareas de navegación semántica: "Navegar a la sala central junto al escritorio de la computadora"
Tareas de agarre semántico: "Agarrar la manzana en el estante blanco en el gabinete blanco"
El artículo cita 40 trabajos relacionados, cubriendo múltiples campos incluyendo representación de escena 3D, anclaje visual y robótica, proporcionando a los lectores conocimiento de fondo comprehensivo.
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora en el campo del anclaje visual 3D. El marco DSM logra exitosamente combinar precisión geométrica con riqueza semántica, proporcionando soporte técnico sólido para la comprensión e interacción de robots en entornos complejos. Aunque presenta algunas limitaciones en aspectos computacionales y de aplicabilidad, tanto su innovación técnica como su validación experimental son excelentes, teniendo un impacto importante en el desarrollo de este campo.