2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic

DSM: Construcción de un Mapa Semántico Diverso para Anclaje Visual 3D

Información Básica

  • ID del Artículo: 2504.08307
  • Título: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
  • Autores: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (Escuela Internacional de Posgrado de la Universidad de Tsinghua, Shenzhen)
  • Clasificación: cs.CV cs.RO
  • Fecha de Publicación/Conferencia: arXiv 2025 (En revisión)
  • Enlace del Artículo: https://arxiv.org/abs/2504.08307
  • Página del Proyecto: https://binicey.github.io/DSM/

Resumen

Una representación efectiva de la escena es crucial para las capacidades de anclaje visual, sin embargo, los métodos existentes de anclaje visual 3D presentan limitaciones significativas. Algunos se enfocaban únicamente en pistas geométricas y visuales, mientras que otros, como los gráficos de escena 3D tradicionales, carecen de los atributos multidimensionales necesarios para el razonamiento complejo. Para cerrar esta brecha, este artículo introduce el marco de Mapa Semántico Diverso (DSM), una representación de escena novedosa que enriquece un modelo geométrico robusto con semántica derivada de VLM (incluyendo apariencia, atributos físicos y funcionalidad). DSM se construye en línea mediante la fusión de observaciones multivista dentro de una ventana deslizante temporal, creando un modelo mundial persistente y comprehensivo. Sobre esta base, se propone DSM-Grounding, un nuevo paradigma que transforma el anclaje de consultas VLM de forma libre en un proceso de razonamiento estructurado sobre mapas semánticamente ricos, mejorando significativamente la precisión e interpretabilidad.

Contexto de Investigación y Motivación

Problemas a Resolver

Los métodos existentes de anclaje visual 3D enfrentan dos limitaciones principales:

  1. Representación Semántica Insuficiente: La mayoría de los métodos se enfocaban únicamente en pistas geométricas y visuales, ignorando los atributos intrínsecos de los objetos y las interdependencias contextuales
  2. Capacidad de Razonamiento Limitada: Los gráficos de escena 3D tradicionales solo pueden capturar semántica simple, dificultando el apoyo al razonamiento de modelos grandes en entornos complejos

Importancia del Problema

Para aplicaciones como robots de servicio, no es suficiente simplemente identificar objetos; también es necesario comprender sus atributos multidimensionales (como color, frescura, peso, ubicación) y sus relaciones complejas, lo cual es crítico para la ejecución de tareas complejas.

Limitaciones de Métodos Existentes

  1. Métodos Orientados a Geometría: Como la optimización de selección de vistas, que se enfocaban principalmente en características geométricas y visuales, careciendo de comprensión semántica
  2. Gráficos de Escena 3D Tradicionales: Solo consideraban semántica simple y relaciones espaciales, careciendo de atributos multidimensionales de grano fino
  3. Consultas Directas de VLM: Desempeño deficiente en razonamiento espacial y relacional complejo, limitados por el formato de entrada

Motivación de la Investigación

Construir una representación de escena que sea tanto expresiva (codificando información rica) como compacta (asegurando adaptabilidad multiplataforma), apoyando razonamiento multidimensional complejo.

Contribuciones Principales

  1. Propuesta del Marco DSM: Un nuevo marco capaz de soportar representación de escena multidimensional compleja, logrando la integración de comprensión semántica y anclaje preciso
  2. Desarrollo del Método de Mapeo de Ventana Temporal: Método de construcción en línea que integra percepción geométrica y semántica, construyendo componentes DSM con semántica rica
  3. Propuesta de DSM-Grounding: Un nuevo método de anclaje visual 3D que aprovecha DSM para lograr razonamiento de escena más profundo

Detalles del Método

Definición de Tarea

Entrada: Flujo continuo de observaciones RGB-D, consultas en lenguaje natural Salida: Posición 3D y cuadro delimitador del objeto objetivo Restricción: Configuración de cero disparos, sin necesidad de etiquetas de clase específicas preentrenadas

Definición de DSM

DSM se define como un gráfico de escena 3D G=(O,R), donde:

  • O: Conjunto de nodos de objetos
  • R: Conjunto de aristas que representan relaciones

Cada nodo de objeto O_i ∈ O contiene:

Representación Geométrica (O_g^i):

  • Nube de puntos 3D P_i
  • Cuadro delimitador orientado B_i

Representación Semántica (O_s^i):

  • Identificación N_i: Etiqueta de categoría o nombre
  • Atributos A_i: Descripción estructurada derivada de VLM
    • Atributos de Apariencia (a_a): Color, patrón, textura
    • Atributos Físicos (a_p): Peso, material, características de superficie
    • Atributos Funcionales (a_o): Propósito, método de operación

Flujo de Construcción de DSM

1. Análisis de Vista Única

Para cada fotograma RGB-D:

  • Detección y Segmentación de Objetos: Usando YoloWorld para detección de vocabulario abierto, SAM2 para segmentación
  • Generación de Nube de Puntos: Retroproyección de máscaras 2D mediante información de profundidad y pose de cámara
  • Extracción Semántica: Usando VLM y razonamiento de cadena de pensamiento para generar descripciones semánticas estructuradas

2. Mapeo Multivista

Asociación de Datos Multimodales: Cálculo de puntuación de similitud ponderada

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # Similitud visual
s_g = IoU(bbox_p, bbox_q)         # Similitud geométrica  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # Similitud semántica

Método de Ventana Deslizante Geométrica:

  • Construcción de pirámide de vista para cada fotograma
  • Agregación de observaciones de nube de puntos recientes
  • Aplicación de esquema de votación espacial para filtrar ruido y completar formas

Método DSM-Grounding

1. Recuperación de Candidatos

Uso de LLM para analizar consultas en lenguaje natural, identificando entidades objetivo, entidades ancla y sus atributos, recuperando conjunto inicial de candidatos de DSM mediante coincidencia de texto.

2. Filtrado de Relaciones Latentes (LRF)

Verificación de restricciones de relación descritas en la consulta:

  • Consulta de relaciones R almacenadas en DSM
  • Uso de LLM para puntuación de consistencia entre relaciones almacenadas y relaciones consultadas
  • Selección de Top-k candidatos, produciendo conjunto refinado O_filtered

3. Validación Multinivel

Renderización de imágenes de tres perspectivas para conjunto final de candidatos:

  • Nivel de Objeto: Objeto llena la pantalla, proporcionando información detallada de categoría y atributos
  • Nivel de Ubicación: Vista más amplia mostrando relaciones del objeto con áreas adyacentes
  • Nivel de Escena: Contexto global que contiene casi toda la escena

Decisión Final:

pred = VLM(I, O_filtered, Q)

Configuración Experimental

Conjuntos de Datos

  • ScanRefer: 8 escenas, incluyendo salas de estar, comedores, estudios, dormitorios, etc.
  • Nr3D/Sr3D: Reportando métricas Overall, Easy, Hard, View-dependent, View-independent
  • AI2-THOR: Entorno simulador de alta fidelidad
  • Replica: Conjunto de datos de entorno interior a gran escala

Métricas de Evaluación

  • Anclaje Visual 3D: Acc@0.25, Acc@0.5 (umbral IoU)
  • Segmentación Semántica: mAcc (precisión promedio), F-mIoU (IoU promedio de primer plano)

Detalles de Implementación

  • Modelo de Detección: YoloWorld
  • Modelo de Segmentación: SAM2
  • Codificadores: SigLip (texto), DINOv2 (visual)
  • VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
  • Configuración de Umbrales: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Resultados Experimentales

Resultados Principales

Segmentación Semántica 3D (Conjunto de Datos Replica)

MétodomAccF-mIoU
LSeg (Privilegiado)33.3951.54
OpenSeg (Privilegiado)41.1953.74
ConceptFusion (Cero disparos)31.5338.70
ConceptGraphs (Cero disparos)40.6335.95
Nuestro Método38.7667.93

Anclaje Visual 3D (Conjunto de Datos ScanRefer)

Mejores resultados usando Qwen2.5-VL-72B:

  • Overall Acc@0.5: 59.06% (SOTA, superando métodos existentes en ~10%)
  • Multiple Acc@0.5: 53.65% (desempeño destacado en escenas multiobjeto)

Estudios de Ablación (Conjunto de Datos AI2-THOR)

LRFAtributos de AparienciaAtributos FísicosAtributos FuncionalesOverall Acc@0.5
60.00
53.64 (-6.36)
49.55
49.09
48.41

Hallazgos Clave:

  1. El módulo LRF contribuye más significativamente (mejora de aproximadamente 6-7 puntos porcentuales)
  2. Los atributos de apariencia proporcionan la señal más importante
  3. Los tres tipos de atributos semánticos contribuyen positivamente

Experimentos Robóticos

Entorno Simulado: Desempeño significativamente superior a métodos de cero disparos existentes en AI2-THOR Entorno Real: Despliegue exitoso en robot físico ejecutando:

  • Tareas de navegación semántica: "Navegar a la sala central junto al escritorio de la computadora"
  • Tareas de agarre semántico: "Agarrar la manzana en el estante blanco en el gabinete blanco"

Trabajo Relacionado

Representación de Escena 3D

  • Métodos Tempranos: Kimera y otros enfocados en mapeo métrico-semántico
  • Mapeo de Vocabulario Abierto: ConceptFusion crea mapas 3D fundamentados en lenguaje
  • Gráficos de Escena 3D: SceneGraphFusion, Hydra construyen representaciones jerárquicas
  • Ventaja de Este Trabajo: DSM proporciona representación de atributos multidimensionales más rica

Anclaje Visual 3D

  • Métodos de Vocabulario Abierto: OpenScene, NuGrounding logran anclaje mediante alineación de características
  • Métodos de VLM: SeeGround, ScanReason adoptan estrategia de renderización-indicación
  • Innovación de Este Trabajo: Transición de consultas VLM directas a proceso de razonamiento estructurado

Conclusiones y Discusión

Conclusiones Principales

  1. El marco DSM logra exitosamente la combinación de precisión geométrica y riqueza semántica
  2. Los atributos semánticos multidimensionales (apariencia, física, funcionalidad) mejoran significativamente el desempeño de anclaje
  3. El paradigma de razonamiento estructurado supera a los métodos de consulta VLM directa
  4. El método demuestra desempeño excelente tanto en entornos simulados como reales

Limitaciones

  1. Dependencia de Módulos Anteriores: El desempeño se ve afectado por la calidad de detección y segmentación de objetos
  2. Latencia Computacional: El tiempo de inferencia de VLM grande es considerable
  3. Adaptabilidad Ambiental: Principalmente probado en entornos interiores, aplicabilidad en escenas exteriores desconocida

Direcciones Futuras

  1. Exploración de modelos más eficientes para mejorar el desempeño en tiempo real
  2. Investigación de métodos de representación 3D alternativos para mejorar robustez
  3. Extensión a entornos exteriores más complejos

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Metodológica: Primera integración sistemática de atributos semánticos multidimensionales en representación de escena 3D
  2. Solución Técnica Completa: Solución integral de extremo a extremo desde construcción de escena hasta razonamiento de anclaje
  3. Experimentación Exhaustiva: Cubre múltiples conjuntos de datos, estudios de ablación y validación con robot real
  4. Mejora de Desempeño Significativa: Logra SOTA en múltiples puntos de referencia, especialmente mejora notable en F-mIoU

Deficiencias

  1. Complejidad Computacional: Requiere múltiples invocaciones de VLM, potencialmente afectando aplicaciones en tiempo real
  2. Limitaciones de Evaluación: Principalmente evaluado en escenas interiores, carece de validación a gran escala en exteriores
  3. Dependencia Fuerte: Altamente dependiente de la calidad de VLM, potencialmente afectado por sesgos del modelo
  4. Requisitos de Memoria: El almacenamiento de información semántica rica puede crear presión de memoria

Impacto

  1. Contribución Académica: Proporciona nueva dirección de investigación para comprensión de escena 3D
  2. Valor Práctico: Directamente aplicable a aplicaciones prácticas como robots de servicio
  3. Reproducibilidad: Proporciona detalles de implementación detallados y página del proyecto

Escenarios Aplicables

  1. Robots de Servicio Interior: Navegación y operación en entornos domésticos y de oficina
  2. Aplicaciones de Realidad Aumentada: Sistemas AR que requieren comprensión semántica rica
  3. Vigilancia Inteligente: Comprensión de escena basada en semántica y detección de anomalías
  4. Tecnología de Asistencia: Proporcionar descripciones de entorno para personas con discapacidad visual

Referencias

El artículo cita 40 trabajos relacionados, cubriendo múltiples campos incluyendo representación de escena 3D, anclaje visual y robótica, proporcionando a los lectores conocimiento de fondo comprehensivo.


Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora en el campo del anclaje visual 3D. El marco DSM logra exitosamente combinar precisión geométrica con riqueza semántica, proporcionando soporte técnico sólido para la comprensión e interacción de robots en entornos complejos. Aunque presenta algunas limitaciones en aspectos computacionales y de aplicabilidad, tanto su innovación técnica como su validación experimental son excelentes, teniendo un impacto importante en el desarrollo de este campo.