2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

基本信息

  • 论文ID: 2504.08307
  • 标题: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
  • 作者: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (清华大学深圳国际研究生院)
  • 分类: cs.CV cs.RO
  • 发表时间/会议: arXiv 2025 (投稿中)
  • 论文链接: https://arxiv.org/abs/2504.08307
  • 项目主页: https://binicey.github.io/DSM/

摘要

有效的场景表示对于视觉定位能力至关重要,然而现有的3D视觉定位方法往往存在局限性。它们要么只关注几何和视觉线索,要么像传统的3D场景图一样,缺乏复杂推理所需的多维属性。为了弥补这一差距,本文引入了多样化语义地图(DSM)框架,这是一种新颖的场景表示框架,通过VLM衍生的语义(包括外观、物理属性和功能性)丰富了鲁棒的几何模型。DSM首先通过在时间滑动窗口内融合多视图观察在线构建,创建持久且全面的世界模型。在此基础上,提出了DSM-Grounding,这是一种将定位从自由形式的VLM查询转变为语义丰富地图上结构化推理过程的新范式,显著提高了准确性和可解释性。

研究背景与动机

要解决的问题

现有3D视觉定位方法面临两个主要局限:

  1. 语义表示不足:大多数方法仅关注几何和视觉线索,忽略了物体的内在属性和上下文相互依赖关系
  2. 推理能力有限:传统3D场景图只能捕获简单语义,难以支持大模型在复杂环境中的推理

问题重要性

对于服务机器人等应用,仅仅识别物体是不够的,还需要理解物体的多维属性(如颜色、新鲜度、重量、位置)以及它们之间的复杂关系,这对于复杂任务执行至关重要。

现有方法局限性

  1. 几何导向方法:如视图选择优化,主要关注几何和视觉特征,缺乏语义理解
  2. 传统3D场景图:只关注简单语义和空间关系,缺乏细粒度的多维属性
  3. VLM直接查询:在复杂空间和关系推理方面表现不佳,受输入格式限制

研究动机

构建一个既具有表达性(编码丰富信息)又紧凑(确保跨平台适应性)的场景表示,支持复杂的多维推理。

核心贡献

  1. 提出DSM框架:能够支持复杂多维场景表示的新型框架,实现语义理解与精确定位的集成
  2. 开发时间窗口映射方法:集成几何和语义感知的在线构建方法,构建丰富语义的DSM组件
  3. 提出DSM-Grounding:利用DSM实现更深层场景推理的新型3D定位方法

方法详解

任务定义

输入:连续的RGB-D观察流、自然语言查询 输出:目标物体的3D位置和边界框 约束:零样本设置,无需预训练的特定类别标签

DSM定义

DSM定义为3D场景图 G=(O,R),其中:

  • O:物体节点集合
  • R:表示关系的边集合

每个物体节点 O_i ∈ O 包含:

几何表示 (O_g^i)

  • 3D点云 P_i
  • 有向边界框 B_i

语义表示 (O_s^i)

  • 身份标识 N_i:类别标签或名称
  • 属性 A_i:结构化的VLM衍生描述
    • 外观属性 (a_a):颜色、图案、纹理
    • 物理属性 (a_p):重量、材料、表面特性
    • 功能属性 (a_o):用途、操作方法

DSM构建流程

1. 单视图解析

对每个RGB-D帧执行:

  • 物体检测与分割:使用YoloWorld进行开放词汇检测,SAM2进行分割
  • 点云生成:通过深度和相机位姿信息反投影2D掩码
  • 语义提取:使用VLM和思维链推理生成结构化语义描述

2. 多视图映射

多模态数据关联:计算加权相似度得分

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # 视觉相似度
s_g = IoU(bbox_p, bbox_q)         # 几何相似度  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # 语义相似度

几何滑动窗口方法

  • 为每帧构建视锥体
  • 聚合最近的点云观察
  • 应用空间投票方案过滤噪声并完成形状

DSM-Grounding方法

1. 候选检索

使用LLM解析自然语言查询,识别目标实体、锚点实体及其属性,通过文本匹配从DSM检索初始候选集。

2. 潜在关系过滤(LRF)

验证查询中描述的关系约束:

  • 查询DSM中存储的关系R
  • 使用LLM评分存储关系与查询关系的一致性
  • 选择Top-k候选,产生精炼集合O_filtered

3. 多层级验证

对最终候选集渲染三个视角的图像:

  • 物体级:物体填充画面,提供详细的类别和属性信息
  • 位置级:显示物体与相邻区域关系的更广视图
  • 场景级:包含几乎整个场景的全局上下文信息

最终决策:

pred = VLM(I, O_filtered, Q)

实验设置

数据集

  • ScanRefer:8个场景,包括客厅、餐厅、书房、卧室等
  • Nr3D/Sr3D:报告Overall、Easy、Hard、View-dependent、View-independent指标
  • AI2-THOR:高保真模拟器环境
  • Replica:大规模室内环境数据集

评价指标

  • 3D视觉定位:Acc@0.25、Acc@0.5(IoU阈值)
  • 语义分割:mAcc(平均准确率)、F-mIoU(前景平均IoU)

实现细节

  • 检测模型:YoloWorld
  • 分割模型:SAM2
  • 编码器:SigLip(文本)、DINOv2(视觉)
  • VLM:GPT-4o-mini、Qwen2.5-VL-7B/72B
  • 阈值设置:t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

实验结果

主要结果

3D语义分割(Replica数据集)

方法mAccF-mIoU
LSeg (Privileged)33.3951.54
OpenSeg (Privileged)41.1953.74
ConceptFusion (Zero-shot)31.5338.70
ConceptGraphs (Zero-shot)40.6335.95
Ours38.7667.93

3D视觉定位(ScanRefer数据集)

使用Qwen2.5-VL-72B的最佳结果:

  • Overall Acc@0.5: 59.06%(SOTA,超越现有方法约10%)
  • Multiple Acc@0.5: 53.65%(在多物体场景中表现突出)

消融实验(AI2-THOR数据集)

LRF外观属性物理属性功能属性Overall Acc@0.5
60.00
53.64 (-6.36)
49.55
49.09
48.41

关键发现

  1. LRF模块贡献最大(约6-7个百分点提升)
  2. 外观属性提供最重要的信号
  3. 所有三种语义属性都有正向贡献

机器人实验

模拟环境:在AI2-THOR中显著优于现有零样本方法 真实环境:成功部署在物理机器人上执行:

  • 语义导航任务:"导航到计算机桌旁的中央房间"
  • 语义抓取任务:"抓取白色柜子上白色架子上的苹果"

相关工作

3D场景表示

  • 早期方法:Kimera等专注于度量-语义映射
  • 开放词汇映射:ConceptFusion创建语言基础的3D地图
  • 3D场景图:SceneGraphFusion、Hydra构建层次化表示
  • 本文优势:DSM提供更丰富的多维属性表示

3D视觉定位

  • 开放词汇方法:OpenScene、NuGrounding通过特征对齐实现定位
  • VLM方法:SeeGround、ScanReason采用渲染-提示策略
  • 本文创新:从直接VLM查询转向结构化推理过程

结论与讨论

主要结论

  1. DSM框架成功实现了几何精度与语义丰富性的结合
  2. 多维语义属性(外观、物理、功能)显著提升定位性能
  3. 结构化推理范式优于直接VLM查询方法
  4. 方法在模拟和真实环境中都表现出色

局限性

  1. 依赖上游模块:性能受物体检测、分割质量影响
  2. 计算延迟:大型VLM的推理时间较长
  3. 环境适应性:主要在室内环境测试,户外场景适用性未知

未来方向

  1. 探索更高效的模型以提升实时性能
  2. 研究替代3D表示方法增强鲁棒性
  3. 扩展到更复杂的户外环境

深度评价

优点

  1. 方法创新性强:首次系统性地将多维语义属性集成到3D场景表示中
  2. 技术方案完整:从场景构建到定位推理的端到端解决方案
  3. 实验充分:涵盖多个数据集、消融研究和真实机器人验证
  4. 性能提升显著:在多个基准上达到SOTA,特别是F-mIoU提升明显

不足

  1. 计算复杂度:需要多次VLM调用,可能影响实时应用
  2. 评估局限:主要在室内场景评估,缺乏大规模户外验证
  3. 依赖性强:高度依赖VLM质量,可能受模型偏见影响
  4. 内存需求:存储丰富语义信息可能带来内存压力

影响力

  1. 学术贡献:为3D场景理解提供了新的研究方向
  2. 实用价值:直接适用于服务机器人等实际应用
  3. 可复现性:提供了详细的实现细节和项目主页

适用场景

  1. 室内服务机器人:家庭、办公室环境的导航和操作
  2. 增强现实应用:需要丰富语义理解的AR系统
  3. 智能监控:基于语义的场景理解和异常检测
  4. 辅助技术:为视觉障碍人士提供环境描述

参考文献

论文引用了40篇相关文献,涵盖3D场景表示、视觉定位、机器人学等多个领域的重要工作,为读者提供了全面的背景知识。


总体评价:这是一篇高质量的研究论文,在3D视觉定位领域提出了创新性的解决方案。DSM框架成功地将几何精度与语义丰富性结合,为机器人在复杂环境中的理解和交互提供了强有力的技术支持。尽管存在一些计算和适用性方面的局限,但其技术创新和实验验证都表现出色,对该领域的发展具有重要推动作用。