2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic

DSM: 3D視覚グラウンディングのための多様なセマンティックマップの構築

基本情報

  • 論文ID: 2504.08307
  • タイトル: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
  • 著者: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng(清華大学深圳国際大学院)
  • 分類: cs.CV cs.RO
  • 発表時期/会議: arXiv 2025(投稿中)
  • 論文リンク: https://arxiv.org/abs/2504.08307
  • プロジェクトページ: https://binicey.github.io/DSM/

要約

効果的なシーン表現は視覚グラウンディング能力にとって極めて重要であるが、既存の3D視覚グラウンディング手法には制限がある。これらの手法は幾何学的および視覚的手がかりのみに焦点を当てるか、従来の3Dシーングラフのように複雑な推論に必要な多次元属性を欠いている。このギャップを埋めるため、本論文は多様なセマンティックマップ(DSM)フレームワークを導入する。これは、VLM由来のセマンティクス(外観、物理属性、機能性を含む)で堅牢な幾何学的モデルを豊かにする新規なシーン表現フレームワークである。DSMは最初に時間スライディングウィンドウ内でマルチビュー観測を融合することにより、オンラインで構築され、永続的で包括的な世界モデルを作成する。この基礎の上に、DSM-Groundingが提案される。これは自由形式のVLMクエリからセマンティクスに富んだマップ上の構造化推論プロセスへとグラウンディングを変換する新規なパラダイムであり、精度と解釈可能性を大幅に向上させる。

研究背景と動機

解決すべき問題

既存の3D視覚グラウンディング手法は2つの主要な制限に直面している:

  1. セマンティック表現の不足:ほとんどの手法は幾何学的および視覚的手がかりのみに焦点を当て、物体の内在的属性と文脈的相互依存性を無視している
  2. 推論能力の制限:従来の3Dシーングラフは単純なセマンティクスのみを捉えることができ、複雑な環境における大規模言語モデルの推論をサポートするのが困難である

問題の重要性

サービスロボットなどのアプリケーションでは、物体を認識するだけでは不十分であり、物体の多次元属性(色、新鮮度、重量、位置など)およびそれらの間の複雑な関係を理解する必要があり、これは複雑なタスク実行にとって重要である。

既存手法の制限

  1. 幾何学指向の手法:ビュー選択最適化など、主に幾何学的および視覚的特性に焦点を当て、セマンティック理解を欠いている
  2. 従来の3Dシーングラフ:単純なセマンティクスと空間関係のみに焦点を当て、細粒度の多次元属性を欠いている
  3. VLM直接クエリ:複雑な空間および関係推論において性能が低く、入力形式による制限を受ける

研究動機

表現力(豊富な情報をエンコード)と簡潔性(クロスプラットフォーム適応性を確保)の両方を備え、複雑な多次元推論をサポートするシーン表現を構築すること。

核心的貢献

  1. DSMフレームワークの提案:複雑な多次元シーン表現をサポートできる新規フレームワーク。セマンティック理解と精密なグラウンディングの統合を実現
  2. 時間ウィンドウマッピング手法の開発:幾何学的およびセマンティック認識を統合したオンライン構築手法。豊かなセマンティクスを持つDSMコンポーネントを構築
  3. DSM-Groundingの提案:DSMを利用してより深いシーン推論を実現する新規な3Dグラウンディング手法

方法の詳細

タスク定義

入力:連続的なRGB-D観測ストリーム、自然言語クエリ 出力:ターゲット物体の3D位置とバウンディングボックス 制約:ゼロショット設定。事前学習された特定クラスラベルは不要

DSM定義

DSMは3Dシーングラフ G=(O,R) として定義される。ここで:

  • O:物体ノードの集合
  • R:関係を表すエッジの集合

各物体ノード O_i ∈ O は以下を含む:

幾何学的表現 (O_g^i)

  • 3D点群 P_i
  • 方向付きバウンディングボックス B_i

セマンティック表現 (O_s^i)

  • アイデンティティ N_i:クラスラベルまたは名前
  • 属性 A_i:構造化されたVLM由来の説明
    • 外観属性 (a_a):色、パターン、テクスチャ
    • 物理属性 (a_p):重量、材料、表面特性
    • 機能属性 (a_o):用途、操作方法

DSM構築フロー

1. 単一ビュー解析

各RGB-Dフレームに対して実行:

  • 物体検出とセグメンテーション:YoloWorldを使用したオープン語彙検出、SAM2によるセグメンテーション
  • 点群生成:深度とカメラポーズ情報を通じた2Dマスクの逆投影
  • セマンティック抽出:VLMと思考の連鎖推論を使用した構造化セマンティック説明の生成

2. マルチビューマッピング

マルチモーダルデータ関連付け:加重類似度スコアの計算

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # 視覚的類似度
s_g = IoU(bbox_p, bbox_q)         # 幾何学的類似度  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # セマンティック類似度

幾何学的スライディングウィンドウ手法

  • 各フレームのビュー錐台を構築
  • 最新の点群観測を集約
  • 空間投票スキームを適用してノイズをフィルタリングし形状を補完

DSM-Grounding手法

1. 候補検索

LLMを使用して自然言語クエリを解析し、ターゲットエンティティ、アンカーエンティティおよびそれらの属性を識別。テキストマッチングを通じてDSMから初期候補セットを検索。

2. 潜在関係フィルタリング(LRF)

クエリで説明された関係制約を検証:

  • DSMに保存された関係Rをクエリ
  • LLMを使用して保存された関係とクエリ関係の一貫性をスコアリング
  • Top-k候補を選択し、精緻化されたセット O_filtered を生成

3. 多層検証

最終候補セットに対して3つの視点の画像をレンダリング:

  • 物体レベル:物体が画面を満たし、詳細なクラスおよび属性情報を提供
  • 位置レベル:物体と隣接領域の関係を示すより広い視点
  • シーンレベル:ほぼ全体のシーンを含むグローバルコンテキスト情報

最終決定:

pred = VLM(I, O_filtered, Q)

実験設定

データセット

  • ScanRefer:8つのシーン。リビングルーム、ダイニングルーム、書斎、寝室など
  • Nr3D/Sr3D:Overall、Easy、Hard、View-dependent、View-independentメトリクスを報告
  • AI2-THOR:高忠実度シミュレータ環境
  • Replica:大規模室内環境データセット

評価メトリクス

  • 3D視覚グラウンディング:Acc@0.25、Acc@0.5(IoUしきい値)
  • セマンティックセグメンテーション:mAcc(平均精度)、F-mIoU(前景平均IoU)

実装詳細

  • 検出モデル:YoloWorld
  • セグメンテーションモデル:SAM2
  • エンコーダ:SigLip(テキスト)、DINOv2(視覚)
  • VLM:GPT-4o-mini、Qwen2.5-VL-7B/72B
  • しきい値設定:t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

実験結果

主要結果

3Dセマンティックセグメンテーション(Replicaデータセット)

手法mAccF-mIoU
LSeg (特権情報)33.3951.54
OpenSeg (特権情報)41.1953.74
ConceptFusion (ゼロショット)31.5338.70
ConceptGraphs (ゼロショット)40.6335.95
本手法38.7667.93

3D視覚グラウンディング(ScanReferデータセット)

Qwen2.5-VL-72Bを使用した最良結果:

  • Overall Acc@0.5: 59.06%(SOTA。既存手法を約10%上回る)
  • Multiple Acc@0.5: 53.65%(複数物体シーンで優れた性能)

アブレーション実験(AI2-THORデータセット)

LRF外観属性物理属性機能属性Overall Acc@0.5
60.00
53.64 (-6.36)
49.55
49.09
48.41

主要な知見

  1. LRFモジュールが最大の貢献(約6~7ポイントの向上)
  2. 外観属性が最も重要なシグナルを提供
  3. 3つのセマンティック属性すべてが正の寄与

ロボット実験

シミュレーション環境:AI2-THORで既存のゼロショット手法を大幅に上回る 実環境:物理ロボットへの成功した展開。以下のタスクを実行:

  • セマンティックナビゲーションタスク:「コンピュータデスク脇の中央ルームに移動」
  • セマンティックグラスピングタスク:「白いキャビネット上の白いシェルフ上のリンゴをつかむ」

関連研究

3Dシーン表現

  • 初期手法:Kimeraなど。メトリック-セマンティックマッピングに焦点
  • オープン語彙マッピング:ConceptFusion。言語基礎の3Dマップを作成
  • 3Dシーングラフ:SceneGraphFusion、Hydra。階層的表現を構築
  • 本論文の利点:DSMはより豊かな多次元属性表現を提供

3D視覚グラウンディング

  • オープン語彙手法:OpenScene、NuGrounding。特性対齢を通じてグラウンディングを実現
  • VLM手法:SeeGround、ScanReason。レンダリング-プロンプト戦略を採用
  • 本論文の革新:直接VLMクエリから構造化推論プロセスへの転換

結論と考察

主要な結論

  1. DSMフレームワークは幾何学的精度とセマンティック豊かさの結合に成功
  2. 多次元セマンティック属性(外観、物理、機能)がグラウンディング性能を大幅に向上
  3. 構造化推論パラダイムは直接VLMクエリ手法より優れている
  4. 手法はシミュレーションと実環境の両方で優れた性能を示す

制限事項

  1. 上流モジュールへの依存:性能は物体検出とセグメンテーション品質に影響される
  2. 計算遅延:大規模VLMの推論時間が長い
  3. 環境適応性:主に室内環境でテストされており、屋外シーンの適用可能性は不明

将来の方向性

  1. リアルタイム性能を向上させるためのより効率的なモデルの探索
  2. ロバスト性を強化するための代替3D表現方法の研究
  3. より複雑な屋外環境への拡張

深い評価

強み

  1. 方法の革新性が強い:多次元セマンティック属性を3Dシーン表現に体系的に統合した初の試み
  2. 技術スキームが完全:シーン構築からグラウンディング推論までのエンドツーエンドソリューション
  3. 実験が充分:複数のデータセット、アブレーション研究、実ロボット検証を含む
  4. 性能向上が顕著:複数のベンチマークでSOTA達成。特にF-mIoU向上が明らか

不足

  1. 計算複雑性:複数回のVLM呼び出しが必要。リアルタイムアプリケーションに影響の可能性
  2. 評価の制限:主に室内シーンで評価。大規模屋外検証が不足
  3. 依存性が強い:VLM品質に高度に依存。モデルバイアスの影響を受ける可能性
  4. メモリ要件:豊かなセマンティック情報の保存がメモリ圧力をもたらす可能性

影響力

  1. 学術的貢献:3Dシーン理解に新しい研究方向を提供
  2. 実用的価値:サービスロボットなど実際のアプリケーションに直接適用可能
  3. 再現性:詳細な実装詳細とプロジェクトページを提供

適用シーン

  1. 室内サービスロボット:家庭、オフィス環境でのナビゲーションと操作
  2. 拡張現実アプリケーション:豊かなセマンティック理解が必要なAR システム
  3. インテリジェント監視:セマンティックベースのシーン理解と異常検出
  4. 支援技術:視覚障害者向けの環境説明

参考文献

論文は3Dシーン表現、視覚グラウンディング、ロボティクスなど複数の分野の重要な研究を含む40篇の関連文献を引用し、読者に包括的な背景知識を提供している。


総合評価:これは3D視覚グラウンディング分野における高品質な研究論文である。DSMフレームワークは幾何学的精度とセマンティック豊かさを成功裏に結合し、複雑な環境におけるロボットの理解と相互作用のための強力な技術サポートを提供する。計算と適用可能性の面でいくつかの制限があるが、技術革新と実験検証の両面で優れており、この分野の発展に重要な推進力をもたらす。