2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: 深度認識空間推論によるビジョン言語行動モデルの強化

基本情報

論文ID: 2510.13375
タイトル: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
著者: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
所属機関: IIIS, Tsinghua University & Galaxea AI
分類: cs.CV (コンピュータビジョン)
発表日: 2025年10月15日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.13375

要約

ビジョン言語行動 (VLA) モデルは汎用性と言語誘導操作タスクで優れた性能を示していますが、精密な空間推論が必要なタスクではパフォーマンスが低下しています。これは視覚言語モデル (VLM) から継承された限定的な空間推論能力に起因しています。既存のVLAは、VLMを3D空間に位置付けるために大規模な行動データの事前学習に依存しており、これは訓練効率を低下させ、正確な空間理解を実現するには不十分です。本論文では、事前学習された深度予測モジュールを通じて明示的に空間認識能力を統合する、シンプルで効果的なVLAアーキテクチャであるDepthVLAを提案します。DepthVLAは混合Transformerデザインを採用し、VLM、深度Transformer、および行動専門家を統合し、完全に共有された注意機構を通じてエンドツーエンドモデルを形成し、空間推論能力を強化しています。実世界およびシミュレーション環境における広範な評価により、DepthVLAは最先端の方法を上回り、実世界タスクで78.5% vs 65.0%の進捗、LIBEROシミュレータで94.9% vs 93.6%、Simplerシミュレータで74.8% vs 58.8%を達成しています。

研究背景と動機

核心問題

既存のビジョン言語行動 (VLA) モデルは、精密な空間推論が必要なロボット操作タスクでパフォーマンスが不十分です。主な理由は以下の通りです:

空間推論能力の限定性: VLAはVLMの空間推論の制限を継承しており、精密操作タスクでは不十分です
訓練効率の低さ: 既存の方法は、VLMを3D空間に位置付けるために大量の行動データの事前学習に依存していますが、空間情報を十分に理解することができません
実用的な困難さ: VLAは小物体の把握、精密操作の実行、または衝突回避において頻繁に失敗します

問題の重要性

精密な空間推論はロボット操作に不可欠です。特に以下の場面で重要です:

小物体または精密操作の把握
衝突回避経路計画
精密な位置推定が必要なスタッキングタスク
複雑な環境における多段階操作

既存手法の限界

生成的世界モデル手法: 明示的な3D知識が欠けており、現在のシーン符号化の改善が限定的です
Chain-of-Thought推論: 著しい遅延 (2秒以上) を導入し、数百の空間トークンの自己回帰生成が必要です
外部深度推定器: SpatialVLAなどの既製の深度推定器を使用していますが、VLAとエンドツーエンドで最適化されておらず、パフォーマンスの上限を制限しています

核心貢献

DepthVLAアーキテクチャ: 事前学習された深度予測専門家を混合Transformerフレームワークに統合し、VLMの意味的基盤を保持しながら明示的な空間推論を実現する新規VLAモデルを提案
専門家別事前学習戦略: 混合Transformerデザインにより、各専門家 (VLMと深度) を異なるデータセット上で個別に事前学習でき、訓練効率を向上させ、具体化された行動データを超えたスケーラビリティを実現
包括的な実世界およびシミュレーション検証: 実世界およびシミュレーション環境 (LIBERO、Simpler) でDepthVLAが最先端のVLAを大幅に上回ることを検証し、把握精度、衝突回避、および全体的なタスク成功率において顕著な改善を達成

方法の詳細

タスク定義

標準的なエンドツーエンドVLA設定に従い、ポリシーπθは現在の観察ot (1つ以上のカメラから)、言語指令l、および固有感覚状態stに基づいてk長の行動シーケンスAtを予測します:

At = πθ(ot, l, st)

モデルアーキテクチャ

DepthVLAは3つの専門家を統合した混合Transformer (MoT) アーキテクチャを採用しています:

1. 全体設計

VLM専門家: 観察と言語指令を符号化し、意味的および言語的基礎特徴を捕捉
深度専門家: 観察を処理して幾何情報を推論
行動専門家: 意味的および幾何的専門家の組み合わせ特徴に基づいて連続行動を生成

2. 深度専門家設計

エンコーダ-デコーダアーキテクチャ: エンコーダはDINOv2に基づき、Depth Anything V2の事前学習チェックポイントから初期化
デコーダ構造: VLMのTransformer構造と一致し、線形ヘッドを通じて深度予測を出力
中間特徴の活用: すべての中間層で空間推論を実行し、行動予測に豊富な幾何的手がかりを提供

3. 注意機構

ブロックレベルのマスキング戦略を採用:

VLMおよび深度専門家のトークンは自身のみに注目
行動トークンはすべてのストリームに注目可能
事前学習モジュールの学習能力を保持しながら意味的および空間的手がかりを融合

技術的革新点

1. 明示的空間推論

暗黙的手法とは異なり、DepthVLAは専門の深度専門家を通じて明示的な3D幾何理解を提供し、大量の行動データへの依存を回避します。

2. 混合専門家設計

異なる専門家が各自に最適なデータ上で事前学習可能
共有注意層を通じた効果的な融合
各専門家の専門性を保持

3. エンドツーエンド最適化

深度専門家はVLAと共同訓練され、組み合わせ損失を使用します:

L = Lsi + Lflow

ここでLsiはスケール不変深度損失、Lflowはフロー整合損失です。

実験設定

データセット

事前学習データセット:
- 深度専門家: WildRGB-D、ScanNet、ScanNet++、HyperSim
- VLA: Galaxea Open-World Dataset (100k軌跡)、BridgeData V2 (60k軌跡)
評価データセット:
- Simpler WidowX: 4つのタスクスイート、120試行
- LIBERO: 4つのタスクスイート (Spatial/Object/Goal/Long)、2000試行
- 実世界: 3つのベンチマークタスク、各タスク20回実行

評価指標

成功率: タスク完了の百分率
進捗スコア: 各成功サブステップが1ポイント貢献し、すべての実行で平均化

比較手法

Diffusion Policy
Octo-Base
SpatialVLA
π0 (再実装)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

実装詳細

モデル: VLMバックボーンとしてPaligemma-3B、深度エンコーダとしてDINOv2-L
訓練: 32個のNVIDIA H100 GPU、AdamWオプティマイザ
推論: NVIDIA 4090 GPU、BF16混合精度、210msレイテンシ

実験結果

主要結果

1. Simpler WidowXベンチマーク

モデル	事前学習	スプーン配置	ニンジン配置	ブロック積み重ね	ナス把握	平均
π0 (再実装)	×	81.7%	64.2%	30.0%	59.2%	58.8%
DepthVLA	×	75.8%	71.7%	62.5%	89.2%	74.8%

2. LIBEROベンチマーク

モデル	事前学習	空間的	オブジェクト	目標	長期	平均
π0 (再実装)	×	95.8%	96.4%	94.8%	87.4%	93.6%
DepthVLA	×	96.4%	98.0%	95.8%	89.2%	94.9%

3. 実世界ベンチマーク

全体パフォーマンス: DepthVLAは平均進捗スコアで79% vs ベースライン65%を達成
電子レンジ操作: 衝突回避において優れたパフォーマンスを示す
積み木: 優れた空間認識能力を実証
テーブル整理: 小物体把握タスクで同等のパフォーマンス

アブレーション研究

設定	スプーン	ニンジン	ブロック	ナス	平均
深度専門家ランダム初期化	60.0%	60.8%	43.3%	40.0%	51.0%
深度損失を削除	69.2%	60%	28.3%	70.0%	56.9%
深度専門家を凍結	65.8%	69.2%	74.2%	78.3%	71.9%
ブロックレベルマスキングを削除	66.7%	65.0%	2.5%	88.3%	55.6%
DepthVLA完全版	75.8%	71.7%	62.5%	89.2%	74.8%