Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
- 論文ID: 2510.13375
- タイトル: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
- 著者: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
- 所属機関: IIIS, Tsinghua University & Galaxea AI
- 分類: cs.CV (コンピュータビジョン)
- 発表日: 2025年10月15日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.13375
ビジョン言語行動 (VLA) モデルは汎用性と言語誘導操作タスクで優れた性能を示していますが、精密な空間推論が必要なタスクではパフォーマンスが低下しています。これは視覚言語モデル (VLM) から継承された限定的な空間推論能力に起因しています。既存のVLAは、VLMを3D空間に位置付けるために大規模な行動データの事前学習に依存しており、これは訓練効率を低下させ、正確な空間理解を実現するには不十分です。本論文では、事前学習された深度予測モジュールを通じて明示的に空間認識能力を統合する、シンプルで効果的なVLAアーキテクチャであるDepthVLAを提案します。DepthVLAは混合Transformerデザインを採用し、VLM、深度Transformer、および行動専門家を統合し、完全に共有された注意機構を通じてエンドツーエンドモデルを形成し、空間推論能力を強化しています。実世界およびシミュレーション環境における広範な評価により、DepthVLAは最先端の方法を上回り、実世界タスクで78.5% vs 65.0%の進捗、LIBEROシミュレータで94.9% vs 93.6%、Simplerシミュレータで74.8% vs 58.8%を達成しています。
既存のビジョン言語行動 (VLA) モデルは、精密な空間推論が必要なロボット操作タスクでパフォーマンスが不十分です。主な理由は以下の通りです:
- 空間推論能力の限定性: VLAはVLMの空間推論の制限を継承しており、精密操作タスクでは不十分です
- 訓練効率の低さ: 既存の方法は、VLMを3D空間に位置付けるために大量の行動データの事前学習に依存していますが、空間情報を十分に理解することができません
- 実用的な困難さ: VLAは小物体の把握、精密操作の実行、または衝突回避において頻繁に失敗します
精密な空間推論はロボット操作に不可欠です。特に以下の場面で重要です:
- 小物体または精密操作の把握
- 衝突回避経路計画
- 精密な位置推定が必要なスタッキングタスク
- 複雑な環境における多段階操作
- 生成的世界モデル手法: 明示的な3D知識が欠けており、現在のシーン符号化の改善が限定的です
- Chain-of-Thought推論: 著しい遅延 (2秒以上) を導入し、数百の空間トークンの自己回帰生成が必要です
- 外部深度推定器: SpatialVLAなどの既製の深度推定器を使用していますが、VLAとエンドツーエンドで最適化されておらず、パフォーマンスの上限を制限しています
- DepthVLAアーキテクチャ: 事前学習された深度予測専門家を混合Transformerフレームワークに統合し、VLMの意味的基盤を保持しながら明示的な空間推論を実現する新規VLAモデルを提案
- 専門家別事前学習戦略: 混合Transformerデザインにより、各専門家 (VLMと深度) を異なるデータセット上で個別に事前学習でき、訓練効率を向上させ、具体化された行動データを超えたスケーラビリティを実現
- 包括的な実世界およびシミュレーション検証: 実世界およびシミュレーション環境 (LIBERO、Simpler) でDepthVLAが最先端のVLAを大幅に上回ることを検証し、把握精度、衝突回避、および全体的なタスク成功率において顕著な改善を達成
標準的なエンドツーエンドVLA設定に従い、ポリシーπθは現在の観察ot (1つ以上のカメラから)、言語指令l、および固有感覚状態stに基づいてk長の行動シーケンスAtを予測します:
DepthVLAは3つの専門家を統合した混合Transformer (MoT) アーキテクチャを採用しています:
- VLM専門家: 観察と言語指令を符号化し、意味的および言語的基礎特徴を捕捉
- 深度専門家: 観察を処理して幾何情報を推論
- 行動専門家: 意味的および幾何的専門家の組み合わせ特徴に基づいて連続行動を生成
- エンコーダ-デコーダアーキテクチャ: エンコーダはDINOv2に基づき、Depth Anything V2の事前学習チェックポイントから初期化
- デコーダ構造: VLMのTransformer構造と一致し、線形ヘッドを通じて深度予測を出力
- 中間特徴の活用: すべての中間層で空間推論を実行し、行動予測に豊富な幾何的手がかりを提供
ブロックレベルのマスキング戦略を採用:
- VLMおよび深度専門家のトークンは自身のみに注目
- 行動トークンはすべてのストリームに注目可能
- 事前学習モジュールの学習能力を保持しながら意味的および空間的手がかりを融合
暗黙的手法とは異なり、DepthVLAは専門の深度専門家を通じて明示的な3D幾何理解を提供し、大量の行動データへの依存を回避します。
- 異なる専門家が各自に最適なデータ上で事前学習可能
- 共有注意層を通じた効果的な融合
- 各専門家の専門性を保持
深度専門家はVLAと共同訓練され、組み合わせ損失を使用します:
ここでLsiはスケール不変深度損失、Lflowはフロー整合損失です。
- 事前学習データセット:
- 深度専門家: WildRGB-D、ScanNet、ScanNet++、HyperSim
- VLA: Galaxea Open-World Dataset (100k軌跡)、BridgeData V2 (60k軌跡)
- 評価データセット:
- Simpler WidowX: 4つのタスクスイート、120試行
- LIBERO: 4つのタスクスイート (Spatial/Object/Goal/Long)、2000試行
- 実世界: 3つのベンチマークタスク、各タスク20回実行
- 成功率: タスク完了の百分率
- 進捗スコア: 各成功サブステップが1ポイント貢献し、すべての実行で平均化
- Diffusion Policy
- Octo-Base
- SpatialVLA
- π0 (再実装)
- OpenVLA
- CoT-VLA
- MolmoACT
- DreamVLA
- モデル: VLMバックボーンとしてPaligemma-3B、深度エンコーダとしてDINOv2-L
- 訓練: 32個のNVIDIA H100 GPU、AdamWオプティマイザ
- 推論: NVIDIA 4090 GPU、BF16混合精度、210msレイテンシ
| モデル | 事前学習 | スプーン配置 | ニンジン配置 | ブロック積み重ね | ナス把握 | 平均 |
|---|
| π0 (再実装) | × | 81.7% | 64.2% | 30.0% | 59.2% | 58.8% |
| DepthVLA | × | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
| モデル | 事前学習 | 空間的 | オブジェクト | 目標 | 長期 | 平均 |
|---|
| π0 (再実装) | × | 95.8% | 96.4% | 94.8% | 87.4% | 93.6% |
| DepthVLA | × | 96.4% | 98.0% | 95.8% | 89.2% | 94.9% |
- 全体パフォーマンス: DepthVLAは平均進捗スコアで79% vs ベースライン65%を達成
- 電子レンジ操作: 衝突回避において優れたパフォーマンスを示す
- 積み木: 優れた空間認識能力を実証
- テーブル整理: 小物体把握タスクで同等のパフォーマンス
| 設定 | スプーン | ニンジン | ブロック | ナス | 平均 |
|---|
| 深度専門家ランダム初期化 | 60.0% | 60.8% | 43.3% | 40.0% | 51.0% |
| 深度損失を削除 | 69.2% | 60% | 28.3% | 70.0% | 56.9% |
| 深度専門家を凍結 | 65.8% | 69.2% | 74.2% | 78.3% | 71.9% |
| ブロックレベルマスキングを削除 | 66.7% | 65.0% | 2.5% | 88.3% | 55.6% |
| DepthVLA完全版 | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
- 深度事前学習は重要: ランダム初期化された深度専門家はパフォーマンスが大幅に低下
- 深度損失は必要: 深度損失を削除するとパフォーマンスが低下
- ブロックレベルマスキングは効果的: 専門家の独立性を保持することはパフォーマンスに重要
- 予測は直接入力より優れている: 予測深度は実深度を直接使用するより効果的
単一タスク専門家から汎用モデルへの発展は、大規模言語モデル、視覚言語モデル、および大規模ロボット行動データセットの進歩によって推進されています。初期のVLAはVLMの微調整を通じて自己回帰的に行動トークンを生成し、最新のVLAは拡散ベースの行動専門家を採用しています。
- 初期手法: LiDARまたはRGB-Dカメラなどの追加3D入力を使用していますが、プラットフォーム間の汎用性を低下させます
- SpatialVLA: 既製の深度推定器を使用して疑似点群を生成していますが、エンドツーエンドで最適化されていません
- 生成的世界モデル: 将来フレーム、キーポイント、または意味的状態を予測していますが、現在のシーン符号化の改善は限定的です
- CoT推論: 深度トークンを自己回帰的に生成していますが、高レイテンシを導入します
近年の3D認識の進歩は、単眼またはマルチビュー画像から幾何を推論する強力な能力を示しており、VLAの空間推論改善の可能性を提供しています。
- 明示的空間推論は効果的: 事前学習された深度専門家を通じた明示的空間推論は、精密操作タスクでのVLAパフォーマンスを大幅に向上させます
- 混合専門家設計は優れている: 異なる専門家が各自に最適なデータ上で事前学習でき、効率を向上させます
- エンドツーエンド最適化は重要: 深度予測と行動生成の共同最適化は外部深度推定器の使用より効果的です
- 単眼深度予測の課題: 困難なシーン (微小なエッジ、反射または透明物体、テクスチャなし表面) ではまだ失敗する可能性があります
- 計算オーバーヘッド: 600Mパラメータを追加し、推論レイテンシを20ms増加させます
- 深度ラベルへの依存: 訓練用の疑似深度ラベル生成が必要です
- マルチビュー深度予測: マルチビュー深度または点図予測を探索して空間精度とロバスト性を強化
- より効率的なアーキテクチャ: パフォーマンスを保持しながら計算オーバーヘッドを削減
- 教師なし空間学習: 深度ラベルへの依存を削減
- 方法の革新性が強い: 事前学習された深度専門家をVLAに効果的に統合し、明示的空間推論を提供する最初の試み
- 実験が充分で包括的: 実世界および複数のシミュレーション環境を含み、詳細なアブレーション研究を含む
- パフォーマンス向上が顕著: すべてのテスト環境で一貫したパフォーマンス改善を達成
- 設計が合理的: 混合専門家アーキテクチャは各専門家の専門性を保持しながら効果的な融合を実現
- 実用性が強い: 推論レイテンシの増加がわずかで、リアルタイム展開に適しています
- 深度品質への依存: パフォーマンスは深度予測品質に制限され、困難なシーンで失敗する可能性があります
- ラベル生成コスト: 訓練データ用の疑似深度ラベル生成が必要で、データ準備コストを増加させます
- 理論分析の不足: 深度予測が直接入力深度より効果的である理由についての深い理論分析が欠けています
- 汎化性検証の限定: 主に特定タイプの操作タスクで検証され、他のタイプのタスクへの汎化性にはさらなる検証が必要です
- 領域への貢献: VLAの空間推論強化のための新しい効果的な方法を提供し、後続研究の方向性に影響を与える可能性があります
- 実用的価値: 方法はシンプルで効果的であり、既存のVLAシステムに容易に実装できます
- 再現性: 著者はコード公開を約束しており、研究の再現と今後の発展に有利です
- 精密操作タスク: 特に精密な空間推論が必要なロボット操作タスクに適しています
- マルチモーダルロボットシステム: RGBカメラを備えた様々なロボットプラットフォームに適用可能
- 産業応用: 製造業、サービスロボットなど精密操作が必要なシーンでの応用可能性があります
論文は豊富な関連研究を引用しており、以下を含みます:
- VLAモデル: OpenVLA、π0、Octoなど
- 空間認識手法: SpatialVLA、CoT-VLAなど
- 3D認識モデル: Depth Anything V2、DINOv2など
- 評価ベンチマーク: LIBERO、Simpler、BridgeData V2など
総合評価: これは高品質の研究論文であり、VLAの空間推論能力を強化するためのシンプルで効果的な方法を提案しています。実験設計は充分で、結果は説得力があり、ロボット操作領域に対して重要な実用的価値と研究的意義を持っています。