2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

基本信息

论文ID: 2510.13375
标题: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
作者: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
机构: IIIS, Tsinghua University & Galaxea AI
分类: cs.CV (Computer Vision)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13375

摘要

Vision-Language-Action (VLA) 模型在通用化和语言引导的操作任务中表现出色，但在需要精确空间推理的任务上性能下降，这源于从视觉语言模型(VLMs)继承的有限空间推理能力。现有VLA依赖大规模动作数据预训练来将VLM定位到3D空间，这降低了训练效率且仍不足以实现准确的空间理解。本文提出DepthVLA，这是一个简单而有效的VLA架构，通过预训练的深度预测模块显式地融合空间感知能力。DepthVLA采用混合Transformer设计，统一了VLM、深度Transformer和动作专家，通过完全共享的注意力机制形成端到端模型，增强了空间推理能力。在真实世界和仿真环境中的大量评估显示，DepthVLA超越了最先进的方法，在真实世界任务中达到78.5% vs 65.0%的进度，在LIBERO仿真器中达到94.9% vs 93.6%，在Simpler仿真器中达到74.8% vs 58.8%。

研究背景与动机

核心问题

现有的Vision-Language-Action (VLA) 模型在需要精确空间推理的机器人操作任务上表现不佳，主要原因是：

空间推理能力有限：VLA继承了VLM的空间推理局限性，在精确操作任务中表现不足
训练效率低：现有方法依赖大量动作数据预训练来在3D空间中定位VLM，但仍无法充分理解空间信息
实际应用困难：VLA在抓取小物体、执行精确操作或避免碰撞方面经常失败

问题重要性

精确的空间推理对机器人操作至关重要，特别是在：

抓取小物体或精细操作
避免碰撞的路径规划
需要精确位置估计的堆叠任务
复杂环境中的多步骤操作

现有方法局限性

生成式世界模型方法：缺乏显式的3D知识，对当前场景编码改善有限
Chain-of-Thought推理：引入显著延迟（超过2秒），需要自回归生成数百个空间token
外部深度估计器：如SpatialVLA使用现成的深度估计器，但未与VLA端到端优化，限制了性能上限

核心贡献

DepthVLA架构：提出新颖的VLA模型，将预训练深度预测专家集成到混合Transformer框架中，实现显式空间推理同时保持VLM的语义基础
分专家预训练策略：混合Transformer设计允许每个专家（VLM和深度）在不同数据集上分别预训练，提高训练效率和超越具身动作数据的可扩展性
全面的真实世界和仿真验证：在真实世界和仿真环境（LIBERO、Simpler）中验证DepthVLA显著优于最先进的VLA，在抓取精度、碰撞避免和整体任务成功率方面取得显著提升

方法详解

任务定义

遵循标准端到端VLA设置，策略πθ根据当前观察ot（来自一个或多个摄像头）、语言指令l和本体感受状态st预测k长度的动作块At：

At = πθ(ot, l, st)

模型架构

DepthVLA采用混合Transformer (MoT) 架构，集成三个专家：

1. 整体设计

VLM专家：编码观察和语言指令，捕获语义和语言基础特征
深度专家：处理观察以推断几何信息
动作专家：基于语义和几何专家的组合特征生成连续动作

2. 深度专家设计

编码器-解码器架构：编码器基于DINOv2，从Depth Anything V2预训练检查点初始化
解码器结构：与VLM的Transformer结构相匹配，通过线性头输出深度预测
中间特征利用：在所有中间层执行空间推理，为动作预测提供丰富的几何线索

3. 注意力机制

采用块级掩码策略：

VLM和深度专家的token只关注自身
动作token可以关注所有流
保持预训练模块的学习能力同时融合语义和空间线索

允许不同专家在各自最适合的数据上预训练
通过共享注意力层实现有效融合
保持各专家的专业能力

3. 端到端优化

深度专家与VLA联合训练，使用组合损失：

L = Lsi + Lflow

其中Lsi是尺度不变深度损失，Lflow是流匹配损失。

实验设置

数据集

预训练数据集：
- 深度专家：WildRGB-D、ScanNet、ScanNet++、HyperSim
- VLA：Galaxea Open-World Dataset (100k轨迹)、BridgeData V2 (60k轨迹)
评估数据集：
- Simpler WidowX：4个任务套件，120次试验
- LIBERO：4个任务套件（Spatial/Object/Goal/Long），2000次试验
- 真实世界：3个基准任务，每任务20次运行

评价指标

成功率：任务完成的百分比
进度分数：每个成功子步骤贡献一分，平均所有运行

对比方法

Diffusion Policy
Octo-Base
SpatialVLA
π0 (重新实现)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

实现细节

模型：Paligemma-3B作为VLM骨干，DINOv2-L作为深度编码器
训练：32个NVIDIA H100 GPU，AdamW优化器
推理：NVIDIA 4090 GPU，BF16混合精度，210ms延迟

模型	预训练	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	平均
π0 (重新实现)	×	81.7%	64.2%	30.0%	59.2%	58.8%
DepthVLA	×	75.8%	71.7%	62.5%	89.2%	74.8%

2. LIBERO基准测试

模型	预训练	Spatial	Object	Goal	Long	平均
π0 (重新实现)	×	95.8%	96.4%	94.8%	87.4%	93.6%
DepthVLA	×	96.4%	98.0%	95.8%	89.2%	94.9%

3. 真实世界基准测试

整体表现：DepthVLA达到79% vs 基线65%的平均进度分数
微波操作：在碰撞避免方面表现出色
积木堆叠：展现出色的空间感知能力
桌面整理：在小物体抓取任务上表现相当

消融实验

设置	Spoon	Carrot	Block	Eggplant	平均
深度专家随机初始化	60.0%	60.8%	43.3%	40.0%	51.0%
移除深度损失	69.2%	60%	28.3%	70.0%	56.9%
冻结深度专家	65.8%	69.2%	74.2%	78.3%	71.9%
移除块级掩码	66.7%	65.0%	2.5%	88.3%	55.6%
DepthVLA完整版	75.8%	71.7%	62.5%	89.2%	74.8%