Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
academic- 论文ID: 2510.13375
- 标题: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
- 作者: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
- 机构: IIIS, Tsinghua University & Galaxea AI
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年10月15日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.13375
Vision-Language-Action (VLA) 模型在通用化和语言引导的操作任务中表现出色,但在需要精确空间推理的任务上性能下降,这源于从视觉语言模型(VLMs)继承的有限空间推理能力。现有VLA依赖大规模动作数据预训练来将VLM定位到3D空间,这降低了训练效率且仍不足以实现准确的空间理解。本文提出DepthVLA,这是一个简单而有效的VLA架构,通过预训练的深度预测模块显式地融合空间感知能力。DepthVLA采用混合Transformer设计,统一了VLM、深度Transformer和动作专家,通过完全共享的注意力机制形成端到端模型,增强了空间推理能力。在真实世界和仿真环境中的大量评估显示,DepthVLA超越了最先进的方法,在真实世界任务中达到78.5% vs 65.0%的进度,在LIBERO仿真器中达到94.9% vs 93.6%,在Simpler仿真器中达到74.8% vs 58.8%。
现有的Vision-Language-Action (VLA) 模型在需要精确空间推理的机器人操作任务上表现不佳,主要原因是:
- 空间推理能力有限:VLA继承了VLM的空间推理局限性,在精确操作任务中表现不足
- 训练效率低:现有方法依赖大量动作数据预训练来在3D空间中定位VLM,但仍无法充分理解空间信息
- 实际应用困难:VLA在抓取小物体、执行精确操作或避免碰撞方面经常失败
精确的空间推理对机器人操作至关重要,特别是在:
- 抓取小物体或精细操作
- 避免碰撞的路径规划
- 需要精确位置估计的堆叠任务
- 复杂环境中的多步骤操作
- 生成式世界模型方法:缺乏显式的3D知识,对当前场景编码改善有限
- Chain-of-Thought推理:引入显著延迟(超过2秒),需要自回归生成数百个空间token
- 外部深度估计器:如SpatialVLA使用现成的深度估计器,但未与VLA端到端优化,限制了性能上限
- DepthVLA架构:提出新颖的VLA模型,将预训练深度预测专家集成到混合Transformer框架中,实现显式空间推理同时保持VLM的语义基础
- 分专家预训练策略:混合Transformer设计允许每个专家(VLM和深度)在不同数据集上分别预训练,提高训练效率和超越具身动作数据的可扩展性
- 全面的真实世界和仿真验证:在真实世界和仿真环境(LIBERO、Simpler)中验证DepthVLA显著优于最先进的VLA,在抓取精度、碰撞避免和整体任务成功率方面取得显著提升
遵循标准端到端VLA设置,策略πθ根据当前观察ot(来自一个或多个摄像头)、语言指令l和本体感受状态st预测k长度的动作块At:
DepthVLA采用混合Transformer (MoT) 架构,集成三个专家:
- VLM专家:编码观察和语言指令,捕获语义和语言基础特征
- 深度专家:处理观察以推断几何信息
- 动作专家:基于语义和几何专家的组合特征生成连续动作
- 编码器-解码器架构:编码器基于DINOv2,从Depth Anything V2预训练检查点初始化
- 解码器结构:与VLM的Transformer结构相匹配,通过线性头输出深度预测
- 中间特征利用:在所有中间层执行空间推理,为动作预测提供丰富的几何线索
采用块级掩码策略:
- VLM和深度专家的token只关注自身
- 动作token可以关注所有流
- 保持预训练模块的学习能力同时融合语义和空间线索
与隐式方法不同,DepthVLA通过专门的深度专家提供显式的3D几何理解,避免了对大量动作数据的依赖。
- 允许不同专家在各自最适合的数据上预训练
- 通过共享注意力层实现有效融合
- 保持各专家的专业能力
深度专家与VLA联合训练,使用组合损失:
其中Lsi是尺度不变深度损失,Lflow是流匹配损失。
- 预训练数据集:
- 深度专家:WildRGB-D、ScanNet、ScanNet++、HyperSim
- VLA:Galaxea Open-World Dataset (100k轨迹)、BridgeData V2 (60k轨迹)
- 评估数据集:
- Simpler WidowX:4个任务套件,120次试验
- LIBERO:4个任务套件(Spatial/Object/Goal/Long),2000次试验
- 真实世界:3个基准任务,每任务20次运行
- 成功率:任务完成的百分比
- 进度分数:每个成功子步骤贡献一分,平均所有运行
- Diffusion Policy
- Octo-Base
- SpatialVLA
- π0 (重新实现)
- OpenVLA
- CoT-VLA
- MolmoACT
- DreamVLA
- 模型:Paligemma-3B作为VLM骨干,DINOv2-L作为深度编码器
- 训练:32个NVIDIA H100 GPU,AdamW优化器
- 推理:NVIDIA 4090 GPU,BF16混合精度,210ms延迟
| 模型 | 预训练 | Put Spoon | Put Carrot | Stack Block | Pick Eggplant | 平均 |
|---|
| π0 (重新实现) | × | 81.7% | 64.2% | 30.0% | 59.2% | 58.8% |
| DepthVLA | × | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
| 模型 | 预训练 | Spatial | Object | Goal | Long | 平均 |
|---|
| π0 (重新实现) | × | 95.8% | 96.4% | 94.8% | 87.4% | 93.6% |
| DepthVLA | × | 96.4% | 98.0% | 95.8% | 89.2% | 94.9% |
- 整体表现:DepthVLA达到79% vs 基线65%的平均进度分数
- 微波操作:在碰撞避免方面表现出色
- 积木堆叠:展现出色的空间感知能力
- 桌面整理:在小物体抓取任务上表现相当
| 设置 | Spoon | Carrot | Block | Eggplant | 平均 |
|---|
| 深度专家随机初始化 | 60.0% | 60.8% | 43.3% | 40.0% | 51.0% |
| 移除深度损失 | 69.2% | 60% | 28.3% | 70.0% | 56.9% |
| 冻结深度专家 | 65.8% | 69.2% | 74.2% | 78.3% | 71.9% |
| 移除块级掩码 | 66.7% | 65.0% | 2.5% | 88.3% | 55.6% |
| DepthVLA完整版 | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
- 深度预训练至关重要:随机初始化的深度专家性能显著下降
- 深度损失必要:移除深度损失导致性能下降
- 块级掩码有效:保持专家独立性对性能至关重要
- 预测优于直接输入:预测深度比直接使用真实深度效果更好
从单任务专家发展到通用模型,由大语言模型、视觉语言模型和大规模机器人动作数据集的进步推动。早期VLA通过微调VLM自回归生成动作token,最新的VLA采用基于扩散的动作专家。
- 早期方法:使用LiDAR或RGB-D相机等额外3D输入,但降低了跨平台通用性
- SpatialVLA:使用现成深度估计器生成伪点云,但未端到端优化
- 生成式世界模型:预测未来帧、关键点或语义状态,但对当前场景编码改善有限
- CoT推理:自回归生成深度token,但引入高延迟
近年来3D感知的进步展现了从单目或多视角图像推断几何的强大能力,为改善VLA空间推理提供了潜力。
- 显式空间推理有效:通过预训练深度专家显著提升VLA在精确操作任务上的性能
- 混合专家设计优越:允许不同专家在各自最适合的数据上预训练,提高效率
- 端到端优化关键:联合优化深度预测和动作生成比使用外部深度估计器更有效
- 单目深度预测挑战:在困难场景(微小边缘、反射或透明物体、无纹理表面)中仍可能失败
- 计算开销:增加了600M参数和20ms推理延迟
- 依赖深度标签:需要生成伪深度标签进行训练
- 多视角深度预测:探索多视角深度或点图预测以增强空间精度和鲁棒性
- 更高效的架构:减少计算开销同时保持性能
- 无监督空间学习:减少对深度标签的依赖
- 方法创新性强:首次将预训练深度专家有效集成到VLA中,提供显式空间推理
- 实验充分全面:涵盖真实世界和多个仿真环境,包含详细的消融研究
- 性能提升显著:在所有测试环境中都取得了一致的性能改进
- 设计合理:混合专家架构既保持了各专家的专业能力,又实现了有效融合
- 实用性强:推理延迟增加很小,适合实时部署
- 深度质量依赖:性能受深度预测质量限制,在挑战性场景中可能失败
- 标签生成成本:需要为训练数据生成伪深度标签,增加了数据准备成本
- 理论分析不足:缺乏对为什么深度预测比直接输入深度更有效的深入理论分析
- 泛化性验证有限:主要在特定类型的操作任务上验证,对其他类型任务的泛化性需要更多验证
- 领域贡献:为VLA增强空间推理提供了新的有效方法,可能影响后续研究方向
- 实用价值:方法简单有效,易于在现有VLA系统中实现
- 可复现性:作者承诺公开代码,有利于研究复现和进一步发展
- 精确操作任务:特别适合需要精确空间推理的机器人操作任务
- 多模态机器人系统:适用于具有RGB摄像头的各种机器人平台
- 工业应用:在制造业、服务机器人等需要精确操作的场景中具有应用潜力
论文引用了丰富的相关工作,包括:
- VLA模型:OpenVLA、π0、Octo等
- 空间感知方法:SpatialVLA、CoT-VLA等
- 3D感知模型:Depth Anything V2、DINOv2等
- 评估基准:LIBERO、Simpler、BridgeData V2等
总体评价:这是一篇高质量的研究论文,提出了简单而有效的方法来增强VLA的空间推理能力。实验设计充分,结果令人信服,对机器人操作领域具有重要的实用价值和研究意义。