2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.
Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
academic

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

基本信息

  • 论文ID: 2510.13375
  • 标题: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
  • 作者: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
  • 机构: IIIS, Tsinghua University & Galaxea AI
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13375

摘要

Vision-Language-Action (VLA) 模型在通用化和语言引导的操作任务中表现出色,但在需要精确空间推理的任务上性能下降,这源于从视觉语言模型(VLMs)继承的有限空间推理能力。现有VLA依赖大规模动作数据预训练来将VLM定位到3D空间,这降低了训练效率且仍不足以实现准确的空间理解。本文提出DepthVLA,这是一个简单而有效的VLA架构,通过预训练的深度预测模块显式地融合空间感知能力。DepthVLA采用混合Transformer设计,统一了VLM、深度Transformer和动作专家,通过完全共享的注意力机制形成端到端模型,增强了空间推理能力。在真实世界和仿真环境中的大量评估显示,DepthVLA超越了最先进的方法,在真实世界任务中达到78.5% vs 65.0%的进度,在LIBERO仿真器中达到94.9% vs 93.6%,在Simpler仿真器中达到74.8% vs 58.8%。

研究背景与动机

核心问题

现有的Vision-Language-Action (VLA) 模型在需要精确空间推理的机器人操作任务上表现不佳,主要原因是:

  1. 空间推理能力有限:VLA继承了VLM的空间推理局限性,在精确操作任务中表现不足
  2. 训练效率低:现有方法依赖大量动作数据预训练来在3D空间中定位VLM,但仍无法充分理解空间信息
  3. 实际应用困难:VLA在抓取小物体、执行精确操作或避免碰撞方面经常失败

问题重要性

精确的空间推理对机器人操作至关重要,特别是在:

  • 抓取小物体或精细操作
  • 避免碰撞的路径规划
  • 需要精确位置估计的堆叠任务
  • 复杂环境中的多步骤操作

现有方法局限性

  1. 生成式世界模型方法:缺乏显式的3D知识,对当前场景编码改善有限
  2. Chain-of-Thought推理:引入显著延迟(超过2秒),需要自回归生成数百个空间token
  3. 外部深度估计器:如SpatialVLA使用现成的深度估计器,但未与VLA端到端优化,限制了性能上限

核心贡献

  1. DepthVLA架构:提出新颖的VLA模型,将预训练深度预测专家集成到混合Transformer框架中,实现显式空间推理同时保持VLM的语义基础
  2. 分专家预训练策略:混合Transformer设计允许每个专家(VLM和深度)在不同数据集上分别预训练,提高训练效率和超越具身动作数据的可扩展性
  3. 全面的真实世界和仿真验证:在真实世界和仿真环境(LIBERO、Simpler)中验证DepthVLA显著优于最先进的VLA,在抓取精度、碰撞避免和整体任务成功率方面取得显著提升

方法详解

任务定义

遵循标准端到端VLA设置,策略πθ根据当前观察ot(来自一个或多个摄像头)、语言指令l和本体感受状态st预测k长度的动作块At:

At = πθ(ot, l, st)

模型架构

DepthVLA采用混合Transformer (MoT) 架构,集成三个专家:

1. 整体设计

  • VLM专家:编码观察和语言指令,捕获语义和语言基础特征
  • 深度专家:处理观察以推断几何信息
  • 动作专家:基于语义和几何专家的组合特征生成连续动作

2. 深度专家设计

  • 编码器-解码器架构:编码器基于DINOv2,从Depth Anything V2预训练检查点初始化
  • 解码器结构:与VLM的Transformer结构相匹配,通过线性头输出深度预测
  • 中间特征利用:在所有中间层执行空间推理,为动作预测提供丰富的几何线索

3. 注意力机制

采用块级掩码策略:

  • VLM和深度专家的token只关注自身
  • 动作token可以关注所有流
  • 保持预训练模块的学习能力同时融合语义和空间线索

技术创新点

1. 显式空间推理

与隐式方法不同,DepthVLA通过专门的深度专家提供显式的3D几何理解,避免了对大量动作数据的依赖。

2. 混合专家设计

  • 允许不同专家在各自最适合的数据上预训练
  • 通过共享注意力层实现有效融合
  • 保持各专家的专业能力

3. 端到端优化

深度专家与VLA联合训练,使用组合损失:

L = Lsi + Lflow

其中Lsi是尺度不变深度损失,Lflow是流匹配损失。

实验设置

数据集

  1. 预训练数据集
    • 深度专家:WildRGB-D、ScanNet、ScanNet++、HyperSim
    • VLA:Galaxea Open-World Dataset (100k轨迹)、BridgeData V2 (60k轨迹)
  2. 评估数据集
    • Simpler WidowX:4个任务套件,120次试验
    • LIBERO:4个任务套件(Spatial/Object/Goal/Long),2000次试验
    • 真实世界:3个基准任务,每任务20次运行

评价指标

  • 成功率:任务完成的百分比
  • 进度分数:每个成功子步骤贡献一分,平均所有运行

对比方法

  • Diffusion Policy
  • Octo-Base
  • SpatialVLA
  • π0 (重新实现)
  • OpenVLA
  • CoT-VLA
  • MolmoACT
  • DreamVLA

实现细节

  • 模型:Paligemma-3B作为VLM骨干,DINOv2-L作为深度编码器
  • 训练:32个NVIDIA H100 GPU,AdamW优化器
  • 推理:NVIDIA 4090 GPU,BF16混合精度,210ms延迟

实验结果

主要结果

1. Simpler WidowX基准测试

模型预训练Put SpoonPut CarrotStack BlockPick Eggplant平均
π0 (重新实现)×81.7%64.2%30.0%59.2%58.8%
DepthVLA×75.8%71.7%62.5%89.2%74.8%

2. LIBERO基准测试

模型预训练SpatialObjectGoalLong平均
π0 (重新实现)×95.8%96.4%94.8%87.4%93.6%
DepthVLA×96.4%98.0%95.8%89.2%94.9%

3. 真实世界基准测试

  • 整体表现:DepthVLA达到79% vs 基线65%的平均进度分数
  • 微波操作:在碰撞避免方面表现出色
  • 积木堆叠:展现出色的空间感知能力
  • 桌面整理:在小物体抓取任务上表现相当

消融实验

设置SpoonCarrotBlockEggplant平均
深度专家随机初始化60.0%60.8%43.3%40.0%51.0%
移除深度损失69.2%60%28.3%70.0%56.9%
冻结深度专家65.8%69.2%74.2%78.3%71.9%
移除块级掩码66.7%65.0%2.5%88.3%55.6%
DepthVLA完整版75.8%71.7%62.5%89.2%74.8%

关键发现

  1. 深度预训练至关重要:随机初始化的深度专家性能显著下降
  2. 深度损失必要:移除深度损失导致性能下降
  3. 块级掩码有效:保持专家独立性对性能至关重要
  4. 预测优于直接输入:预测深度比直接使用真实深度效果更好

相关工作

通用机器人操作策略

从单任务专家发展到通用模型,由大语言模型、视觉语言模型和大规模机器人动作数据集的进步推动。早期VLA通过微调VLM自回归生成动作token,最新的VLA采用基于扩散的动作专家。

具有空间感知的VLA

  • 早期方法:使用LiDAR或RGB-D相机等额外3D输入,但降低了跨平台通用性
  • SpatialVLA:使用现成深度估计器生成伪点云,但未端到端优化
  • 生成式世界模型:预测未来帧、关键点或语义状态,但对当前场景编码改善有限
  • CoT推理:自回归生成深度token,但引入高延迟

3D几何感知

近年来3D感知的进步展现了从单目或多视角图像推断几何的强大能力,为改善VLA空间推理提供了潜力。

结论与讨论

主要结论

  1. 显式空间推理有效:通过预训练深度专家显著提升VLA在精确操作任务上的性能
  2. 混合专家设计优越:允许不同专家在各自最适合的数据上预训练,提高效率
  3. 端到端优化关键:联合优化深度预测和动作生成比使用外部深度估计器更有效

局限性

  1. 单目深度预测挑战:在困难场景(微小边缘、反射或透明物体、无纹理表面)中仍可能失败
  2. 计算开销:增加了600M参数和20ms推理延迟
  3. 依赖深度标签:需要生成伪深度标签进行训练

未来方向

  1. 多视角深度预测:探索多视角深度或点图预测以增强空间精度和鲁棒性
  2. 更高效的架构:减少计算开销同时保持性能
  3. 无监督空间学习:减少对深度标签的依赖

深度评价

优点

  1. 方法创新性强:首次将预训练深度专家有效集成到VLA中,提供显式空间推理
  2. 实验充分全面:涵盖真实世界和多个仿真环境,包含详细的消融研究
  3. 性能提升显著:在所有测试环境中都取得了一致的性能改进
  4. 设计合理:混合专家架构既保持了各专家的专业能力,又实现了有效融合
  5. 实用性强:推理延迟增加很小,适合实时部署

不足

  1. 深度质量依赖:性能受深度预测质量限制,在挑战性场景中可能失败
  2. 标签生成成本:需要为训练数据生成伪深度标签,增加了数据准备成本
  3. 理论分析不足:缺乏对为什么深度预测比直接输入深度更有效的深入理论分析
  4. 泛化性验证有限:主要在特定类型的操作任务上验证,对其他类型任务的泛化性需要更多验证

影响力

  1. 领域贡献:为VLA增强空间推理提供了新的有效方法,可能影响后续研究方向
  2. 实用价值:方法简单有效,易于在现有VLA系统中实现
  3. 可复现性:作者承诺公开代码,有利于研究复现和进一步发展

适用场景

  1. 精确操作任务:特别适合需要精确空间推理的机器人操作任务
  2. 多模态机器人系统:适用于具有RGB摄像头的各种机器人平台
  3. 工业应用:在制造业、服务机器人等需要精确操作的场景中具有应用潜力

参考文献

论文引用了丰富的相关工作,包括:

  • VLA模型:OpenVLA、π0、Octo等
  • 空间感知方法:SpatialVLA、CoT-VLA等
  • 3D感知模型:Depth Anything V2、DINOv2等
  • 评估基准:LIBERO、Simpler、BridgeData V2等

总体评价:这是一篇高质量的研究论文,提出了简单而有效的方法来增强VLA的空间推理能力。实验设计充分,结果令人信服,对机器人操作领域具有重要的实用价值和研究意义。