2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: 깊이 인식 공간 추론으로 비전-언어-행동 모델 강화

기본 정보

논문 ID: 2510.13375
제목: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
저자: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
기관: IIIS, Tsinghua University & Galaxea AI
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13375

초록

비전-언어-행동(VLA) 모델은 일반화 및 언어 유도 조작 작업에서 우수한 성능을 보이지만, 정확한 공간 추론이 필요한 작업에서는 성능이 저하되는데, 이는 시각 언어 모델(VLM)에서 상속된 제한된 공간 추론 능력에서 비롯됩니다. 기존 VLA는 VLM을 3D 공간에 위치시키기 위해 대규모 행동 데이터 사전학습에 의존하므로 훈련 효율성이 낮고 정확한 공간 이해를 달성하기에 여전히 부족합니다. 본 논문은 사전학습된 깊이 예측 모듈을 통해 명시적으로 공간 인식 능력을 융합하는 간단하면서도 효과적인 VLA 아키텍처인 DepthVLA를 제안합니다. DepthVLA는 혼합 Transformer 설계를 채택하여 VLM, 깊이 Transformer 및 행동 전문가를 통합하며, 완전히 공유된 주의 메커니즘을 통해 엔드-투-엔드 모델을 형성하여 공간 추론 능력을 향상시킵니다. 실제 환경과 시뮬레이션 환경에서의 광범위한 평가는 DepthVLA가 최첨단 방법을 능가하며, 실제 작업에서 78.5% vs 65.0%의 진행률, LIBERO 시뮬레이터에서 94.9% vs 93.6%, Simpler 시뮬레이터에서 74.8% vs 58.8%을 달성함을 보여줍니다.

연구 배경 및 동기

핵심 문제

기존의 비전-언어-행동(VLA) 모델은 정확한 공간 추론이 필요한 로봇 조작 작업에서 성능이 부족한데, 주요 원인은 다음과 같습니다:

공간 추론 능력 제한: VLA는 VLM의 공간 추론 한계를 상속받아 정확한 조작 작업에서 성능 부족
훈련 효율성 저하: 기존 방법은 VLM을 3D 공간에 위치시키기 위해 대량의 행동 데이터 사전학습에 의존하지만 여전히 공간 정보를 충분히 이해하지 못함
실제 응용의 어려움: VLA는 작은 물체 집기, 정확한 조작 실행 또는 충돌 회피에서 자주 실패

문제의 중요성

정확한 공간 추론은 로봇 조작에 매우 중요하며, 특히 다음 분야에서 그렇습니다:

작은 물체 집기 또는 세밀한 조작
충돌 회피 경로 계획
정확한 위치 추정이 필요한 쌓기 작업
복잡한 환경에서의 다단계 조작

기존 방법의 한계

생성형 세계 모델 방법: 명시적 3D 지식 부족, 현재 장면 인코딩 개선 제한적
사고의 연쇄(Chain-of-Thought) 추론: 상당한 지연 도입(2초 이상), 수백 개의 공간 토큰 자회귀 생성 필요
외부 깊이 추정기: SpatialVLA와 같은 기성 깊이 추정기 사용하지만 VLA와 엔드-투-엔드 최적화되지 않아 성능 상한 제한

핵심 기여

DepthVLA 아키텍처: 사전학습된 깊이 예측 전문가를 혼합 Transformer 프레임워크에 통합하여 명시적 공간 추론을 구현하면서 VLM의 의미론적 기초 유지
전문가별 사전학습 전략: 혼합 Transformer 설계는 각 전문가(VLM 및 깊이)가 서로 다른 데이터셋에서 별도로 사전학습되도록 허용하여 훈련 효율성 향상 및 구체화된 행동 데이터를 초월한 확장성 제공
포괄적인 실제 환경 및 시뮬레이션 검증: DepthVLA가 실제 환경 및 시뮬레이션 환경(LIBERO, Simpler)에서 최첨단 VLA를 크게 능가하며, 집기 정확도, 충돌 회피 및 전체 작업 성공률에서 상당한 개선 달성

방법 상세 설명

작업 정의

표준 엔드-투-엔드 VLA 설정을 따르며, 정책 πθ는 현재 관찰 ot(하나 이상의 카메라에서), 언어 지시 l 및 고유감각 상태 st를 기반으로 k 길이의 행동 청크 At을 예측합니다:

At = πθ(ot, l, st)

모델 아키텍처

DepthVLA는 세 가지 전문가를 통합하는 혼합 Transformer(MoT) 아키텍처를 채택합니다:

1. 전체 설계

VLM 전문가: 관찰 및 언어 지시를 인코딩하여 의미론적 및 언어 기초 특징 포착
깊이 전문가: 관찰을 처리하여 기하학적 정보 추론
행동 전문가: 의미론적 및 기하학적 전문가의 결합 특징을 기반으로 연속 행동 생성

2. 깊이 전문가 설계

인코더-디코더 아키텍처: 인코더는 DINOv2 기반, Depth Anything V2 사전학습 체크포인트에서 초기화
디코더 구조: VLM의 Transformer 구조와 일치하며, 선형 헤드를 통해 깊이 예측 출력
중간 특징 활용: 모든 중간 계층에서 공간 추론 수행하여 행동 예측을 위한 풍부한 기하학적 단서 제공

3. 주의 메커니즘

블록 수준 마스킹 전략 채택:

VLM 및 깊이 전문가의 토큰은 자신에게만 주의
행동 토큰은 모든 스트림에 주의 가능
사전학습 모듈의 학습 능력 유지하면서 의미론적 및 공간 단서 융합

기술 혁신점

1. 명시적 공간 추론

암시적 방법과 달리 DepthVLA는 전문화된 깊이 전문가를 통해 명시적 3D 기하학적 이해를 제공하여 대량의 행동 데이터 의존성 회피

2. 혼합 전문가 설계

서로 다른 전문가가 각자 가장 적합한 데이터에서 사전학습 가능
공유 주의 계층을 통한 효과적인 융합
각 전문가의 전문성 유지

3. 엔드-투-엔드 최적화

깊이 전문가는 VLA와 함께 훈련되며, 결합 손실 사용:

L = Lsi + Lflow

여기서 Lsi는 스케일 불변 깊이 손실, Lflow는 흐름 매칭 손실입니다.

실험 설정

데이터셋

사전학습 데이터셋:
- 깊이 전문가: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (100k 궤적), BridgeData V2 (60k 궤적)
평가 데이터셋:
- Simpler WidowX: 4개 작업 세트, 120회 시도
- LIBERO: 4개 작업 세트(Spatial/Object/Goal/Long), 2000회 시도
- 실제 환경: 3개 기준 작업, 작업당 20회 실행

평가 지표

성공률: 작업 완료 백분율
진행 점수: 각 성공한 부분 작업이 1점 기여, 모든 실행에 대해 평균화

비교 방법

Diffusion Policy
Octo-Base
SpatialVLA
π0 (재구현)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

구현 세부사항

모델: VLM 백본으로 Paligemma-3B, 깊이 인코더로 DINOv2-L
훈련: 32개 NVIDIA H100 GPU, AdamW 최적화기
추론: NVIDIA 4090 GPU, BF16 혼합 정밀도, 210ms 지연

실험 결과

주요 결과

1. Simpler WidowX 벤치마크

모델	사전학습	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	평균
π0 (재구현)	×	81.7%	64.2%	30.0%	59.2%	58.8%
DepthVLA	×	75.8%	71.7%	62.5%	89.2%	74.8%

2. LIBERO 벤치마크

모델	사전학습	Spatial	Object	Goal	Long	평균
π0 (재구현)	×	95.8%	96.4%	94.8%	87.4%	93.6%
DepthVLA	×	96.4%	98.0%	95.8%	89.2%	94.9%

3. 실제 환경 벤치마크

전체 성능: DepthVLA는 기준선 65%에 비해 평균 진행 점수 79% 달성
전자레인지 조작: 충돌 회피 측면에서 우수한 성능
적목 쌓기: 우수한 공간 인식 능력 시연
테이블 정리: 작은 물체 집기 작업에서 동등한 성능

소거 실험

설정	Spoon	Carrot	Block	Eggplant	평균
깊이 전문가 무작위 초기화	60.0%	60.8%	43.3%	40.0%	51.0%
깊이 손실 제거	69.2%	60%	28.3%	70.0%	56.9%
깊이 전문가 동결	65.8%	69.2%	74.2%	78.3%	71.9%
블록 수준 마스킹 제거	66.7%	65.0%	2.5%	88.3%	55.6%
DepthVLA 완전판	75.8%	71.7%	62.5%	89.2%	74.8%