2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.
Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
academic

DepthVLA: 깊이 인식 공간 추론으로 비전-언어-행동 모델 강화

기본 정보

  • 논문 ID: 2510.13375
  • 제목: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
  • 저자: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
  • 기관: IIIS, Tsinghua University & Galaxea AI
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13375

초록

비전-언어-행동(VLA) 모델은 일반화 및 언어 유도 조작 작업에서 우수한 성능을 보이지만, 정확한 공간 추론이 필요한 작업에서는 성능이 저하되는데, 이는 시각 언어 모델(VLM)에서 상속된 제한된 공간 추론 능력에서 비롯됩니다. 기존 VLA는 VLM을 3D 공간에 위치시키기 위해 대규모 행동 데이터 사전학습에 의존하므로 훈련 효율성이 낮고 정확한 공간 이해를 달성하기에 여전히 부족합니다. 본 논문은 사전학습된 깊이 예측 모듈을 통해 명시적으로 공간 인식 능력을 융합하는 간단하면서도 효과적인 VLA 아키텍처인 DepthVLA를 제안합니다. DepthVLA는 혼합 Transformer 설계를 채택하여 VLM, 깊이 Transformer 및 행동 전문가를 통합하며, 완전히 공유된 주의 메커니즘을 통해 엔드-투-엔드 모델을 형성하여 공간 추론 능력을 향상시킵니다. 실제 환경과 시뮬레이션 환경에서의 광범위한 평가는 DepthVLA가 최첨단 방법을 능가하며, 실제 작업에서 78.5% vs 65.0%의 진행률, LIBERO 시뮬레이터에서 94.9% vs 93.6%, Simpler 시뮬레이터에서 74.8% vs 58.8%을 달성함을 보여줍니다.

연구 배경 및 동기

핵심 문제

기존의 비전-언어-행동(VLA) 모델은 정확한 공간 추론이 필요한 로봇 조작 작업에서 성능이 부족한데, 주요 원인은 다음과 같습니다:

  1. 공간 추론 능력 제한: VLA는 VLM의 공간 추론 한계를 상속받아 정확한 조작 작업에서 성능 부족
  2. 훈련 효율성 저하: 기존 방법은 VLM을 3D 공간에 위치시키기 위해 대량의 행동 데이터 사전학습에 의존하지만 여전히 공간 정보를 충분히 이해하지 못함
  3. 실제 응용의 어려움: VLA는 작은 물체 집기, 정확한 조작 실행 또는 충돌 회피에서 자주 실패

문제의 중요성

정확한 공간 추론은 로봇 조작에 매우 중요하며, 특히 다음 분야에서 그렇습니다:

  • 작은 물체 집기 또는 세밀한 조작
  • 충돌 회피 경로 계획
  • 정확한 위치 추정이 필요한 쌓기 작업
  • 복잡한 환경에서의 다단계 조작

기존 방법의 한계

  1. 생성형 세계 모델 방법: 명시적 3D 지식 부족, 현재 장면 인코딩 개선 제한적
  2. 사고의 연쇄(Chain-of-Thought) 추론: 상당한 지연 도입(2초 이상), 수백 개의 공간 토큰 자회귀 생성 필요
  3. 외부 깊이 추정기: SpatialVLA와 같은 기성 깊이 추정기 사용하지만 VLA와 엔드-투-엔드 최적화되지 않아 성능 상한 제한

핵심 기여

  1. DepthVLA 아키텍처: 사전학습된 깊이 예측 전문가를 혼합 Transformer 프레임워크에 통합하여 명시적 공간 추론을 구현하면서 VLM의 의미론적 기초 유지
  2. 전문가별 사전학습 전략: 혼합 Transformer 설계는 각 전문가(VLM 및 깊이)가 서로 다른 데이터셋에서 별도로 사전학습되도록 허용하여 훈련 효율성 향상 및 구체화된 행동 데이터를 초월한 확장성 제공
  3. 포괄적인 실제 환경 및 시뮬레이션 검증: DepthVLA가 실제 환경 및 시뮬레이션 환경(LIBERO, Simpler)에서 최첨단 VLA를 크게 능가하며, 집기 정확도, 충돌 회피 및 전체 작업 성공률에서 상당한 개선 달성

방법 상세 설명

작업 정의

표준 엔드-투-엔드 VLA 설정을 따르며, 정책 πθ는 현재 관찰 ot(하나 이상의 카메라에서), 언어 지시 l 및 고유감각 상태 st를 기반으로 k 길이의 행동 청크 At을 예측합니다:

At = πθ(ot, l, st)

모델 아키텍처

DepthVLA는 세 가지 전문가를 통합하는 혼합 Transformer(MoT) 아키텍처를 채택합니다:

1. 전체 설계

  • VLM 전문가: 관찰 및 언어 지시를 인코딩하여 의미론적 및 언어 기초 특징 포착
  • 깊이 전문가: 관찰을 처리하여 기하학적 정보 추론
  • 행동 전문가: 의미론적 및 기하학적 전문가의 결합 특징을 기반으로 연속 행동 생성

2. 깊이 전문가 설계

  • 인코더-디코더 아키텍처: 인코더는 DINOv2 기반, Depth Anything V2 사전학습 체크포인트에서 초기화
  • 디코더 구조: VLM의 Transformer 구조와 일치하며, 선형 헤드를 통해 깊이 예측 출력
  • 중간 특징 활용: 모든 중간 계층에서 공간 추론 수행하여 행동 예측을 위한 풍부한 기하학적 단서 제공

3. 주의 메커니즘

블록 수준 마스킹 전략 채택:

  • VLM 및 깊이 전문가의 토큰은 자신에게만 주의
  • 행동 토큰은 모든 스트림에 주의 가능
  • 사전학습 모듈의 학습 능력 유지하면서 의미론적 및 공간 단서 융합

기술 혁신점

1. 명시적 공간 추론

암시적 방법과 달리 DepthVLA는 전문화된 깊이 전문가를 통해 명시적 3D 기하학적 이해를 제공하여 대량의 행동 데이터 의존성 회피

2. 혼합 전문가 설계

  • 서로 다른 전문가가 각자 가장 적합한 데이터에서 사전학습 가능
  • 공유 주의 계층을 통한 효과적인 융합
  • 각 전문가의 전문성 유지

3. 엔드-투-엔드 최적화

깊이 전문가는 VLA와 함께 훈련되며, 결합 손실 사용:

L = Lsi + Lflow

여기서 Lsi는 스케일 불변 깊이 손실, Lflow는 흐름 매칭 손실입니다.

실험 설정

데이터셋

  1. 사전학습 데이터셋:
    • 깊이 전문가: WildRGB-D, ScanNet, ScanNet++, HyperSim
    • VLA: Galaxea Open-World Dataset (100k 궤적), BridgeData V2 (60k 궤적)
  2. 평가 데이터셋:
    • Simpler WidowX: 4개 작업 세트, 120회 시도
    • LIBERO: 4개 작업 세트(Spatial/Object/Goal/Long), 2000회 시도
    • 실제 환경: 3개 기준 작업, 작업당 20회 실행

평가 지표

  • 성공률: 작업 완료 백분율
  • 진행 점수: 각 성공한 부분 작업이 1점 기여, 모든 실행에 대해 평균화

비교 방법

  • Diffusion Policy
  • Octo-Base
  • SpatialVLA
  • π0 (재구현)
  • OpenVLA
  • CoT-VLA
  • MolmoACT
  • DreamVLA

구현 세부사항

  • 모델: VLM 백본으로 Paligemma-3B, 깊이 인코더로 DINOv2-L
  • 훈련: 32개 NVIDIA H100 GPU, AdamW 최적화기
  • 추론: NVIDIA 4090 GPU, BF16 혼합 정밀도, 210ms 지연

실험 결과

주요 결과

1. Simpler WidowX 벤치마크

모델사전학습Put SpoonPut CarrotStack BlockPick Eggplant평균
π0 (재구현)×81.7%64.2%30.0%59.2%58.8%
DepthVLA×75.8%71.7%62.5%89.2%74.8%

2. LIBERO 벤치마크

모델사전학습SpatialObjectGoalLong평균
π0 (재구현)×95.8%96.4%94.8%87.4%93.6%
DepthVLA×96.4%98.0%95.8%89.2%94.9%

3. 실제 환경 벤치마크

  • 전체 성능: DepthVLA는 기준선 65%에 비해 평균 진행 점수 79% 달성
  • 전자레인지 조작: 충돌 회피 측면에서 우수한 성능
  • 적목 쌓기: 우수한 공간 인식 능력 시연
  • 테이블 정리: 작은 물체 집기 작업에서 동등한 성능

소거 실험

설정SpoonCarrotBlockEggplant평균
깊이 전문가 무작위 초기화60.0%60.8%43.3%40.0%51.0%
깊이 손실 제거69.2%60%28.3%70.0%56.9%
깊이 전문가 동결65.8%69.2%74.2%78.3%71.9%
블록 수준 마스킹 제거66.7%65.0%2.5%88.3%55.6%
DepthVLA 완전판75.8%71.7%62.5%89.2%74.8%

주요 발견

  1. 깊이 사전학습 필수: 무작위 초기화된 깊이 전문가는 성능 크게 저하
  2. 깊이 손실 필요: 깊이 손실 제거 시 성능 저하
  3. 블록 수준 마스킹 효과적: 전문가 독립성 유지가 성능에 중요
  4. 예측이 직접 입력보다 우수: 예측 깊이가 실제 깊이 직접 사용보다 효과적

관련 연구

범용 로봇 조작 정책

단일 작업 전문가에서 범용 모델로 발전하며, 대규모 언어 모델, 시각 언어 모델 및 대규모 로봇 행동 데이터셋의 진전에 의해 주도됩니다. 초기 VLA는 VLM 미세조정을 통해 자회귀적으로 행동 토큰을 생성하며, 최신 VLA는 확산 기반 행동 전문가를 채택합니다.

공간 인식 VLA

  • 초기 방법: LiDAR 또는 RGB-D 카메라 등 추가 3D 입력 사용하지만 플랫폼 간 범용성 감소
  • SpatialVLA: 기성 깊이 추정기를 사용하여 의사 포인트 클라우드 생성하지만 엔드-투-엔드 최적화 미실시
  • 생성형 세계 모델: 미래 프레임, 핵심점 또는 의미론적 상태 예측하지만 현재 장면 인코딩 개선 제한적
  • CoT 추론: 자회귀적으로 깊이 토큰 생성하지만 높은 지연 도입

3D 기하학 인식

최근 3D 인식 진전은 단일 또는 다중 시점 이미지에서 기하학 추론의 강력한 능력을 보여주며, VLA 공간 추론 개선을 위한 잠재력을 제공합니다.

결론 및 논의

주요 결론

  1. 명시적 공간 추론 효과적: 사전학습된 깊이 전문가를 통해 정확한 조작 작업에서 VLA 성능 크게 향상
  2. 혼합 전문가 설계 우수: 서로 다른 전문가가 각자 가장 적합한 데이터에서 사전학습되도록 허용하여 효율성 향상
  3. 엔드-투-엔드 최적화 핵심: 깊이 예측과 행동 생성의 공동 최적화가 외부 깊이 추정기 사용보다 효과적

한계

  1. 단안 깊이 예측 과제: 어려운 장면(미세한 모서리, 반사 또는 투명 물체, 무늬 없는 표면)에서 여전히 실패 가능
  2. 계산 오버헤드: 600M 매개변수 추가 및 20ms 추론 지연 증가
  3. 깊이 레이블 의존: 훈련을 위해 의사 깊이 레이블 생성 필요

향후 방향

  1. 다중 시점 깊이 예측: 공간 정확도 및 견고성 향상을 위해 다중 시점 깊이 또는 포인트 맵 예측 탐색
  2. 더 효율적인 아키텍처: 성능 유지하면서 계산 오버헤드 감소
  3. 비감독 공간 학습: 깊이 레이블 의존성 감소

심층 평가

장점

  1. 방법 혁신성 강함: 사전학습된 깊이 전문가를 VLA에 효과적으로 통합한 첫 사례로 명시적 공간 추론 제공
  2. 실험 충분하고 포괄적: 실제 환경 및 다중 시뮬레이션 환경 포함, 상세한 소거 연구 포함
  3. 성능 향상 현저함: 모든 테스트 환경에서 일관된 성능 개선 달성
  4. 설계 합리적: 혼합 전문가 아키텍처가 각 전문가의 전문성 유지하면서 효과적인 융합 구현
  5. 실용성 강함: 추론 지연 증가 미미하여 실시간 배포에 적합

부족한 점

  1. 깊이 품질 의존성: 성능이 깊이 예측 품질에 제한되며, 도전적 장면에서 실패 가능
  2. 레이블 생성 비용: 훈련 데이터에 대해 의사 깊이 레이블 생성 필요로 데이터 준비 비용 증가
  3. 이론적 분석 부족: 깊이 예측이 직접 입력 깊이보다 효과적인 이유에 대한 심층 이론적 분석 부족
  4. 일반화 검증 제한적: 주로 특정 유형의 조작 작업에서 검증되며, 다른 유형 작업에 대한 일반화 필요

영향력

  1. 분야 기여: VLA 공간 추론 강화를 위한 새로운 효과적 방법 제공으로 후속 연구 방향에 영향 가능
  2. 실용적 가치: 방법이 간단하고 효과적하여 기존 VLA 시스템에 쉽게 구현 가능
  3. 재현성: 저자가 코드 공개 약속으로 연구 재현 및 추가 발전 용이

적용 장면

  1. 정확한 조작 작업: 정확한 공간 추론이 필요한 로봇 조작 작업에 특히 적합
  2. 다중 모달 로봇 시스템: RGB 카메라를 갖춘 다양한 로봇 플랫폼에 적용 가능
  3. 산업 응용: 제조업, 서비스 로봇 등 정확한 조작이 필요한 장면에서 응용 잠재력

참고문헌

논문은 풍부한 관련 연구를 인용하며, 다음을 포함합니다:

  • VLA 모델: OpenVLA, π0, Octo 등
  • 공간 인식 방법: SpatialVLA, CoT-VLA 등
  • 3D 인식 모델: Depth Anything V2, DINOv2 등
  • 평가 벤치마크: LIBERO, Simpler, BridgeData V2 등

종합 평가: 이는 VLA의 공간 추론 능력을 강화하기 위한 간단하면서도 효과적인 방법을 제안하는 고품질 연구 논문입니다. 실험 설계가 충분하고 결과가 설득력 있으며, 로봇 조작 분야에 중요한 실용적 가치와 연구 의의를 가집니다.