2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: गहराई-जागरूक स्थानिक तर्क के साथदृष्टि-भाषा-कार्य मॉडल को बढ़ाना

मूल जानकारी

पेपर ID: 2510.13375
शीर्षक: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
लेखक: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
संस्थान: IIIS, Tsinghua University & Galaxea AI
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13375

सारांश

Vision-Language-Action (VLA) मॉडल सामान्यीकरण और भाषा-निर्देशित संचालन कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन सटीक स्थानिक तर्क की आवश्यकता वाले कार्यों पर प्रदर्शन में गिरावट आती है, जो दृश्य-भाषा मॉडल (VLM) से विरासत में मिली सीमित स्थानिक तर्क क्षमता से उत्पन्न होती है। मौजूदा VLA VLM को 3D स्पेस में स्थानीयकृत करने के लिए बड़े पैमाने पर कार्य डेटा पूर्व-प्रशिक्षण पर निर्भर करते हैं, जो प्रशिक्षण दक्षता को कम करता है और फिर भी सटीक स्थानिक समझ के लिए अपर्याप्त है। यह पेपर DepthVLA प्रस्तावित करता है, जो एक सरल और प्रभावी VLA आर्किटेक्चर है जो पूर्व-प्रशिक्षित गहराई भविष्यवाणी मॉड्यूल के माध्यम से स्पष्ट रूप से स्थानिक-जागरूक क्षमता को एकीकृत करता है। DepthVLA एक हाइब्रिड ट्रांसफॉर्मर डिज़ाइन अपनाता है जो VLM, गहराई ट्रांसफॉर्मर और कार्य विशेषज्ञों को एकीकृत करता है, पूरी तरह से साझा ध्यान तंत्र के माध्यम से एक अंत-से-अंत मॉडल बनाता है, स्थानिक तर्क क्षमता को बढ़ाता है। वास्तविक दुनिया और सिमुलेशन वातावरण में व्यापक मूल्यांकन से पता चलता है कि DepthVLA अत्याधुनिक तरीकों को पार करता है, वास्तविक दुनिया के कार्यों में 78.5% बनाम 65.0% की प्रगति, LIBERO सिम्युलेटर में 94.9% बनाम 93.6%, और Simpler सिम्युलेटर में 74.8% बनाम 58.8% प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

मौजूदा Vision-Language-Action (VLA) मॉडल सटीक स्थानिक तर्क की आवश्यकता वाले रोबोटिक हेरफेर कार्यों पर खराब प्रदर्शन करते हैं, मुख्य कारण हैं:

सीमित स्थानिक तर्क क्षमता: VLA VLM की स्थानिक तर्क सीमाओं को विरासत में लेता है, सटीक हेरफेर कार्यों में अपर्याप्त प्रदर्शन करता है
कम प्रशिक्षण दक्षता: मौजूदा तरीके 3D स्पेस में VLM को स्थानीयकृत करने के लिए बड़ी मात्रा में कार्य डेटा पूर्व-प्रशिक्षण पर निर्भर करते हैं, लेकिन फिर भी स्थानिक जानकारी को पूरी तरह से समझ नहीं सकते हैं
व्यावहारिक अनुप्रयोग में कठिनाई: VLA छोटी वस्तुओं को पकड़ने, सटीक संचालन करने या टकराव से बचने में अक्सर विफल होता है

समस्या की महत्ता

सटीक स्थानिक तर्क रोबोटिक हेरफेर के लिए महत्वपूर्ण है, विशेष रूप से:

छोटी वस्तुओं को पकड़ना या सूक्ष्म संचालन
टकराव से बचने वाली पथ योजना
सटीक स्थान अनुमान की आवश्यकता वाले स्टैकिंग कार्य
जटिल वातावरण में बहु-चरणीय संचालन

मौजूदा तरीकों की सीमाएं

जनरेटिव विश्व मॉडल दृष्टिकोण: स्पष्ट 3D ज्ञान की कमी, वर्तमान दृश्य एन्कोडिंग में सुधार सीमित
Chain-of-Thought तर्क: महत्वपूर्ण विलंब (2 सेकंड से अधिक) का परिचय देता है, सैकड़ों स्थानिक टोकन की स्वचालित पीढ़ी की आवश्यकता है
बाहरी गहराई अनुमानक: SpatialVLA जैसे तरीके तैयार गहराई अनुमानक का उपयोग करते हैं, लेकिन VLA के साथ अंत-से-अंत अनुकूलित नहीं होते हैं, प्रदर्शन सीमा को सीमित करते हैं

मुख्य योगदान

DepthVLA आर्किटेक्चर: एक नोवल VLA मॉडल प्रस्तावित करता है जो पूर्व-प्रशिक्षित गहराई भविष्यवाणी विशेषज्ञ को हाइब्रिड ट्रांसफॉर्मर फ्रेमवर्क में एकीकृत करता है, स्पष्ट स्थानिक तर्क को लागू करते हुए VLM की शब्दार्थ नींव को बनाए रखता है
विशेषज्ञ-विशिष्ट पूर्व-प्रशिक्षण रणनीति: हाइब्रिड ट्रांसफॉर्मर डिज़ाइन प्रत्येक विशेषज्ञ (VLM और गहराई) को विभिन्न डेटासेट पर अलग से पूर्व-प्रशिक्षित करने की अनुमति देता है, प्रशिक्षण दक्षता में सुधार करता है और मूर्त कार्य डेटा से परे स्केलेबिलिटा प्रदान करता है
व्यापक वास्तविक दुनिया और सिमुलेशन सत्यापन: वास्तविक दुनिया और सिमुलेशन वातावरण (LIBERO, Simpler) में DepthVLA को सत्यापित करता है जो अत्याधुनिक VLA से महत्वपूर्ण रूप से बेहतर है, पकड़ने की सटीकता, टकराव से बचाव और समग्र कार्य सफलता दर में महत्वपूर्ण सुधार प्राप्त करता है

विधि विवरण

कार्य परिभाषा

मानक अंत-से-अंत VLA सेटअप का पालन करते हुए, नीति πθ वर्तमान अवलोकन ot (एक या अधिक कैमरों से), भाषा निर्देश l और proprioceptive स्थिति st के आधार पर k लंबाई के कार्य अनुक्रम At की भविष्यवाणी करता है:

At = πθ(ot, l, st)

मॉडल आर्किटेक्चर

DepthVLA एक हाइब्रिड ट्रांसफॉर्मर (MoT) आर्किटेक्चर अपनाता है जो तीन विशेषज्ञों को एकीकृत करता है:

1. समग्र डिज़ाइन

VLM विशेषज्ञ: अवलोकन और भाषा निर्देश को एन्कोड करता है, शब्दार्थ और भाषा आधार सुविधाओं को कैप्चर करता है
गहराई विशेषज्ञ: अवलोकन को संसाधित करके ज्यामितीय जानकारी का अनुमान लगाता है
कार्य विशेषज्ञ: शब्दार्थ और ज्यामितीय विशेषज्ञों की संयुक्त सुविधाओं के आधार पर निरंतर कार्य उत्पन्न करता है

2. गहराई विशेषज्ञ डिज़ाइन

एन्कोडर-डिकोडर आर्किटेक्चर: एन्कोडर DINOv2 पर आधारित, Depth Anything V2 पूर्व-प्रशिक्षित चेकपॉइंट से आरंभ किया गया
डिकोडर संरचना: VLM के ट्रांसफॉर्मर संरचना से मेल खाता है, रैखिक हेड के माध्यम से गहराई भविष्यवाणी आउटपुट करता है
मध्यवर्ती सुविधा उपयोग: सभी मध्यवर्ती परतों पर स्थानिक तर्क निष्पादित करता है, कार्य भविष्यवाणी के लिए समृद्ध ज्यामितीय संकेत प्रदान करता है

3. ध्यान तंत्र

ब्लॉक-स्तरीय मास्किंग रणनीति अपनाता है:

VLM और गहराई विशेषज्ञों के टोकन केवल स्वयं पर ध्यान देते हैं
कार्य टोकन सभी प्रवाहों पर ध्यान दे सकते हैं
पूर्व-प्रशिक्षित मॉड्यूल की सीखने की क्षमता को बनाए रखते हुए शब्दार्थ और स्थानिक संकेतों को एकीकृत करता है

तकनीकी नवाचार

1. स्पष्ट स्थानिक तर्क

अंतर्निहित तरीकों के विपरीत, DepthVLA विशेष गहराई विशेषज्ञ के माध्यम से स्पष्ट 3D ज्यामितीय समझ प्रदान करता है, बड़ी मात्रा में कार्य डेटा पर निर्भरता से बचता है।

2. हाइब्रिड विशेषज्ञ डिज़ाइन

विभिन्न विशेषज्ञों को उनके लिए सबसे उपयुक्त डेटा पर पूर्व-प्रशिक्षित करने की अनुमति देता है
साझा ध्यान परतों के माध्यम से प्रभावी एकीकरण प्राप्त करता है
प्रत्येक विशेषज्ञ की विशेषज्ञता को बनाए रखता है

3. अंत-से-अंत अनुकूलन

गहराई विशेषज्ञ को VLA के साथ संयुक्त रूप से प्रशिक्षित किया जाता है, संयुक्त हानि का उपयोग करते हुए:

L = Lsi + Lflow

जहां Lsi स्केल-अपरिवर्तनीय गहराई हानि है, Lflow प्रवाह मिलान हानि है।

प्रयोगात्मक सेटअप

डेटासेट

पूर्व-प्रशिक्षण डेटासेट:
- गहराई विशेषज्ञ: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (100k ट्रैजेक्टरी), BridgeData V2 (60k ट्रैजेक्टरी)
मूल्यांकन डेटासेट:
- Simpler WidowX: 4 कार्य सेट, 120 परीक्षण
- LIBERO: 4 कार्य सेट (Spatial/Object/Goal/Long), 2000 परीक्षण
- वास्तविक दुनिया: 3 बेंचमार्क कार्य, प्रति कार्य 20 रन

मूल्यांकन मेट्रिक्स

सफलता दर: कार्य पूर्ण होने का प्रतिशत
प्रगति स्कोर: प्रत्येक सफल उप-चरण एक बिंदु में योगदान देता है, सभी रन में औसत

तुलना विधियां

Diffusion Policy
Octo-Base
SpatialVLA
π0 (पुनः कार्यान्वयन)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

कार्यान्वयन विवरण

मॉडल: VLM बैकबोन के रूप में Paligemma-3B, गहराई एन्कोडर के रूप में DINOv2-L
प्रशिक्षण: 32 NVIDIA H100 GPU, AdamW अनुकूलक
अनुमान: NVIDIA 4090 GPU, BF16 मिश्रित सटीकता, 210ms विलंब

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. Simpler WidowX बेंचमार्क परीक्षण

मॉडल	पूर्व-प्रशिक्षण	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	औसत
π0 (पुनः कार्यान्वयन)	×	81.7%	64.2%	30.0%	59.2%	58.8%
DepthVLA	×	75.8%	71.7%	62.5%	89.2%	74.8%

2. LIBERO बेंचमार्क परीक्षण

मॉडल	पूर्व-प्रशिक्षण	Spatial	Object	Goal	Long	औसत
π0 (पुनः कार्यान्वयन)	×	95.8%	96.4%	94.8%	87.4%	93.6%
DepthVLA	×	96.4%	98.0%	95.8%	89.2%	94.9%

3. वास्तविक दुनिया बेंचमार्क परीक्षण

समग्र प्रदर्शन: DepthVLA 79% बनाम बेसलाइन 65% की औसत प्रगति स्कोर प्राप्त करता है
माइक्रोवेव संचालन: टकराव से बचाव में उत्कृष्ट प्रदर्शन
ब्लॉक स्टैकिंग: उत्कृष्ट स्थानिक जागरूकता प्रदर्शित करता है
डेस्क सफाई: छोटी वस्तु पकड़ने के कार्यों पर तुलनीय प्रदर्शन

विलोपन प्रयोग

सेटअप	Spoon	Carrot	Block	Eggplant	औसत
गहराई विशेषज्ञ यादृच्छिक आरंभीकरण	60.0%	60.8%	43.3%	40.0%	51.0%
गहराई हानि हटाएं	69.2%	60%	28.3%	70.0%	56.9%
गहराई विशेषज्ञ को फ्रीज करें	65.8%	69.2%	74.2%	78.3%	71.9%
ब्लॉक-स्तरीय मास्किंग हटाएं	66.7%	65.0%	2.5%	88.3%	55.6%
DepthVLA पूर्ण संस्करण	75.8%	71.7%	62.5%	89.2%	74.8%

मुख्य निष्कर्ष

गहराई पूर्व-प्रशिक्षण महत्वपूर्ण है: यादृच्छिक आरंभीकृत गहराई विशेषज्ञ का प्रदर्शन महत्वपूर्ण रूप से गिरता है
गहराई हानि आवश्यक है: गहराई हानि को हटाने से प्रदर्शन में गिरावट आती है
ब्लॉक-स्तरीय मास्किंग प्रभावी है: विशेषज्ञ स्वतंत्रता को बनाए रखना प्रदर्शन के लिए महत्वपूर्ण है
भविष्यवाणी सीधे इनपुट से बेहतर है: भविष्यवाणी की गई गहराई सीधे वास्तविक गहराई का उपयोग करने से बेहतर काम करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

स्पष्ट स्थानिक तर्क प्रभावी है: पूर्व-प्रशिक्षित गहराई विशेषज्ञ के माध्यम से सटीक संचालन कार्यों पर VLA के प्रदर्शन में महत्वपूर्ण सुधार
हाइब्रिड विशेषज्ञ डिज़ाइन श्रेष्ठ है: विभिन्न विशेषज्ञों को उनके लिए सबसे उपयुक्त डेटा पर पूर्व-प्रशिक्षित करने की अनुमति देता है, दक्षता में सुधार करता है
अंत-से-अंत अनुकूलन महत्वपूर्ण है: गहराई भविष्यवाणी और कार्य पीढ़ी का संयुक्त अनुकूलन बाहरी गहराई अनुमानक का उपयोग करने से अधिक प्रभावी है

सीमाएं

एकल-दृश्य गहराई भविष्यवाणी चुनौती: कठिन दृश्यों (सूक्ष्म किनारों, परावर्तक या पारदर्शी वस्तुओं, बनावट रहित सतहों) में विफल हो सकता है
कम्प्यूटेशनल ओवरहेड: 600M पैरामीटर और 20ms अनुमान विलंब जोड़ता है
गहराई लेबल पर निर्भरता: प्रशिक्षण के लिए छद्म गहराई लेबल उत्पन्न करने की आवश्यकता है

भविष्य की दिशाएं

बहु-दृश्य गहराई भविष्यवाणी: स्थानिक सटीकता और मजबूतता बढ़ाने के लिए बहु-दृश्य गहराई या बिंदु ग्राफ भविष्यवाणी की खोज करना
अधिक कुशल आर्किटेक्चर: प्रदर्शन को बनाए रखते हुए कम्प्यूटेशनल ओवरहेड को कम करना
अनुपर्यवेक्षित स्थानिक सीखना: गहराई लेबल पर निर्भरता को कम करना

गहन मूल्यांकन

शक्तियां

विधि नवाचार मजबूत है: पहली बार पूर्व-प्रशिक्षित गहराई विशेषज्ञ को प्रभावी रूप से VLA में एकीकृत करता है, स्पष्ट स्थानिक तर्क प्रदान करता है
प्रयोग व्यापक और संपूर्ण है: वास्तविक दुनिया और कई सिमुलेशन वातावरण को कवर करता है, विस्तृत विलोपन अध्ययन सहित
प्रदर्शन सुधार महत्वपूर्ण है: सभी परीक्षण वातावरण में सुसंगत प्रदर्शन सुधार प्राप्त करता है
डिज़ाइन तर्कसंगत है: हाइब्रिड विशेषज्ञ आर्किटेक्चर प्रत्येक विशेषज्ञ की विशेषज्ञता को बनाए रखता है और प्रभावी एकीकरण प्राप्त करता है
व्यावहारिकता मजबूत है: अनुमान विलंब में छोटी वृद्धि, वास्तविक समय तैनाती के लिए उपयुक्त

कमियां

गहराई गुणवत्ता पर निर्भरता: प्रदर्शन गहराई भविष्यवाणी गुणवत्ता द्वारा सीमित, चुनौतीपूर्ण दृश्यों में विफल हो सकता है
लेबल जनरेशन लागत: प्रशिक्षण डेटा के लिए छद्म गहराई लेबल उत्पन्न करने की आवश्यकता है, डेटा तैयारी लागत बढ़ाता है
सैद्धांतिक विश्लेषण अपर्याप्त है: गहराई भविष्यवाणी सीधे इनपुट गहराई से अधिक प्रभावी क्यों है इसके गहन सैद्धांतिक विश्लेषण की कमी
सामान्यीकरण सत्यापन सीमित है: मुख्य रूप से विशिष्ट प्रकार के संचालन कार्यों पर सत्यापित, अन्य प्रकार के कार्यों के लिए सामान्यीकरण क्षमता अधिक सत्यापन की आवश्यकता है

प्रभाव

क्षेत्र योगदान: VLA स्थानिक तर्क बढ़ाने के लिए नई प्रभावी विधि प्रदान करता है, बाद के अनुसंधान दिशा को प्रभावित कर सकता है
व्यावहारिक मूल्य: विधि सरल और प्रभावी है, मौजूदा VLA सिस्टम में कार्यान्वयन में आसान
पुनरुत्पादनशीलता: लेखक कोड को सार्वजनिक करने का वचन देते हैं, अनुसंधान पुनरुत्पादन और आगे विकास में सहायक

लागू दृश्य

सटीक संचालन कार्य: विशेष रूप से सटीक स्थानिक तर्क की आवश्यकता वाले रोबोटिक संचालन कार्यों के लिए उपयुक्त
बहु-मोडल रोबोटिक सिस्टम: RGB कैमरों वाले विभिन्न रोबोटिक प्लेटफॉर्म पर लागू
औद्योगिक अनुप्रयोग: विनिर्माण, सेवा रोबोटिक्स आदि में सटीक संचालन की आवश्यकता वाले दृश्यों में अनुप्रयोग संभावना

संदर्भ

पेपर संबंधित कार्यों के समृद्ध संदर्भ उद्धृत करता है, जिसमें शामिल हैं:

VLA मॉडल: OpenVLA, π0, Octo आदि
स्थानिक-जागरूक तरीके: SpatialVLA, CoT-VLA आदि
3D जागरूकता मॉडल: Depth Anything V2, DINOv2 आदि
मूल्यांकन बेंचमार्क: LIBERO, Simpler, BridgeData V2 आदि

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो VLA की स्थानिक तर्क क्षमता को बढ़ाने के लिए एक सरल और प्रभावी विधि प्रस्तावित करता है। प्रयोगात्मक डिज़ाइन संपूर्ण है, परिणाम विश्वासपूर्ण हैं, और रोबोटिक संचालन क्षेत्र के लिए महत्वपूर्ण व्यावहारिक मूल्य और अनुसंधान महत्व है।