Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
- पेपर ID: 2510.13375
- शीर्षक: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
- लेखक: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
- संस्थान: IIIS, Tsinghua University & Galaxea AI
- वर्गीकरण: cs.CV (कंप्यूटर विजन)
- प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13375
Vision-Language-Action (VLA) मॉडल सामान्यीकरण और भाषा-निर्देशित संचालन कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन सटीक स्थानिक तर्क की आवश्यकता वाले कार्यों पर प्रदर्शन में गिरावट आती है, जो दृश्य-भाषा मॉडल (VLM) से विरासत में मिली सीमित स्थानिक तर्क क्षमता से उत्पन्न होती है। मौजूदा VLA VLM को 3D स्पेस में स्थानीयकृत करने के लिए बड़े पैमाने पर कार्य डेटा पूर्व-प्रशिक्षण पर निर्भर करते हैं, जो प्रशिक्षण दक्षता को कम करता है और फिर भी सटीक स्थानिक समझ के लिए अपर्याप्त है। यह पेपर DepthVLA प्रस्तावित करता है, जो एक सरल और प्रभावी VLA आर्किटेक्चर है जो पूर्व-प्रशिक्षित गहराई भविष्यवाणी मॉड्यूल के माध्यम से स्पष्ट रूप से स्थानिक-जागरूक क्षमता को एकीकृत करता है। DepthVLA एक हाइब्रिड ट्रांसफॉर्मर डिज़ाइन अपनाता है जो VLM, गहराई ट्रांसफॉर्मर और कार्य विशेषज्ञों को एकीकृत करता है, पूरी तरह से साझा ध्यान तंत्र के माध्यम से एक अंत-से-अंत मॉडल बनाता है, स्थानिक तर्क क्षमता को बढ़ाता है। वास्तविक दुनिया और सिमुलेशन वातावरण में व्यापक मूल्यांकन से पता चलता है कि DepthVLA अत्याधुनिक तरीकों को पार करता है, वास्तविक दुनिया के कार्यों में 78.5% बनाम 65.0% की प्रगति, LIBERO सिम्युलेटर में 94.9% बनाम 93.6%, और Simpler सिम्युलेटर में 74.8% बनाम 58.8% प्राप्त करता है।
मौजूदा Vision-Language-Action (VLA) मॉडल सटीक स्थानिक तर्क की आवश्यकता वाले रोबोटिक हेरफेर कार्यों पर खराब प्रदर्शन करते हैं, मुख्य कारण हैं:
- सीमित स्थानिक तर्क क्षमता: VLA VLM की स्थानिक तर्क सीमाओं को विरासत में लेता है, सटीक हेरफेर कार्यों में अपर्याप्त प्रदर्शन करता है
- कम प्रशिक्षण दक्षता: मौजूदा तरीके 3D स्पेस में VLM को स्थानीयकृत करने के लिए बड़ी मात्रा में कार्य डेटा पूर्व-प्रशिक्षण पर निर्भर करते हैं, लेकिन फिर भी स्थानिक जानकारी को पूरी तरह से समझ नहीं सकते हैं
- व्यावहारिक अनुप्रयोग में कठिनाई: VLA छोटी वस्तुओं को पकड़ने, सटीक संचालन करने या टकराव से बचने में अक्सर विफल होता है
सटीक स्थानिक तर्क रोबोटिक हेरफेर के लिए महत्वपूर्ण है, विशेष रूप से:
- छोटी वस्तुओं को पकड़ना या सूक्ष्म संचालन
- टकराव से बचने वाली पथ योजना
- सटीक स्थान अनुमान की आवश्यकता वाले स्टैकिंग कार्य
- जटिल वातावरण में बहु-चरणीय संचालन
- जनरेटिव विश्व मॉडल दृष्टिकोण: स्पष्ट 3D ज्ञान की कमी, वर्तमान दृश्य एन्कोडिंग में सुधार सीमित
- Chain-of-Thought तर्क: महत्वपूर्ण विलंब (2 सेकंड से अधिक) का परिचय देता है, सैकड़ों स्थानिक टोकन की स्वचालित पीढ़ी की आवश्यकता है
- बाहरी गहराई अनुमानक: SpatialVLA जैसे तरीके तैयार गहराई अनुमानक का उपयोग करते हैं, लेकिन VLA के साथ अंत-से-अंत अनुकूलित नहीं होते हैं, प्रदर्शन सीमा को सीमित करते हैं
- DepthVLA आर्किटेक्चर: एक नोवल VLA मॉडल प्रस्तावित करता है जो पूर्व-प्रशिक्षित गहराई भविष्यवाणी विशेषज्ञ को हाइब्रिड ट्रांसफॉर्मर फ्रेमवर्क में एकीकृत करता है, स्पष्ट स्थानिक तर्क को लागू करते हुए VLM की शब्दार्थ नींव को बनाए रखता है
- विशेषज्ञ-विशिष्ट पूर्व-प्रशिक्षण रणनीति: हाइब्रिड ट्रांसफॉर्मर डिज़ाइन प्रत्येक विशेषज्ञ (VLM और गहराई) को विभिन्न डेटासेट पर अलग से पूर्व-प्रशिक्षित करने की अनुमति देता है, प्रशिक्षण दक्षता में सुधार करता है और मूर्त कार्य डेटा से परे स्केलेबिलिटा प्रदान करता है
- व्यापक वास्तविक दुनिया और सिमुलेशन सत्यापन: वास्तविक दुनिया और सिमुलेशन वातावरण (LIBERO, Simpler) में DepthVLA को सत्यापित करता है जो अत्याधुनिक VLA से महत्वपूर्ण रूप से बेहतर है, पकड़ने की सटीकता, टकराव से बचाव और समग्र कार्य सफलता दर में महत्वपूर्ण सुधार प्राप्त करता है
मानक अंत-से-अंत VLA सेटअप का पालन करते हुए, नीति πθ वर्तमान अवलोकन ot (एक या अधिक कैमरों से), भाषा निर्देश l और proprioceptive स्थिति st के आधार पर k लंबाई के कार्य अनुक्रम At की भविष्यवाणी करता है:
DepthVLA एक हाइब्रिड ट्रांसफॉर्मर (MoT) आर्किटेक्चर अपनाता है जो तीन विशेषज्ञों को एकीकृत करता है:
- VLM विशेषज्ञ: अवलोकन और भाषा निर्देश को एन्कोड करता है, शब्दार्थ और भाषा आधार सुविधाओं को कैप्चर करता है
- गहराई विशेषज्ञ: अवलोकन को संसाधित करके ज्यामितीय जानकारी का अनुमान लगाता है
- कार्य विशेषज्ञ: शब्दार्थ और ज्यामितीय विशेषज्ञों की संयुक्त सुविधाओं के आधार पर निरंतर कार्य उत्पन्न करता है
- एन्कोडर-डिकोडर आर्किटेक्चर: एन्कोडर DINOv2 पर आधारित, Depth Anything V2 पूर्व-प्रशिक्षित चेकपॉइंट से आरंभ किया गया
- डिकोडर संरचना: VLM के ट्रांसफॉर्मर संरचना से मेल खाता है, रैखिक हेड के माध्यम से गहराई भविष्यवाणी आउटपुट करता है
- मध्यवर्ती सुविधा उपयोग: सभी मध्यवर्ती परतों पर स्थानिक तर्क निष्पादित करता है, कार्य भविष्यवाणी के लिए समृद्ध ज्यामितीय संकेत प्रदान करता है
ब्लॉक-स्तरीय मास्किंग रणनीति अपनाता है:
- VLM और गहराई विशेषज्ञों के टोकन केवल स्वयं पर ध्यान देते हैं
- कार्य टोकन सभी प्रवाहों पर ध्यान दे सकते हैं
- पूर्व-प्रशिक्षित मॉड्यूल की सीखने की क्षमता को बनाए रखते हुए शब्दार्थ और स्थानिक संकेतों को एकीकृत करता है
अंतर्निहित तरीकों के विपरीत, DepthVLA विशेष गहराई विशेषज्ञ के माध्यम से स्पष्ट 3D ज्यामितीय समझ प्रदान करता है, बड़ी मात्रा में कार्य डेटा पर निर्भरता से बचता है।
- विभिन्न विशेषज्ञों को उनके लिए सबसे उपयुक्त डेटा पर पूर्व-प्रशिक्षित करने की अनुमति देता है
- साझा ध्यान परतों के माध्यम से प्रभावी एकीकरण प्राप्त करता है
- प्रत्येक विशेषज्ञ की विशेषज्ञता को बनाए रखता है
गहराई विशेषज्ञ को VLA के साथ संयुक्त रूप से प्रशिक्षित किया जाता है, संयुक्त हानि का उपयोग करते हुए:
जहां Lsi स्केल-अपरिवर्तनीय गहराई हानि है, Lflow प्रवाह मिलान हानि है।
- पूर्व-प्रशिक्षण डेटासेट:
- गहराई विशेषज्ञ: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (100k ट्रैजेक्टरी), BridgeData V2 (60k ट्रैजेक्टरी)
- मूल्यांकन डेटासेट:
- Simpler WidowX: 4 कार्य सेट, 120 परीक्षण
- LIBERO: 4 कार्य सेट (Spatial/Object/Goal/Long), 2000 परीक्षण
- वास्तविक दुनिया: 3 बेंचमार्क कार्य, प्रति कार्य 20 रन
- सफलता दर: कार्य पूर्ण होने का प्रतिशत
- प्रगति स्कोर: प्रत्येक सफल उप-चरण एक बिंदु में योगदान देता है, सभी रन में औसत
- Diffusion Policy
- Octo-Base
- SpatialVLA
- π0 (पुनः कार्यान्वयन)
- OpenVLA
- CoT-VLA
- MolmoACT
- DreamVLA
- मॉडल: VLM बैकबोन के रूप में Paligemma-3B, गहराई एन्कोडर के रूप में DINOv2-L
- प्रशिक्षण: 32 NVIDIA H100 GPU, AdamW अनुकूलक
- अनुमान: NVIDIA 4090 GPU, BF16 मिश्रित सटीकता, 210ms विलंब
| मॉडल | पूर्व-प्रशिक्षण | Put Spoon | Put Carrot | Stack Block | Pick Eggplant | औसत |
|---|
| π0 (पुनः कार्यान्वयन) | × | 81.7% | 64.2% | 30.0% | 59.2% | 58.8% |
| DepthVLA | × | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
| मॉडल | पूर्व-प्रशिक्षण | Spatial | Object | Goal | Long | औसत |
|---|
| π0 (पुनः कार्यान्वयन) | × | 95.8% | 96.4% | 94.8% | 87.4% | 93.6% |
| DepthVLA | × | 96.4% | 98.0% | 95.8% | 89.2% | 94.9% |
- समग्र प्रदर्शन: DepthVLA 79% बनाम बेसलाइन 65% की औसत प्रगति स्कोर प्राप्त करता है
- माइक्रोवेव संचालन: टकराव से बचाव में उत्कृष्ट प्रदर्शन
- ब्लॉक स्टैकिंग: उत्कृष्ट स्थानिक जागरूकता प्रदर्शित करता है
- डेस्क सफाई: छोटी वस्तु पकड़ने के कार्यों पर तुलनीय प्रदर्शन
| सेटअप | Spoon | Carrot | Block | Eggplant | औसत |
|---|
| गहराई विशेषज्ञ यादृच्छिक आरंभीकरण | 60.0% | 60.8% | 43.3% | 40.0% | 51.0% |
| गहराई हानि हटाएं | 69.2% | 60% | 28.3% | 70.0% | 56.9% |
| गहराई विशेषज्ञ को फ्रीज करें | 65.8% | 69.2% | 74.2% | 78.3% | 71.9% |
| ब्लॉक-स्तरीय मास्किंग हटाएं | 66.7% | 65.0% | 2.5% | 88.3% | 55.6% |
| DepthVLA पूर्ण संस्करण | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
- गहराई पूर्व-प्रशिक्षण महत्वपूर्ण है: यादृच्छिक आरंभीकृत गहराई विशेषज्ञ का प्रदर्शन महत्वपूर्ण रूप से गिरता है
- गहराई हानि आवश्यक है: गहराई हानि को हटाने से प्रदर्शन में गिरावट आती है
- ब्लॉक-स्तरीय मास्किंग प्रभावी है: विशेषज्ञ स्वतंत्रता को बनाए रखना प्रदर्शन के लिए महत्वपूर्ण है
- भविष्यवाणी सीधे इनपुट से बेहतर है: भविष्यवाणी की गई गहराई सीधे वास्तविक गहराई का उपयोग करने से बेहतर काम करती है
एकल-कार्य विशेषज्ञों से सामान्य मॉडल तक विकास, बड़ी भाषा मॉडल, दृश्य-भाषा मॉडल और बड़े पैमाने पर रोबोटिक कार्य डेटासेट की प्रगति द्वारा संचालित। प्रारंभिक VLA VLM को सूक्ष्मता से ट्यून करके कार्य टोकन को स्वचालित रूप से उत्पन्न करते हैं, नवीनतम VLA विसरण-आधारित कार्य विशेषज्ञ अपनाते हैं।
- प्रारंभिक तरीके: LiDAR या RGB-D कैमरों जैसे अतिरिक्त 3D इनपुट का उपयोग करते हैं, लेकिन प्लेटफॉर्म-व्यापी सामान्यता को कम करते हैं
- SpatialVLA: तैयार गहराई अनुमानक का उपयोग करके छद्म बिंदु क्लाउड उत्पन्न करता है, लेकिन अंत-से-अंत अनुकूलित नहीं है
- जनरेटिव विश्व मॉडल: भविष्य के फ्रेम, मुख्य बिंदु या शब्दार्थ स्थिति की भविष्यवाणी करते हैं, लेकिन वर्तमान दृश्य एन्कोडिंग में सुधार सीमित है
- CoT तर्क: गहराई टोकन को स्वचालित रूप से उत्पन्न करता है, लेकिन उच्च विलंब का परिचय देता है
हाल के वर्षों में 3D जागरूकता में प्रगति ने एकल या बहु-दृश्य छवियों से ज्यामिति का अनुमान लगाने की मजबूत क्षमता प्रदर्शित की है, VLA स्थानिक तर्क में सुधार के लिए संभावना प्रदान करती है।
- स्पष्ट स्थानिक तर्क प्रभावी है: पूर्व-प्रशिक्षित गहराई विशेषज्ञ के माध्यम से सटीक संचालन कार्यों पर VLA के प्रदर्शन में महत्वपूर्ण सुधार
- हाइब्रिड विशेषज्ञ डिज़ाइन श्रेष्ठ है: विभिन्न विशेषज्ञों को उनके लिए सबसे उपयुक्त डेटा पर पूर्व-प्रशिक्षित करने की अनुमति देता है, दक्षता में सुधार करता है
- अंत-से-अंत अनुकूलन महत्वपूर्ण है: गहराई भविष्यवाणी और कार्य पीढ़ी का संयुक्त अनुकूलन बाहरी गहराई अनुमानक का उपयोग करने से अधिक प्रभावी है
- एकल-दृश्य गहराई भविष्यवाणी चुनौती: कठिन दृश्यों (सूक्ष्म किनारों, परावर्तक या पारदर्शी वस्तुओं, बनावट रहित सतहों) में विफल हो सकता है
- कम्प्यूटेशनल ओवरहेड: 600M पैरामीटर और 20ms अनुमान विलंब जोड़ता है
- गहराई लेबल पर निर्भरता: प्रशिक्षण के लिए छद्म गहराई लेबल उत्पन्न करने की आवश्यकता है
- बहु-दृश्य गहराई भविष्यवाणी: स्थानिक सटीकता और मजबूतता बढ़ाने के लिए बहु-दृश्य गहराई या बिंदु ग्राफ भविष्यवाणी की खोज करना
- अधिक कुशल आर्किटेक्चर: प्रदर्शन को बनाए रखते हुए कम्प्यूटेशनल ओवरहेड को कम करना
- अनुपर्यवेक्षित स्थानिक सीखना: गहराई लेबल पर निर्भरता को कम करना
- विधि नवाचार मजबूत है: पहली बार पूर्व-प्रशिक्षित गहराई विशेषज्ञ को प्रभावी रूप से VLA में एकीकृत करता है, स्पष्ट स्थानिक तर्क प्रदान करता है
- प्रयोग व्यापक और संपूर्ण है: वास्तविक दुनिया और कई सिमुलेशन वातावरण को कवर करता है, विस्तृत विलोपन अध्ययन सहित
- प्रदर्शन सुधार महत्वपूर्ण है: सभी परीक्षण वातावरण में सुसंगत प्रदर्शन सुधार प्राप्त करता है
- डिज़ाइन तर्कसंगत है: हाइब्रिड विशेषज्ञ आर्किटेक्चर प्रत्येक विशेषज्ञ की विशेषज्ञता को बनाए रखता है और प्रभावी एकीकरण प्राप्त करता है
- व्यावहारिकता मजबूत है: अनुमान विलंब में छोटी वृद्धि, वास्तविक समय तैनाती के लिए उपयुक्त
- गहराई गुणवत्ता पर निर्भरता: प्रदर्शन गहराई भविष्यवाणी गुणवत्ता द्वारा सीमित, चुनौतीपूर्ण दृश्यों में विफल हो सकता है
- लेबल जनरेशन लागत: प्रशिक्षण डेटा के लिए छद्म गहराई लेबल उत्पन्न करने की आवश्यकता है, डेटा तैयारी लागत बढ़ाता है
- सैद्धांतिक विश्लेषण अपर्याप्त है: गहराई भविष्यवाणी सीधे इनपुट गहराई से अधिक प्रभावी क्यों है इसके गहन सैद्धांतिक विश्लेषण की कमी
- सामान्यीकरण सत्यापन सीमित है: मुख्य रूप से विशिष्ट प्रकार के संचालन कार्यों पर सत्यापित, अन्य प्रकार के कार्यों के लिए सामान्यीकरण क्षमता अधिक सत्यापन की आवश्यकता है
- क्षेत्र योगदान: VLA स्थानिक तर्क बढ़ाने के लिए नई प्रभावी विधि प्रदान करता है, बाद के अनुसंधान दिशा को प्रभावित कर सकता है
- व्यावहारिक मूल्य: विधि सरल और प्रभावी है, मौजूदा VLA सिस्टम में कार्यान्वयन में आसान
- पुनरुत्पादनशीलता: लेखक कोड को सार्वजनिक करने का वचन देते हैं, अनुसंधान पुनरुत्पादन और आगे विकास में सहायक
- सटीक संचालन कार्य: विशेष रूप से सटीक स्थानिक तर्क की आवश्यकता वाले रोबोटिक संचालन कार्यों के लिए उपयुक्त
- बहु-मोडल रोबोटिक सिस्टम: RGB कैमरों वाले विभिन्न रोबोटिक प्लेटफॉर्म पर लागू
- औद्योगिक अनुप्रयोग: विनिर्माण, सेवा रोबोटिक्स आदि में सटीक संचालन की आवश्यकता वाले दृश्यों में अनुप्रयोग संभावना
पेपर संबंधित कार्यों के समृद्ध संदर्भ उद्धृत करता है, जिसमें शामिल हैं:
- VLA मॉडल: OpenVLA, π0, Octo आदि
- स्थानिक-जागरूक तरीके: SpatialVLA, CoT-VLA आदि
- 3D जागरूकता मॉडल: Depth Anything V2, DINOv2 आदि
- मूल्यांकन बेंचमार्क: LIBERO, Simpler, BridgeData V2 आदि
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो VLA की स्थानिक तर्क क्षमता को बढ़ाने के लिए एक सरल और प्रभावी विधि प्रस्तावित करता है। प्रयोगात्मक डिज़ाइन संपूर्ण है, परिणाम विश्वासपूर्ण हैं, और रोबोटिक संचालन क्षेत्र के लिए महत्वपूर्ण व्यावहारिक मूल्य और अनुसंधान महत्व है।