Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
- معرّف الورقة: 2510.13375
- العنوان: DepthVLA: تعزيز نماذج الرؤية واللغة والعمل بالاستدلال المكاني الواعي للعمق
- المؤلفون: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
- المؤسسات: IIIS، جامعة تسينغهوا وGalaxea AI
- التصنيف: cs.CV (رؤية الحاسوب)
- تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2510.13375
تُظهر نماذج الرؤية واللغة والعمل (VLA) أداءً ممتازاً في مهام التعميم والعمليات الموجهة باللغة، لكن أدائها ينخفض في المهام التي تتطلب استدلالاً مكانياً دقيقاً، وهذا يعود إلى القدرات المحدودة على الاستدلال المكاني الموروثة من نماذج الرؤية واللغة (VLMs). تعتمد نماذج VLA الحالية على التدريب المسبق على بيانات عمل واسعة النطاق لتحديد موقع VLM في الفضاء ثلاثي الأبعاد، مما يقلل من كفاءة التدريب ولا يزال غير كافٍ لتحقيق فهم مكاني دقيق. تقترح هذه الورقة DepthVLA، وهي معمارية VLA بسيطة وفعالة تدمج قدرات الوعي المكاني بشكل صريح من خلال وحدة التنبؤ بالعمق المدربة مسبقاً. يعتمد DepthVLA على تصميم محول هجين يوحد VLM وجهاز تحويل العمق وخبراء العمل، مما يشكل نموذجاً من طرف إلى طرف من خلال آلية انتباه مشتركة بالكامل، مما يعزز قدرات الاستدلال المكاني. تُظهر التقييمات الشاملة في بيئات العالم الحقيقي والمحاكاة أن DepthVLA يتفوق على أحدث الطرق، محققاً 78.5% مقابل 65.0% من التقدم في مهام العالم الحقيقي، و94.9% مقابل 93.6% في محاكي LIBERO، و74.8% مقابل 58.8% في محاكي Simpler.
تُظهر نماذج الرؤية واللغة والعمل (VLA) الحالية أداءً ضعيفاً في مهام التلاعب بالروبوتات التي تتطلب استدلالاً مكانياً دقيقاً، والأسباب الرئيسية هي:
- قدرات الاستدلال المكاني المحدودة: يرث VLA القيود المكانية من VLM، مما يؤدي إلى أداء ضعيفة في مهام التلاعب الدقيقة
- كفاءة التدريب المنخفضة: تعتمد الطرق الحالية على كميات كبيرة من بيانات العمل المسبقة التدريب لتحديد موقع VLM في الفضاء ثلاثي الأبعاد، لكنها لا تزال غير قادرة على فهم المعلومات المكانية بشكل كافٍ
- صعوبات التطبيق العملي: غالباً ما يفشل VLA في الإمساك بالأشياء الصغيرة أو تنفيذ العمليات الدقيقة أو تجنب الاصطدامات
يعتبر الاستدلال المكاني الدقيق حاسماً لتلاعب الروبوتات، خاصة في:
- الإمساك بالأشياء الصغيرة أو العمليات الدقيقة
- تخطيط المسارات مع تجنب الاصطدامات
- مهام التكديس التي تتطلب تقدير موقع دقيق
- العمليات متعددة الخطوات في البيئات المعقدة
- طرق نماذج العالم التوليدية: تفتقر إلى المعرفة الصريحة بالأبعاد الثلاثية، مع تحسين محدود لترميز المشهد الحالي
- استدلال سلسلة الأفكار: يُدخل تأخيراً كبيراً (يزيد عن ثانيتين)، يتطلب توليداً ذاتي الانحدار لمئات رموز العمق
- أجهزة تقدير العمق الخارجية: مثل SpatialVLA التي تستخدم أجهزة تقدير العمق الجاهزة، لكنها لم تُحسَّن من طرف إلى طرف مع VLA، مما يحد من حد الأداء الأقصى
- معمارية DepthVLA: تقترح نموذج VLA جديد يدمج خبير التنبؤ بالعمق المدرب مسبقاً في إطار عمل محول هجين، مما يحقق استدلالاً مكانياً صريحاً مع الحفاظ على الأساس الدلالي لـ VLM
- استراتيجية التدريب المسبق المتخصصة: يسمح تصميم المحول الهجين لكل خبير (VLM والعمق) بالتدريب المسبق بشكل منفصل على مجموعات بيانات مختلفة، مما يحسن كفاءة التدريب والقابلية للتوسع بما يتجاوز بيانات العمل المجسدة
- التحقق الشامل في العالم الحقيقي والمحاكاة: يتحقق DepthVLA من تفوق ملحوظ على أحدث نماذج VLA في بيئات العالم الحقيقي والمحاكاة (LIBERO، Simpler)، مع تحسينات كبيرة في دقة الإمساك وتجنب الاصطدامات ومعدل نجاح المهام الإجمالي
يتبع الإعداد القياسي من طرف إلى طرف لـ VLA، حيث تتنبأ السياسة πθ بناءً على الملاحظة الحالية oₜ (من كاميرا واحدة أو أكثر) والتعليمات اللغوية l وحالة الاستقبال الحسي sₜ بكتلة عمل بطول k:
يعتمد DepthVLA على معمارية محول هجين (MoT) تدمج ثلاثة خبراء:
- خبير VLM: يرمز الملاحظات والتعليمات اللغوية، ويلتقط الميزات الدلالية والأساس اللغوي
- خبير العمق: يعالج الملاحظات للاستدلال على المعلومات الهندسية
- خبير العمل: يولد عمليات مستمرة بناءً على الميزات المدمجة من خبراء الدلالة والهندسة
- معمارية المشفر-فاك التشفير: يعتمد المشفر على DINOv2، مهيأ من نقطة تفتيش Depth Anything V2 المدربة مسبقاً
- هيكل فاك التشفير: يطابق هيكل محول VLM، مع إخراج التنبؤ بالعمق من خلال رأس خطي
- استخدام الميزات الوسيطة: يُجري الاستدلال المكاني على جميع الطبقات الوسيطة، مما يوفر مؤشرات هندسية غنية للتنبؤ بالعمل
تستخدم استراتيجية إخفاء على مستوى الكتلة:
- رموز خبير VLM والعمق تركز فقط على نفسها
- رموز العمل يمكنها الانتباه إلى جميع التدفقات
- الحفاظ على قدرة التعلم للوحدات المدربة مسبقاً مع دمج المؤشرات الدلالية والمكانية
على عكس الطرق الضمنية، يوفر DepthVLA فهماً هندسياً صريحاً ثلاثي الأبعاد من خلال خبير عمق متخصص، مما يتجنب الاعتماد على كميات كبيرة من بيانات العمل.
- يسمح لخبراء مختلفين بالتدريب المسبق على البيانات الأنسب لكل منهم
- يحقق دمجاً فعالاً من خلال طبقات الانتباه المشتركة
- يحافظ على الكفاءة المتخصصة لكل خبير
يتم تدريب خبير العمق بشكل مشترك مع VLA، باستخدام خسارة مدمجة:
حيث Lsi هي خسارة العمق غير المتغيرة للحجم، و Lflow هي خسارة مطابقة التدفق.
- مجموعات البيانات المدربة مسبقاً:
- خبير العمق: WildRGB-D، ScanNet، ScanNet++، HyperSim
- VLA: مجموعة بيانات Galaxea Open-World (100 ألف مسار)، BridgeData V2 (60 ألف مسار)
- مجموعات البيانات للتقييم:
- Simpler WidowX: 4 مجموعات مهام، 120 تجربة
- LIBERO: 4 مجموعات مهام (Spatial/Object/Goal/Long)، 2000 تجربة
- العالم الحقيقي: 3 مهام معيارية، 20 تشغيل لكل مهمة
- معدل النجاح: نسبة مئوية من إكمال المهام
- درجة التقدم: كل خطوة فرعية ناجحة تساهم بنقطة واحدة، متوسط جميع التشغيلات
- Diffusion Policy
- Octo-Base
- SpatialVLA
- π0 (إعادة تنفيذ)
- OpenVLA
- CoT-VLA
- MolmoACT
- DreamVLA
- النموذج: Paligemma-3B كعمود فقري VLM، DINOv2-L كمشفر عمق
- التدريب: 32 وحدة معالجة رسومات NVIDIA H100، محسّن AdamW
- الاستدلال: وحدة معالجة رسومات NVIDIA 4090، دقة مختلطة BF16، تأخير 210 ميلي ثانية
| النموذج | التدريب المسبق | Put Spoon | Put Carrot | Stack Block | Pick Eggplant | المتوسط |
|---|
| π0 (إعادة تنفيذ) | × | 81.7% | 64.2% | 30.0% | 59.2% | 58.8% |
| DepthVLA | × | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
| النموذج | التدريب المسبق | Spatial | Object | Goal | Long | المتوسط |
|---|
| π0 (إعادة تنفيذ) | × | 95.8% | 96.4% | 94.8% | 87.4% | 93.6% |
| DepthVLA | × | 96.4% | 98.0% | 95.8% | 89.2% | 94.9% |
- الأداء الإجمالي: يحقق DepthVLA 79% مقابل 65% من متوسط درجة التقدم للخط الأساسي
- تشغيل الميكروويف: يُظهر أداءً ممتازاً في تجنب الاصطدامات
- تكديس الكتل: يُظهر قدرات إدراك مكاني ممتازة
- تنظيم الطاولة: أداء مماثلة في مهام الإمساك بالأشياء الصغيرة
| الإعداد | Spoon | Carrot | Block | Eggplant | المتوسط |
|---|
| خبير العمق مهيأ عشوائياً | 60.0% | 60.8% | 43.3% | 40.0% | 51.0% |
| إزالة خسارة العمق | 69.2% | 60% | 28.3% | 70.0% | 56.9% |
| تجميد خبير العمق | 65.8% | 69.2% | 74.2% | 78.3% | 71.9% |
| إزالة إخفاء مستوى الكتلة | 66.7% | 65.0% | 2.5% | 88.3% | 55.6% |
| DepthVLA كاملة | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
- التدريب المسبق للعمق حاسم: ينخفض أداء خبير العمق المهيأ عشوائياً بشكل كبير
- خسارة العمق ضرورية: إزالة خسارة العمق تؤدي إلى انخفاض الأداء
- إخفاء مستوى الكتلة فعال: الحفاظ على استقلالية الخبراء حاسم للأداء
- التنبؤ أفضل من الإدخال المباشر: التنبؤ بالعمق أفضل من استخدام العمق الحقيقي مباشرة
تطورت من خبراء المهام الفردية إلى نماذج عامة، مدفوعة بتقدم نماذج اللغات الكبيرة ونماذج الرؤية واللغة ومجموعات بيانات العمل بالروبوتات الكبيرة. توليد رموز العمل بشكل ذاتي الانحدار من خلال ضبط VLM، بينما تعتمد أحدث نماذج VLA على خبراء عمل قائمة على الانتشار.
- الطرق المبكرة: استخدام مدخلات ثلاثية الأبعاد إضافية مثل LiDAR أو كاميرات RGB-D، لكن هذا يقلل من التعميم عبر الأنظمة الأساسية
- SpatialVLA: استخدام أجهزة تقدير عمق جاهزة لتوليد سحب نقاط زائفة، لكن لم تُحسَّن من طرف إلى طرف
- نماذج العالم التوليدية: التنبؤ بالإطارات المستقبلية أو النقاط الرئيسية أو الحالة الدلالية، لكن مع تحسين محدود لترميز المشهد الحالي
- استدلال CoT: توليد رموز العمق بشكل ذاتي الانحدار، لكن مع تأخير عالي
أظهرت التطورات الأخيرة في الإدراك ثلاثي الأبعاد قدرات قوية على الاستدلال على الهندسة من صور أحادية أو متعددة الرؤى، مما يوفر إمكانية تحسين الاستدلال المكاني لـ VLA.
- الاستدلال المكاني الصريح فعال: يحسن بشكل كبير أداء VLA في مهام التلاعب الدقيقة من خلال خبير عمق مدرب مسبقاً
- تصميم الخبراء الهجين متفوق: يسمح لخبراء مختلفين بالتدريب المسبق على البيانات الأنسب لكل منهم، مما يحسن الكفاءة
- التحسين من طرف إلى طرف حاسم: التحسين المشترك للتنبؤ بالعمق وتوليد العمل أكثر فعالية من استخدام أجهزة تقدير عمق خارجية
- تحديات التنبؤ بالعمق أحادي العين: قد تفشل في مشاهد صعبة (حواف صغيرة، أسطح عاكسة أو شفافة، أسطح بدون نسيج)
- التكلفة الحسابية: تضيف 600 مليون معامل و20 ميلي ثانية من تأخير الاستدلال
- الاعتماد على تسميات العمق: تتطلب توليد تسميات عمق زائفة للتدريب
- التنبؤ بالعمق متعدد الرؤى: استكشاف العمق متعدد الرؤى أو التنبؤ بالرسم البياني النقطي لتحسين الدقة والمتانة المكانية
- معماريات أكثر كفاءة: تقليل التكلفة الحسابية مع الحفاظ على الأداء
- التعلم المكاني غير الخاضع للإشراف: تقليل الاعتماد على تسميات العمق
- ابتكار الطريقة قوي: أول دمج فعال لخبير عمق مدرب مسبقاً في VLA، يوفر استدلالاً مكانياً صريحاً
- التجارب شاملة وكاملة: تغطي العالم الحقيقي وبيئات محاكاة متعددة، مع دراسات استئصال مفصلة
- تحسينات الأداء كبيرة: تحسينات أداء متسقة في جميع بيئات الاختبار
- التصميم معقول: معمارية الخبراء الهجين تحافظ على الكفاءة المتخصصة لكل خبير مع تحقيق دمج فعال
- قيمة عملية عالية: تأخير الاستدلال الإضافي صغير، مناسب للنشر في الوقت الفعلي
- الاعتماد على جودة العمق: الأداء محدودة بجودة التنبؤ بالعمق، قد تفشل في مشاهد صعبة
- تكلفة توليد التسميات: يتطلب توليد تسميات عمق زائفة لبيانات التدريب، مما يزيد من تكلفة إعداد البيانات
- نقص التحليل النظري: يفتقر إلى تحليل نظري متعمق لسبب كون التنبؤ بالعمق أكثر فعالية من إدخال العمق المباشر
- التحقق من التعميم محدود: التحقق الرئيسي على أنواع معينة من مهام التلاعب، يتطلب المزيد من التحقق من التعميم على أنواع مهام أخرى
- مساهمة المجال: توفير طريقة جديدة وفعالة لتحسين الاستدلال المكاني لـ VLA، قد تؤثر على اتجاهات البحث اللاحقة
- القيمة العملية: الطريقة بسيطة وفعالة، سهلة التنفيذ في أنظمة VLA الموجودة
- قابلية إعادة الإنتاج: يلتزم المؤلفون بنشر الكود، مما يسهل إعادة الإنتاج والتطوير الإضافي
- مهام التلاعب الدقيقة: مناسبة بشكل خاص لمهام تلاعب الروبوتات التي تتطلب استدلالاً مكانياً دقيقاً
- أنظمة الروبوتات متعددة الأنماط: قابلة للتطبيق على منصات روبوتات مختلفة مزودة بكاميرات RGB
- التطبيقات الصناعية: لديها إمكانية تطبيق في السيناريوهات التي تتطلب عمليات دقيقة مثل التصنيع والروبوتات الخدمية
تستشهد الورقة بأعمال ذات صلة غنية، بما في ذلك:
- نماذج VLA: OpenVLA، π0، Octo وغيرها
- طرق الوعي المكاني: SpatialVLA، CoT-VLA وغيرها
- نماذج الإدراك ثلاثي الأبعاد: Depth Anything V2، DINOv2 وغيرها
- معايير التقييم: LIBERO، Simpler، BridgeData V2 وغيرها
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة بسيطة وفعالة لتحسين قدرات الاستدلال المكاني لـ VLA. يتميز التصميم التجريبي بالشمول، والنتائج مقنعة، وللورقة قيمة عملية وأهمية بحثية مهمة في مجال تلاعب الروبوتات.