2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: تعزيز نماذج الرؤية واللغة والعمل بالاستدلال المكاني الواعي للعمق

المعلومات الأساسية

معرّف الورقة: 2510.13375
العنوان: DepthVLA: تعزيز نماذج الرؤية واللغة والعمل بالاستدلال المكاني الواعي للعمق
المؤلفون: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
المؤسسات: IIIS، جامعة تسينغهوا وGalaxea AI
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.13375

الملخص

تُظهر نماذج الرؤية واللغة والعمل (VLA) أداءً ممتازاً في مهام التعميم والعمليات الموجهة باللغة، لكن أدائها ينخفض في المهام التي تتطلب استدلالاً مكانياً دقيقاً، وهذا يعود إلى القدرات المحدودة على الاستدلال المكاني الموروثة من نماذج الرؤية واللغة (VLMs). تعتمد نماذج VLA الحالية على التدريب المسبق على بيانات عمل واسعة النطاق لتحديد موقع VLM في الفضاء ثلاثي الأبعاد، مما يقلل من كفاءة التدريب ولا يزال غير كافٍ لتحقيق فهم مكاني دقيق. تقترح هذه الورقة DepthVLA، وهي معمارية VLA بسيطة وفعالة تدمج قدرات الوعي المكاني بشكل صريح من خلال وحدة التنبؤ بالعمق المدربة مسبقاً. يعتمد DepthVLA على تصميم محول هجين يوحد VLM وجهاز تحويل العمق وخبراء العمل، مما يشكل نموذجاً من طرف إلى طرف من خلال آلية انتباه مشتركة بالكامل، مما يعزز قدرات الاستدلال المكاني. تُظهر التقييمات الشاملة في بيئات العالم الحقيقي والمحاكاة أن DepthVLA يتفوق على أحدث الطرق، محققاً 78.5% مقابل 65.0% من التقدم في مهام العالم الحقيقي، و94.9% مقابل 93.6% في محاكي LIBERO، و74.8% مقابل 58.8% في محاكي Simpler.

خلفية البحث والدافع

المشكلة الأساسية

تُظهر نماذج الرؤية واللغة والعمل (VLA) الحالية أداءً ضعيفاً في مهام التلاعب بالروبوتات التي تتطلب استدلالاً مكانياً دقيقاً، والأسباب الرئيسية هي:

قدرات الاستدلال المكاني المحدودة: يرث VLA القيود المكانية من VLM، مما يؤدي إلى أداء ضعيفة في مهام التلاعب الدقيقة
كفاءة التدريب المنخفضة: تعتمد الطرق الحالية على كميات كبيرة من بيانات العمل المسبقة التدريب لتحديد موقع VLM في الفضاء ثلاثي الأبعاد، لكنها لا تزال غير قادرة على فهم المعلومات المكانية بشكل كافٍ
صعوبات التطبيق العملي: غالباً ما يفشل VLA في الإمساك بالأشياء الصغيرة أو تنفيذ العمليات الدقيقة أو تجنب الاصطدامات

أهمية المشكلة

يعتبر الاستدلال المكاني الدقيق حاسماً لتلاعب الروبوتات، خاصة في:

الإمساك بالأشياء الصغيرة أو العمليات الدقيقة
تخطيط المسارات مع تجنب الاصطدامات
مهام التكديس التي تتطلب تقدير موقع دقيق
العمليات متعددة الخطوات في البيئات المعقدة

قيود الطرق الموجودة

طرق نماذج العالم التوليدية: تفتقر إلى المعرفة الصريحة بالأبعاد الثلاثية، مع تحسين محدود لترميز المشهد الحالي
استدلال سلسلة الأفكار: يُدخل تأخيراً كبيراً (يزيد عن ثانيتين)، يتطلب توليداً ذاتي الانحدار لمئات رموز العمق
أجهزة تقدير العمق الخارجية: مثل SpatialVLA التي تستخدم أجهزة تقدير العمق الجاهزة، لكنها لم تُحسَّن من طرف إلى طرف مع VLA، مما يحد من حد الأداء الأقصى

المساهمات الأساسية

معمارية DepthVLA: تقترح نموذج VLA جديد يدمج خبير التنبؤ بالعمق المدرب مسبقاً في إطار عمل محول هجين، مما يحقق استدلالاً مكانياً صريحاً مع الحفاظ على الأساس الدلالي لـ VLM
استراتيجية التدريب المسبق المتخصصة: يسمح تصميم المحول الهجين لكل خبير (VLM والعمق) بالتدريب المسبق بشكل منفصل على مجموعات بيانات مختلفة، مما يحسن كفاءة التدريب والقابلية للتوسع بما يتجاوز بيانات العمل المجسدة
التحقق الشامل في العالم الحقيقي والمحاكاة: يتحقق DepthVLA من تفوق ملحوظ على أحدث نماذج VLA في بيئات العالم الحقيقي والمحاكاة (LIBERO، Simpler)، مع تحسينات كبيرة في دقة الإمساك وتجنب الاصطدامات ومعدل نجاح المهام الإجمالي

شرح الطريقة

تعريف المهمة

يتبع الإعداد القياسي من طرف إلى طرف لـ VLA، حيث تتنبأ السياسة πθ بناءً على الملاحظة الحالية oₜ (من كاميرا واحدة أو أكثر) والتعليمات اللغوية l وحالة الاستقبال الحسي sₜ بكتلة عمل بطول k:

At = πθ(ot, l, st)

معمارية النموذج

يعتمد DepthVLA على معمارية محول هجين (MoT) تدمج ثلاثة خبراء:

1. التصميم الشامل

خبير VLM: يرمز الملاحظات والتعليمات اللغوية، ويلتقط الميزات الدلالية والأساس اللغوي
خبير العمق: يعالج الملاحظات للاستدلال على المعلومات الهندسية
خبير العمل: يولد عمليات مستمرة بناءً على الميزات المدمجة من خبراء الدلالة والهندسة

2. تصميم خبير العمق

معمارية المشفر-فاك التشفير: يعتمد المشفر على DINOv2، مهيأ من نقطة تفتيش Depth Anything V2 المدربة مسبقاً
هيكل فاك التشفير: يطابق هيكل محول VLM، مع إخراج التنبؤ بالعمق من خلال رأس خطي
استخدام الميزات الوسيطة: يُجري الاستدلال المكاني على جميع الطبقات الوسيطة، مما يوفر مؤشرات هندسية غنية للتنبؤ بالعمل

3. آلية الانتباه

تستخدم استراتيجية إخفاء على مستوى الكتلة:

رموز خبير VLM والعمق تركز فقط على نفسها
رموز العمل يمكنها الانتباه إلى جميع التدفقات
الحفاظ على قدرة التعلم للوحدات المدربة مسبقاً مع دمج المؤشرات الدلالية والمكانية

نقاط الابتكار التقني

1. الاستدلال المكاني الصريح

على عكس الطرق الضمنية، يوفر DepthVLA فهماً هندسياً صريحاً ثلاثي الأبعاد من خلال خبير عمق متخصص، مما يتجنب الاعتماد على كميات كبيرة من بيانات العمل.

2. تصميم الخبراء الهجين

يسمح لخبراء مختلفين بالتدريب المسبق على البيانات الأنسب لكل منهم
يحقق دمجاً فعالاً من خلال طبقات الانتباه المشتركة
يحافظ على الكفاءة المتخصصة لكل خبير

3. التحسين من طرف إلى طرف

يتم تدريب خبير العمق بشكل مشترك مع VLA، باستخدام خسارة مدمجة:

L = Lsi + Lflow

حيث Lsi هي خسارة العمق غير المتغيرة للحجم، و Lflow هي خسارة مطابقة التدفق.

إعداد التجارب

مجموعات البيانات

مجموعات البيانات المدربة مسبقاً:
- خبير العمق: WildRGB-D، ScanNet، ScanNet++، HyperSim
- VLA: مجموعة بيانات Galaxea Open-World (100 ألف مسار)، BridgeData V2 (60 ألف مسار)
مجموعات البيانات للتقييم:
- Simpler WidowX: 4 مجموعات مهام، 120 تجربة
- LIBERO: 4 مجموعات مهام (Spatial/Object/Goal/Long)، 2000 تجربة
- العالم الحقيقي: 3 مهام معيارية، 20 تشغيل لكل مهمة

مقاييس التقييم

معدل النجاح: نسبة مئوية من إكمال المهام
درجة التقدم: كل خطوة فرعية ناجحة تساهم بنقطة واحدة، متوسط جميع التشغيلات

طرق المقارنة

Diffusion Policy
Octo-Base
SpatialVLA
π0 (إعادة تنفيذ)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

تفاصيل التنفيذ

النموذج: Paligemma-3B كعمود فقري VLM، DINOv2-L كمشفر عمق
التدريب: 32 وحدة معالجة رسومات NVIDIA H100، محسّن AdamW
الاستدلال: وحدة معالجة رسومات NVIDIA 4090، دقة مختلطة BF16، تأخير 210 ميلي ثانية

نتائج التجارب

النتائج الرئيسية

1. اختبار معيار Simpler WidowX

النموذج	التدريب المسبق	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	المتوسط
π0 (إعادة تنفيذ)	×	81.7%	64.2%	30.0%	59.2%	58.8%
DepthVLA	×	75.8%	71.7%	62.5%	89.2%	74.8%

2. اختبار معيار LIBERO

النموذج	التدريب المسبق	Spatial	Object	Goal	Long	المتوسط
π0 (إعادة تنفيذ)	×	95.8%	96.4%	94.8%	87.4%	93.6%
DepthVLA	×	96.4%	98.0%	95.8%	89.2%	94.9%

3. اختبار معيار العالم الحقيقي

الأداء الإجمالي: يحقق DepthVLA 79% مقابل 65% من متوسط درجة التقدم للخط الأساسي
تشغيل الميكروويف: يُظهر أداءً ممتازاً في تجنب الاصطدامات
تكديس الكتل: يُظهر قدرات إدراك مكاني ممتازة
تنظيم الطاولة: أداء مماثلة في مهام الإمساك بالأشياء الصغيرة

تجارب الاستئصال

الإعداد	Spoon	Carrot	Block	Eggplant	المتوسط
خبير العمق مهيأ عشوائياً	60.0%	60.8%	43.3%	40.0%	51.0%
إزالة خسارة العمق	69.2%	60%	28.3%	70.0%	56.9%
تجميد خبير العمق	65.8%	69.2%	74.2%	78.3%	71.9%
إزالة إخفاء مستوى الكتلة	66.7%	65.0%	2.5%	88.3%	55.6%
DepthVLA كاملة	75.8%	71.7%	62.5%	89.2%	74.8%

النتائج الرئيسية

التدريب المسبق للعمق حاسم: ينخفض أداء خبير العمق المهيأ عشوائياً بشكل كبير
خسارة العمق ضرورية: إزالة خسارة العمق تؤدي إلى انخفاض الأداء
إخفاء مستوى الكتلة فعال: الحفاظ على استقلالية الخبراء حاسم للأداء
التنبؤ أفضل من الإدخال المباشر: التنبؤ بالعمق أفضل من استخدام العمق الحقيقي مباشرة

الأعمال ذات الصلة

استراتيجيات التلاعب بالروبوتات العامة

تطورت من خبراء المهام الفردية إلى نماذج عامة، مدفوعة بتقدم نماذج اللغات الكبيرة ونماذج الرؤية واللغة ومجموعات بيانات العمل بالروبوتات الكبيرة. توليد رموز العمل بشكل ذاتي الانحدار من خلال ضبط VLM، بينما تعتمد أحدث نماذج VLA على خبراء عمل قائمة على الانتشار.

نماذج VLA الواعية بالمكان

الطرق المبكرة: استخدام مدخلات ثلاثية الأبعاد إضافية مثل LiDAR أو كاميرات RGB-D، لكن هذا يقلل من التعميم عبر الأنظمة الأساسية
SpatialVLA: استخدام أجهزة تقدير عمق جاهزة لتوليد سحب نقاط زائفة، لكن لم تُحسَّن من طرف إلى طرف
نماذج العالم التوليدية: التنبؤ بالإطارات المستقبلية أو النقاط الرئيسية أو الحالة الدلالية، لكن مع تحسين محدود لترميز المشهد الحالي
استدلال CoT: توليد رموز العمق بشكل ذاتي الانحدار، لكن مع تأخير عالي

الإدراك الهندسي ثلاثي الأبعاد

أظهرت التطورات الأخيرة في الإدراك ثلاثي الأبعاد قدرات قوية على الاستدلال على الهندسة من صور أحادية أو متعددة الرؤى، مما يوفر إمكانية تحسين الاستدلال المكاني لـ VLA.

الخلاصة والنقاش

الاستنتاجات الرئيسية

الاستدلال المكاني الصريح فعال: يحسن بشكل كبير أداء VLA في مهام التلاعب الدقيقة من خلال خبير عمق مدرب مسبقاً
تصميم الخبراء الهجين متفوق: يسمح لخبراء مختلفين بالتدريب المسبق على البيانات الأنسب لكل منهم، مما يحسن الكفاءة
التحسين من طرف إلى طرف حاسم: التحسين المشترك للتنبؤ بالعمق وتوليد العمل أكثر فعالية من استخدام أجهزة تقدير عمق خارجية

القيود

تحديات التنبؤ بالعمق أحادي العين: قد تفشل في مشاهد صعبة (حواف صغيرة، أسطح عاكسة أو شفافة، أسطح بدون نسيج)
التكلفة الحسابية: تضيف 600 مليون معامل و20 ميلي ثانية من تأخير الاستدلال
الاعتماد على تسميات العمق: تتطلب توليد تسميات عمق زائفة للتدريب

الاتجاهات المستقبلية

التنبؤ بالعمق متعدد الرؤى: استكشاف العمق متعدد الرؤى أو التنبؤ بالرسم البياني النقطي لتحسين الدقة والمتانة المكانية
معماريات أكثر كفاءة: تقليل التكلفة الحسابية مع الحفاظ على الأداء
التعلم المكاني غير الخاضع للإشراف: تقليل الاعتماد على تسميات العمق

التقييم المتعمق

المزايا

ابتكار الطريقة قوي: أول دمج فعال لخبير عمق مدرب مسبقاً في VLA، يوفر استدلالاً مكانياً صريحاً
التجارب شاملة وكاملة: تغطي العالم الحقيقي وبيئات محاكاة متعددة، مع دراسات استئصال مفصلة
تحسينات الأداء كبيرة: تحسينات أداء متسقة في جميع بيئات الاختبار
التصميم معقول: معمارية الخبراء الهجين تحافظ على الكفاءة المتخصصة لكل خبير مع تحقيق دمج فعال
قيمة عملية عالية: تأخير الاستدلال الإضافي صغير، مناسب للنشر في الوقت الفعلي

أوجه القصور

الاعتماد على جودة العمق: الأداء محدودة بجودة التنبؤ بالعمق، قد تفشل في مشاهد صعبة
تكلفة توليد التسميات: يتطلب توليد تسميات عمق زائفة لبيانات التدريب، مما يزيد من تكلفة إعداد البيانات
نقص التحليل النظري: يفتقر إلى تحليل نظري متعمق لسبب كون التنبؤ بالعمق أكثر فعالية من إدخال العمق المباشر
التحقق من التعميم محدود: التحقق الرئيسي على أنواع معينة من مهام التلاعب، يتطلب المزيد من التحقق من التعميم على أنواع مهام أخرى

التأثير

مساهمة المجال: توفير طريقة جديدة وفعالة لتحسين الاستدلال المكاني لـ VLA، قد تؤثر على اتجاهات البحث اللاحقة
القيمة العملية: الطريقة بسيطة وفعالة، سهلة التنفيذ في أنظمة VLA الموجودة
قابلية إعادة الإنتاج: يلتزم المؤلفون بنشر الكود، مما يسهل إعادة الإنتاج والتطوير الإضافي

السيناريوهات المعمول بها

مهام التلاعب الدقيقة: مناسبة بشكل خاص لمهام تلاعب الروبوتات التي تتطلب استدلالاً مكانياً دقيقاً
أنظمة الروبوتات متعددة الأنماط: قابلة للتطبيق على منصات روبوتات مختلفة مزودة بكاميرات RGB
التطبيقات الصناعية: لديها إمكانية تطبيق في السيناريوهات التي تتطلب عمليات دقيقة مثل التصنيع والروبوتات الخدمية

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، بما في ذلك:

نماذج VLA: OpenVLA، π0، Octo وغيرها
طرق الوعي المكاني: SpatialVLA، CoT-VLA وغيرها
نماذج الإدراك ثلاثي الأبعاد: Depth Anything V2، DINOv2 وغيرها
معايير التقييم: LIBERO، Simpler، BridgeData V2 وغيرها

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة بسيطة وفعالة لتحسين قدرات الاستدلال المكاني لـ VLA. يتميز التصميم التجريبي بالشمول، والنتائج مقنعة، وللورقة قيمة عملية وأهمية بحثية مهمة في مجال تلاعب الروبوتات.