2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

تحسين الإمساك في الروبوتات ذات الأرجل: نهج التعلم العميق لمعالجة الحركة والمعالجة

المعلومات الأساسية

معرّف الورقة: 2508.17466
العنوان: تحسين الإمساك في الروبوتات ذات الأرجل: نهج التعلم العميق لمعالجة الحركة والمعالجة
المؤلفون: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
التصنيفات: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2508.17466v2
جهات التمويل: شركة بتروليو برازيليرو - بيتروبراس

الملخص

تقدم هذه الورقة إطار عمل للتعلم العميق يهدف إلى تعزيز قدرات الإمساك بالأشياء في الروبوتات الرباعية الأرجل المزودة بذراع ميكانيكية، مع التركيز على تحسين الدقة والقابلية للتكيف. يعتمد النهج على منهجية المحاكاة إلى الواقع (sim-to-real)، مما يقلل الاعتماد على جمع البيانات الفيزيائية. طور المؤلفون خط أنابيب في بيئة محاكاة Genesis، يولد مجموعة بيانات اصطناعية لمحاولات إمساك الأشياء الشائعة. من خلال محاكاة آلاف التفاعلات من زوايا مختلفة، تم إنشاء خرائط جودة الإمساك المعلمة على مستوى البكسل كقيم حقيقية للنموذج. تم استخدام مجموعة البيانات هذه لتدريب شبكة عصبية تلافيفية مخصصة بهندسة تشبه U-Net، تعالج المدخلات متعددة الأنماط من كاميرا RGB والعمق المثبتة على الروبوت، بما في ذلك صور RGB وخرائط العمق وأقنعة التقسيم ورسوم خرائط متجهات السطح الطبيعية. ينتج النموذج المدرب خرائط حرارية لجودة الإمساك لتحديد نقاط الإمساك المثلى. تحقق المؤلفون من الإطار الكامل على روبوت رباعي الأرجل، حيث نجح النظام في تنفيذ مهمة معالجة الحركة الكاملة: التنقل المستقل إلى الجسم المستهدف، والإحساس بالجسم باستخدام المستشعرات، واستخدام النموذج للتنبؤ بوضعية الإمساك المثلى وتنفيذ إمساك دقيق.

خلفية البحث والدافع

تعريف المشكلة

يظل الإمساك الدقيق والقابل للتكيف في الروبوتات الرباعية الأرجل في البيئات المعقدة غير المنظمة تحديًا كبيرًا، حيث تتطلب الطرق التقليدية عادةً معايرة واسعة النطاق في العالم الحقيقي وتكوينات إمساك مبرمجة مسبقًا، مما يحد من مرونتها.

الأهمية

القيمة التطبيقية: يمكن للروبوتات الرباعية الأرجل المزودة بذراع ميكانيكية تحقيق معالجة الحركة والمعالجة (loco-manipulation)، وهي ذات قيمة تطبيقية مهمة في الأتمتة الصناعية ومهام البحث والإنقاذ والتكنولوجيا المساعدة
التحديات التقنية: تتطلب تحقيق تعرف قوي على الأشياء في المشاهد الديناميكية، وتخطيط إمساك دقيق، والتكامل السلس مع أنظمة الحركة
التكيف البيئي: القدرة على العمل بفعالية في بيئات غير منظمة وغير متوقعة

قيود الطرق الموجودة

الاعتماد على التكوينات المحددة مسبقًا: تعتمد الطرق التقليدية على تكوينات إمساك محددة مسبقًا أو معايرة يدوية كثيفة
نقص القدرة على التعميم: تتعلق الحلول الموجودة عادةً بسياق محدد، وتفتقر إلى القابلية للتكيف عبر السيناريوهات المختلفة
تكاليف جمع البيانات: تتطلب جمع كميات كبيرة من بيانات العالم الحقيقي، بتكاليف عالية وتستغرق وقتًا طويلاً

دافع البحث

استلهم المؤلفون من التطبيقات الناجحة الأخيرة للتعلم العميق في مجال إمساك الروبوتات، وقدموا إطار عمل للتعلم العميق متخصص للروبوتات الرباعية الأرجل، يتغلب على قيود الطرق التقليدية من خلال التدريب على المحاكاة.

المساهمات الأساسية

تطوير خط أنابيب تدريب قائم على محاكي Genesis، يحقق جمع بيانات متوازي واسع النطاق بدون بيانات حقيقية
دمج طرق إدراك متقدمة (مثل D2NT)، لتحسين دقة الإمساك القائمة على العمق وتقليل التكاليف الحسابية لتنفيذ التعلم الآلي
تطوير إطار عمل مرن، قادر على التكامل مع واجهات برمجية للتحكم المتقدمة والروبوتات التجارية التي تفتقر إلى الوصول منخفض المستوى
التحقق من فعالية الطريقة على روبوت فيزيائي، مما يثبت فعالية الطريقة في سيناريوهات العالم الحقيقي

شرح الطريقة

تعريف المهمة

المدخلات: بيانات كاميرا RGB-D (صور RGB، خرائط العمق، أقنعة التقسيم، رسوم خرائط متجهات السطح الطبيعية) المخرجات: خريطة حرارية لجودة الإمساك، تحدد إحداثيات ثلاثية الأبعات واتجاه نقاط الإمساك المثلى القيود: تحقيق إمساك دقيق في سيناريو معالجة الحركة والمعالجة للروبوت الرباعي الأرجل

توليد مجموعة البيانات

إعداد بيئة المحاكاة

استخدام إطار عمل Genesis للمحاكاة الفيزيائية
اختيار نموذج زجاجة ثلاثي الأبعاد كهدف إمساك
تكوين كاميرا RGB-D افتراضية لاستخراج صور الجسم

أخذ عينات من موضع الكاميرا

أخذ عينات من 1000 موضع مختلف على شبكة ثنائية الأبعاد
100 و 10 نقاط على محاور X و Z على التوالي (النطاق من -0.5 متر إلى 0.5 متر)
محور Y ثابت عند y=0.5 متر
إضافة اضطراب عشوائي لكل موضع (X, Y: ±0.03 متر، Z: 0-0.09 متر)

توليد تعليقات الإمساك

تنفيذ محاولة إمساك لكل بكسل:

تحويل إحداثيات البكسل إلى نظام الإحداثيات العام
حساب متجه السطح الطبيعي المقابل
بدء المشبك من مسافة 1.0 متر من الجسم، محاولة الإمساك على مسافة 0.35 متر من السطح
تحديد نجاح الإمساك (1) أو فشله (0) بناءً على كشف الاصطدام
تحديد المناطق خارج الجسم كغير مؤكدة (-1)

معمارية النموذج

تصميم الشبكة

المعمارية: هيكل مشفر-فاك تلافيفي كامل قائم على U-Net
المشفر: استخدام MobileNetV2 كشبكة عمود فقري
المدخلات: 480×640×8 قنوات (RGB + عمق + خريطة متجهات طبيعية + قناع تقسيم)
المخرجات: خريطة جودة إمساك أحادية القناة
عدد المعاملات: حوالي 5.44 مليون معامل قابل للتدريب

تفاصيل تقنية رئيسية

استخدام GroupNorm لتحسين استقرار التدريب
اتصالات تخطي لدمج الميزات الدقيقة من المشفر
تلافيف منقولة للعينات الزائدة
تلافيف 1×1 لتوليد المخرجات النهائية

نقاط الابتكار التقني

دمج متعدد الأنماط: دمج فعال لمعلومات RGB والعمق والمتجهات الطبيعية والتقسيم
نقل المحاكاة إلى الواقع: تدريب كامل على بيانات المحاكاة، نشر ناجح على روبوت حقيقي
خط أنابيب من النهاية إلى النهاية: عملية أتمتة كاملة من الإدراك إلى التنفيذ
دمج متجهات السطح الطبيعية: الاستفادة من خوارزمية D2NT لتقدير متجهات السطح الطبيعية من خرائط العمق

إعداد التجارب

مجموعة البيانات

بيانات المحاكاة: توليد بيانات اصطناعية من 1000 وجهة نظر في بيئة Genesis
الدقة: 480×640 بكسل
طريقة التعليق: تعليق جودة إمساك على مستوى البكسل (نجاح/فشل/غير مؤكد)
نوع الجسم: نموذج زجاجة (توسيع لاحق إلى زجاجات حفظ الحرارة)

مؤشرات التقييم

معدل نجاح الإمساك
دقة التوطين
أداء الوقت الفعلي

منصة التجارب

الروبوت: روبوت Boston Dynamics Spot رباعي الأرجل
المستشعرات: كاميرا RGB-D مثبتة على المشبك
التحكم: Boston Dynamics SDK
كشف الأشياء: نموذج YOLOv11 مدرب مسبقًا

تفاصيل التنفيذ

معاملات الكاميرا الداخلية: fx, fy ≈ 554.26 بكسل، النقطة الرئيسية (u0=320, v0=240)
أقصى عزم دوران: 3.0 نيوتن متر
مسافة الإمساك: 0.35 متر من سطح الجسم
التحكم بالقوة: التحكم بتحديد القوة بناءً على SDK

نتائج التجارب

النتائج الرئيسية

نجحت الورقة في عرض مهمة معالجة الحركة والمعالجة الكاملة:

التنقل المستقل: نجح الروبوت في تحديد الاقتراب من الجسم المستهدف
دقة الإدراك: نجح الحصول على بيانات RGB-D ومعالجتها
التنبؤ بالإمساك: تنبأ نموذج CNN بدقة بنقاط الإمساك المثلى
نجاح التنفيذ: نجح الروبوت الفيزيائي في إمساك زجاجة حفظ الحرارة

أداء النظام

المعالجة في الوقت الفعلي: القدرة على معالجة المدخلات متعددة الأنماط بدقة 480×640 في الوقت الفعلي
الاستتباب: إظهار قابلية تكيف جيدة في البيئات الحقيقية
الدقة: تحقيق التحكم الدقيق بالقوة في الإمساك

تحليل الحالات

من الشكل 8 يمكن ملاحظة:

صور RGB تلتقط الجسم المستهدف بوضوح
خرائط العمق توفر معلومات مكانية دقيقة
ينتج YOLO-11 أقنعة تقسيم دقيقة
تنجح خوارزمية D2NT في توليد رسوم خرائط متجهات السطح الطبيعية
تحدد خريطة الإمساك الحرارية الناتجة عن النموذج بدقة المناطق المثلى

الأعمال ذات الصلة

بحث معالجة الحركة والمعالجة

ركزت الأبحاث المبكرة على تطوير أنظمة الحركة المستقرة والتكامل الأساسي للمشابك
تعتمد الطرق التقليدية على نماذج حركية صارمة واستراتيجيات تحكم قائمة على قواعد ثابتة
تشمل التطورات الأخيرة مستشعرات عالية الدقة وتقنيات الرؤية الحاسوبية وهندسات تخطيط الحركة

تطبيقات التعلم العميق في الإمساك

عادةً ما تعيد خوارزميات التعلم الآلي فتح المشبك والاتجاه وجودة الإمساك
تتمكن طرق التعلم العميق من تعلم استراتيجيات إمساك معممة من البيانات
أصبح نقل المحاكاة إلى الواقع اتجاهًا مهمًا لتقليل تكاليف جمع البيانات

تشغيل الروبوتات الرباعية الأرجل

أظهرت الروبوتات الرباعية الأرجل تفوقًا في التنقل عبر التضاريس المعقدة
تحقق معالجة الحركة والمعالجة عند التزويد بذراع ميكانيكية
آفاق تطبيقية واسعة في الأتمتة الصناعية والبحث والإنقاذ والتكنولوجيا المساعدة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الطريقة: نجح نهج التعلم العميق القائم على المحاكاة في تحقيق إمساك دقيق في الروبوتات الرباعية الأرجل
الجدوى التقنية: أثبت الجمع بين الإدراك متعدد الأنماط والتنبؤ بـ CNN جدوى المسار التقني
القيمة العملية: يوفر خط الأنابيب الكامل لمعالجة الحركة والمعالجة حلاً قابلاً للتطبيق للتطبيقات العملية

القيود

قدرة تعميم محدودة: يتأثر تعميم النموذج بتغييرات الهندسة والملمس الهندسي للجسم
جودة المستشعر: تتسبب جودة مستشعر العمق المثبت على المشبك في ضوضاء خريطة العمق
اتساق المعالجة المسبقة: يؤثر تعديل حجم قناع التقسيم أحيانًا على اتساق المعالجة المسبقة
تنوع الأشياء: يركز الحالي بشكل أساسي على أشياء ذات أشكال محددة (أشياء تشبه الزجاجات)

الاتجاهات المستقبلية

توسيع مجموعة البيانات: تضمين أشكال وأحجام وملمس أشياء أكثر تنوعًا
تحسين المستشعر: تنفيذ مرشحات تمويه سلس لإزالة الضوضاء من خرائط العمق أو نماذج ML متخصصة
استراتيجيات التحكم: استكشاف استراتيجيات حركة وتشغيل تتجاوز أدوات SDK
البيئات المعقدة: اختبار في بيئات معقدة بأشياء متعددة وأسطح غير منتظمة

التقييم المتعمق

المزايا

ابتكار قوي: تطبيق ناجح لطريقة المحاكاة إلى الواقع على إمساك الروبوتات الرباعية الأرجل
نظام كامل: حل من النهاية إلى النهاية من الإدراك إلى التنفيذ
قابلية عملية جيدة: التحقق من فعالية الطريقة على روبوت حقيقي
تقنية متقدمة: دمج فعال لمعلومات متعددة الأنماط وتقنيات التعلم العميق الحديثة

أوجه القصور

تقييم محدود: نقص إحصائيات معدل النجاح الكمية والمقارنة مع الطرق الأخرى
جسم واحد: يركز بشكل أساسي على أشياء تشبه الزجاجات، تحتاج قدرة التعميم إلى التحقق الإضافي
بيئة بسيطة: بيئة التجارب نسبيًا بسيطة، الأداء في السيناريوهات المعقدة غير معروف
تحليل نظري: نقص التحليل النظري العميق للطريقة وحالات الفشل

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد لبحث معالجة الحركة والمعالجة في الروبوتات الرباعية الأرجل
القيمة العملية: توفير مرجع لتطوير التطبيقات الصناعية والروبوتات الخدمية
قابلية الاستنساخ: توفير مستودع GitHub يساعد على استنساخ البحث والتوسع
التأثير متعدد التخصصات: دمج مجالات متعددة من الروبوتات والرؤية الحاسوبية والتعلم العميق

السيناريوهات القابلة للتطبيق

الأتمتة الصناعية: نقل المواد والتشغيل في البيئات المعقدة
مهام البحث والإنقاذ: تحديد الأشياء والعمليات الإنقاذية في مواقع الكوارث
الروبوتات الخدمية: تشغيل الأشياء في البيئات المنزلية والمكتبية
منصة البحث: منصة تطوير والتحقق من خوارزميات معالجة الحركة والمعالجة

المراجع

تستشهد الورقة بـ 14 مرجعًا ذا صلة، تغطي الأعمال المهمة في مجالات معالجة الحركة والمعالجة والروبوتات الرباعية الأرجل والإمساك بالتعلم العميق، مما يوفر أساسًا نظريًا قويًا للبحث.

التقييم الشامل: هذه ورقة بحثية تطبيقية بمسار تقني واضح وتنفيذ كامل. على الرغم من وجود نقص في الابتكار النظري والتقييم الشامل، فإن تنفيذها الكامل للنظام والتحقق من الروبوت الحقيقي يوفر مساهمة قيمة لبحث معالجة الحركة والمعالجة في الروبوتات الرباعية الأرجل. يضع هذا العمل أساسًا جيدًا للأبحاث اللاحقة، خاصة في نقل المحاكاة إلى الواقع ودمج الإدراك متعدد الأنماط.