This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
- معرّف الورقة: 2508.17466
- العنوان: تحسين الإمساك في الروبوتات ذات الأرجل: نهج التعلم العميق لمعالجة الحركة والمعالجة
- المؤلفون: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
- التصنيفات: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
- تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2508.17466v2
- جهات التمويل: شركة بتروليو برازيليرو - بيتروبراس
تقدم هذه الورقة إطار عمل للتعلم العميق يهدف إلى تعزيز قدرات الإمساك بالأشياء في الروبوتات الرباعية الأرجل المزودة بذراع ميكانيكية، مع التركيز على تحسين الدقة والقابلية للتكيف. يعتمد النهج على منهجية المحاكاة إلى الواقع (sim-to-real)، مما يقلل الاعتماد على جمع البيانات الفيزيائية. طور المؤلفون خط أنابيب في بيئة محاكاة Genesis، يولد مجموعة بيانات اصطناعية لمحاولات إمساك الأشياء الشائعة. من خلال محاكاة آلاف التفاعلات من زوايا مختلفة، تم إنشاء خرائط جودة الإمساك المعلمة على مستوى البكسل كقيم حقيقية للنموذج. تم استخدام مجموعة البيانات هذه لتدريب شبكة عصبية تلافيفية مخصصة بهندسة تشبه U-Net، تعالج المدخلات متعددة الأنماط من كاميرا RGB والعمق المثبتة على الروبوت، بما في ذلك صور RGB وخرائط العمق وأقنعة التقسيم ورسوم خرائط متجهات السطح الطبيعية. ينتج النموذج المدرب خرائط حرارية لجودة الإمساك لتحديد نقاط الإمساك المثلى. تحقق المؤلفون من الإطار الكامل على روبوت رباعي الأرجل، حيث نجح النظام في تنفيذ مهمة معالجة الحركة الكاملة: التنقل المستقل إلى الجسم المستهدف، والإحساس بالجسم باستخدام المستشعرات، واستخدام النموذج للتنبؤ بوضعية الإمساك المثلى وتنفيذ إمساك دقيق.
يظل الإمساك الدقيق والقابل للتكيف في الروبوتات الرباعية الأرجل في البيئات المعقدة غير المنظمة تحديًا كبيرًا، حيث تتطلب الطرق التقليدية عادةً معايرة واسعة النطاق في العالم الحقيقي وتكوينات إمساك مبرمجة مسبقًا، مما يحد من مرونتها.
- القيمة التطبيقية: يمكن للروبوتات الرباعية الأرجل المزودة بذراع ميكانيكية تحقيق معالجة الحركة والمعالجة (loco-manipulation)، وهي ذات قيمة تطبيقية مهمة في الأتمتة الصناعية ومهام البحث والإنقاذ والتكنولوجيا المساعدة
- التحديات التقنية: تتطلب تحقيق تعرف قوي على الأشياء في المشاهد الديناميكية، وتخطيط إمساك دقيق، والتكامل السلس مع أنظمة الحركة
- التكيف البيئي: القدرة على العمل بفعالية في بيئات غير منظمة وغير متوقعة
- الاعتماد على التكوينات المحددة مسبقًا: تعتمد الطرق التقليدية على تكوينات إمساك محددة مسبقًا أو معايرة يدوية كثيفة
- نقص القدرة على التعميم: تتعلق الحلول الموجودة عادةً بسياق محدد، وتفتقر إلى القابلية للتكيف عبر السيناريوهات المختلفة
- تكاليف جمع البيانات: تتطلب جمع كميات كبيرة من بيانات العالم الحقيقي، بتكاليف عالية وتستغرق وقتًا طويلاً
استلهم المؤلفون من التطبيقات الناجحة الأخيرة للتعلم العميق في مجال إمساك الروبوتات، وقدموا إطار عمل للتعلم العميق متخصص للروبوتات الرباعية الأرجل، يتغلب على قيود الطرق التقليدية من خلال التدريب على المحاكاة.
- تطوير خط أنابيب تدريب قائم على محاكي Genesis، يحقق جمع بيانات متوازي واسع النطاق بدون بيانات حقيقية
- دمج طرق إدراك متقدمة (مثل D2NT)، لتحسين دقة الإمساك القائمة على العمق وتقليل التكاليف الحسابية لتنفيذ التعلم الآلي
- تطوير إطار عمل مرن، قادر على التكامل مع واجهات برمجية للتحكم المتقدمة والروبوتات التجارية التي تفتقر إلى الوصول منخفض المستوى
- التحقق من فعالية الطريقة على روبوت فيزيائي، مما يثبت فعالية الطريقة في سيناريوهات العالم الحقيقي
المدخلات: بيانات كاميرا RGB-D (صور RGB، خرائط العمق، أقنعة التقسيم، رسوم خرائط متجهات السطح الطبيعية)
المخرجات: خريطة حرارية لجودة الإمساك، تحدد إحداثيات ثلاثية الأبعات واتجاه نقاط الإمساك المثلى
القيود: تحقيق إمساك دقيق في سيناريو معالجة الحركة والمعالجة للروبوت الرباعي الأرجل
- استخدام إطار عمل Genesis للمحاكاة الفيزيائية
- اختيار نموذج زجاجة ثلاثي الأبعاد كهدف إمساك
- تكوين كاميرا RGB-D افتراضية لاستخراج صور الجسم
- أخذ عينات من 1000 موضع مختلف على شبكة ثنائية الأبعاد
- 100 و 10 نقاط على محاور X و Z على التوالي (النطاق من -0.5 متر إلى 0.5 متر)
- محور Y ثابت عند y=0.5 متر
- إضافة اضطراب عشوائي لكل موضع (X, Y: ±0.03 متر، Z: 0-0.09 متر)
تنفيذ محاولة إمساك لكل بكسل:
- تحويل إحداثيات البكسل إلى نظام الإحداثيات العام
- حساب متجه السطح الطبيعي المقابل
- بدء المشبك من مسافة 1.0 متر من الجسم، محاولة الإمساك على مسافة 0.35 متر من السطح
- تحديد نجاح الإمساك (1) أو فشله (0) بناءً على كشف الاصطدام
- تحديد المناطق خارج الجسم كغير مؤكدة (-1)
- المعمارية: هيكل مشفر-فاك تلافيفي كامل قائم على U-Net
- المشفر: استخدام MobileNetV2 كشبكة عمود فقري
- المدخلات: 480×640×8 قنوات (RGB + عمق + خريطة متجهات طبيعية + قناع تقسيم)
- المخرجات: خريطة جودة إمساك أحادية القناة
- عدد المعاملات: حوالي 5.44 مليون معامل قابل للتدريب
- استخدام GroupNorm لتحسين استقرار التدريب
- اتصالات تخطي لدمج الميزات الدقيقة من المشفر
- تلافيف منقولة للعينات الزائدة
- تلافيف 1×1 لتوليد المخرجات النهائية
- دمج متعدد الأنماط: دمج فعال لمعلومات RGB والعمق والمتجهات الطبيعية والتقسيم
- نقل المحاكاة إلى الواقع: تدريب كامل على بيانات المحاكاة، نشر ناجح على روبوت حقيقي
- خط أنابيب من النهاية إلى النهاية: عملية أتمتة كاملة من الإدراك إلى التنفيذ
- دمج متجهات السطح الطبيعية: الاستفادة من خوارزمية D2NT لتقدير متجهات السطح الطبيعية من خرائط العمق
- بيانات المحاكاة: توليد بيانات اصطناعية من 1000 وجهة نظر في بيئة Genesis
- الدقة: 480×640 بكسل
- طريقة التعليق: تعليق جودة إمساك على مستوى البكسل (نجاح/فشل/غير مؤكد)
- نوع الجسم: نموذج زجاجة (توسيع لاحق إلى زجاجات حفظ الحرارة)
- معدل نجاح الإمساك
- دقة التوطين
- أداء الوقت الفعلي
- الروبوت: روبوت Boston Dynamics Spot رباعي الأرجل
- المستشعرات: كاميرا RGB-D مثبتة على المشبك
- التحكم: Boston Dynamics SDK
- كشف الأشياء: نموذج YOLOv11 مدرب مسبقًا
- معاملات الكاميرا الداخلية: fx, fy ≈ 554.26 بكسل، النقطة الرئيسية (u0=320, v0=240)
- أقصى عزم دوران: 3.0 نيوتن متر
- مسافة الإمساك: 0.35 متر من سطح الجسم
- التحكم بالقوة: التحكم بتحديد القوة بناءً على SDK
نجحت الورقة في عرض مهمة معالجة الحركة والمعالجة الكاملة:
- التنقل المستقل: نجح الروبوت في تحديد الاقتراب من الجسم المستهدف
- دقة الإدراك: نجح الحصول على بيانات RGB-D ومعالجتها
- التنبؤ بالإمساك: تنبأ نموذج CNN بدقة بنقاط الإمساك المثلى
- نجاح التنفيذ: نجح الروبوت الفيزيائي في إمساك زجاجة حفظ الحرارة
- المعالجة في الوقت الفعلي: القدرة على معالجة المدخلات متعددة الأنماط بدقة 480×640 في الوقت الفعلي
- الاستتباب: إظهار قابلية تكيف جيدة في البيئات الحقيقية
- الدقة: تحقيق التحكم الدقيق بالقوة في الإمساك
من الشكل 8 يمكن ملاحظة:
- صور RGB تلتقط الجسم المستهدف بوضوح
- خرائط العمق توفر معلومات مكانية دقيقة
- ينتج YOLO-11 أقنعة تقسيم دقيقة
- تنجح خوارزمية D2NT في توليد رسوم خرائط متجهات السطح الطبيعية
- تحدد خريطة الإمساك الحرارية الناتجة عن النموذج بدقة المناطق المثلى
- ركزت الأبحاث المبكرة على تطوير أنظمة الحركة المستقرة والتكامل الأساسي للمشابك
- تعتمد الطرق التقليدية على نماذج حركية صارمة واستراتيجيات تحكم قائمة على قواعد ثابتة
- تشمل التطورات الأخيرة مستشعرات عالية الدقة وتقنيات الرؤية الحاسوبية وهندسات تخطيط الحركة
- عادةً ما تعيد خوارزميات التعلم الآلي فتح المشبك والاتجاه وجودة الإمساك
- تتمكن طرق التعلم العميق من تعلم استراتيجيات إمساك معممة من البيانات
- أصبح نقل المحاكاة إلى الواقع اتجاهًا مهمًا لتقليل تكاليف جمع البيانات
- أظهرت الروبوتات الرباعية الأرجل تفوقًا في التنقل عبر التضاريس المعقدة
- تحقق معالجة الحركة والمعالجة عند التزويد بذراع ميكانيكية
- آفاق تطبيقية واسعة في الأتمتة الصناعية والبحث والإنقاذ والتكنولوجيا المساعدة
- فعالية الطريقة: نجح نهج التعلم العميق القائم على المحاكاة في تحقيق إمساك دقيق في الروبوتات الرباعية الأرجل
- الجدوى التقنية: أثبت الجمع بين الإدراك متعدد الأنماط والتنبؤ بـ CNN جدوى المسار التقني
- القيمة العملية: يوفر خط الأنابيب الكامل لمعالجة الحركة والمعالجة حلاً قابلاً للتطبيق للتطبيقات العملية
- قدرة تعميم محدودة: يتأثر تعميم النموذج بتغييرات الهندسة والملمس الهندسي للجسم
- جودة المستشعر: تتسبب جودة مستشعر العمق المثبت على المشبك في ضوضاء خريطة العمق
- اتساق المعالجة المسبقة: يؤثر تعديل حجم قناع التقسيم أحيانًا على اتساق المعالجة المسبقة
- تنوع الأشياء: يركز الحالي بشكل أساسي على أشياء ذات أشكال محددة (أشياء تشبه الزجاجات)
- توسيع مجموعة البيانات: تضمين أشكال وأحجام وملمس أشياء أكثر تنوعًا
- تحسين المستشعر: تنفيذ مرشحات تمويه سلس لإزالة الضوضاء من خرائط العمق أو نماذج ML متخصصة
- استراتيجيات التحكم: استكشاف استراتيجيات حركة وتشغيل تتجاوز أدوات SDK
- البيئات المعقدة: اختبار في بيئات معقدة بأشياء متعددة وأسطح غير منتظمة
- ابتكار قوي: تطبيق ناجح لطريقة المحاكاة إلى الواقع على إمساك الروبوتات الرباعية الأرجل
- نظام كامل: حل من النهاية إلى النهاية من الإدراك إلى التنفيذ
- قابلية عملية جيدة: التحقق من فعالية الطريقة على روبوت حقيقي
- تقنية متقدمة: دمج فعال لمعلومات متعددة الأنماط وتقنيات التعلم العميق الحديثة
- تقييم محدود: نقص إحصائيات معدل النجاح الكمية والمقارنة مع الطرق الأخرى
- جسم واحد: يركز بشكل أساسي على أشياء تشبه الزجاجات، تحتاج قدرة التعميم إلى التحقق الإضافي
- بيئة بسيطة: بيئة التجارب نسبيًا بسيطة، الأداء في السيناريوهات المعقدة غير معروف
- تحليل نظري: نقص التحليل النظري العميق للطريقة وحالات الفشل
- المساهمة الأكاديمية: توفير مسار تقني جديد لبحث معالجة الحركة والمعالجة في الروبوتات الرباعية الأرجل
- القيمة العملية: توفير مرجع لتطوير التطبيقات الصناعية والروبوتات الخدمية
- قابلية الاستنساخ: توفير مستودع GitHub يساعد على استنساخ البحث والتوسع
- التأثير متعدد التخصصات: دمج مجالات متعددة من الروبوتات والرؤية الحاسوبية والتعلم العميق
- الأتمتة الصناعية: نقل المواد والتشغيل في البيئات المعقدة
- مهام البحث والإنقاذ: تحديد الأشياء والعمليات الإنقاذية في مواقع الكوارث
- الروبوتات الخدمية: تشغيل الأشياء في البيئات المنزلية والمكتبية
- منصة البحث: منصة تطوير والتحقق من خوارزميات معالجة الحركة والمعالجة
تستشهد الورقة بـ 14 مرجعًا ذا صلة، تغطي الأعمال المهمة في مجالات معالجة الحركة والمعالجة والروبوتات الرباعية الأرجل والإمساك بالتعلم العميق، مما يوفر أساسًا نظريًا قويًا للبحث.
التقييم الشامل: هذه ورقة بحثية تطبيقية بمسار تقني واضح وتنفيذ كامل. على الرغم من وجود نقص في الابتكار النظري والتقييم الشامل، فإن تنفيذها الكامل للنظام والتحقق من الروبوت الحقيقي يوفر مساهمة قيمة لبحث معالجة الحركة والمعالجة في الروبوتات الرباعية الأرجل. يضع هذا العمل أساسًا جيدًا للأبحاث اللاحقة، خاصة في نقل المحاكاة إلى الواقع ودمج الإدراك متعدد الأنماط.