2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: الملاحة الذاتية الهرمية والمعالجة الحركية الرباعية الاتجاهات الماهرة

المعلومات الأساسية

  • معرّف الورقة: 2510.09221
  • العنوان: HANDO: الملاحة الذاتية الهرمية والمعالجة الحركية الرباعية الاتجاهات الماهرة
  • المؤلفون: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • التصنيف: cs.RO (الروبوتات)
  • تاريخ النشر: 10 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.09221
  • عرض الفيديو: https://youtu.be/YD0qx3vRsfc

الملخص

تقدم هذه الورقة HANDO (الملاحة الذاتية الهرمية والمعالجة الحركية الرباعية الاتجاهات الماهرة)، وهو إطار عمل ثنائي المستوى مصمم للروبوتات رباعية الأرجل المزودة بذراع ميكانيكية لتنفيذ مهام معالجة حركية موجهة نحو الإنسان. يستخدم المستوى الأول استراتيجية استكشاف ذاتية موجهة بالهدف لتوجيه الروبوت نحو أهداف محددة دلالياً؛ بينما يستخدم المستوى الثاني استراتيجية معالجة حركية كاملة الجسم موحدة لتنسيق الذراع الميكانيكية والأرجل لمهام التفاعل الدقيقة. أكمل المؤلفون النشر الأولي لوحدة الملاحة ويستمرون في تطوير نشر معالجة الحركة الكاملة للجسم.

خلفية البحث والدافع

تعريف المشكلة

يهدف هذا البحث إلى حل مشكلة المعالجة الحركية السلسة في البيئات غير المنظمة، خاصة تحديات التفاعل بين الإنسان والآلة في سيناريوهات التوصيل في الميل الأخير. تعتمد طرق التوصيل التقليدية على الخرائط المبنية مسبقاً والتحديد الدقيق للموقع، مما يكون مكلفاً وقابلية التوسع محدودة في البيئات الديناميكية أو المخصصة.

الأهمية

يعتبر التوصيل في الميل الأخير تطبيقاً حاسماً للروبوتات الخدمية، حيث يتطلب من الروبوت ليس فقط عبور البيئات المعقدة بل أيضاً التفاعل الفيزيائي مع البشر. توفر منصات الروبوتات رباعية الأرجل المزودة بذراع ميكانيكية مزيجاً من القدرات الحركية الرشيقة والوظائف التلاعبية، مما يوفر منصة تنفيذ مثالية للسيناريوهات المعقدة للتوصيل.

قيود الطرق الموجودة

  1. جانب الملاحة: تعتمد معظم استراتيجيات التوصيل على الخرائط، وتؤدي أداءً ضعيفاً في البيئات سريعة التغير أو التي تتطلب نشراً سريعاً
  2. جانب المعالجة: نقص التحكم الفعال في تنسيق الجسم بالكامل، مما يجعل من الصعب تحقيق تفاعلات معقدة بين الإنسان والآلة
  3. تحديات التكامل: وجود فجوة الإدراك والتغييرات الجيولوجية والقيود الهندسية في النشر من المحاكاة إلى العالم الحقيقي

دافع البحث

تطوير إطار عمل هرمي ومتكامل يوحد الملاحة بدون خريطة مع المعالجة الحركية الكاملة للجسم في نظام قابل للنشر، لتحقيق الاستقلالية الشاملة في الملاحة عبر المساحات غير المعروفة وتنفيذ الحركات التلاعبية الماهرة.

المساهمات الأساسية

  1. اقتراح وحدة ملاحة جديدة بدون خريطة: تستخدم نماذج الرؤية واللغة للاستدلال عبر المشاهد ومطابقة الرسوم البيانية، مما يدفع استراتيجية استكشاف ثلاثية المراحل لتحقيق ملاحة بدون تكاليف
  2. تصميم استراتيجية معالجة حركية: تدمج الحركة رباعية الأرجل والتحكم في الذراع الميكانيكية، مما يحقق سلوكيات تفاعل كاملة الجسم من خلال توجيه مسار المشغل النهائي
  3. التكامل والتحقق من النظام: تكامل وتحقق من النظام على منصة روبوت رباعية الأرجل حقيقية مع ذراع ميكانيكية، مما يوضح التوصيل الشامل للميل الأخير الذي يجمع بين الملاحة الدلالية والتفاعل الكامل للجسم

شرح الطريقة

تعريف المهمة

يهدف إطار عمل HANDO إلى تمكين الروبوتات رباعية الأرجل المزودة بذراع ميكانيكية من تنفيذ مهام توصيل كاملة في بيئات غير منظمة، بما في ذلك:

  • المدخلات: وصف الهدف الدلالي (مثل "كرسي مكتب أسود")، بيانات الإدراك البيئي، مسار يد الإنسان
  • المخرجات: أوامر التحكم في حركة الروبوت، أوامر مفاصل الذراع الميكانيكية
  • القيود: عدم وجود خريطة مبنية مسبقاً، متطلبات الوقت الفعلي، قيود السلامة

معمارية النموذج

المستوى الأول: الملاحة الموجهة بالهدف بدون خريطة

عملية الاستكشاف ثلاثية المراحل:

  1. مرحلة الاستكشاف الأولي: عندما تكون درجة المطابقة st<σ1s_t < \sigma_1، يقوم النظام بتحليل الرسم البياني للهدف الدلالي GgG_g إلى أهداف فرعية، مستخدماً استراتيجية استكشاف قائمة على الحدود
  2. مرحلة الإسقاط والمحاذاة الإحداثية: عندما تكون σ1st<σ2\sigma_1 \leq s_t < \sigma_2، يتم محاذاة الرسم البياني للهدف GgG_g والرسم البياني للمشهد الحالي GtG_t
  3. مرحلة التحقق من الهدف: عندما تكون stσ2s_t \geq \sigma_2، يتم تنفيذ التحقق من الهدف وتصحيح الرسم البياني للمشهد

توليد الحركات: يختار محلل الحركة القائم على VLM حركات منفصلة at{move forward, turn left, turn right, stop}a_t \in \{\text{move forward, turn left, turn right, stop}\}، ويتم تعيينها إلى أوامر السرعة المستمرة: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

المستوى الثاني: استراتيجية المعالجة الحركية الكاملة للجسم

مولد مسار اليد:

  • كشف يد المشغل، واختيار الإطارات الرئيسية من خلال الوديان في سرعة اليد
  • إعادة توجيه موضع/اتجاه اليد إلى نقطة مركز الأداة (TCP) للمشبك الروبوتي: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

استراتيجية المعالجة الحركية الكاملة للجسم:

  • فضاء الحالة: يتضمن الحركة السابقة، حالة الأرجل، حالة الذراع الميكانيكية، حالة القاعدة ومسار المشغل النهائي
  • فضاء الحركة: استخدام التحكم بموضع PD، الموضع المستهدف qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • دالة المكافأة:
    • مكافأة تتبع TCP: rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • مكافأة التنظيم: rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

نقاط الابتكار التقني

  1. فهم المشهد عبر الأنماط المتعددة: دمج نماذج الرؤية واللغة لتحقيق التعيين المباشر من الأهداف الدلالية إلى السلوكيات الملاحية
  2. معمارية التحكم الهرمية: فصل فعال بين الاستدلال الدلالي عالي المستوى والتحكم الحركي منخفض المستوى
  3. تكامل تتبع اليد في الوقت الفعلي: توجيه المشغل النهائي للروبوت من خلال مسار يد الإنسان، مما يحسن طبيعية التفاعل بين الإنسان والآلة
  4. التحكم الموحد الكامل للجسم: تنسيق حركة الأرجل والمعالجة الميكانيكية ضمن إطار عمل سياسة واحدة

إعداد التجارب

منصة الأجهزة

  • منصة الروبوت: روبوت Unitree Go1 EDU رباعي الأرجل + ذراع ميكانيكية AGILEX PIPER خفيفة الوزن
  • أجهزة الحوسبة: معالج NVIDIA RTX 4090 GPU
  • تردد التحكم: تعمل استراتيجية الحركة واستراتيجية المعالجة الحركية الكاملة للجسم بتردد 50Hz
  • طريقة الاتصال: اتصال إيثرنت سلكي، يدعم النشر الموثوق منخفض الكمون

بيئة التجربة

تقييم في العالم الحقيقي في مقهى، بخصائص البيئة:

  • تخطيط غير منظم، مع ترتيب غير منتظم للطاولات والكراسي والفوضى
  • قابلية الملاحظة الجزئية: الروبوت بدون معرفة مسبقة بموقع الهدف
  • الاعتماد فقط على المدخلات البصرية والتعليمات الدلالية

مؤشرات التقييم

  • معدل نجاح الملاحة
  • سلاسة واستمرارية المسار
  • دقة تحديد الهدف
  • استقرار النظام والمتانة

نتائج التجارب

النتائج الرئيسية

أظهرت طبقة الملاحة الموجهة بالهدف بدون خريطة أداءً ممتازاً في البيئات الحقيقية:

  • استكشاف ناجح للبيئة والاقتراب من الهدف
  • مسارات القاعدة المسجلة سلسة ومستمرة
  • الحفاظ على أداء ملاحة مستقرة وقوية رغم التخطيط غير المنتظم

النتائج التجريبية

  1. التحقق من وحدة الملاحة: إكمال ناجح للنشر الأولي، مما يثبت جدوى الملاحة بدون خريطة
  2. تكامل النظام: تحقيق العمليات في الوقت الفعلي من خلال التحكم متعدد الخيوط
  3. التكيف البيئي: إظهار قدرة تكيف جيدة في البيئات الديناميكية غير المنظمة

الأعمال ذات الصلة

الملاحة الذاتية

  • الطرق التقليدية: طرق قائمة على الخرائط باستخدام SLAM وتخطيط الرسوم البيانية، فعالة في البيئات الثابتة المنظمة لكن مكلفة
  • الطرق بدون خريطة: أطر عمل مثل UniGoal و NaviLa تستخدم الإشارات اللغوية والبصرية لتوجيه الملاحة، مما يقلل بشكل كبير من تكاليف النشر

التعلم بالمحاكاة من النهاية إلى النهاية

  • ACT: استخدام شبكة Transformer العمود الفقري ومشفر الصور
  • Diffusion Policy: إدخال عملية انتشار توليدية لنمذجة توزيعات الحركة متعددة الأنماط
  • RISE: استخدام مشفر السحابة النقطية المتفرقة للتحكم المستمر

المعالجة الحركية

  • الطرق المبكرة: تخطيط الخطوات القائم على التحسين وتوليد المسار الكامل للجسم، تكاليف حسابية عالية
  • طرق التعلم المعزز: التحكم من النهاية إلى النهاية لمهام معالجة حركية متعددة
  • MLM: دمج مكتبة المسارات والاستدلال القائم على سياسة الانتشار

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجح إطار عمل HANDO في سد الفجوة بين فهم المهام الدلالية والتحكم الفيزيائي منخفض المستوى، مما يوفر حلاً فعالاً لمهام التوصيل المعقدة في الميل الأخير في البيئات غير المنظمة والبيئات البشرية.

القيود

  1. عدم اكتمال وحدة المعالجة: لا تزال عملية التحكم في المعالجة الحركية الكاملة للجسم قيد التطوير
  2. نطاق التجارب محدود: التحقق الرئيسي من وظائف الملاحة، تحتاج وظائف المعالجة إلى مزيد من الاختبار
  3. تعقيد البيئة: قدرة التكيف مع البيئات الديناميكية الشديدة تحتاج إلى التحقق

الاتجاهات المستقبلية

  1. تحسين المعالجة الحركية الكاملة للجسم: تحسين التحكم المنسق للقبض والتسليم
  2. تكامل تتبع اليد في الوقت الفعلي: تحسين السلامة والمتانة والطبيعية في التفاعل بين الإنسان والآلة
  3. توسيع سيناريوهات التطبيق: التحقق من الأداء في بيئات حقيقية أكثر تعقيداً

التقييم المتعمق

المميزات

  1. التصميم المنهجي: اقتراح إطار عمل شامل يفصل بشكل فعال بين الاستدلال عالي المستوى والتحكم منخفض المستوى
  2. قوة عملية قوية: مصمم لسيناريوهات التطبيق الفعلية (التوصيل في الميل الأخير)
  3. الابتكار التقني: الدمج العضوي للملاحة بدون خريطة والتحكم الكامل للجسم
  4. التحقق الحقيقي: إجراء التحقق الأولي على منصة أجهزة حقيقية

أوجه القصور

  1. عدم الاكتمال: وحدة المعالجة لا تزال في مرحلة التصميم، تفتقر إلى عرض نظام شامل
  2. عمق التجارب محدود: يعرض بشكل أساسي وظائف الملاحة، يفتقر إلى تحليل الأداء الكمي
  3. غياب التجارب المقارنة: لم يتم إجراء مقارنة مفصلة مع الطرق الموجودة
  4. تحليل المتانة غير كافٍ: تحليل محدود لحالات الفشل والشروط الحدية

التأثير

  1. القيمة الأكاديمية: توفير أفكار معمارية نظام جديدة لروبوتات المعالجة الحركية
  2. القيمة العملية: إمكانية التطبيق في مجالات الروبوتات الخدمية وروبوتات التوصيل
  3. قابلية الاستنساخ: توفير وصف تقني مفصل، لكن يفتقر إلى الكود مفتوح المصدر

السيناريوهات المطبقة

  • خدمات التوصيل في الميل الأخير
  • تطبيقات الروبوتات الخدمية الداخلية
  • مهام التعاون بين الإنسان والآلة
  • مهام المعالجة الحركية في البيئات غير المنظمة

المراجع

تستشهد الورقة بأعمال ذات صلة مهمة متعددة، بما في ذلك:

  • UniGoal 5: الملاحة الموجهة بالهدف الشاملة بدون عينات
  • NaviLa 3: نموذج الملاحة بالرؤية واللغة والحركة لروبوتات الأرجل
  • MLM 7: تعلم التحكم الكامل للجسم متعدد المهام للمعالجة الحركية
  • Diffusion Policy 8: تعلم سياسة الحركة البصرية القائمة على الانتشار

التقييم الشامل: هذا عمل منهجي ذو قيمة عملية، يقترح تصميم إطار عمل شامل لروبوتات المعالجة الحركية. على الرغم من أن وحدة المعالجة لا تزال قيد التطوير، فإن النشر الناجح لوحدة الملاحة يثبت جدوى الطريقة. تكمن المساهمات الرئيسية للورقة في تصميم معمارية النظام والتحقق الأولي في العالم الحقيقي، مما يضع أساساً لمزيد من التطوير في هذا المجال.