2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: पदानुक्रमीय स्वायत्त नेविगेशन और निपुण सर्वदिशात्मक लोको-हेरफेर

मूल जानकारी

  • पेपर ID: 2510.09221
  • शीर्षक: HANDO: पदानुक्रमीय स्वायत्त नेविगेशन और निपुण सर्वदिशात्मक लोको-हेरफेर
  • लेखक: जिंग्यूआन सन, चाओरान वांग, मिंग्यु झांग, कुई मिआओ, होंग्यु जी, जिहान कू, हान सन, बिंग वांग, किंगयी सी
  • वर्गीकरण: cs.RO (रोबोटिक्स)
  • प्रकाशन तिथि: 10 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.09221
  • वीडियो प्रदर्शन: https://youtu.be/YD0qx3vRsfc

सारांश

यह पेपर HANDO (पदानुक्रमीय स्वायत्त नेविगेशन और निपुण सर्वदिशात्मक लोको-हेरफेर) प्रस्तुत करता है, जो यांत्रिक भुजा से सुसज्जित पैरों वाले रोबोट के लिए डिज़ाइन किया गया एक दो-स्तरीय ढांचा है, जो मानव-केंद्रित मोबाइल हेरफेर कार्यों को निष्पादित करने के लिए है। पहली परत लक्ष्य-सशर्त स्वायत्त अन्वेषण रणनीति का उपयोग करती है जो रोबोट को शब्दार्थ-निर्दिष्ट लक्ष्य तक पहुंचाती है; दूसरी परत एकीकृत पूर्ण-शरीर मोबाइल हेरफेर रणनीति का उपयोग करती है जो यांत्रिक भुजा और पैरों को सटीक इंटरैक्शन कार्यों के लिए समन्वित करती है। लेखकों ने नेविगेशन मॉड्यूल की प्रारंभिक तैनाती पूरी की है और पूर्ण-शरीर मोबाइल हेरफेर के परिष्कृत तैनाती को आगे बढ़ाना जारी रखेंगे।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान असंरचित वातावरण में निर्बाध मोबाइल हेरफेर की समस्या को हल करने का लक्ष्य रखता है, विशेष रूप से अंतिम-मील डिलीवरी परिदृश्यों में मानव-रोबोट इंटरैक्शन चुनौतियों के साथ। पारंपरिक डिलीवरी विधियां पूर्व-निर्मित मानचित्र और सटीक स्थान निर्धारण पर निर्भर करती हैं, जो गतिशील या अनुकूलित वातावरण में महंगी और सीमित स्केलेबिलिटी वाली होती हैं।

महत्व

अंतिम-मील डिलीवरी सेवा रोबोट का एक महत्वपूर्ण अनुप्रयोग है, जिसके लिए रोबोट को न केवल जटिल वातावरण में पार करने की आवश्यकता है बल्कि मनुष्यों के साथ भौतिक इंटरैक्शन भी करना चाहिए। यांत्रिक भुजा से सुसज्जित चार-पैरों वाले रोबोट का मंच चपल गति क्षमता और हेरफेर कार्यक्षमता को जोड़ता है, जो जटिल डिलीवरी परिदृश्यों के लिए एक आदर्श कार्यान्वयन मंच प्रदान करता है।

मौजूदा विधियों की सीमाएं

  1. नेविगेशन पहलू: अधिकांश डिलीवरी रणनीतियां अभी भी मानचित्र पर निर्भर हैं, जो बार-बार बदलते या तेजी से तैनात वातावरण में खराब प्रदर्शन करती हैं
  2. हेरफेर पहलू: प्रभावी पूर्ण-शरीर समन्वय नियंत्रण की कमी, जटिल मानव-रोबोट इंटरैक्शन को प्राप्त करना मुश्किल है
  3. एकीकरण चुनौतियां: सिमुलेशन से वास्तविक दुनिया की तैनाती में धारणा अंतराल, इलाके परिवर्तन और हार्डवेयर बाधाएं हैं

अनुसंधान प्रेरणा

एक पदानुक्रमीय और एकीकृत ढांचा विकसित करना जो मानचित्र-रहित नेविगेशन को पूर्ण-शरीर मोबाइल हेरफेर के साथ एकीकृत करता है, एक तैनाती योग्य प्रणाली में, अज्ञात स्थान में स्वायत्त नेविगेशन और निपुण हेरफेर क्रियाएं निष्पादित करने की व्यापक स्वायत्तता को प्राप्त करने के लिए।

मुख्य योगदान

  1. नोवल मानचित्र-रहित नेविगेशन मॉड्यूल प्रस्तावित: दृश्य-भाषा मॉडल का उपयोग करके क्रॉस-सीन अनुमान और ग्राफ मिलान के लिए, तीन-चरण अन्वेषण रणनीति को चलाता है, शून्य-लागत नेविगेशन को प्राप्त करता है
  2. मोबाइल हेरफेर रणनीति डिज़ाइन: चार-पैरों वाली गति और यांत्रिक भुजा नियंत्रण को मिश्रित करता है, अंत-प्रभावक प्रक्षेपवक्र मार्गदर्शन के माध्यम से पूर्ण-शरीर इंटरैक्शन व्यवहार को प्राप्त करता है
  3. प्रणाली एकीकरण और सत्यापन: वास्तविक चार-पैरों वाली यांत्रिक भुजा मंच पर प्रणाली को एकीकृत और सत्यापित करता है, शब्दार्थ नेविगेशन और पूर्ण-शरीर इंटरैक्शन को जोड़ते हुए अंत-से-अंत अंतिम-मील डिलीवरी प्रदर्शित करता है

विधि विवरण

कार्य परिभाषा

HANDO ढांचा यांत्रिक भुजा से सुसज्जित चार-पैरों वाले रोबोट को असंरचित वातावरण में पूर्ण डिलीवरी कार्य निष्पादित करने में सक्षम बनाता है, जिसमें शामिल हैं:

  • इनपुट: शब्दार्थ लक्ष्य विवरण (जैसे "काली कार्यालय कुर्सी"), पर्यावरण धारणा डेटा, मानव हाथ प्रक्षेपवक्र
  • आउटपुट: रोबोट गति नियंत्रण आदेश, यांत्रिक भुजा संयुक्त आदेश
  • बाधाएं: कोई पूर्व-निर्मित मानचित्र नहीं, वास्तविक समय आवश्यकताएं, सुरक्षा बाधाएं

मॉडल आर्किटेक्चर

पहली परत: लक्ष्य-उन्मुख मानचित्र-रहित नेविगेशन

तीन-चरण अन्वेषण प्रक्रिया:

  1. प्रारंभिक अन्वेषण चरण: जब मिलान स्कोर st<σ1s_t < \sigma_1 हो, तो प्रणाली शब्दार्थ लक्ष्य ग्राफ GgG_g को उप-लक्ष्यों में विघटित करती है, सीमा-आधारित अन्वेषण रणनीति को अपनाती है
  2. समन्वय प्रक्षेपण और संरेखण चरण: जब σ1st<σ2\sigma_1 \leq s_t < \sigma_2 हो, तो लक्ष्य ग्राफ GgG_g और वर्तमान दृश्य ग्राफ GtG_t को संरेखित करता है
  3. लक्ष्य सत्यापन चरण: जब stσ2s_t \geq \sigma_2 हो, तो लक्ष्य सत्यापन और दृश्य ग्राफ सुधार निष्पादित करता है

क्रिया जनरेशन: VLM-आधारित क्रिया डिकोडर असतत क्रिया at{आगे बढ़ें, बाएं मुड़ें, दाएं मुड़ें, रुकें}a_t \in \{\text{आगे बढ़ें, बाएं मुड़ें, दाएं मुड़ें, रुकें}\} का चयन करता है, निरंतर वेग आदेशों में मैप किया जाता है: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

दूसरी परत: पूर्ण-शरीर मोबाइल हेरफेर रणनीति

हाथ प्रक्षेपवक्र जनरेटर:

  • ऑपरेटर के हाथ का पता लगाता है, हाथ की गति के निम्न बिंदु के माध्यम से मुख्य फ्रेम का चयन करता है
  • हाथ की स्थिति/मुद्रा को रोबोट ग्रिपर के टूल सेंटर पॉइंट (TCP) में पुनर्निर्देशित करता है: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

पूर्ण-शरीर मोबाइल हेरफेर रणनीति:

  • अवस्था स्थान: पिछली क्रिया, पैर की स्थिति, यांत्रिक भुजा की स्थिति, आधार की स्थिति और अंत-प्रभावक प्रक्षेपवक्र शामिल हैं
  • क्रिया स्थान: स्थिति PD नियंत्रण का उपयोग करता है, लक्ष्य स्थिति qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • पुरस्कार फलन:
    • TCP ट्रैकिंग पुरस्कार: rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • नियमितकरण पुरस्कार: rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

तकनीकी नवाचार बिंदु

  1. क्रॉस-मोडल दृश्य समझ: दृश्य-भाषा मॉडल को मिलाकर शब्दार्थ लक्ष्य से नेविगेशन व्यवहार तक सीधे मैपिंग को प्राप्त करता है
  2. पदानुक्रमीय नियंत्रण आर्किटेक्चर: उच्च-स्तरीय शब्दार्थ अनुमान को निम्न-स्तरीय गति नियंत्रण से प्रभावी रूप से अलग करता है
  3. वास्तविक समय हाथ ट्रैकिंग एकीकरण: मानव हाथ प्रक्षेपवक्र के माध्यम से रोबोट अंत-प्रभावक को निर्देशित करता है, मानव-रोबोट इंटरैक्शन की प्राकृतिकता को बढ़ाता है
  4. एकीकृत पूर्ण-शरीर नियंत्रण: एकल नीति ढांचे के भीतर पैर की गति और यांत्रिक भुजा संचालन को समन्वित करता है

प्रयोगात्मक सेटअप

हार्डवेयर मंच

  • रोबोट मंच: Unitree Go1 EDU चार-पैरों वाला रोबोट + AGILEX PIPER हल्का यांत्रिक भुजा
  • कंप्यूटिंग डिवाइस: NVIDIA RTX 4090 GPU
  • नियंत्रण आवृत्ति: गति रणनीति और पूर्ण-शरीर मोबाइल हेरफेर रणनीति दोनों 50Hz पर चलती हैं
  • संचार विधि: वायर्ड ईथरनेट कनेक्शन, कम विलंबता विश्वसनीय तैनाती का समर्थन करता है

प्रयोगात्मक वातावरण

कैफे में वास्तविक दुनिया का मूल्यांकन, वातावरण की विशेषताएं:

  • असंरचित लेआउट, टेबल, कुर्सियां और अव्यवस्था अनियमित रूप से व्यवस्थित हैं
  • आंशिक अवलोकनशीलता: रोबोट के पास लक्ष्य स्थिति का कोई पूर्व ज्ञान नहीं है
  • केवल दृश्य इनपुट और शब्दार्थ निर्देशों पर निर्भर करता है

मूल्यांकन मेट्रिक्स

  • नेविगेशन सफलता दर
  • प्रक्षेपवक्र की चिकनाई और निरंतरता
  • लक्ष्य स्थान निर्धारण सटीकता
  • प्रणाली स्थिरता और मजबूतता

प्रयोगात्मक परिणाम

मुख्य परिणाम

लक्ष्य-उन्मुख मानचित्र-रहित नेविगेशन परत वास्तविक वातावरण में उत्कृष्ट प्रदर्शन दिखाती है:

  • वातावरण का सफलतापूर्वक अन्वेषण किया और लक्ष्य के पास पहुंचा
  • दर्ज की गई आधार प्रक्षेपवक्र चिकनी और निरंतर है
  • अनियमित लेआउट के बावजूद, स्थिर और मजबूत नेविगेशन प्रदर्शन बनाए रखा

प्रयोगात्मक निष्कर्ष

  1. नेविगेशन मॉड्यूल सत्यापन: प्रारंभिक तैनाती सफलतापूर्वक पूरी की, मानचित्र-रहित नेविगेशन की व्यवहार्यता साबित की
  2. प्रणाली एकीकरण: मल्टी-थ्रेडेड नियंत्रण ने वास्तविक समय संचालन को प्राप्त किया
  3. पर्यावरण अनुकूलन: गतिशील, असंरचित वातावरण में अच्छी अनुकूलन क्षमता प्रदर्शित की

संबंधित कार्य

स्वायत्त नेविगेशन

  • पारंपरिक विधियां: SLAM और ग्राफ योजना पर आधारित मानचित्र विधियां, स्थिर संरचित वातावरण में प्रभावी लेकिन महंगी
  • मानचित्र-रहित विधियां: UniGoal, NaviLa जैसे ढांचे भाषा और दृश्य संकेतों का उपयोग करके नेविगेशन को निर्देशित करते हैं, तैनाती लागत को काफी कम करते हैं

अंत-से-अंत नकल सीखना

  • ACT: Transformer बैकबोन नेटवर्क और छवि एनकोडर को अपनाता है
  • Diffusion Policy: बहु-मोडल क्रिया वितरण को मॉडल करने के लिए जनरेटिव विसरण प्रक्रिया का परिचय देता है
  • RISE: निरंतर नियंत्रण के लिए विरल बिंदु क्लाउड एनकोडर का उपयोग करता है

मोबाइल हेरफेर

  • प्रारंभिक विधियां: अनुकूलन-आधारित पैर चरण योजना और पूर्ण-शरीर प्रक्षेपवक्र जनरेशन, उच्च कम्प्यूटेशनल लागत
  • सुदृढ़ीकरण सीखने की विधियां: कई मोबाइल हेरफेर कार्यों के लिए अंत-से-अंत नियंत्रण
  • MLM: प्रक्षेपवक्र पुस्तकालय और विसरण नीति-आधारित अनुमान को मिलाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

HANDO ढांचा शब्दार्थ कार्य समझ और निम्न-स्तरीय भौतिक नियंत्रण के बीच सेतु बनाने में सफल रहा है, असंरचित और मानव वातावरण में जटिल अंतिम-मील डिलीवरी कार्यों के लिए एक प्रभावी समाधान प्रदान करता है।

सीमाएं

  1. संचालन मॉड्यूल पूरी तरह से कार्यान्वित नहीं: पूर्ण-शरीर मोबाइल हेरफेर नियंत्रण अभी भी विकास में है
  2. प्रयोगात्मक दायरा सीमित: मुख्य रूप से नेविगेशन कार्यक्षमता को सत्यापित किया, संचालन कार्यक्षमता को आगे परीक्षण की आवश्यकता है
  3. पर्यावरण जटिलता: चरम गतिशील वातावरण के अनुकूलन की क्षमता को सत्यापित करने की आवश्यकता है

भविष्य की दिशाएं

  1. परिष्कृत पूर्ण-शरीर मोबाइल हेरफेर: पकड़ने और हस्तांतरण के समन्वित नियंत्रण को पूर्ण करना
  2. वास्तविक समय हाथ ट्रैकिंग एकीकरण: मानव-रोबोट इंटरैक्शन की सुरक्षा, मजबूतता और प्राकृतिकता को बढ़ाना
  3. अनुप्रयोग परिदृश्यों का विस्तार: अधिक जटिल वास्तविक वातावरण में प्रदर्शन को सत्यापित करना

गहन मूल्यांकन

शक्तियां

  1. प्रणाली डिजाइन: पदानुक्रमीय ढांचा प्रस्तावित किया, उच्च-स्तरीय अनुमान और निम्न-स्तरीय नियंत्रण को प्रभावी रूप से अलग करता है
  2. व्यावहारिकता: वास्तविक अनुप्रयोग परिदृश्य (अंतिम-मील डिलीवरी) के लिए डिज़ाइन किया गया
  3. तकनीकी नवाचार: मानचित्र-रहित नेविगेशन और पूर्ण-शरीर नियंत्रण का जैविक संयोजन
  4. वास्तविक सत्यापन: वास्तविक हार्डवेयर मंच पर प्रारंभिक सत्यापन किया गया

कमियां

  1. पूर्णता की कमी: संचालन मॉड्यूल अभी भी डिजाइन चरण में है, पूर्ण प्रणाली प्रदर्शन की कमी है
  2. प्रयोगात्मक गहराई सीमित: मुख्य रूप से नेविगेशन कार्यक्षमता प्रदर्शित करता है, मात्रात्मक प्रदर्शन विश्लेषण की कमी है
  3. तुलनात्मक प्रयोग अनुपस्थित: मौजूदा विधियों के साथ विस्तृत तुलना नहीं की गई
  4. मजबूतता विश्लेषण अपर्याप्त: विफलता के मामलों और सीमा स्थितियों के विश्लेषण में सीमा है

प्रभाव

  1. शैक्षणिक मूल्य: मोबाइल हेरफेर रोबोट के लिए नई प्रणाली आर्किटेक्चर सोच प्रदान करता है
  2. व्यावहारिक मूल्य: सेवा रोबोट और डिलीवरी रोबोट क्षेत्र में अनुप्रयोग क्षमता है
  3. पुनरुत्पादनशीलता: विस्तृत तकनीकी विवरण प्रदान करता है, लेकिन ओपन-सोर्स कोड की कमी है

लागू परिदृश्य

  • अंतिम-मील डिलीवरी सेवा
  • इनडोर सेवा रोबोट अनुप्रयोग
  • मानव-रोबोट सहयोग कार्य
  • असंरचित वातावरण में मोबाइल हेरफेर कार्य

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • UniGoal 5: सार्वभौमिक शून्य-शॉट लक्ष्य-उन्मुख नेविगेशन
  • NaviLa 3: पैरों वाले रोबोट दृश्य-भाषा-क्रिया नेविगेशन मॉडल
  • MLM 7: बहु-कार्य मोबाइल हेरफेर पूर्ण-शरीर नियंत्रण सीखना
  • Diffusion Policy 8: विसरण-आधारित दृश्य गति नीति सीखना

समग्र मूल्यांकन: यह व्यावहारिक मूल्य का एक प्रणालीगत कार्य है, जो मोबाइल हेरफेर रोबोट के लिए एक पूर्ण ढांचा डिजाइन प्रस्तावित करता है। हालांकि संचालन मॉड्यूल अभी भी विकास में है, नेविगेशन मॉड्यूल की सफल तैनाती विधि की व्यवहार्यता साबित करती है। पेपर का मुख्य योगदान प्रणाली आर्किटेक्चर डिजाइन और प्रारंभिक वास्तविक दुनिया सत्यापन में है, जो इस क्षेत्र के आगे विकास के लिए आधार तैयार करता है।