Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
HANDO: শ্রেণিবদ্ধ স্বায়ত্তশাসিত নেভিগেশন এবং দক্ষ সর্বমুখী লোকোমোটিভ-ম্যানিপুলেশন
- পেপার আইডি: 2510.09221
- শিরোনাম: HANDO: শ্রেণিবদ্ধ স্বায়ত্তশাসিত নেভিগেশন এবং দক্ষ সর্বমুখী লোকোমোটিভ-ম্যানিপুলেশন
- লেখক: জিংগিউয়ান সান, চাওরান ওয়াং, মিংগিউ ঝাং, কুই মিয়াও, হংগিউ জি, জিহান কু, হান সান, বিং ওয়াং, কিংগিই সি
- শ্রেণীবিভাগ: cs.RO (রোবোটিক্স)
- প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রি-প্রিন্ট)
- পেপার লিংক: https://arxiv.org/abs/2510.09221
- ভিডিও প্রদর্শনী: https://youtu.be/YD0qx3vRsfc
এই পেপারটি HANDO (শ্রেণিবদ্ধ স্বায়ত্তশাসিত নেভিগেশন এবং দক্ষ সর্বমুখী লোকোমোটিভ-ম্যানিপুলেশন) প্রস্তাব করে, যা যান্ত্রিক বাহু সহ পায়ের রোবটের জন্য ডিজাইন করা একটি দ্বি-স্তরীয় কাঠামো, যা মানব-কেন্দ্রিক মোবাইল ম্যানিপুলেশন কাজ সম্পাদনের জন্য। প্রথম স্তরটি লক্ষ্য-শর্তযুক্ত স্বায়ত্তশাসিত অন্বেষণ কৌশল ব্যবহার করে, যা রোবটকে শব্দার্থগতভাবে নির্দিষ্ট লক্ষ্যে পৌঁছাতে পরিচালিত করে; দ্বিতীয় স্তরটি একীভূত সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশন কৌশল ব্যবহার করে, যা যান্ত্রিক বাহু এবং পায়ের সমন্বয় করে নির্ভুল ইন্টারঅ্যাকশন কাজের জন্য। লেখকরা নেভিগেশন মডিউলের প্রাথমিক স্থাপনা সম্পন্ন করেছেন এবং সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশনের পরিমার্জিত স্থাপনা অব্যাহত রাখবেন।
এই গবেষণাটি অসংগঠিত পরিবেশে নিরবচ্ছিন্ন মোবাইল ম্যানিপুলেশন সমস্যা সমাধানের লক্ষ্য রাখে, বিশেষত শেষ-মাইল ডেলিভারি পরিস্থিতিতে মানব-রোবট ইন্টারঅ্যাকশনের চ্যালেঞ্জ। ঐতিহ্যবাহী ডেলিভারি পদ্ধতি পূর্ব-নির্মিত মানচিত্র এবং নির্ভুল স্থানীয়করণের উপর নির্ভর করে, যা গতিশীল বা কাস্টমাইজড পরিবেশে ব্যয়বহুল এবং স্কেলেবিলিটি সীমিত।
শেষ-মাইল ডেলিভারি সেবা রোবটের একটি গুরুত্বপূর্ণ প্রয়োগ, যা রোবটকে শুধুমাত্র জটিল পরিবেশ অতিক্রম করতে নয় বরং মানুষের সাথে শারীরিক ইন্টারঅ্যাকশন করতে প্রয়োজন। যান্ত্রিক বাহু সহ চতুষ্পদ রোবটের প্ল্যাটফর্ম চটপটে গতিশীলতা ক্ষমতা এবং ম্যানিপুলেশন কার্যকারিতা একত্রিত করে, জটিল ডেলিভারি পরিস্থিতির জন্য একটি আদর্শ বাস্তবায়ন প্ল্যাটফর্ম প্রদান করে।
- নেভিগেশনের দিক: বেশিরভাগ ডেলিভারি কৌশল এখনও মানচিত্র-নির্ভর, ঘন ঘন পরিবর্তনশীল বা দ্রুত স্থাপনার পরিবেশে দুর্বল কর্মক্ষমতা
- ম্যানিপুলেশনের দিক: কার্যকর সম্পূর্ণ-শরীর সমন্বয় নিয়ন্ত্রণের অভাব, জটিল মানব-রোবট ইন্টারঅ্যাকশন বাস্তবায়ন কঠিন
- একীকরণ চ্যালেঞ্জ: সিমুলেশন থেকে বাস্তব বিশ্বের স্থাপনায় উপলব্ধি ব্যবধান, ভূখণ্ড পরিবর্তন এবং হার্ডওয়্যার সীমাবদ্ধতা রয়েছে
একটি শ্রেণিবদ্ধ এবং একীভূত কাঠামো বিকাশ করা, যা মানচিত্র-মুক্ত নেভিগেশনকে সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশনের সাথে একটি স্থাপনাযোগ্য সিস্টেমে একীভূত করে, অজানা স্থান স্বায়ত্তশাসিত নেভিগেশন এবং দক্ষ ম্যানিপুলেশন ক্রিয়া সম্পাদনের ব্যাপক স্বায়ত্তশাসন অর্জন করে।
- উপন্যাস মানচিত্র-মুক্ত নেভিগেশন মডিউল প্রস্তাব: দৃশ্য-ভাষা মডেল ব্যবহার করে ক্রস-দৃশ্য অনুমান এবং গ্রাফ ম্যাচিং, তিন-পর্যায়ের অন্বেষণ কৌশল চালিত করে, শূন্য-খরচ নেভিগেশন অর্জন করে
- মোবাইল ম্যানিপুলেশন কৌশল ডিজাইন: চতুষ্পদ গতিশীলতা এবং যান্ত্রিক বাহু নিয়ন্ত্রণ একীভূত করে, শেষ-প্রভাবক ট্র্যাজেক্টরি গাইডেন্সের মাধ্যমে সম্পূর্ণ-শরীর ইন্টারঅ্যাকশন আচরণ অর্জন করে
- সিস্টেম একীকরণ এবং যাচাইকরণ: বাস্তব চতুষ্পদ যান্ত্রিক বাহু প্ল্যাটফর্মে সিস্টেম একীভূত এবং যাচাই করে, শব্দার্থগত নেভিগেশন এবং সম্পূর্ণ-শরীর ইন্টারঅ্যাকশন সমন্বিত শেষ-মাইল ডেলিভারি প্রদর্শন করে
HANDO কাঠামোর লক্ষ্য হল যান্ত্রিক বাহু সহ চতুষ্পদ রোবটকে অসংগঠিত পরিবেশে সম্পূর্ণ ডেলিভারি কাজ সম্পাদন করতে সক্ষম করা, যার মধ্যে রয়েছে:
- ইনপুট: শব্দার্থগত লক্ষ্য বর্ণনা (যেমন "কালো অফিস চেয়ার"), পরিবেশ উপলব্ধি ডেটা, মানব হাতের ট্র্যাজেক্টরি
- আউটপুট: রোবট গতিশীলতা নিয়ন্ত্রণ নির্দেশনা, যান্ত্রিক বাহু যৌথ নির্দেশনা
- সীমাবদ্ধতা: পূর্ব-নির্মিত মানচিত্র নেই, রিয়েল-টাইম প্রয়োজনীয়তা, নিরাপত্তা সীমাবদ্ধতা
তিন-পর্যায়ের অন্বেষণ প্রক্রিয়া:
- প্রাথমিক অন্বেষণ পর্যায়: যখন ম্যাচিং স্কোর st<σ1, সিস্টেম শব্দার্থগত লক্ষ্য গ্রাফ Gg কে উপ-লক্ষ্যে বিভক্ত করে, সীমানা-ভিত্তিক অন্বেষণ কৌশল গ্রহণ করে
- স্থানাঙ্ক প্রজেকশন এবং সারিবদ্ধকরণ পর্যায়: যখন σ1≤st<σ2, লক্ষ্য গ্রাফ Gg এবং বর্তমান দৃশ্য গ্রাফ Gt সারিবদ্ধ করে
- লক্ষ্য যাচাইকরণ পর্যায়: যখন st≥σ2, লক্ষ্য যাচাইকরণ এবং দৃশ্য গ্রাফ সংশোধন সম্পাদন করে
ক্রিয়া উৎপাদন: VLM-ভিত্তিক ক্রিয়া ডিকোডার বিচ্ছিন্ন ক্রিয়া at∈{সামনে যান, বাম দিকে ঘুরুন, ডান দিকে ঘুরুন, থামুন} নির্বাচন করে, ক্রমাগত গতি নির্দেশনায় ম্যাপ করে:
(0.1ms−1,π/12rad s−1,−π/12rad s−1,0)
হাতের ট্র্যাজেক্টরি জেনারেটর:
- অপারেটরের হাত সনাক্ত করে, হাতের গতি উপত্যকা দিয়ে মূল ফ্রেম নির্বাচন করে
- হাতের অবস্থান/অভিযোজন রোবটের গ্রিপারের সরঞ্জাম কেন্দ্র বিন্দু (TCP) তে পুনর্নির্দেশিত করে:
xttcp=SE(3)(Tcam→world)⋅SE(3)(ht)⋅tcpThand
সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশন কৌশল:
- অবস্থা স্থান: পূর্ববর্তী ক্রিয়া, পায়ের অবস্থা, যান্ত্রিক বাহু অবস্থা, ভিত্তি অবস্থা এবং শেষ-প্রভাবক ট্র্যাজেক্টরি অন্তর্ভুক্ত করে
- ক্রিয়া স্থান: অবস্থান PD নিয়ন্ত্রণ ব্যবহার করে, লক্ষ্য অবস্থান qt∗=qdefault+Δqt
- পুরস্কার ফাংশন:
- TCP ট্র্যাকিং পুরস্কার: rtrack=exp(−σp∥pttcp−pttar∥)⋅exp(−σo∠(Rttcp(Rttar)T))
- নিয়মিতকরণ পুরস্কার: rreg=−λτ∥τt∥2−λΔq∥at−at−1∥2−λq¨∥q¨t∥2
- ক্রস-মোডাল দৃশ্য বোঝা: দৃশ্য-ভাষা মডেল একত্রিত করে শব্দার্থগত লক্ষ্য থেকে নেভিগেশন আচরণে সরাসরি ম্যাপিং অর্জন করে
- শ্রেণিবদ্ধ নিয়ন্ত্রণ আর্কিটেকচার: উচ্চ-স্তরের শব্দার্থগত অনুমান এবং নিম্ন-স্তরের গতিশীলতা নিয়ন্ত্রণ কার্যকরভাবে পৃথক করে
- রিয়েল-টাইম হাত ট্র্যাকিং একীকরণ: মানব হাতের ট্র্যাজেক্টরির মাধ্যমে রোবট শেষ-প্রভাবক পরিচালনা করে, মানব-রোবট ইন্টারঅ্যাকশনের স্বাভাবিকতা উন্নত করে
- একীভূত সম্পূর্ণ-শরীর নিয়ন্ত্রণ: একক কৌশল কাঠামোর মধ্যে পায়ের গতিশীলতা এবং যান্ত্রিক বাহু ম্যানিপুলেশন সমন্বয় করে
- রোবট প্ল্যাটফর্ম: Unitree Go1 EDU চতুষ্পদ রোবট + AGILEX PIPER হালকা যান্ত্রিক বাহু
- কম্পিউটিং ডিভাইস: NVIDIA RTX 4090 GPU
- নিয়ন্ত্রণ ফ্রিকোয়েন্সি: গতিশীলতা কৌশল এবং সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশন কৌশল উভয়ই 50Hz-এ চলে
- যোগাযোগ পদ্ধতি: তারযুক্ত ইথারনেট সংযোগ, নিম্ন-বিলম্ব নির্ভরযোগ্য স্থাপনা সমর্থন করে
কফি শপে বাস্তব বিশ্বের মূল্যায়ন, পরিবেশের বৈশিষ্ট্য:
- অসংগঠিত লেআউট, টেবিল এবং চেয়ার অনিয়মিতভাবে সাজানো
- আংশিক পর্যবেক্ষণযোগ্যতা: রোবটের লক্ষ্য অবস্থান সম্পর্কে কোন পূর্ব জ্ঞান নেই
- শুধুমাত্র দৃশ্য ইনপুট এবং শব্দার্থগত নির্দেশনার উপর নির্ভর করে
- নেভিগেশন সাফল্যের হার
- ট্র্যাজেক্টরি মসৃণতা এবং ধারাবাহিকতা
- লক্ষ্য স্থানীয়করণ নির্ভুলতা
- সিস্টেম স্থিতিশীলতা এবং শক্তিশালীতা
লক্ষ্য-ভিত্তিক মানচিত্র-মুক্ত নেভিগেশন স্তর বাস্তব পরিবেশে চমৎকার কর্মক্ষমতা প্রদর্শন করে:
- পরিবেশ সফলভাবে অন্বেষণ করে এবং লক্ষ্যের কাছাকাছি পৌঁছায়
- রেকর্ড করা ভিত্তি ট্র্যাজেক্টরি মসৃণ এবং ধারাবাহিক
- অনিয়মিত লেআউট সত্ত্বেও, স্থিতিশীল শক্তিশালী নেভিগেশন কর্মক্ষমতা বজায় রাখে
- নেভিগেশন মডিউল যাচাইকরণ: প্রাথমিক স্থাপনা সফলভাবে সম্পন্ন করে, মানচিত্র-মুক্ত নেভিগেশনের সম্ভাব্যতা প্রমাণ করে
- সিস্টেম একীকরণ: মাল্টি-থ্রেডেড নিয়ন্ত্রণ রিয়েল-টাইম অপারেশন অর্জন করে
- পরিবেশ অভিযোজনযোগ্যতা: গতিশীল, অসংগঠিত পরিবেশে ভাল অভিযোজন ক্ষমতা প্রদর্শন করে
- ঐতিহ্যবাহী পদ্ধতি: SLAM এবং গ্রাফ পরিকল্পনা-ভিত্তিক মানচিত্র পদ্ধতি, স্থির কাঠামোগত পরিবেশে কার্যকর কিন্তু ব্যয়বহুল
- মানচিত্র-মুক্ত পদ্ধতি: UniGoal, NaviLa ইত্যাদি কাঠামো ভাষা এবং দৃশ্য সংকেত ব্যবহার করে নেভিগেশন পরিচালনা করে, স্থাপনা খরচ উল্লেখযোগ্যভাবে হ্রাস করে
- ACT: Transformer মেরুদণ্ড নেটওয়ার্ক এবং ছবি এনকোডার গ্রহণ করে
- Diffusion Policy: বহু-মোডাল ক্রিয়া বিতরণ মডেলিং করতে উৎপাদনশীল বিস্তার প্রক্রিয়া প্রবর্তন করে
- RISE: ক্রমাগত নিয়ন্ত্রণের জন্য বিরল পয়েন্ট ক্লাউড এনকোডার ব্যবহার করে
- প্রাথমিক পদ্ধতি: অপ্টিমাইজেশন-ভিত্তিক পদক্ষেপ পরিকল্পনা এবং সম্পূর্ণ-শরীর ট্র্যাজেক্টরি উৎপাদন, উচ্চ গণনা খরচ
- শক্তিশালী শেখার পদ্ধতি: একাধিক মোবাইল ম্যানিপুলেশন কাজে শেষ-থেকে-শেষ নিয়ন্ত্রণ
- MLM: ট্র্যাজেক্টরি লাইব্রেরি এবং বিস্তার নীতি-ভিত্তিক অনুমান একত্রিত করে
HANDO কাঠামো শব্দার্থগত কাজ বোঝা এবং নিম্ন-স্তরের শারীরিক নিয়ন্ত্রণের মধ্যে সেতু সফলভাবে অর্জন করে, অসংগঠিত এবং মানব পরিবেশে জটিল শেষ-মাইল ডেলিভারি কাজের জন্য কার্যকর সমাধান প্রদান করে।
- ম্যানিপুলেশন মডিউল সম্পূর্ণভাবে বাস্তবায়িত নয়: সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশন নিয়ন্ত্রণ এখনও উন্নয়নাধীন
- সীমিত পরীক্ষামূলক পরিসীমা: প্রধানত নেভিগেশন কার্যকারিতা যাচাই করেছে, ম্যানিপুলেশন কার্যকারিতা আরও পরীক্ষার প্রয়োজন
- পরিবেশ জটিলতা: চরম গতিশীল পরিবেশের অভিযোজন ক্ষমতা যাচাইকরণের অপেক্ষায়
- পরিমার্জিত সম্পূর্ণ-শরীর মোবাইল ম্যানিপুলেশন: গ্রাসপিং এবং হ্যান্ডঅফের সমন্বয় নিয়ন্ত্রণ উন্নত করা
- রিয়েল-টাইম হাত ট্র্যাকিং একীকরণ: মানব-রোবট ইন্টারঅ্যাকশনের নিরাপত্তা, শক্তিশালীতা এবং স্বাভাবিকতা উন্নত করা
- প্রয়োগের পরিসীমা প্রসারিত করা: আরও জটিল বাস্তব পরিবেশে কর্মক্ষমতা যাচাই করা
- সিস্টেমেটিক ডিজাইন: সম্পূর্ণ শ্রেণিবদ্ধ কাঠামো প্রস্তাব করে, উচ্চ-স্তরের অনুমান এবং নিম্ন-স্তরের নিয়ন্ত্রণ কার্যকরভাবে পৃথক করে
- শক্তিশালী ব্যবহারিকতা: প্রকৃত প্রয়োগের পরিস্থিতি (শেষ-মাইল ডেলিভারি) জন্য ডিজাইন করা
- প্রযুক্তিগত উদ্ভাবন: মানচিত্র-মুক্ত নেভিগেশন এবং সম্পূর্ণ-শরীর নিয়ন্ত্রণের জৈব সমন্বয়
- বাস্তব যাচাইকরণ: বাস্তব হার্ডওয়্যার প্ল্যাটফর্মে প্রাথমিক যাচাইকরণ পরিচালিত
- সম্পূর্ণতার অভাব: ম্যানিপুলেশন মডিউল এখনও ডিজাইন পর্যায়ে, সম্পূর্ণ সিস্টেম প্রদর্শনের অভাব
- সীমিত পরীক্ষামূলক গভীরতা: প্রধানত নেভিগেশন কার্যকারিতা প্রদর্শন করে, পরিমাণগত কর্মক্ষমতা বিশ্লেষণের অভাব
- তুলনামূলক পরীক্ষার অভাব: বিদ্যমান পদ্ধতির সাথে বিস্তারিত তুলনা নেই
- শক্তিশালীতা বিশ্লেষণ অপর্যাপ্ত: ব্যর্থতার ক্ষেত্রে এবং সীমানা শর্তের বিশ্লেষণ সীমিত
- একাডেমিক মূল্য: মোবাইল ম্যানিপুলেশন রোবটের জন্য নতুন সিস্টেম আর্কিটেকচার চিন্তাভাবনা প্রদান করে
- ব্যবহারিক মূল্য: সেবা রোবট এবং ডেলিভারি রোবট ক্ষেত্রে প্রয়োগের সম্ভাবনা রয়েছে
- পুনরুৎপাদনযোগ্যতা: বিস্তারিত প্রযুক্তিগত বর্ণনা প্রদান করে, কিন্তু ওপেন-সোর্স কোড অভাব
- শেষ-মাইল ডেলিভারি সেবা
- অভ্যন্তরীণ সেবা রোবট প্রয়োগ
- মানব-রোবট সহযোগিতা কাজ
- অসংগঠিত পরিবেশে মোবাইল ম্যানিপুলেশন কাজ
পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- UniGoal 5: সর্বজনীন শূন্য-শট লক্ষ্য-ভিত্তিক নেভিগেশন
- NaviLa 3: পায়ের রোবটের জন্য দৃশ্য-ভাষা-ক্রিয়া নেভিগেশন মডেল
- MLM 7: বহু-কাজ মোবাইল ম্যানিপুলেশন সম্পূর্ণ-শরীর নিয়ন্ত্রণ শেখা
- Diffusion Policy 8: বিস্তার-ভিত্তিক দৃশ্য গতিশীলতা নীতি শেখা
সামগ্রিক মূল্যায়ন: এটি ব্যবহারিক মূল্য সহ একটি সিস্টেমেটিক কাজ, যা মোবাইল ম্যানিপুলেশন রোবটের জন্য একটি সম্পূর্ণ কাঠামো ডিজাইন প্রস্তাব করে। যদিও ম্যানিপুলেশন মডিউল এখনও উন্নয়নাধীন, নেভিগেশন মডিউলের সফল স্থাপনা পদ্ধতির সম্ভাব্যতা প্রমাণ করে। পেপারের প্রধান অবদান সিস্টেম আর্কিটেকচার ডিজাইন এবং প্রাথমিক বাস্তব বিশ্বের যাচাইকরণে নিহিত, যা এই ক্ষেত্রের আরও উন্নয়নের ভিত্তি স্থাপন করে।