2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

पैर वाले रोबोटों में ग्रैस्पिंग को अनुकूलित करना: लोको-मैनिपुलेशन के लिए एक गहन शिक्षण दृष्टिकोण

मूल जानकारी

पेपर ID: 2508.17466
शीर्षक: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
लेखक: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
वर्गीकरण: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
प्रकाशन तिथि: 25 अक्टूबर, 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2508.17466v2
वित्तपोषण एजेंसी: Petróleo Brasileiro S/A - Petrobras

सारांश

यह पेपर एक गहन शिक्षण ढांचा प्रस्तुत करता है जो यांत्रिक भुजा से सुसज्जित चतुष्पद रोबोटों की ग्रैस्पिंग क्षमता को बढ़ाने के लिए डिज़ाइन किया गया है, जिसमें सटीकता और अनुकूलनशीलता में सुधार पर ध्यान केंद्रित है। यह विधि सिमुलेशन-से-वास्तविकता (sim-to-real) पद्धति का उपयोग करती है, जो भौतिक डेटा संग्रह पर निर्भरता को कम करती है। लेखकों ने Genesis सिमुलेशन वातावरण में एक पाइपलाइन विकसित की है जो सामान्य वस्तुओं की ग्रैस्पिंग प्रयासों का एक सिंथेटिक डेटासेट उत्पन्न करती है। विभिन्न दृष्टिकोणों से हजारों इंटरैक्शन को सिमुलेट करके, पिक्सेल-स्तर की व्याख्या के साथ ग्रैस्पिंग गुणवत्ता मानचित्र बनाए गए हैं जो मॉडल के लिए ग्राउंड ट्रूथ के रूप में कार्य करते हैं। इस डेटासेट का उपयोग U-Net जैसी आर्किटेक्चर वाले कस्टम CNN को प्रशिक्षित करने के लिए किया जाता है, जो ऑनबोर्ड RGB और गहराई कैमरों से मल्टीमोडल इनपुट को संभालता है, जिसमें RGB छवियां, गहराई मानचित्र, विभाजन मास्क और सतह सामान्य वेक्टर मानचित्र शामिल हैं। प्रशिक्षित मॉडल इष्टतम ग्रैस्पिंग बिंदुओं की पहचान करने के लिए ग्रैस्पिंग गुणवत्ता हीटमैप आउटपुट करता है। लेखकों ने चतुष्पद रोबोट पर संपूर्ण ढांचे को सत्यापित किया है, और सिस्टम ने सफलतापूर्वक एक संपूर्ण मोबाइल हेरफेर कार्य को निष्पादित किया है: स्वायत्त नेविगेशन लक्ष्य वस्तु तक, सेंसर के साथ वस्तु को समझना, मॉडल का उपयोग करके इष्टतम ग्रैस्पिंग पोज़ की भविष्यवाणी करना और सटीक ग्रैस्पिंग को निष्पादित करना।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

जटिल असंरचित वातावरण में चतुष्पद रोबोटों द्वारा सटीक और अनुकूलनीय ग्रैस्पिंग अभी भी एक महत्वपूर्ण चुनौती है, जहां पारंपरिक विधियों को आमतौर पर बड़ी मात्रा में वास्तविक दुनिया के कैलिब्रेशन और पूर्वनिर्धारित ग्रैस्पिंग कॉन्फ़िगरेशन की आवश्यकता होती है, जो इसकी लचीलापन को सीमित करता है।

महत्व

अनुप्रयोग मूल्य: यांत्रिक भुजा से सुसज्जित चतुष्पद रोबोट मोबाइल हेरफेर (loco-manipulation) को प्राप्त कर सकते हैं, जिसका औद्योगिक स्वचालन, खोज और बचाव कार्यों और सहायक प्रौद्योगिकी जैसे क्षेत्रों में महत्वपूर्ण अनुप्रयोग मूल्य है
तकनीकी चुनौतियां: गतिशील दृश्यों में मजबूत वस्तु पहचान, सटीक ग्रैस्पिंग योजना और गति प्रणाली के साथ निर्बाध एकीकरण की आवश्यकता है
पर्यावरणीय अनुकूलनशीलता: अप्रत्याशित असंरचित वातावरण में प्रभावी ढंग से संचालित करने की क्षमता

मौजूदा विधियों की सीमाएं

पूर्वनिर्धारित कॉन्फ़िगरेशन पर निर्भरता: पारंपरिक विधियां पूर्वनिर्धारित ग्रैस्पिंग कॉन्फ़िगरेशन या घने मैनुअल कैलिब्रेशन पर निर्भर करती हैं
सामान्यीकरण क्षमता की कमी: मौजूदा समाधान आमतौर पर विशिष्ट संदर्भ से संबंधित होते हैं, दृश्यों में अनुकूलनशीलता की कमी होती है
डेटा संग्रह लागत: बड़ी मात्रा में वास्तविक दुनिया के डेटा संग्रह की आवश्यकता होती है, जो महंगा और समय लेने वाला है

अनुसंधान प्रेरणा

लेखकों को मशीन रोबोटिक्स ग्रैस्पिंग क्षेत्र में गहन शिक्षण के सफल अनुप्रयोग से प्रेरणा मिली है, और उन्होंने चतुष्पद रोबोटों के लिए विशेष रूप से डिज़ाइन किए गए एक गहन शिक्षण ढांचे का प्रस्ताव दिया है, जो सिमुलेशन प्रशिक्षण के माध्यम से पारंपरिक विधियों की सीमाओं को दूर करता है।

मुख्य योगदान

Genesis सिमुलेटर के आधार पर एक प्रशिक्षण पाइपलाइन विकसित की, जो बड़े पैमाने पर समानांतर डेटा संग्रह को सक्षम बनाता है, वास्तविक डेटा की आवश्यकता के बिना
उन्नत संवेदन विधियों को एकीकृत किया (जैसे D2NT), गहराई-आधारित ग्रैस्पिंग सटीकता में सुधार और ML निष्पादन की कम्प्यूटेशनल लागत को कम किया
एक लचीला ढांचा विकसित किया, जो उन्नत नियंत्रण API और कम-स्तरीय पहुंच की कमी वाले वाणिज्यिक रोबोटों के साथ एकीकृत हो सकता है
भौतिक रोबोट पर विधि की प्रभावशीलता को सत्यापित किया, वास्तविक दुनिया के परिदृश्यों में इस पद्धति की प्रभावशीलता को प्रदर्शित किया

विधि विवरण

कार्य परिभाषा

इनपुट: RGB-D कैमरा डेटा (RGB छवि, गहराई मानचित्र, विभाजन मास्क, सतह सामान्य वेक्टर मानचित्र) आउटपुट: ग्रैस्पिंग गुणवत्ता हीटमैप, इष्टतम ग्रैस्पिंग बिंदु के 3D निर्देशांक और अभिविन्यास की पहचान करता है बाधाएं: चतुष्पद रोबोट मोबाइल हेरफेर परिदृश्य में सटीक ग्रैस्पिंग को प्राप्त करना

डेटासेट जनरेशन

सिमुलेशन वातावरण सेटअप

भौतिक सिमुलेशन के लिए Genesis ढांचे का उपयोग
जल बोतल 3D मॉडल को ग्रैस्पिंग लक्ष्य के रूप में चुना
आभासी RGB-D कैमरा निष्कर्षण के लिए कॉन्फ़िगर किया

कैमरा स्थिति नमूनाकरण

2D ग्रिड पर 1000 विभिन्न स्थितियों का नमूना
X अक्ष और Z अक्ष पर क्रमशः 100 और 10 बिंदु (रेंज -0.5m से 0.5m)
Y अक्ष y=0.5m पर निर्धारित
प्रत्येक स्थिति में यादृच्छिक विक्षोभ जोड़ा गया (X,Y: ±0.03m, Z: 0-0.09m)

ग्रैस्पिंग एनोटेशन जनरेशन

प्रत्येक पिक्सेल के लिए ग्रैस्पिंग प्रयास निष्पादित करें:

पिक्सेल निर्देशांक को वैश्विक निर्देशांक प्रणाली में परिवर्तित करें
संबंधित सतह सामान्य वेक्टर की गणना करें
अंत प्रभावकारी वस्तु से 1.0m दूर शुरू करें, सतह से 0.35m की दूरी पर ग्रैस्पिंग का प्रयास करें
टकराव पहचान के आधार पर ग्रैस्पिंग सफलता (1) या विफलता (0) का निर्धारण करें
वस्तु के बाहर के क्षेत्र को अनिश्चित (-1) के रूप में चिह्नित करें

मॉडल आर्किटेक्चर

नेटवर्क डिज़ाइन

आर्किटेक्चर: U-Net आधारित पूर्ण कनवोल्यूशनल एनकोडर-डिकोडर संरचना
एनकोडर: MobileNetV2 को बैकबोन नेटवर्क के रूप में उपयोग करता है
इनपुट: 480×640×8 चैनल (RGB + गहराई + सामान्य वेक्टर मानचित्र + विभाजन मास्क)
आउटपुट: एकल-चैनल ग्रैस्पिंग गुणवत्ता मानचित्र
पैरामीटर संख्या: लगभग 5.44 मिलियन प्रशिक्षणीय पैरामीटर

मुख्य तकनीकी विवरण

प्रशिक्षण स्थिरता में सुधार के लिए GroupNorm का उपयोग
एनकोडर की सूक्ष्म-दानेदार विशेषताओं को फ्यूज करने के लिए स्किप कनेक्शन
अपसैंपलिंग के लिए ट्रांसपोज़्ड कनवोल्यूशन
अंतिम आउटपुट उत्पन्न करने के लिए 1×1 कनवोल्यूशन

तकनीकी नवाचार बिंदु

मल्टीमोडल फ्यूजन: RGB, गहराई, सामान्य वेक्टर और विभाजन जानकारी को प्रभावी ढंग से संयोजित करता है
सिमुलेशन-से-वास्तविकता स्थानांतरण: पूरी तरह से सिमुलेशन डेटा पर प्रशिक्षित, वास्तविक रोबोट पर सफलतापूर्वक तैनात
एंड-टू-एंड पाइपलाइन: संवेदन से निष्पादन तक की संपूर्ण स्वचालित प्रक्रिया
सतह सामान्य वेक्टर एकीकरण: D2NT एल्गोरिथम का उपयोग करके गहराई मानचित्र से सतह सामान्य वेक्टर का अनुमान लगाता है

प्रायोगिक सेटअप

डेटासेट

सिमुलेशन डेटा: Genesis वातावरण में 1000 दृष्टिकोणों का सिंथेटिक डेटा उत्पन्न किया
रिज़ॉल्यूशन: 480×640 पिक्सेल
एनोटेशन विधि: पिक्सेल-स्तर की ग्रैस्पिंग गुणवत्ता एनोटेशन (सफलता/विफलता/अनिश्चित)
वस्तु प्रकार: जल बोतल मॉडल (बाद में थर्मस तक विस्तारित)

मूल्यांकन मेट्रिक्स

ग्रैस्पिंग सफलता दर
स्थानीयकरण सटीकता
वास्तविक समय प्रदर्शन

प्रायोगिक मंच

रोबोट: Boston Dynamics Spot चतुष्पद रोबोट
सेंसर: अंत प्रभावकारी RGB-D कैमरा
नियंत्रण: Boston Dynamics SDK
वस्तु पहचान: YOLOv11 पूर्व-प्रशिक्षित मॉडल

कार्यान्वयन विवरण

कैमरा आंतरिक पैरामीटर: fx, fy ≈ 554.26 पिक्सेल, मुख्य बिंदु (u0=320, v0=240)
अधिकतम टॉर्क: 3.0 Nm
ग्रैस्पिंग दूरी: वस्तु की सतह से 0.35m की दूरी
बल नियंत्रण: SDK के आधार पर बल-सीमित नियंत्रण

प्रायोगिक परिणाम

मुख्य परिणाम

पेपर ने एक संपूर्ण मोबाइल हेरफेर कार्य को सफलतापूर्वक प्रदर्शित किया:

स्वायत्त नेविगेशन: रोबोट ने लक्ष्य वस्तु को सफलतापूर्वक पहचाना और उसके पास पहुंचा
संवेदन सटीकता: RGB-D डेटा सफलतापूर्वक प्राप्त और संसाधित किया गया
ग्रैस्पिंग भविष्यवाणी: CNN मॉडल ने इष्टतम ग्रैस्पिंग बिंदु की सटीक भविष्यवाणी की
निष्पादन सफलता: भौतिक रोबोट ने सफलतापूर्वक थर्मस को पकड़ा

सिस्टम प्रदर्शन

वास्तविक समय प्रसंस्करण: 480×640 रिज़ॉल्यूशन के मल्टीमोडल इनपुट को वास्तविक समय में संसाधित कर सकता है
मजबूतता: वास्तविक वातावरण में अच्छी अनुकूलनशीलता प्रदर्शित करता है
सटीकता: सटीक बल-नियंत्रित ग्रैस्पिंग को सफलतापूर्वक प्राप्त करता है

केस विश्लेषण

चित्र 8 से देखा जा सकता है:

RGB छवि लक्ष्य वस्तु को स्पष्ट रूप से कैप्चर करती है
गहराई मानचित्र सटीक स्थानिक जानकारी प्रदान करता है
YOLO-11 सटीक विभाजन मास्क उत्पन्न करता है
D2NT एल्गोरिथम सफलतापूर्वक सतह सामान्य वेक्टर मानचित्र उत्पन्न करता है
मॉडल द्वारा आउटपुट किया गया ग्रैस्पिंग हीटमैप इष्टतम क्षेत्र को सटीक रूप से पहचानता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: सिमुलेशन-आधारित गहन शिक्षण विधि ने चतुष्पद रोबोटों द्वारा सटीक ग्रैस्पिंग को सफलतापूर्वक प्राप्त किया
तकनीकी व्यवहार्यता: मल्टीमोडल संवेदन और CNN भविष्यवाणी का संयोजन तकनीकी मार्ग की व्यवहार्यता को प्रदर्शित करता है
व्यावहारिक मूल्य: संपूर्ण मोबाइल हेरफेर पाइपलाइन व्यावहारिक अनुप्रयोगों के लिए एक व्यवहार्य समाधान प्रदान करता है

सीमाएं

सीमित सामान्यीकरण क्षमता: मॉडल सामान्यीकरण वस्तु की ज्यामिति और बनावट परिवर्तन से सीमित है
सेंसर गुणवत्ता: अंत प्रभावकारी गहराई सेंसर की गुणवत्ता कम है, जिससे गहराई मानचित्र में शोर होता है
पूर्वप्रसंस्करण सामंजस्य: विभाजन मास्क आकार समायोजन कभी-कभी पूर्वप्रसंस्करण सामंजस्य को प्रभावित करता है
वस्तु विविधता: वर्तमान में मुख्य रूप से विशिष्ट आकार की वस्तुओं (बोतल प्रकार) के लिए लक्षित है

भविष्य की दिशाएं

डेटासेट विस्तार: अधिक विविध वस्तु आकार, आकार और बनावट को शामिल करें
सेंसर सुधार: गहराई मानचित्र डीनोइजिंग के लिए स्मूथिंग फिल्टर या समर्पित ML मॉडल को लागू करें
नियंत्रण रणनीति: SDK उपकरणों से परे गति और हेरफेर रणनीतियों की खोज करें
जटिल वातावरण: बहु-वस्तु और अनियमित सतहों के जटिल वातावरण में परीक्षण करें

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: सिमुलेशन-से-वास्तविकता विधि को चतुष्पद रोबोट ग्रैस्पिंग में सफलतापूर्वक लागू किया
संपूर्ण सिस्टम: संवेदन से निष्पादन तक का एंड-टू-एंड समाधान
अच्छी व्यावहारिकता: वास्तविक रोबोट पर विधि की प्रभावशीलता को सत्यापित किया
उन्नत तकनीकें: मल्टीमोडल जानकारी और आधुनिक गहन शिक्षण तकनीकों को प्रभावी ढंग से एकीकृत करता है

कमियां

सीमित मूल्यांकन: सफलता दर के आंकड़े और अन्य विधियों के साथ तुलना की कमी
एकल वस्तु: मुख्य रूप से बोतल जैसी वस्तुओं के लिए, सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता है
सरल वातावरण: प्रायोगिक वातावरण अपेक्षाकृत सरल है, जटिल परिदृश्यों में प्रदर्शन अज्ञात है
सैद्धांतिक विश्लेषण: विधि के सैद्धांतिक आधार और विफलता के मामलों का गहन विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान: चतुष्पद रोबोट मोबाइल हेरफेर के लिए एक नया तकनीकी मार्ग प्रदान करता है
व्यावहारिक मूल्य: औद्योगिक अनुप्रयोग और सेवा रोबोट विकास के लिए संदर्भ प्रदान करता है
पुनरुत्पादनशीलता: GitHub रिपॉजिटरी प्रदान करता है, अनुसंधान पुनरुत्पादन और विस्तार में सहायता करता है
अंतःविषय प्रभाव: रोबोटिक्स, कंप्यूटर दृष्टि और गहन शिक्षण के कई क्षेत्रों को जोड़ता है

लागू परिदृश्य

औद्योगिक स्वचालन: जटिल वातावरण में सामग्री हैंडलिंग और संचालन
खोज और बचाव कार्य: आपदा स्थलों पर वस्तु पहचान और बचाव संचालन
सेवा रोबोट: घरेलू और कार्यालय वातावरण में वस्तु संचालन
अनुसंधान मंच: मोबाइल हेरफेर एल्गोरिथम विकास और सत्यापन मंच

संदर्भ

पेपर ने 14 संबंधित संदर्भों को उद्धृत किया है, जो मोबाइल हेरफेर, चतुष्पद रोबोट, गहन शिक्षण ग्रैस्पिंग आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह एक स्पष्ट तकनीकी मार्ग और संपूर्ण कार्यान्वयन वाला एक अनुप्रयोग-उन्मुख अनुसंधान पेपर है। हालांकि सैद्धांतिक नवाचार और व्यापक मूल्यांकन के संदर्भ में कुछ कमियां हैं, लेकिन इसका संपूर्ण सिस्टम कार्यान्वयन और वास्तविक रोबोट सत्यापन चतुष्पद रोबोट मोबाइल हेरफेर अनुसंधान के लिए मूल्यवान योगदान प्रदान करता है। यह कार्य बाद के अनुसंधान के लिए एक अच्छा आधार स्थापित करता है, विशेष रूप से सिमुलेशन-से-वास्तविकता स्थानांतरण और मल्टीमोडल संवेदन एकीकरण के क्षेत्रों में।