2025-11-11T11:01:09.310903

Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning

Keller, Tanneberg, Peters

Imitation learning is a popular method for teaching robots new behaviors. However, most existing methods focus on teaching short, isolated skills rather than long, multi-step tasks. To bridge this gap, imitation learning algorithms must not only learn individual skills but also an abstract understanding of how to sequence these skills to perform extended tasks effectively. This paper addresses this challenge by proposing a neuro-symbolic imitation learning framework. Using task demonstrations, the system first learns a symbolic representation that abstracts the low-level state-action space. The learned representation decomposes a task into easier subtasks and allows the system to leverage symbolic planning to generate abstract plans. Subsequently, the system utilizes this task decomposition to learn a set of neural skills capable of refining abstract plans into actionable robot commands. Experimental results in three simulated robotic environments demonstrate that, compared to baselines, our neuro-symbolic approach increases data efficiency, improves generalization capabilities, and facilitates interpretability.

academic

न्यूरो-सिम्बोलिक इमिटेशन लर्निंग: कौशल सीखने के लिए सिम्बोलिक एब्सट्रैक्शन की खोज

बुनियादी जानकारी

पेपर ID: 2503.21406
शीर्षक: न्यूरो-सिम्बोलिक इमिटेशन लर्निंग: कौशल सीखने के लिए सिम्बोलिक एब्सट्रैक्शन की खोज
लेखक: लियॉन केलर, डैनियल टैनबर्ग, जन पीटर्स
वर्गीकरण: cs.AI cs.LG cs.RO
प्रकाशन समय/सम्मेलन: IEEE अंतर्राष्ट्रीय रोबोटिक्स और ऑटोमेशन सम्मेलन (ICRA) 2025
पेपर लिंक: https://arxiv.org/abs/2503.21406
DOI: 10.1109/ICRA55743.2025.11127692

सारांश

इमिटेशन लर्निंग रोबोट को नए व्यवहार सिखाने की एक लोकप्रिय विधि है। हालांकि, अधिकांश मौजूदा विधियां अल्पकालिक, अलग-थलग कौशल सिखाने पर केंद्रित हैं, न कि दीर्घकालिक, बहु-चरणीय कार्यों पर। इस अंतराल को पाटने के लिए, इमिटेशन लर्निंग एल्गोरिदम को न केवल व्यक्तिगत कौशल सीखने की आवश्यकता है, बल्कि यह भी समझना होगा कि इन कौशलों को कैसे क्रमबद्ध किया जाए ताकि विस्तारित कार्यों को प्रभावी ढंग से निष्पादित किया जा सके। यह पेपर न्यूरो-सिम्बोलिक इमिटेशन लर्निंग फ्रेमवर्क प्रस्तावित करके इस चुनौती का समाधान करता है। यह प्रणाली पहले कार्य प्रदर्शन का उपयोग करके अमूर्त निम्न-स्तरीय स्थिति-क्रिया स्थान के सिम्बोलिक प्रतिनिधित्व को सीखती है। सीखा गया प्रतिनिधित्व कार्य को सरल उप-कार्यों में विघटित करता है और सिस्टम को सिम्बोलिक योजना का उपयोग करके अमूर्त योजनाएं उत्पन्न करने की अनुमति देता है। इसके बाद, सिस्टम इस कार्य विघटन का उपयोग करके तंत्रिका कौशल का एक सेट सीखता है, जो अमूर्त योजनाओं को कार्यान्वयन योग्य रोबोट कमांड में परिष्कृत कर सकता है। तीन सिम्युलेटेड रोबोट वातावरणों में प्रायोगिक परिणाम दर्शाते हैं कि आधार रेखा विधियों की तुलना में हमारी न्यूरो-सिम्बोलिक विधि डेटा दक्षता में सुधार करती है, सामान्यीकरण क्षमता में सुधार करती है और व्याख्यात्मकता को बढ़ावा देती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

यह अनुसंधान दीर्घकालिक, बहु-चरणीय रोबोट कार्यों को संभालने में मौजूदा इमिटेशन लर्निंग विधियों की सीमाओं को संबोधित करता है। विशेष रूप से:

कौशल अलगाववाद: अधिकांश मौजूदा विधियां केवल अल्पकालिक, अलग-थलग कौशल सीख सकती हैं, कई कौशलों के अनुक्रम संयोजन की आवश्यकता वाले जटिल कार्यों को संभाल नहीं सकतीं
अमूर्त समझ की कमी: मौजूदा विधियों में कौशलों को कैसे क्रमबद्ध किया जाए यह समझने के लिए अमूर्त समझ की कमी है
सीमित सामान्यीकरण क्षमता: अदेखे कार्य कॉन्फ़िगरेशन का सामना करते समय, पारंपरिक विधियों की सामान्यीकरण क्षमता अपर्याप्त है

समस्या की महत्ता

यह समस्या व्यावहारिक अनुप्रयोगों में महत्वपूर्ण है:

दैनिक जीवन के अनुप्रयोग: वास्तविक दुनिया के रोबोट कार्य (जैसे रसोई सहायक) को जटिल बहु-चरणीय संचालन अनुक्रम निष्पादित करने की आवश्यकता है
संज्ञानात्मक क्षमता सिमुलेशन: मनुष्य जटिल कार्यों को अमूर्त करके संभालते हैं, रोबोट को भी समान संज्ञानात्मक उपकरणों की आवश्यकता है
इंजीनियरिंग व्यावहारिक आवश्यकताएं: वर्तमान कार्य और गति योजना (TAMP) विधियां प्रभावी हैं, लेकिन सिम्बोलिक प्रतिनिधित्व और गति योजना मॉडल को मैन्युअल रूप से डिजाइन करने के लिए विशेषज्ञ की आवश्यकता है

मौजूदा विधियों की सीमाएं

मैन्युअल डिजाइन पर निर्भरता: पारंपरिक TAMP विधियों को बड़ी मात्रा में मैन्युअल डिजाइन की आवश्यकता है
कौशल और सिम्बोल का अलगाव: मौजूदा अनुसंधान या तो दिए गए कौशल के साथ सिम्बोल सीखता है या दिए गए सिम्बोल के साथ कौशल सीखता है, एकीकृत फ्रेमवर्क की कमी है
कम डेटा दक्षता: शुद्ध तंत्रिका नेटवर्क विधि लंबे अनुक्रम कार्यों को संभालते समय कम डेटा दक्षता दिखाती है

मुख्य योगदान

एकीकृत न्यूरो-सिम्बोलिक फ्रेमवर्क: पहली बार कच्चे कार्य प्रदर्शन से संबंधपरक सिम्बोलिक एब्सट्रैक्शन और तंत्रिका कौशल दोनों को सीखने के लिए एकीकृत फ्रेमवर्क प्रस्तावित करता है
नोवल प्रेडिकेट लर्निंग विधि: अनुकूलन उद्देश्य फ़ंक्शन के आधार पर प्रेडिकेट चयन विधि प्रस्तावित करता है, जो सूक्ष्म-दानेदार विभाजन और ऑपरेटर जटिलता को संतुलित करता है
दो-चरणीय सीखने की रणनीति: पहले सिम्बोलिक घटक (प्रेडिकेट और ऑपरेटर) सीखने के लिए डिज़ाइन की गई विधि, फिर सिम्बोलिक प्रतिनिधित्व का उपयोग करके तंत्रिका कौशल सीखना
महत्वपूर्ण प्रदर्शन सुधार: तीन सिम्युलेटेड रोबोट वातावरणों में आधार रेखा विधियों की तुलना में डेटा दक्षता, सामान्यीकरण क्षमता और व्याख्यात्मकता में महत्वपूर्ण सुधार प्रदर्शित करता है

विधि विवरण

कार्य परिभाषा

यह पेपर पूरी तरह से अवलोकनीय रोबोट वातावरण में इमिटेशन लर्निंग कार्य का अध्ययन करता है:

वातावरण संरचना: रोबोट और कई हेरफेर योग्य वस्तुएं
वस्तु प्रतिनिधित्व: प्रत्येक वस्तु o ∈ O में प्रकार t(o) ∈ T और विशेषता वेक्टर ξᵢ(o) ∈ Ξ(o) है
स्थिति परिभाषा: पर्यावरण स्थिति sₜ सभी वस्तु स्थितियों का संयोजन है
क्रिया स्थान: क्रिया a ∈ A अंत प्रभावकारी मुद्रा में ऑफसेट निर्दिष्ट करता है
कार्य लक्ष्य: प्रदर्शन प्रक्षेपवक्र के सेट D = {τ⁰,...,τᴹ} से नए कार्यों को हल करने में सक्षम न्यूरो-सिम्बोलिक नीति सीखना

मॉडल आर्किटेक्चर

1. न्यूरो-सिम्बोलिक नीति घटक

न्यूरो-सिम्बोलिक नीति में तीन मुख्य घटक हैं:

प्रेडिकेट (Predicates) P:

परिभाषा: प्रकार पैरामीटर Θ के साथ बाइनरी फ़ंक्शन, वस्तुओं के बीच संबंध निर्दिष्ट करता है
कार्यक्षमता: पर्यावरण स्थिति s को सिम्बोलिक स्थिति s̄ = ψ(s,P) में अमूर्त करता है
उदाहरण: onTop(cube, cube) घन के बीच स्टैकिंग संबंध को दर्शाता है

ऑपरेटर (Operators) Σ:

संरचना: प्रकार पैरामीटर Θ, पूर्वशर्त सेट (pre⁺, pre⁻) और प्रभाव सेट (eff⁺, eff⁻) शामिल हैं
कार्यक्षमता: अमूर्त स्थिति स्थान में संक्रमण मॉडल परिभाषित करता है
प्रतिनिधित्व: PDDL प्रारूप का उपयोग करता है, सिम्बोलिक योजना का समर्थन करता है

कौशल (Skills) Π:

संरचना: प्रत्येक कौशल πᵢ = (fᵢ, gᵢ) में उप-लक्ष्य नमूनाकार gᵢ और उप-लक्ष्य शर्त नियंत्रक fᵢ शामिल हैं
कार्यक्षमता: अमूर्त योजना में ठोस ऑपरेटर निष्पादित करता है

2. नीति निष्पादन प्रवाह

अमूर्त योजना पीढ़ी:
- प्रारंभिक स्थिति s₀ और लक्ष्य स्थिति सेट Sₘ को अमूर्त करना
- सिम्बोलिक योजना एल्गोरिदम का उपयोग करके ऑपरेटर अनुक्रम उत्पन्न करना
- लेवेनशेटिन दूरी का उपयोग करके सर्वोत्तम योजना का चयन करना
योजना निष्पादन:
- योजना में प्रत्येक ऑपरेटर के अनुरूप कौशल को क्रमबद्ध रूप से निष्पादित करना
- उप-लक्ष्य नमूनाकार ऑपरेटर प्रभाव को संतुष्ट करने वाले उप-लक्ष्य प्रस्तावित करता है
- उप-लक्ष्य शर्त नियंत्रक प्रभाव संतुष्ट होने तक ठोस क्रियाएं निष्पादित करता है

तकनीकी नवाचार बिंदु

1. प्रेडिकेट लर्निंग की दो-चरणीय विधि

उम्मीदवार पीढ़ी चरण:

प्रदर्शन में देखी गई सापेक्ष विशेषताओं के आधार पर उम्मीदवार प्रेडिकेट का निर्माण करना
विशेषता स्थान में घने क्षेत्रों की पहचान करने के लिए क्लस्टरिंग विधि का उपयोग करना
प्रत्येक क्लस्टर के लिए उम्मीदवार प्रेडिकेट बनाना

अमूर्त चयन चरण: उद्देश्य फ़ंक्शन को अनुकूलित करना:

max P⊂C ∑τ∈D |ψ(P,τ)| - α|Σ(P,D)|

बाधा शर्तें: |ψ(P,τ)| = |plan(P,Σ,τ₀,τₙ)| ∀τ ∈ D

यह उद्देश्य फ़ंक्शन संतुलित करता है:

सूक्ष्म-दानेदार विभाजन (अमूर्त स्थिति संख्या को अधिकतम करना)
ऑपरेटर जटिलता नियंत्रण (ऑपरेटर संख्या को कम करना)
योजना इष्टतमता गारंटी (बाधा शर्तें)

2. स्थिति संक्रमण बाधा के साथ कौशल सीखना

सिम्बोलिक प्रतिनिधित्व के अनुसार प्रदर्शन प्रक्षेपवक्र को विभाजित करना
संक्रमण फ़ंक्शन φσ का उपयोग करके केवल ऑपरेटर से संबंधित स्थिति जानकारी रखना
आचरण क्लोनिंग का उपयोग करके उप-लक्ष्य शर्त नियंत्रक को प्रशिक्षित करना
कर्नल घनत्व अनुमान का उपयोग करके उप-लक्ष्य नमूनाकार सीखना

प्रायोगिक सेटअप

डेटासेट

प्रयोग तीन सिम्युलेटेड रोबोट वातावरणों में किए गए, सभी MuJoCo भौतिकी इंजन और robosuite सिमुलेशन फ्रेमवर्क का उपयोग करते हैं:

Building वातावरण: रोबोट को पुल संरचना बनाने के लिए आयताकार ब्लॉक को सही क्रम में असेंबल करना होगा
Pouring वातावरण: रोबोट को चायदानी से कप में चाय डालनी होगी और भरे हुए कप को ट्रे पर रखना होगा
Painting वातावरण: रोबोट को ब्रश से ब्लॉक को रंगना होगा और रंगे हुए ब्लॉक को बॉक्स में रखना होगा

मूल्यांकन मेट्रिक्स

सफलता दर: कार्य पूरा करने का प्रतिशत
डेटा दक्षता: विभिन्न प्रदर्शन संख्या के तहत प्रदर्शन
सामान्यीकरण क्षमता: तीन परिदृश्यों में प्रदर्शन
- परिदृश्य I: अदेखी प्रारंभिक वस्तु मुद्रा
- परिदृश्य II: अदेखा लक्ष्य कॉन्फ़िगरेशन
- परिदृश्य III: प्रशिक्षण समय की तुलना में अधिक वस्तु संख्या

तुलना विधियां

Critical Region (CR): महत्वपूर्ण क्षेत्र अवधारणा का उपयोग करके प्रेडिकेट स्कोरिंग और चयन के लिए विलोपन प्रयोग
Hierarchical Neural Network (HNN): सिम्बोलिक योजना को तंत्रिका नेटवर्क उच्च-स्तरीय नीति से बदलने के लिए विलोपन प्रयोग

कार्यान्वयन विवरण

प्रदर्शन संख्या: 100, 200, 300 प्रदर्शन
अनुकूलन एल्गोरिदम: प्रेडिकेट चयन को अनुकूलित करने के लिए बीम खोज
कौशल सीखना: बहु-परत परसेप्ट्रॉन + आचरण क्लोनिंग
योजना एल्गोरिदम: तैयार सिम्बोलिक योजनाकार का उपयोग करना

प्रायोगिक परिणाम

मुख्य परिणाम

प्रायोगिक परिणाम दर्शाते हैं कि यह विधि सभी वातावरणों और परिदृश्यों में आधार रेखा विधियों से बेहतर है:

डेटा दक्षता: 300 प्रदर्शनों के तहत, यह विधि सभी वातावरणों और सामान्यीकरण परिदृश्यों में उच्च सफलता दर प्राप्त करती है
सामान्यीकरण क्षमता:
- HNN परिदृश्य II और III में पूरी तरह विफल हो जाता है
- CR विधि अत्यधिक जटिल सिम्बोलिक प्रतिनिधित्व सीखने के कारण कम सामान्यीकरण क्षमता रखती है
- यह विधि सभी परिदृश्यों में स्थिर उच्च सफलता दर बनाए रखती है
विशिष्ट प्रदर्शन डेटा:
- सभी प्रदर्शन संख्या सेटिंग्स के तहत आधार रेखा से बेहतर
- डेटा दक्षता और सामान्यीकरण क्षमता के बीच अच्छा संतुलन प्रदर्शित करता है

विलोपन प्रयोग विश्लेषण

CR आधार रेखा विश्लेषण:
- अधिक जटिल सिम्बोलिक प्रतिनिधित्व सीखा (अधिक प्रेडिकेट और ऑपरेटर)
- ऑपरेटर औसत पैरामीटर अधिक हैं, कौशल सीखने की जटिलता बढ़ाते हैं
- अत्यधिक जटिलता सामान्यीकरण क्षमता में कमी का कारण बनती है
HNN आधार रेखा विश्लेषण:
- सिम्बोलिक योजना की सामान्यीकरण क्षमता की कमी
- नए लक्ष्य और अधिक वस्तुओं का सामना करते समय विफल
- सामान्यीकरण में सिम्बोलिक योजना की महत्ता को सत्यापित करता है

व्याख्यात्मकता विश्लेषण

प्रेडिकेट दृश्य: प्रेडिकेट को सत्य स्थिति छवियों को ओवरलेप करके, सभी सीखे गए प्रेडिकेट को सार्थक नाम दिए जा सकते हैं
ऑपरेटर व्याख्या: सीखे गए ऑपरेटर को PDDL सिंटैक्स में स्पष्ट रूप से व्यक्त किया जा सकता है, स्पष्ट पूर्वशर्त और प्रभाव के साथ
योजना व्याख्यात्मकता: उत्पन्न अमूर्त योजना पूरी तरह से व्याख्यात्मक है, समझने और डीबग करने में आसान है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: न्यूरो-सिम्बोलिक इमिटेशन लर्निंग फ्रेमवर्क दीर्घकालिक बहु-चरणीय कार्य सीखने की समस्या को सफलतापूर्वक हल करता है
प्रदर्शन लाभ: आधार रेखा विधियों की तुलना में डेटा दक्षता, सामान्यीकरण क्षमता और व्याख्यात्मकता में महत्वपूर्ण सुधार
तकनीकी योगदान: प्रस्तावित प्रेडिकेट लर्निंग विधि और एकीकृत फ्रेमवर्क इस क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करते हैं

सीमाएं

सिमुलेशन वातावरण सीमा: वर्तमान में केवल सिमुलेशन वातावरण में सत्यापित, वास्तविक रोबोट की प्रयोज्यता को आगे सत्यापन की आवश्यकता है
वस्तु प्रकार धारणा: विधि पूर्वनिर्धारित वस्तु प्रकारों पर निर्भर करती है, नई वस्तु श्रेणियों के अनुकूलन में सीमित है
प्रदर्शन गुणवत्ता निर्भरता: विधि प्रदर्शन उच्च गुणवत्ता के प्रदर्शन डेटा पर निर्भर करता है

भविष्य की दिशाएं

लेखक तीन मुख्य भविष्य अनुसंधान दिशाएं प्रस्तावित करते हैं:

वास्तविक रोबोट सत्यापन: वास्तविक रोबोट पर फ्रेमवर्क की व्यावहारिक प्रयोज्यता को सत्यापित करना
बहु-कार्य विस्तार: बहु-कार्य इमिटेशन लर्निंग में अनुप्रयोग की खोज करना
ऑनलाइन अनुकूलन: कौशल और सिम्बोलिक प्रतिनिधित्व के ऑनलाइन अनुकूलन का अध्ययन, नई वस्तु श्रेणियों और विफलता पुनः प्राप्ति का समर्थन करना

गहन मूल्यांकन

शक्तियां

समस्या महत्ता: इमिटेशन लर्निंग क्षेत्र की महत्वपूर्ण समस्या को हल करता है, व्यावहारिक अनुप्रयोग मूल्य है
विधि नवाचार:
- पहली बार सिम्बोल और कौशल सीखने को एकीकृत किया
- नोवल प्रेडिकेट लर्निंग उद्देश्य फ़ंक्शन प्रस्तावित किया
- प्रभावी दो-चरणीय सीखने की रणनीति डिजाइन की
प्रयोग पूर्णता:
- तीन विभिन्न रोबोट वातावरण
- कई सामान्यीकरण परिदृश्य परीक्षण
- उपयुक्त आधार रेखा तुलना और विलोपन प्रयोग
परिणाम विश्वसनीयता: महत्वपूर्ण प्रदर्शन सुधार और अच्छी व्याख्यात्मकता
लेखन स्पष्टता: पेपर संरचना स्पष्ट है, तकनीकी विवरण सटीक है

कमियां

प्रायोगिक वातावरण सीमा:
- केवल सिमुलेशन वातावरण में सत्यापित
- वातावरण अपेक्षाकृत सरल है, वास्तविक दुनिया की जटिलता पूरी तरह विचार नहीं की गई
विधि सीमाएं:
- पूर्वनिर्धारित वस्तु प्रकार और विशेषताओं पर निर्भर
- क्लस्टरिंग हाइपरपैरामीटर ε का चयन प्रदर्शन को प्रभावित कर सकता है
- बीम खोज वैश्विक इष्टतम समाधान की गारंटी नहीं देता है
तुलना आधार रेखा: आधार रेखा विधियां अपेक्षाकृत सरल हैं, अधिक उन्नत विधियों के साथ तुलना की कमी है
सैद्धांतिक विश्लेषण: विधि अभिसरण और सामान्यीकरण क्षमता के लिए सैद्धांतिक गारंटी की कमी है

प्रभाव

शैक्षणिक योगदान:
- न्यूरो-सिम्बोलिक इमिटेशन लर्निंग की नई दिशा खोलता है
- दीर्घकालिक कार्य सीखने के लिए प्रभावी समाधान प्रदान करता है
- विधि में अच्छी सामान्यता है
व्यावहारिक मूल्य:
- जटिल रोबोट कार्यों पर लागू किया जा सकता है
- व्याख्यात्मक निर्णय प्रक्रिया प्रदान करता है
- डेटा दक्षता अधिक है, व्यावहारिक अनुप्रयोग के लिए उपयुक्त है
पुनरुत्पादनीयता:
- तकनीकी विवरण स्पष्ट रूप से वर्णित हैं
- वेबसाइट लिंक प्रदान किया गया है, संभवतः कोड शामिल है
- प्रयोग सेटअप स्पष्ट है

प्रयोज्य परिदृश्य

रोबोट हेरफेर कार्य: विशेष रूप से बहु-चरणीय हेरफेर अनुक्रम की आवश्यकता वाले कार्यों के लिए उपयुक्त
संरचित वातावरण: वस्तु प्रकार और संबंध अपेक्षाकृत निश्चित वातावरण में सर्वोत्तम प्रदर्शन
व्याख्यात्मकता की आवश्यकता वाले अनुप्रयोग: चिकित्सा, शिक्षा आदि क्षेत्र जहां निर्णय प्रक्रिया को समझना आवश्यक है
सीमित डेटा परिदृश्य: शुद्ध तंत्रिका नेटवर्क विधि की तुलना में, प्रदर्शन डेटा सीमित होने पर अधिक लाभदायक है

संदर्भ

पेपर 61 संबंधित संदर्भों का हवाला देता है, जो इमिटेशन लर्निंग, सिम्बोलिक लर्निंग, सुदृढ़ीकरण लर्निंग, कार्य और गति योजना आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पेपर है जो रोबोटिक्स सीखने के क्षेत्र की महत्वपूर्ण समस्या को हल करता है, नवीन समाधान प्रस्तावित करता है, और पर्याप्त प्रयोगों के माध्यम से विधि की प्रभावशीलता को सत्यापित करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसके शैक्षणिक योगदान और व्यावहारिक मूल्य दोनों बहुत महत्वपूर्ण हैं, और यह क्षेत्र के विकास के लिए महत्वपूर्ण प्रेरणा प्रदान करता है।