2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.
Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.
academic

CCDP: निर्देशित नमूनाकरण के साथ सशर्त विसरण नीतियों की संरचना

मूल जानकारी

  • पेपर ID: 2503.15386
  • शीर्षक: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
  • लेखक: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
  • वर्गीकरण: cs.RO (रोबोटिक्स), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन तिथि: 25 अक्टूबर, 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2503.15386

सारांश

अनुकरण शिक्षा डेटा से सीधे सीखने का एक आशाजनक तरीका प्रदान करती है, जिसमें स्पष्ट मॉडल, सिमुलेशन या विस्तृत कार्य परिभाषा की आवश्यकता नहीं होती है। अनुमान के दौरान, सीखे गए वितरण से क्रियाएं नमूना की जाती हैं और रोबोट पर निष्पादित की जाती हैं। हालांकि, नमूना की गई क्रियाएं विभिन्न कारणों से विफल हो सकती हैं, और सफल क्रिया प्राप्त होने तक केवल नमूनाकरण चरणों को दोहराना अक्षम हो सकता है। यह पेपर एक बेहतर नमूनाकरण रणनीति प्रस्तावित करता है जो नमूनाकरण वितरण में सुधार करके पूर्ववर्ती असफल क्रियाओं से बचता है। केवल सफल प्रदर्शनों के डेटा का उपयोग करके, यह विधि अतिरिक्त अन्वेषण व्यवहार या उन्नत नियंत्रकों की आवश्यकता के बिना पुनः प्राप्ति क्रियाओं का अनुमान लगा सकती है। इसके अलावा, विसरण मॉडल अपघटन की अवधारणा का उपयोग करते हुए, मुख्य समस्या को जो विफलताओं को प्रबंधित करने के लिए लंबे इतिहास की आवश्यकता हो सकती है, कई छोटी, अधिक प्रबंधनीय उप-समस्याओं में विघटित किया जाता है, जिससे सिस्टम परिवर्तनशील विफलता गणना के अनुकूल हो सकता है। यह विधि एक निम्न-स्तरीय नियंत्रक का उत्पादन करती है जो पूर्ववर्ती नमूने अपर्याप्त होने पर अपने नमूनाकरण स्थान को गतिशील रूप से समायोजित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान जो मूल समस्या को हल करने का प्रयास करता है: जब रोबोट सीखे गए नीति वितरण से नमूना की गई क्रियाएं विफल होती हैं, तो प्रभावी ढंग से पुनः प्राप्ति कैसे करें?

समस्या की महत्ता

  1. व्यावहारिक अनुप्रयोग की आवश्यकता: वास्तविक वातावरण में, रोबोट अक्सर आंशिक बाधाओं या अनिश्चितता का सामना करते हैं, जैसे बेडसाइड लैंप स्विच को ढूंढना, दरवाजे की दिशा अनिश्चित होना आदि
  2. दक्षता समस्या: पारंपरिक विधियां समान वितरण से सरलता से दोहराई गई नमूनाकरण करती हैं, पहले से ज्ञात विफल क्षेत्रों की जानकारी को नजरअंदाज करती हैं, जिससे दक्षता कम होती है
  3. व्यावहारिकता सीमाएं: मौजूदा विफलता पुनः प्राप्ति विधियों को आमतौर पर अतिरिक्त संसाधनों की आवश्यकता होती है (सिमुलेशन वातावरण, उन्नत तर्क मॉडल, विशेषज्ञ मार्गदर्शन), जो व्यावहारिक अनुप्रयोगों में उपलब्ध नहीं हो सकते हैं

मौजूदा विधियों की सीमाएं

  1. दो-स्तरीय योजना विधि:
    • उच्च-स्तरीय योजनाकार क्रिया आदिम का चयन करता है, निम्न-स्तरीय नियंत्रक निष्पादन करता है
    • उप-इष्टतम परिणाम और संयोजन विस्फोट समस्याएं मौजूद हैं
    • विकल्पों की संख्या बढ़ने के साथ, निर्णय गणनात्मक रूप से महंगा हो जाता है
  2. मजबूत नीति शिक्षा:
    • मजबूत सुदृढ़ीकरण शिक्षा जैसी विधियां
    • केवल विफलता के कुछ प्रकारों को संभाल सकते हैं (जैसे पर्यावरण पैरामीटर परिवर्तन)
    • अधिक व्यापक विफलता प्रकारों के लिए (जैसे बटन खोज), एक एकल मजबूत नीति मौजूद नहीं हो सकती है
  3. इतिहास-जागरूक नीतियां:
    • प्रशिक्षण के लिए विफलता डेटा की आवश्यकता होती है, डेटा संग्रह जटिलता बढ़ाता है
    • लंबी अवधि के इतिहास की स्मृति की आवश्यकता होती है, गणनात्मक जटिलता अधिक होती है

मुख्य योगदान

  1. अपघटित विसरण नीति ढांचा प्रस्तावित किया: विसरण नीतियों की मॉड्यूलरिटी और नियंत्रणीयता को बढ़ाया, और प्रत्येक मॉड्यूल के प्रभाव का विश्लेषण किया
  2. नकारात्मक निर्देशन-आधारित पुनः प्राप्ति रणनीति डिजाइन की: पारंपरिक विधियों के विपरीत, विफल मामलों को नकारात्मक निर्देशन के रूप में उपयोग करता है, नीति को विफल क्षेत्रों से दूर निर्देशित करता है
  3. डेटा एनोटेशन के बिना विफलता पुनः प्राप्ति लागू की: केवल सफल प्रदर्शन डेटा का उपयोग करके, ऑफलाइन विश्लेषण के माध्यम से पुनः प्राप्ति क्रियाओं की पहचान करता है
  4. विधि की प्रभावशीलता सत्यापित की: कई कार्यों पर अत्याधुनिक आधारभूत के साथ व्यापक तुलना की

विधि विवरण

कार्य परिभाषा

M सफल प्रदर्शनों के डेटासेट को देखते हुए D={(at,xt,htH)i}i=1M\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M, लक्ष्य एक विसरण नीति सीखना है जो सशर्त वितरण को मॉडल करे pπD(atxt,htH)p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t), जहां:

  • atRdua_t \in \mathbb{R}^{d_u}: समय t पर क्रिया
  • xtRdsx_t \in \mathbb{R}^{d_s}: अवस्था
  • htH=[atH:t1T,xtH:t1T]Th^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T: पिछली H क्रियाओं और अवस्थाओं का इतिहास

जब क्रिया विफल होती है, तो सिस्टम को विफलता विशेषता सेट के लिए सशर्त करने की आवश्यकता होती है: atpπ(atxt,htH,z1:Nf)a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})

जहां zif=z(aif,xif)z^f_i = z(a^f_i, x^f_i) i-वीं विफलता की मुख्य विशेषताओं को निकालता है।

मॉडल आर्किटेक्चर

विसरण मॉडल अपघटन

सशर्त वितरण को कई सरल उप-समस्याओं के उत्पाद में अपघटित करता है:

pπ(atxt,htH,z1:Nf)ps(atxt)pa(at)ph(athtH)pa(at)i=1Npz(atzif)pa(at)p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}

संबंधित विनोइसिंग पद अपघटन: ε^(atk,k)=εa(at,k)+ws(εs(at,xt,k)εa(at,k))+wh(εh(at,htH,k)εa(at,k))+i=1Nwzi(εz(at,zif,k)εa(at,k))\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))

प्रत्येक मॉड्यूल की कार्यक्षमता

  1. εa(at,k)\varepsilon_a(a_t, k): प्रदर्शन के समान क्रियाओं के नमूनाकरण को प्रोत्साहित करता है
  2. εs(at,xt,k)\varepsilon_s(a_t, x_t, k): क्रियाओं को वर्तमान अवस्था से मेल खाने के लिए निर्देशित करता है
  3. εh(at,htH,k)\varepsilon_h(a_t, h^H_t, k): समय की निरंतरता को बढ़ावा देता है
  4. εz(at,zif,k)\varepsilon_z(a_t, z^f_i, k): नकारात्मक निर्देशन, विफल क्षेत्रों से दूर

पुनः प्राप्ति मॉडल डिजाइन

पुनः प्राप्ति क्रिया परिभाषा

पुनः प्राप्ति क्रिया सेट को परिभाषित करता है: aR(zf) if {z(a,x)z(af,xf)2>δzxxf2<δxa \in \mathcal{R}(z^f) \text{ if } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}

जहां δz\delta_z विफलता विशेषता स्थान में पर्याप्त अंतर को परिभाषित करता है, δx\delta_x अवस्था स्थान में समानता को परिभाषित करता है।

डेटा संश्लेषण रणनीति

पुनः प्राप्ति डेटा की विरलता समस्या को हल करने के लिए, डेटा संश्लेषण निष्पादित करता है: Ds(xs)={(a,xs)apˉD(ax),xxs+ξx,ξxN(0,σ2I)}\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}

संबंधित शोर अनुमानक: εˉ(a,x,k)=εa(a,k)+ws(εs(a,x,k)εa(a,k))\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))

विफलता मुख्य विशेषताएं

तीन व्यावहारिक विफलता विशेषता निष्कर्षण विधियां प्रस्तावित करता है:

  1. सीधे विफल क्रिया का उपयोग: z(af,xf)=afz(a^f, x^f) = a^f
  2. अंतिम अवस्था का उपयोग: z(af,xf)=xTfz(a^f, x^f) = x^f_T
  3. क्रिया आदिम: z(af,xf)=mz(a^f, x^f) = m (असतत लेबल)

प्रायोगिक सेटअप

प्रायोगिक कार्य

पेपर विधि की प्रभावशीलता सत्यापित करने के लिए 5 विभिन्न प्रकार के कार्य डिजाइन करता है:

  1. दरवाजा खोलना (DO): दरवाजा खोलने का कार्य, दिशा अज्ञात (ऊपर, स्लाइड, खींचना)
  2. बटन दबाना (BP): पूर्वनिर्धारित क्षेत्र में अज्ञात स्थान पर बटन दबाना
  3. वस्तु हेरफेर (OM): वस्तु के वजन के अनुसार संचालन रणनीति का चयन (एकल हाथ, दोनों हाथ, धकेलना)
  4. वस्तु पैकिंग (OP): वस्तु को निर्दिष्ट टोकरी में रखना, टोकरी भरने के बाद निकटतम उपलब्ध टोकरी का चयन
  5. बारटेंडर (BT): कई कप भरना, निकटतम कप को प्राथमिकता देना

मूल्यांकन मेट्रिक्स

  1. कार्य सफलता दर: कार्य पूरा करने का प्रतिशत
  2. अंतर्निहित लक्ष्य प्राप्ति दर: प्रदर्शन डेटा में निहित वरीयताओं के अनुरूप प्रतिशत

तुलना विधियां

  1. DP (विसरण नीति): मानक विसरण नीति आधारभूत
  2. DP*: बेहतर विसरण नीति, अस्वीकृति नमूनाकरण और क्षेत्र विभाजन का उपयोग करता है

प्रायोगिक कॉन्फ़िगरेशन

  • इतिहास की लंबाई H: 0-2
  • पूर्वानुमान की लंबाई L: 1-8
  • आवेदन चरण p: 1-8
  • बैच आकार: 32-1024
  • प्रशिक्षण दौर: 100
  • विनोइसिंग चरण: 100

प्रायोगिक परिणाम

मुख्य परिणाम

कार्यCCDPDPDP*
दरवाजा खोलना99%76%100%
बटन दबाना96%73%86%
वस्तु हेरफेर70%40%72%
वस्तु पैकिंग94%10%100%
बारटेंडर100%27%100%

अंतर्निहित लक्ष्य प्राप्ति दर

कार्यCCDPDPDP*
वस्तु हेरफेर66%88%38%
वस्तु पैकिंग73%62%48%
बारटेंडर97%100%12%

मुख्य निष्कर्ष

  1. CCDP कार्य सफलता दर में DP से काफी बेहतर है, अधिकांश कार्यों पर DP* के करीब या उससे अधिक है
  2. CCDP प्रदर्शन डेटा की अंतर्निहित लक्ष्यों को बेहतर ढंग से संरक्षित करता है, जबकि DP* इस पहलू में खराब प्रदर्शन करता है
  3. नकारात्मक निर्देशन रणनीति सकारात्मक बाधाओं से अधिक लचकदार है, सिस्टम को अधिक व्यापक संदर्भ जानकारी का उपयोग करने की अनुमति देता है

विधि तुलना विश्लेषण

  • CCDP बनाम DP: CCDP ऐतिहासिक विफलता जानकारी पर विचार करके सफलता दर में काफी सुधार करता है
  • CCDP बनाम DP*:
    • DP* को पूर्व वर्गीकरण की आवश्यकता होती है, CCDP को एनोटेशन की आवश्यकता नहीं है
    • DP* सकारात्मक प्रवर्तन का उपयोग करता है (नमूनाकरण क्षेत्र को सीमित करता है), CCDP नकारात्मक निर्देशन का उपयोग करता है (विफल क्षेत्रों से बचता है)
    • CCDP की नकारात्मक निर्देशन रणनीति अधिक लचक प्रदान करती है

संबंधित कार्य

अनुकरण शिक्षा

  • पारंपरिक विधियां: ProMP, TP-GMM आदि संभाव्य गति आदिम
  • आधुनिक विधियां: अंतर्निहित व्यवहार क्लोनिंग, विसरण नीतियां, प्रवाह मिलान नीतियां
  • सीमाएं: एकल नमूनाकरण सफलता की गारंटी नहीं देता है, दोहराया गया नमूनाकरण अक्षम है

निर्देशित नीति अनुमान

  • पैरामीटर सशर्तकरण विधियां: सिस्टम विशेषताओं के आधार पर नीति पैरामीटर अपडेट करना
  • स्तरीय विधियां: उच्च-स्तरीय निर्णय चर का उपयोग करके निम्न-स्तरीय नीति को नियंत्रित करना
  • अस्वीकृति नमूनाकरण: विफल नमूनों को त्यागना, नए नमूने उत्पन्न करना

बहु-मॉडल संयोजन

  • विशेषज्ञों का उत्पाद (PoE): जटिल समस्याओं को सरल उप-समस्याओं में विघटित करना
  • ऊर्जा मॉडल: उच्च-आयामी जटिल वितरण में अनुप्रयोग
  • बाधा मॉडल संयोजन: कार्य और गति योजना में सफल अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. अपघटन रणनीति प्रभावी है: जटिल विफलता पुनः प्राप्ति समस्या को कई प्रबंधनीय उप-समस्याओं में विघटित करता है
  2. नकारात्मक निर्देशन सकारात्मक बाधाओं से बेहतर है: अधिक अन्वेषण लचक प्रदान करता है
  3. अतिरिक्त डेटा की आवश्यकता नहीं है: केवल सफल प्रदर्शन का उपयोग करके विफलता पुनः प्राप्ति लागू कर सकता है
  4. मॉड्यूलर डिजाइन: परिवर्तनशील संख्या में विफलता मामलों का समर्थन करता है

सीमाएं

  1. हाथ से डिजाइन की गई विफलता विशेषताएं: वर्तमान में मानव द्वारा विफलता मुख्य विशेषताओं को परिभाषित करने की आवश्यकता है, स्वचालित निष्कर्षण तंत्र की कमी है
  2. वजन समायोजन समस्या: संयोजन वजन की इष्टतम समायोजन रणनीति अभी तक पूरी तरह से अनुसंधान नहीं की गई है
  3. स्थिर विफलता धारणा: मानता है कि विफलता कारण समय में स्थिर रहता है
  4. NOT संचालन अस्थिरता: प्रयास की गई NOT संचालन विधि में स्थिरता समस्याएं हैं

भविष्य की दिशाएं

  1. स्वचालित विशेषता निष्कर्षण: अव्यक्त स्थान पर आधारित स्वचालित विफलता विशेषता निष्कर्षण विधि विकसित करना
  2. वजन अनुकूलन: संयोजन वजन की स्वअनुकूली समायोजन रणनीति पर अनुसंधान करना
  3. ऑफलाइन अन्वेषण तंत्र: अधिक प्रभावी पुनः प्राप्ति डेटा निकालने के लिए ऑफलाइन अन्वेषण तंत्र को एकीकृत करना
  4. गतिशील विफलता प्रबंधन: समय-परिवर्तनशील विफलता कारणों को संभालने वाले परिदृश्यों तक विस्तार करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: नकारात्मक निर्देशन-आधारित विसरण नीति संयोजन विधि पहली बार प्रस्तावित करता है
  2. उच्च व्यावहारिक मूल्य: अतिरिक्त एनोटेशन या सिमुलेशन वातावरण की आवश्यकता नहीं है, केवल सफल प्रदर्शन डेटा का उपयोग करता है
  3. ठोस सैद्धांतिक आधार: संभाव्यता सिद्धांत और विसरण मॉडल के ठोस गणितीय आधार पर आधारित है
  4. व्यापक प्रयोग: विभिन्न प्रकार के कार्यों पर विधि की प्रभावशीलता सत्यापित करता है
  5. मॉड्यूलर डिजाइन: अपघटन रणनीति विधि की व्याख्यात्मकता और नियंत्रणीयता में सुधार करता है

कमियां

  1. विफलता पहचान पर निर्भरता: बाहरी विफलता पहचान प्रणाली की आवश्यकता होती है, सिस्टम जटिलता बढ़ाता है
  2. विशेषता इंजीनियरिंग: विफलता मुख्य विशेषताओं को मानव द्वारा डिजाइन करने की आवश्यकता होती है, विधि की सामान्यता को सीमित करता है
  3. स्थिर धारणा: विफलता कारण स्थिर की धारणा कुछ गतिशील वातावरण में मान्य नहीं हो सकती है
  4. गणनात्मक ओवरहेड: बहु-मॉडल संयोजन अनुमान समय पर गणनात्मक जटिलता बढ़ा सकता है
  5. हाइपरपैरामीटर संवेदनशीलता: वजन पैरामीटर का चयन प्रदर्शन पर महत्वपूर्ण प्रभाव डालता है

प्रभाव

  1. शैक्षणिक योगदान: रोबोट विफलता पुनः प्राप्ति के लिए नया सैद्धांतिक ढांचा और व्यावहारिक विधि प्रदान करता है
  2. व्यावहारिक अनुप्रयोग: सेवा रोबोटिक्स, औद्योगिक स्वचालन आदि क्षेत्रों में व्यापक अनुप्रयोग संभावनाएं हैं
  3. विधि प्रेरणा: नकारात्मक निर्देशन का विचार अन्य जनरेटिव मॉडल और नियंत्रण समस्याओं तक सामान्यीकृत किया जा सकता है
  4. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है

लागू परिदृश्य

  1. आंशिक बाधा वातावरण: पर्यावरण पैरामीटर आंशिक रूप से अज्ञात रोबोट कार्यों के लिए उपयुक्त है
  2. इंटरैक्टिव कार्य: प्रतिक्रिया के आधार पर नीति को समायोजित करने की आवश्यकता वाले कार्य
  3. बहु-मोडल कार्य: कई वैध समाधान वाले कार्य
  4. सुरक्षा-महत्वपूर्ण अनुप्रयोग: दोहराई गई विफलताओं से बचने की आवश्यकता वाले सुरक्षा-संवेदनशील परिदृश्य

संदर्भ

पेपर 35 संबंधित संदर्भों का हवाला देता है, जो अनुकरण शिक्षा, विसरण मॉडल, रोबोट नियंत्रण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो इस अनुसंधान के लिए ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करता है।


समग्र मूल्यांकन: यह रोबोटिक्स शिक्षा का एक उच्च-गुणवत्ता वाला पेपर है, जो विफलता पुनः प्राप्ति के लिए एक नवीन रणनीति प्रस्तावित करता है, सैद्धांतिक योगदान और व्यावहारिक अनुप्रयोग मूल्य दोनों पहलुओं में उत्कृष्ट प्रदर्शन करता है। विधि डिजाइन चतुर है, प्रयोग सत्यापन पूर्ण है, और रोबोट बुद्धिमान नियंत्रण क्षेत्र में महत्वपूर्ण योगदान देता है।