2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.

Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.

academic

CCDP: تركيب سياسات الانتشار الشرطي مع العينات الموجهة

المعلومات الأساسية

معرّف الورقة: 2503.15386
العنوان: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
المؤلفون: Amirreza Razmjoo (معهد أبحاث هوندا أوروبا ومعهد Idiap ومدرسة EPFL)، Sylvain Calinon (معهد Idiap ومدرسة EPFL)، Michael Gienger (معهد أبحاث هوندا أوروبا)، Fan Zhang (معهد أبحاث هوندا أوروبا)
التصنيف: cs.RO (الروبوتات)، cs.AI (الذكاء الاصطناعي)
تاريخ النشر: 10 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2503.15386

الملخص

يوفر التعلم بالمحاكاة طريقة واعدة للتعلم المباشر من البيانات دون الحاجة إلى نماذج صريحة أو محاكاة أو تعريفات مهام مفصلة. أثناء الاستدلال، يتم أخذ عينات من الإجراءات من التوزيع المتعلم وتنفيذها على الروبوت. ومع ذلك، قد تفشل الإجراءات المأخوذة بعينات لأسباب مختلفة، وقد يكون تكرار خطوات أخذ العينات ببساطة حتى الحصول على إجراء ناجح غير فعال. تقترح هذه الورقة استراتيجية أخذ عينات محسّنة تتجنب الإجراءات السابقة غير الناجحة من خلال تحسين توزيع العينات. باستخدام بيانات العروض الناجحة فقط، يمكن للطريقة استنتاج إجراءات الاسترجاع دون الحاجة إلى سلوك استكشافي إضافي أو متحكمات متقدمة. علاوة على ذلك، من خلال الاستفادة من مفهوم تحليل نماذج الانتشار، يتم تحليل المشكلة الرئيسية التي قد تتطلب سجلاً طويل الأجل لإدارة الأعطال إلى عدة مشاكل فرعية أصغر وأكثر قابلية للإدارة، مما يمكّن النظام من التكيف مع عدد متغير من الأعطال. تنتج الطريقة متحكماً منخفض المستوى يعدل ديناميكياً مساحة أخذ العينات الخاصة به لتحسين الكفاءة عندما تكون العينات السابقة غير كافية.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث إلى حلها هي: كيفية استرجاع فعال عندما تفشل الإجراءات المأخوذة بعينات من توزيع السياسة المتعلمة على الروبوت؟

أهمية المشكلة

احتياجات التطبيق العملي: في البيئات الحقيقية، يواجه الروبوت بشكل متكرر حالات مقيدة جزئياً أو غير مؤكدة، مثل البحث عن مفتاح مصباح السرير أو اتجاه الباب غير المؤكد
مشاكل الكفاءة: تكرر الطرق التقليدية أخذ العينات من نفس التوزيع، متجاهلة المعلومات حول مناطق الفشل المعروفة، مما يؤدي إلى عدم الكفاءة
قيود الجدوى العملية: عادة ما تتطلب طرق استرجاع الفشل الموجودة موارد إضافية (بيئات محاكاة، نماذج استدلال متقدمة، إرشادات الخبراء)، والتي قد لا تكون متاحة في التطبيقات العملية

قيود الطرق الموجودة

طرق التخطيط ثنائي المستوى:
- يختار المخطط عالي المستوى بدائل الإجراءات، والمتحكم منخفض المستوى ينفذها
- وجود نتائج دون المستوى الأمثل ومشاكل الانفجار التوافقي
- مع زيادة الخيارات، يصبح اتخاذ القرار مكلفاً حسابياً
تعلم السياسات القوية:
- طرق مشابهة للتعلم المعزز القوي
- يمكنها التعامل فقط مع أنواع فشل جزئية (مثل تغييرات معاملات البيئة)
- بالنسبة لأنواع الفشل الأوسع (مثل البحث عن الزر)، قد لا توجد سياسة قوية واحدة
السياسات التي تدرك السجل:
- تتطلب بيانات الفشل للتدريب، مما يزيد من تعقيد جمع البيانات
- تتطلب ذاكرة سجل طويلة الأجل، مما يزيد من التعقيد الحسابي

المساهمات الأساسية

اقتراح إطار عمل سياسات الانتشار المحللة: تحسين الطبيعة المعيارية والقابلية للتحكم في سياسات الانتشار، وتحليل تأثير كل وحدة
تصميم استراتيجية استرجاع قائمة على التوجيه السلبي: على عكس الطرق التقليدية، استخدام حالات الفشل كتوجيه سلبي لتوجيه السياسة بعيداً عن مناطق الفشل
تحقيق استرجاع الفشل بدون تسمية البيانات: استخدام بيانات العروض الناجحة فقط، مع تحديد إجراءات الاسترجاع من خلال التحليل غير المتصل
التحقق من فعالية الطريقة: إجراء مقارنات شاملة مع أحدث الخطوط الأساسية على عدة مهام

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات M من العروض الناجحة $\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M$ ، الهدف هو تعلم سياسة انتشار لنمذجة التوزيع الشرطي $p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t)$ ، حيث:

$a_t \in \mathbb{R}^{d_u}$ : الإجراء في الوقت t
$x_t \in \mathbb{R}^{d_s}$ : الحالة
$h^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T$ : سجل آخر H إجراء وحالة

عند فشل الإجراء، يحتاج النظام إلى الشرط على مجموعة ميزات الفشل: $a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})$

حيث $z^f_i = z(a^f_i, x^f_i)$ يستخرج الميزات الرئيسية للفشل i-th.

بنية النموذج

تحليل نموذج الانتشار

تحليل التوزيع الشرطي إلى منتج مشاكل فرعية بسيطة:

$p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}$

يتحلل حد إزالة الضوضاء المقابل إلى: $\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))$

وظائف كل وحدة

$\varepsilon_a(a_t, k)$ : تشجيع أخذ عينات من إجراءات مشابهة للعروض
$\varepsilon_s(a_t, x_t, k)$ : توجيه الإجراءات لمطابقة الحالة الحالية
$\varepsilon_h(a_t, h^H_t, k)$ : تعزيز الاستمرارية الزمنية
$\varepsilon_z(a_t, z^f_i, k)$ : التوجيه السلبي، الابتعاد عن مناطق الفشل

تصميم نموذج الاسترجاع

تعريف إجراء الاسترجاع

تعريف مجموعة إجراءات الاسترجاع: $a \in \mathcal{R}(z^f) \text{ if } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}$

حيث $\delta_z$ يعرّف الاختلاف الكافي في فضاء ميزات الفشل، و $\delta_x$ يعرّف التشابه في فضاء الحالة.

استراتيجية تركيب البيانات

لحل مشكلة ندرة بيانات الاسترجاع، يتم تنفيذ تركيب البيانات: $\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}$

مقدر الضوضاء المقابل: $\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))$

ميزات الفشل الرئيسية

اقتراح ثلاث طرق عملية لاستخراج ميزات الفشل:

استخدام إجراء الفشل مباشرة: $z(a^f, x^f) = a^f$
استخدام الحالة النهائية: $z(a^f, x^f) = x^f_T$
بدائل الإجراءات: $z(a^f, x^f) = m$ (تسمية منفصلة)

إعداد التجارب

مهام التجارب

صممت الورقة 5 مهام مختلفة للتحقق من فعالية الطريقة:

فتح الباب (DO): مهمة فتح الباب، الاتجاه غير معروف (لأعلى، انزلاق، سحب)
الضغط على الزر (BP): الضغط على زر في موقع غير معروف ضمن منطقة محددة مسبقاً
معالجة الأشياء (OM): اختيار استراتيجية المعالجة بناءً على وزن الجسم (يد واحدة، يدين، دفع)
تعبئة الأشياء (OP): وضع الأشياء في سلة محددة، اختيار أقرب سلة متاحة عند امتلاء السلة
Bartender (BT): ملء عدة أكواب، اختيار الكوب الأقرب بالأولوية

مقاييس التقييم

معدل نجاح المهمة: النسبة المئوية لإكمال المهمة
معدل تحقيق الهدف الضمني: النسبة المئوية التي تتوافق مع التفضيلات الضمنية في بيانات العروض

طرق المقارنة

DP (سياسة الانتشار): خط أساس سياسة الانتشار القياسي
DP*: سياسة انتشار محسّنة، باستخدام أخذ عينات الرفض وتقسيم المناطق

تكوين التجارب

طول السجل H: 0-2
طول التنبؤ L: 1-8
عدد خطوات التطبيق p: 1-8
حجم الدفعة: 32-1024
عدد فترات التدريب: 100
عدد خطوات إزالة الضوضاء: 100

نتائج التجارب

النتائج الرئيسية

المهمة	CCDP	DP	DP*
فتح الباب	99%	76%	100%
الضغط على الزر	96%	73%	86%
معالجة الأشياء	70%	40%	72%
تعبئة الأشياء	94%	10%	100%
Bartender	100%	27%	100%

معدل تحقيق الهدف الضمني

المهمة	CCDP	DP	DP*
معالجة الأشياء	66%	88%	38%
تعبئة الأشياء	73%	62%	48%
Bartender	97%	100%	12%

الاكتشافات الرئيسية

يتفوق CCDP بشكل كبير على DP في معدل نجاح المهمة، ويقترب من أو يتجاوز DP* في معظم المهام
يحافظ CCDP بشكل أفضل على الأهداف الضمنية لبيانات العروض، بينما يؤدي DP* بشكل أسوأ في هذا الصدد
استراتيجية التوجيه السلبي أكثر مرونة من القيود الإيجابية، مما يسمح للنظام بالاستفادة من سياق أوسع

تحليل مقارنة الطرق

CCDP مقابل DP: يحسّن CCDP معدل النجاح بشكل كبير من خلال الأخذ في الاعتبار معلومات الفشل السابقة
CCDP مقابل DP*:
- يتطلب DP* تصنيفاً مسبقاً، بينما CCDP لا يتطلب تسمية
- يستخدم DP* الفرض الإيجابي (تقييد منطقة أخذ العينات)، بينما يستخدم CCDP التوجيه السلبي (تجنب مناطق الفشل)
- توفر استراتيجية التوجيه السلبي في CCDP مرونة أكبر

الأعمال ذات الصلة

التعلم بالمحاكاة

الطرق التقليدية: ProMP و TP-GMM وغيرها من البدائل الحركية الاحتمالية
الطرق الحديثة: Implicit Behavior Cloning وسياسات الانتشار وسياسات تطابق التدفق
القيود: لا تضمن نجاح أخذ العينات الفردي، وتكرار أخذ العينات غير فعال

توجيه استدلال السياسة

طرق التشريط البارامتري: تحديث معاملات السياسة بناءً على ميزات النظام
الطرق الهرمية: استخدام متغيرات القرار عالية المستوى للتحكم في السياسات منخفضة المستوى
أخذ عينات الرفض: رفض العينات الفاشلة وإنشاء عينات جديدة

تركيب النماذج المتعددة

منتج الخبراء (PoE): تحليل المشاكل المعقدة إلى مشاكل فرعية بسيطة
نماذج الطاقة: التطبيقات في التوزيعات المعقدة عالية الأبعاد
تركيب النماذج المقيدة: التطبيقات الناجحة في تخطيط المهام والحركة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية استراتيجية التحليل: تحليل مشكلة استرجاع الفشل المعقدة إلى عدة مشاكل فرعية قابلة للإدارة
التوجيه السلبي أفضل من القيود الإيجابية: يوفر مرونة استكشافية أكبر
بدون الحاجة إلى بيانات إضافية: يمكن تحقيق استرجاع الفشل باستخدام العروض الناجحة فقط
التصميم المعياري: يدعم عدداً متغيراً من حالات الفشل

القيود

ميزات الفشل المصممة يدويّاً: تتطلب حالياً تعريفاً يدويّاً لميزات الفشل الرئيسية، وتفتقر إلى آلية الاستخراج التلقائي
مشكلة ضبط الأوزان: لم يتم البحث الكافي في استراتيجيات الضبط الأمثل لأوزان التركيب
افتراض الفشل الثابت: يفترض أن أسباب الفشل تبقى ثابتة عبر الزمن
عدم استقرار عملية NOT: تواجه طرق عملية NOT المحاولة مشاكل استقرار

الاتجاهات المستقبلية

استخراج الميزات التلقائي: تطوير طرق استخراج ميزات الفشل التلقائية بناءً على الفضاء الكامن
تحسين الأوزان: البحث في استراتيجيات الضبط التكيفي لأوزان التركيب
آليات الاستكشاف غير المتصل: دمج آليات الاستكشاف غير المتصل لاستخراج بيانات استرجاع أكثر فعالية
معالجة الفشل الديناميكي: التوسع للتعامل مع السيناريوهات ذات أسباب الفشل المتغيرة مع الزمن

التقييم المتعمق

المميزات

ابتكار قوي: أول اقتراح لطريقة تركيب سياسات الانتشار القائمة على التوجيه السلبي
قيمة عملية عالية: بدون الحاجة إلى تسمية إضافية أو بيئات محاكاة، باستخدام بيانات العروض الناجحة فقط
أساس نظري متين: يستند إلى أساس رياضي متين من نظرية الاحتمالات ونماذج الانتشار
تجارب شاملة: التحقق من فعالية الطريقة على عدة أنواع مختلفة من المهام
التصميم المعياري: تحسين قابلية تفسير وتحكم الطريقة من خلال استراتيجية التحليل

أوجه القصور

الاعتماد على كشف الفشل: يتطلب نظام كشف فشل خارجي، مما يزيد من تعقيد النظام
هندسة الميزات: تتطلب ميزات الفشل الرئيسية تصميماً يدويّاً، مما يحد من عمومية الطريقة
الافتراض الثابت: قد لا يكون افتراض ثبات أسباب الفشل صحيحاً في بعض البيئات الديناميكية
التكلفة الحسابية: قد يزيد تركيب النماذج المتعددة من التعقيد الحسابي أثناء الاستدلال
حساسية المعاملات الفائقة: يؤثر اختيار معاملات الأوزان بشكل كبير على الأداء

التأثير

المساهمة الأكاديمية: توفير إطار عمل نظري جديد وطريقة عملية لاسترجاع الفشل في الروبوتات
التطبيقات العملية: آفاق تطبيق واسعة في مجالات الروبوتات الخدمية والأتمتة الصناعية وغيرها
الإلهام المنهجي: يمكن تعميم فكرة التوجيه السلبي على نماذج توليدية أخرى ومشاكل تحكم
قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات فائقة

السيناريوهات المناسبة

البيئات المقيدة جزئياً: مناسبة لمهام الروبوت حيث تكون معاملات البيئة غير معروفة جزئياً
المهام التفاعلية: المهام التي تتطلب تعديل السياسة بناءً على التغذية الراجعة
المهام متعددة الأنماط: المهام التي توجد فيها حلول متعددة صحيحة
التطبيقات الحساسة للأمان: السيناريوهات الحساسة للأمان التي تتطلب تجنب تكرار الأعطال

المراجع

تستشهد الورقة بـ 35 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك التعلم بالمحاكاة ونماذج الانتشار والتحكم الروبوتي، مما يوفر أساساً نظرياً متيناً ودعماً تقنياً لهذا البحث.

التقييم الشامل: هذه ورقة بحثية عالية الجودة في مجال تعلم الروبوتات، تقترح استراتيجية استرجاع فشل مبتكرة، وتظهر أداءً ممتازاً من حيث المساهمة النظرية والقيمة التطبيقية العملية. يتميز تصميم الطريقة بالذكاء، والتحقق التجريبي شامل، مما يسهم بشكل كبير في مجال التحكم الذكي للروبوتات.