2025-11-11T11:01:09.310903

Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning

Keller, Tanneberg, Peters
Imitation learning is a popular method for teaching robots new behaviors. However, most existing methods focus on teaching short, isolated skills rather than long, multi-step tasks. To bridge this gap, imitation learning algorithms must not only learn individual skills but also an abstract understanding of how to sequence these skills to perform extended tasks effectively. This paper addresses this challenge by proposing a neuro-symbolic imitation learning framework. Using task demonstrations, the system first learns a symbolic representation that abstracts the low-level state-action space. The learned representation decomposes a task into easier subtasks and allows the system to leverage symbolic planning to generate abstract plans. Subsequently, the system utilizes this task decomposition to learn a set of neural skills capable of refining abstract plans into actionable robot commands. Experimental results in three simulated robotic environments demonstrate that, compared to baselines, our neuro-symbolic approach increases data efficiency, improves generalization capabilities, and facilitates interpretability.
academic

تعلم المحاكاة العصبي-الرمزي: اكتشاف التجريدات الرمزية لتعلم المهارات

المعلومات الأساسية

  • معرّف الورقة: 2503.21406
  • العنوان: تعلم المحاكاة العصبي-الرمزي: اكتشاف التجريدات الرمزية لتعلم المهارات
  • المؤلفون: Leon Keller, Daniel Tanneberg, Jan Peters
  • التصنيف: cs.AI cs.LG cs.RO
  • وقت النشر/المؤتمر: مؤتمر IEEE الدولي للروبوتات والأتمتة (ICRA) 2025
  • رابط الورقة: https://arxiv.org/abs/2503.21406
  • DOI: 10.1109/ICRA55743.2025.11127692

الملخص

يعتبر تعلم المحاكاة طريقة شهيرة لتعليم الروبوتات سلوكيات جديدة. ومع ذلك، تركز معظم الطرق الحالية على تعليم مهارات قصيرة الأجل ومعزولة، بدلاً من المهام متعددة الخطوات طويلة الأجل. لسد هذه الفجوة، لا تحتاج خوارزميات تعلم المحاكاة فقط إلى تعلم المهارات الفردية، بل تحتاج أيضاً إلى فهم تجريدي لكيفية ترتيب هذه المهارات لتنفيذ المهام الموسعة بفعالية. تعالج هذه الورقة هذا التحدي من خلال اقتراح إطار عمل تعلم المحاكاة العصبي-الرمزي. يتعلم النظام أولاً تمثيلات رمزية تجريدية لفضاء الحالة-الإجراء منخفض المستوى باستخدام عروض المهام. يقسم التمثيل المكتسب المهام إلى مهام فرعية أبسط، ويسمح للنظام بالاستفادة من التخطيط الرمزي لإنشاء خطط تجريدية. بعد ذلك، يستفيد النظام من تحليل المهام هذا لتعلم مجموعة من المهارات العصبية القادرة على تحسين الخطط التجريدية إلى أوامر روبوتية قابلة للتنفيذ. تظهر نتائج التجارب في ثلاث بيئات روبوتية محاكاة تحسناً في كفاءة البيانات والقدرة على التعميم والقابلية للتفسير مقارنة بطرق الأساس.

خلفية البحث والدافع

المشكلة الأساسية

تتناول هذه الدراسة القيود الأساسية في طرق تعلم المحاكاة الحالية عند التعامل مع مهام الروبوتات طويلة الأجل ومتعددة الخطوات. بشكل محدد:

  1. عزلة المهارات: تستطيع معظم الطرق الحالية تعلم مهارات قصيرة الأجل ومعزولة فقط، وغير قادرة على التعامل مع المهام المعقدة التي تتطلب دمج سلاسل متعددة من المهارات
  2. نقص الفهم التجريدي: تفتقر الطرق الحالية إلى الفهم التجريدي لكيفية ترتيب المهارات لإكمال المهام الموسعة
  3. قدرة تعميم محدودة: عند مواجهة تكوينات مهام لم تُرَ من قبل، تفتقر الطرق التقليدية إلى القدرة على التعميم الكافي

أهمية المشكلة

تتمتع هذه المشكلة بأهمية كبيرة في التطبيقات العملية:

  • التطبيقات في الحياة اليومية: تتطلب مهام الروبوتات في العالم الحقيقي (مثل مساعد المطبخ) تنفيذ سلاسل معقدة من العمليات متعددة الخطوات
  • محاكاة القدرات المعرفية: يعالج البشر المهام المعقدة من خلال التجريد، وتحتاج الروبوتات أيضاً إلى أدوات معرفية مماثلة
  • احتياجات الممارسة الهندسية: بينما تكون طرق التخطيط المكاني والمهام (TAMP) فعالة، إلا أنها تتطلب تصميم يدوي من قبل الخبراء للتمثيلات الرمزية وموديلات التخطيط الحركي

قيود الطرق الموجودة

  1. الاعتماد على التصميم اليدوي: تتطلب طرق TAMP التقليدية الكثير من التصميم اليدوي للتمثيلات الرمزية
  2. فصل المهارات والرموز: تركز الأبحاث الموجودة إما على تعلم الرموز عند إعطاء المهارات، أو تعلم المهارات عند إعطاء الرموز، مع نقص الإطار الموحد
  3. كفاءة البيانات المنخفضة: تتمتع الطرق العصبية البحتة بكفاءة بيانات منخفضة عند التعامل مع مهام السلاسل الطويلة

المساهمات الأساسية

  1. إطار عمل عصبي-رمزي موحد: يقترح للمرة الأولى إطار عمل موحد يتعلم في نفس الوقت التجريدات الرمزية العلائقية والمهارات العصبية من عروض المهام الخام
  2. طريقة جديدة لتعلم المسندات: يقترح طريقة اختيار المسندات بناءً على تحسين دالة الهدف، مع تحقيق التوازن بين التقسيم الدقيق وتعقيد المشغلات
  3. استراتيجية تعلم ثنائية المراحل: يصمم طريقة تتعلم أولاً المكونات الرمزية (المسندات والمشغلات)، ثم يستفيد من التمثيل الرمزي لتعلم المهارات العصبية
  4. تحسن أداء ملحوظ: يعرض تحسناً ملحوظاً في كفاءة البيانات والقدرة على التعميم والقابلية للتفسير مقارنة بطرق الأساس في ثلاث بيئات روبوتية محاكاة

شرح الطريقة

تعريف المهمة

تدرس هذه الورقة مهام تعلم المحاكاة في بيئات روبوتية قابلة للملاحظة بالكامل:

  • تكوين البيئة: روبوت وعدة أجسام قابلة للتلاعب
  • تمثيل الأجسام: يمتلك كل جسم o ∈ O نوعاً t(o) ∈ T وناقل ميزات ξᵢ(o) ∈ Ξ(o)
  • تعريف الحالة: حالة البيئة sₜ هي تسلسل حالات جميع الأجسام
  • فضاء الإجراء: الإجراء a ∈ A يحدد الإزاحات في وضعية المشغل النهائي
  • هدف المهمة: تعلم سياسة عصبية-رمزية من مجموعة مسارات العرض D = {τ⁰,...,τᴹ} قادرة على حل مهام جديدة

معمارية النموذج

1. مكونات السياسة العصبية-الرمزية

تتضمن السياسة العصبية-الرمزية ثلاثة مكونات أساسية:

المسندات (Predicates) P:

  • التعريف: دوال ثنائية مع معاملات نوع Θ، تحدد العلاقات بين الأجسام
  • الوظيفة: تجريد حالة البيئة s إلى حالة رمزية s̄ = ψ(s,P)
  • مثال: onTop(cube, cube) يعبر عن علاقة التكديس بين المكعبات

المشغلات (Operators) Σ:

  • البنية: تتضمن معاملات النوع Θ، مجموعة الشروط المسبقة (pre⁺, pre⁻) ومجموعة التأثيرات (eff⁺, eff⁻)
  • الوظيفة: تعرّف نماذج الانتقال في فضاء الحالة التجريدي
  • التمثيل: استخدام صيغة PDDL، يدعم التخطيط الرمزي

المهارات (Skills) Π:

  • التكوين: تتضمن كل مهارة πᵢ = (fᵢ, gᵢ) أخذ عينات من الأهداف الفرعية gᵢ ومتحكماً شرطياً للأهداف الفرعية fᵢ
  • الوظيفة: تنفيذ المشغلات المحددة في الخطة التجريدية

2. تدفق تنفيذ السياسة

  1. إنشاء الخطة التجريدية:
    • تجريد الحالة الأولية s₀ ومجموعة الحالات الهدف Sₘ
    • استخدام خوارزمية التخطيط الرمزي لإنشاء سلسلة من المشغلات
    • اختيار الخطة المثلى من خلال مسافة Levenshtein
  2. تنفيذ الخطة:
    • تنفيذ المهارة المقابلة لكل مشغل في الخطة بالتسلسل
    • يقترح أخذ عينات الأهداف الفرعية أهدافاً فرعية تحقق تأثيرات المشغل
    • ينفذ متحكم الأهداف الفرعية الشرطي الإجراءات الملموسة حتى تتحقق التأثيرات

نقاط الابتكار التقني

1. الطريقة ثنائية المراحل لتعلم المسندات

مرحلة إنشاء المرشحين:

  • بناء مسندات مرشحة بناءً على الميزات النسبية المرصودة في العروض
  • استخدام طرق التجميع لتحديد المناطق الكثيفة في فضاء الميزات
  • إنشاء مسند مرشح لكل مجموعة

مرحلة اختيار التجريد: تحسين دالة الهدف:

max P⊂C ∑τ∈D |ψ(P,τ)| - α|Σ(P,D)|

شروط القيد: |ψ(P,τ)| = |plan(P,Σ,τ₀,τₙ)| ∀τ ∈ D

تحقق دالة الهدف هذه التوازن بين:

  • التقسيم الدقيق (تعظيم عدد الحالات التجريدية)
  • التحكم في تعقيد المشغلات (تقليل عدد المشغلات)
  • ضمان أمثلية الخطة (شروط القيد)

2. تعلم المهارات مع قيود الانتقال بين الحالات

  • تقسيم مسارات العرض بناءً على التمثيل الرمزي
  • استخدام دالة الانتقال φσ للاحتفاظ فقط بمعلومات الحالة ذات الصلة بالمشغل
  • تدريب متحكم الأهداف الفرعية الشرطي من خلال استنساخ السلوك
  • تعلم أخذ عينات الأهداف الفرعية باستخدام تقدير الكثافة النواة

إعداد التجارب

مجموعة البيانات

تُجرى التجارب في ثلاث بيئات روبوتية محاكاة، جميعها تستخدم محرك فيزياء MuJoCo وإطار محاكاة robosuite:

  1. بيئة البناء (Building): يحتاج الروبوت إلى تجميع كتل مستطيلة بالترتيب الصحيح لبناء هيكل جسر
  2. بيئة الصب (Pouring): يحتاج الروبوت إلى صب الشاي من إبريق إلى كوب ووضع الكوب الممتلئ على صينية
  3. بيئة الرسم (Painting): يحتاج الروبوت إلى رسم الكتل بفرشاة ووضع الكتل المرسومة في صندوق

مقاييس التقييم

  • معدل النجاح: النسبة المئوية لإكمال المهام
  • كفاءة البيانات: الأداء تحت أعداد عروض مختلفة
  • القدرة على التعميم: الأداء في ثلاث سيناريوهات:
    • السيناريو الأول: وضعيات أجسام أولية لم تُرَ من قبل
    • السيناريو الثاني: تكوينات هدف لم تُرَ من قبل
    • السيناريو الثالث: عدد أجسام أكثر من التدريب

طرق المقارنة

  1. المنطقة الحرجة (CR): تجربة استئصالية تستخدم مفهوم الحرجية لتقييم واختيار المسندات
  2. الشبكة العصبية الهرمية (HNN): تجربة استئصالية تستبدل التخطيط الرمزي بسياسة عصبية عالية المستوى

تفاصيل التنفيذ

  • عدد العروض: 100، 200، 300 عرض
  • خوارزمية التحسين: بحث الحزمة لتحسين اختيار المسندات
  • تعلم المهارات: شبكة إدراك متعددة الطبقات + استنساخ السلوك
  • خوارزمية التخطيط: استخدام مخطط رمزي جاهز

نتائج التجارب

النتائج الرئيسية

تظهر نتائج التجارب أن الطريقة المقترحة تتفوق على طرق الأساس في جميع البيئات والسيناريوهات:

  1. كفاءة البيانات: تحت 300 عرض، تحقق الطريقة معدل نجاح عالي في جميع البيئات وسيناريوهات التعميم
  2. القدرة على التعميم:
    • تفشل HNN تماماً في السيناريو الثاني والثالث
    • تتمتع طريقة CR بقدرة تعميم أضعف لأنها تعلمت تمثيلات رمزية معقدة جداً
    • تحافظ الطريقة المقترحة على معدل نجاح عالي ومستقر في جميع السيناريوهات
  3. بيانات الأداء المحددة:
    • تتفوق على الأساس تحت جميع إعدادات عدد العروض
    • تظهر توازناً جيداً بين كفاءة البيانات والقدرة على التعميم

تحليل التجارب الاستئصالية

  1. تحليل أساس CR:
    • تعلمت تمثيلات رمزية أكثر تعقيداً (مسندات وعوامل أكثر)
    • متوسط معاملات المشغل أكثر، مما يزيد من تعقيد تعلم المهارات
    • يؤدي الإفراط في التعقيد إلى انخفاض القدرة على التعميم
  2. تحليل أساس HNN:
    • تفتقر إلى القدرة على التعميم للتخطيط الرمزي
    • تفشل عند مواجهة أهداف جديدة وعدد أكبر من الأجسام
    • تتحقق من أهمية التخطيط الرمزي في التعميم

تحليل القابلية للتفسير

  1. تصور المسندات: من خلال تراكب صور الحالات التي تكون فيها المسندات صحيحة، يمكن إعطاء جميع المسندات المكتسبة أسماء ذات معنى
  2. تفسير المشغلات: يمكن التعبير عن المشغلات المكتسبة بوضوح باستخدام صيغة PDDL، مع شروط مسبقة وتأثيرات واضحة
  3. قابلية تفسير الخطة: تكون الخطط التجريدية المُنشأة قابلة للتفسير بالكامل، مما يسهل الفهم والتصحيح

الأعمال ذات الصلة

تعلم التمثيلات الرمزية

يمكن تقسيم الأعمال ذات الصلة إلى فئتين:

  1. تعلم الرموز عند إعطاء المهارات: تستخدم الأعمال المبكرة مصنفات الدوال الأساسية الشعاعية، مشاكل الرضا البوليانية، طبقات الاختناق الثنائية العصبية وغيرها
  2. تعلم المهارات عند إعطاء الرموز: دمج التخطيط الرمزي مع التعلم المعزز، التجريد الرمزي الموجه لتعلم المحاكاة وغيرها

تفرد هذه الورقة

تعتبر هذه الورقة الأولى التي تتعلم في نفس الوقت التجريدات الرمزية العلائقية والمهارات العصبية من العروض الخام، مما يملأ فراغاً في هذا المجال.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: نجح إطار عمل تعلم المحاكاة العصبي-الرمزي في حل مشكلة تعلم المهام طويلة الأجل متعددة الخطوات
  2. المزايا الأداء: تحسن ملحوظ في كفاءة البيانات والقدرة على التعميم والقابلية للتفسير مقارنة بطرق الأساس
  3. المساهمات التقنية: توفر طريقة تعلم المسندات المقترحة والإطار الموحد اتجاهاً بحثياً جديداً في هذا المجال

القيود

  1. قيود البيئة المحاكاة: تم التحقق حالياً فقط في بيئات محاكاة، وتحتاج قابلية التطبيق على الروبوتات الحقيقية إلى مزيد من التحقق
  2. افتراض نوع الجسم: تعتمد الطريقة على أنواع أجسام محددة مسبقاً، والقدرة على التكيف مع فئات أجسام جديدة محدودة
  3. الاعتماد على جودة العرض: يعتمد أداء الطريقة على بيانات عرض عالية الجودة

الاتجاهات المستقبلية

يقترح المؤلفون ثلاثة اتجاهات بحثية رئيسية:

  1. التحقق على الروبوتات الحقيقية: التحقق من القابلية العملية للإطار على الروبوتات الحقيقية
  2. التوسع متعدد المهام: استكشاف التطبيقات في تعلم المحاكاة متعدد المهام
  3. التكيف عبر الإنترنت: دراسة التكيف عبر الإنترنت للمهارات والتمثيلات الرمزية لدعم فئات أجسام جديدة واستعادة الأعطال

التقييم المتعمق

المزايا

  1. أهمية المشكلة: يحل مشكلة مهمة في مجال تعلم المحاكاة، مع قيمة تطبيقية عملية
  2. ابتكار الطريقة:
    • توحيد تعلم الرموز والمهارات للمرة الأولى
    • اقتراح دالة هدف جديدة لتعلم المسندات
    • تصميم استراتيجية تعلم فعالة ثنائية المراحل
  3. كفاية التجارب:
    • ثلاث بيئات روبوتية مختلفة
    • اختبار سيناريوهات تعميم متعددة
    • مقارنة أساس مناسبة وتجارب استئصالية
  4. قوة النتائج: تحسن أداء ملحوظ وقابلية تفسير جيدة
  5. وضوح الكتابة: هيكل الورقة واضح والوصف التقني دقيق

أوجه القصور

  1. قيود بيئة التجارب:
    • التحقق فقط في بيئات محاكاة
    • البيئات نسبياً بسيطة، لم تُؤخذ تعقيدات العالم الحقيقي في الاعتبار بشكل كافٍ
  2. قيود الطريقة:
    • الاعتماد على أنواع أجسام وميزات محددة مسبقاً
    • قد يؤثر اختيار معامل التجميع ε على الأداء
    • لا يضمن البحث عن الحزمة الحل الأمثل العام
  3. خطوط الأساس للمقارنة: طرق الأساس نسبياً بسيطة، تفتقر إلى المقارنة مع طرق أكثر تقدماً
  4. التحليل النظري: نقص الضمانات النظرية لتقارب الطريقة والقدرة على التعميم

التأثير

  1. المساهمات الأكاديمية:
    • فتح اتجاه جديد لتعلم المحاكاة العصبي-الرمزي
    • توفير حل فعال لتعلم المهام طويلة الأجل
    • الطريقة تتمتع بعمومية جيدة
  2. القيمة العملية:
    • قابلة للتطبيق على مهام روبوتية معقدة
    • توفير عملية قرار قابلة للتفسير
    • كفاءة بيانات عالية، مناسبة للتطبيقات العملية
  3. قابلية إعادة الإنتاج:
    • وصف تفاصيل تقنية واضح
    • توفير رابط موقع ويب قد يتضمن الكود
    • إعداد التجارب واضح

السيناريوهات المناسبة

  1. مهام التلاعب بالروبوتات: مناسبة بشكل خاص للمهام التي تتطلب سلاسل عمليات متعددة الخطوات
  2. البيئات المنظمة: تحقق أفضل النتائج في البيئات حيث تكون أنواع الأجسام والعلاقات نسبياً ثابتة
  3. التطبيقات التي تتطلب القابلية للتفسير: المجالات الطبية والتعليمية وغيرها التي تتطلب فهم عملية القرار
  4. السيناريوهات ذات البيانات المحدودة: مقارنة بطرق الشبكات العصبية البحتة، تتمتع بمزايا أكبر عندما تكون بيانات العرض محدودة

المراجع

تستشهد الورقة بـ 61 مرجعاً ذا صلة، تغطي مجالات متعددة مثل تعلم المحاكاة والتعلم الرمزي والتعلم المعزز والتخطيط المكاني والمهام، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تحل مشكلة مهمة في مجال تعلم الروبوتات، وتقترح حلاً مبتكراً، وتتحقق من فعالية الطريقة من خلال تجارب شاملة. على الرغم من وجود بعض القيود، فإن مساهماتها الأكاديمية وقيمتها العملية كبيرة جداً، وتوفر دفعة مهمة لتطور هذا المجال.