2025-11-10T02:49:06.456849

Dynamics-aware Diffusion Models for Planning and Control

Gadginmath, Pasqualetti
This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model's denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model's noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications. Our code repository is available at www.github.com/darshangm/dynamics-aware-diffusion.
academic

نماذج الانتشار الواعية بالديناميكا للتخطيط والتحكم

المعلومات الأساسية

  • معرّف الورقة: 2504.00236
  • العنوان: Dynamics-aware Diffusion Models for Planning and Control
  • المؤلفون: Darshan Gadginmath, Fabio Pasqualetti (جامعة كاليفورنيا ريفرسايد)
  • التصنيف: cs.RO (الروبوتات)، math.OC (التحسين والتحكم)
  • تاريخ النشر: أبريل 2024 (arXiv v3: 14 أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2504.00236

الملخص

تعالج هذه الورقة مشكلة استخدام نماذج الانتشار لتوليد مسارات قابلة للتنفيذ ديناميكياً في بيئات معقدة، خاصة في السيناريوهات التي تكون فيها ديناميكا النظام حاسمة للتطبيقات العملية. تقترح الورقة إطار عمل جديد يدمج ديناميكا النظام مباشرة في عملية إزالة الضوضاء لنموذج الانتشار من خلال آليات التنبؤ بالتسلسل والإسقاط. تتوافق هذه الآلية مع جدول الضوضاء لنموذج الانتشار، مما يضمن أن المسارات المولدة تتوافق مع عروض الخبراء وتمتثل للقيود الفيزيائية الأساسية. تتمكن الطريقة من توليد مسارات الاحتمالية القصوى واسترجاع المسارات التي تولدها متحكمات التغذية الراجعة الخطية بدقة، حتى عندما لا تكون معرفة الديناميكا الصريحة متاحة.

الخلفية البحثية والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تفتقر نماذج الانتشار التقليدية إلى القدرة الصريحة على الوعي بالديناميكا عند توليد المسارات، وغالباً ما تنتهك المسارات المولدة القيود الفيزيائية لنظام معين
  2. التحديات العملية: في الروبوتات، تحتوي مجموعات البيانات عادة على بيانات عروض من روبوتات مختلفة بخصائص ديناميكية مختلفة، مما يعيق قدرة النموذج على التعميم على سلوك الروبوتات الفردية
  3. الاعتبارات الأمنية: في التطبيقات الحساسة للسلامة، قد تؤدي انتهاكات القيود إلى فشل النظام، مما يتطلب معالجة لاحقة مكلفة حسابياً أو تصحيحات في الوقت الفعلي

الدافع البحثي

  • على الرغم من أن نماذج الانتشار الموجودة تتفوق في تعلم التوزيعات المعقدة، إلا أنها تعاني من مشاكل الاتساق الديناميكي في تطبيقات التحكم والروبوتات
  • هناك حاجة إلى طريقة تضمن الجدوى الفيزيائية للمسارات المولدة مع الحفاظ على القدرة التوليدية لنموذج الانتشار
  • يُرغب في تطبيق يعمل في حالات الديناميكا المعروفة والمجهولة على حد سواء

المساهمات الأساسية

  1. آلية إزالة الضوضاء الواعية بالديناميكا: تقترح خوارزمية جديدة تدمج ديناميكا النظام في نموذج الانتشار من خلال إضافة خطوة إسقاط في عملية إزالة الضوضاء
  2. قابلة للتطبيق على الأنظمة المعروفة والمجهولة: توضح فعالية الطريقة في حل مشاكل التحكم المعقدة في سيناريوهات الديناميكا المعروفة والمجهولة
  3. ضمانات نظرية: تثبت نظرياً أن الطريقة قادرة على استرجاع المسارات التي تولدها متحكمات التغذية الراجعة الخطية وتوليد مسارات الاحتمالية القصوى
  4. الكفاءة الحسابية: تحقق الإسقاط من خلال عمليات الضرب المصفوفي البسيطة، مما يتجنب مشاكل التحسين غير الخطي في كل تكرار إزالة ضوضاء

شرح الطريقة

تعريف المهمة

ضع في الاعتبار نظام LTI عشوائي منفصل الوقت:

x(t+1) = Ax(t) + Bu(t) + w(t)

حيث x(t) ∈ ℝⁿ متجه الحالة، u(t) ∈ ℝᵐ مدخل التحكم، w(t) ∈ ℝⁿ ضوضاء العملية ذات المتوسط الصفري.

الهدف هو حل مشكلة التحكم:

max R(x(0:T), u(0:T-1), E)
s.t. x(t+1) = Ax(t) + Bu(t) + w(t)
     x(0) = x_init

معمارية النموذج

1. حالة الديناميكا المعروفة (الخوارزمية 1)

بالنسبة للأنظمة الخطية، يمكن تمثيل مسار الحالة-التحكم كـ:

τ = F[x(0); u(0:T-1)] + F_w w(0:T-1)

حيث F مصفوفة النظام المكونة من مصفوفة الاستجابة الحرة A ومصفوفة الاستجابة المفروضة C_T.

تدفق الخوارزمية الأساسي:

  1. خطوة التنبؤ: τ̂_ = μ_θ(τ'_i, i, x_init, E) + √β_i ε_i
  2. خطوة الإسقاط: τ' = (√(1-β)FF† + √β_I)τ̂_

2. حالة الديناميكا المجهولة (الخوارزمية 2)

بناءً على Lemma Willems الأساسي، استخدام بناء مصفوفة Hankel:

τ = [H_{T+1}(x); H_T(u)]g

حيث H_{T+1}(x) و H_T(u) مصفوفات Hankel المبنية من بيانات التجارب طويلة الأجل.

نقاط الابتكار التقني

  1. آلية الإسقاط التسلسلي: بخلاف الطرق الموجودة التي تحل التحسين غير الخطي في كل تكرار، تستخدم هذه الورقة عمليات الضرب المصفوفي البسيطة لتحقيق الإسقاط
  2. توافق جدول الضوضاء: تتوافق قوة الإسقاط مع جدول الضوضاء β_i لنموذج الانتشار، مما يضمن التقارب التدريجي إلى فضاء المسارات القابلة للتنفيذ
  3. التوسع المدفوع بالبيانات: تحقيق التعامل مع الأنظمة المجهولة من خلال مصفوفة Hankel، بدون الحاجة إلى تحديد نظام صريح

إعداد التجارب

مجموعات البيانات

  1. تجارب LQR:
    • نظام مدمج رباعي الأبعاد
    • 10,000 مسار اصطناعي بطول T=30
    • الحالات الأولية مأخوذة من U-1,1⁴، الحالات المستهدفة من U-4,4
  2. تتبع نقاط المسار وتجنب العوائق:
    • مشكلة تحكم مثلى غير محدبة
    • 10,000 ظرف بيئي مختلف
    • يتضمن V نقطة مسار و O عوائق دائرية

مقاييس التقييم

  • خطأ الحالة: ∥x(t) - x_LQR(t)∥₂
  • خطأ التحكم: ∥u(t) - u_LQR(t)∥₂
  • الانحراف المساري عن الحل الأمثل العددي

طرق المقارنة

  • Vanilla Diffusion: نموذج انتشار قياسي بدون وعي بالديناميكا
  • الخوارزمية 1: طريقتنا للديناميكا المعروفة
  • الخوارزمية 2: طريقتنا للديناميكا المجهولة

تفاصيل التنفيذ

  • الشبكة العصبية: معمارية مشفر-فاك، 3 طبقات التفافية، 256 وحدة مخفية
  • التدريب: محسّن Adam، 30,000 حقبة، حجم الدفعة 64
  • إعدادات الانتشار: جدول ضوضاء خطي β_i = 0.001i، L=1000 خطوة

نتائج التجارب

النتائج الرئيسية

أداء مهمة LQR

  • خطأ الحالة: طريقتنا (الديناميكا المعروفة/المجهولة) تتفوق بشكل كبير على vanilla diffusion
  • خطأ التحكم: الحفاظ على خطأ منخفض عبر النطاق الزمني للتحكم بالكامل
  • المقارنة العددية: متوسط تقليل الخطأ حوالي 60-70%

تتبع نقاط المسار وتجنب العوائق

  • جودة المسار: توليد مسارات سلسة وقابلة للتنفيذ فيزيائياً
  • الامتثال للقيود: تجنب ناجح للعوائق والمرور عبر نقاط المسار المحددة
  • تحليل الخطأ: انخفاض كبير في الخطأ عند نقاط المسار في t=5 و t=33

النتائج الرئيسية

  1. أهمية قيود الديناميكا: الطرق بدون وعي بالديناميكا تنتج مسارات غير قابلة للتنفيذ
  2. الديناميكا المعروفة مقابل المجهولة: طريقة الديناميكا المعروفة أفضل قليلاً، لكن الفجوة صغيرة
  3. التقارب: يضمن الإسقاط التسلسلي التقارب التدريجي للمسارات إلى فضاء قابل للتنفيذ

الأعمال ذات الصلة

نماذج الانتشار الواعية بالفيزياء

  • تركز الطرق الموجودة بشكل أساسي على دمج القيود الفيزيائية من خلال شروط العقوبة في دوال الخسارة
  • العيب: لا يمكن ضمان الامتثال الصارم لديناميكا النظام

نماذج الانتشار في التخطيط الحركي

  • تفتقر طرق مثل Diffuser إلى دمج الديناميكا الصريح
  • عادة ما تتطلب متحكم إضافي للتصحيح

نماذج الانتشار في التحكم

  • تشمل الأعمال الأكثر صلة الطرق التي تسقط إلى مجموعات قابلة للتنفيذ
  • ميزة هذه الورقة: لا تتطلب معرفة ديناميكا كاملة، كفاءة حسابية أعلى

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. دمج ناجح لديناميكا النظام في عملية إزالة الضوضاء لنموذج الانتشار
  2. توليد مسارات قابلة للتنفيذ في حالات الديناميكا المعروفة والمجهولة
  3. ضمانات نظرية لاسترجاع مسارات متحكمات التغذية الراجعة الخطية

القيود

  1. يركز الإطار الحالي بشكل أساسي على الأنظمة الخطية
  2. تتطلب الأنظمة غير الخطية تحويلات خطية إضافية
  3. قد تتطلب الأنظمة شديدة عدم الخطية آليات إسقاط أكثر تعقيداً

الاتجاهات المستقبلية

  1. التوسع إلى الأنظمة غير الخطية
  2. استكشاف آليات إسقاط أكثر كفاءة
  3. دراسة تسريع عملية الأخذ لتحقيق التحكم في الوقت الفعلي

التقييم المتعمق

المزايا

  1. الصرامة النظرية: توفير تحليل نظري شامل، بما في ذلك إثبات Lemma 1 و Theorem 2
  2. ابتكار الطريقة: تصميم آلية الإسقاط التسلسلي ذكي، يتجنب التحسين غير الخطي المكلف حسابياً
  3. قوة عملية: التعامل المتزامن مع حالات الديناميكا المعروفة والمجهولة، قابلية تطبيق واسعة
  4. تجارب شاملة: التحقق الشامل من مهام LQR البسيطة إلى المشاكل غير المحدبة المعقدة

أوجه القصور

  1. قيود النظام: يركز بشكل أساسي على الأنظمة الخطية، لا تزال التوسعات غير الخطية تتطلب بحثاً إضافياً
  2. التعقيد الحسابي: على الرغم من تجنب التحسين غير الخطي، لا تزال كل خطوة تتطلب عمليات مصفوفية
  3. افتراضات الضوضاء: قد لا يتم استيفاء افتراض المتوسط الصفري لضوضاء العملية في التطبيقات العملية

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة للنماذج التوليدية الواعية بالفيزياء
  2. القيمة العملية: إمكانية تطبيق مباشرة في تخطيط المسارات والتحكم بالروبوتات
  3. قابلية التكرار: توفير وصف خوارزمي كامل ومستودع أكواد

السيناريوهات المناسبة

  • تخطيط وتحكم مسارات الروبوتات
  • توليد المسارات في القيادة الذاتية
  • ملاحة الطائرات بدون طيار
  • تحسين المسارات في الأتمتة الصناعية

المراجع

تستشهد الورقة بأعمال مهمة في مجالات نماذج الانتشار والذكاء الاصطناعي الواعي بالفيزياء والتحكم المدفوع بالبيانات، خاصة:

  • Willems' Fundamental Lemma (الأساس النظري للتحكم المدفوع بالبيانات)
  • Denoising Diffusion Probabilistic Models (النظرية الأساسية لـ DDPM)
  • الأعمال ذات الصلة بنماذج توليدية واعية بالقيود

التقييم الشامل: هذه ورقة بحثية عالية الجودة تدمج بنجاح القيود الفيزيائية في نماذج الانتشار، وتوفر مساهمات قيمة لمجالات التحكم والروبوتات. الطريقة مبتكرة، التحليل النظري صارم، التحقق التجريبي شامل، وتتمتع بقيمة عملية وتأثير أكاديمي جيد.