2025-11-10T02:49:06.456849

Dynamics-aware Diffusion Models for Planning and Control

Gadginmath, Pasqualetti

This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model's denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model's noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications. Our code repository is available at www.github.com/darshangm/dynamics-aware-diffusion.

academic

गतिशीलता-सचेत विसरण मॉडल योजना और नियंत्रण के लिए

मूल जानकारी

पेपर ID: 2504.00236
शीर्षक: गतिशीलता-सचेत विसरण मॉडल योजना और नियंत्रण के लिए
लेखक: दर्शन गडगिनमाथ, फैबियो पास्क्वालेट्टी (कैलिफोर्निया विश्वविद्यालय रिवरसाइड)
वर्गीकरण: cs.RO (रोबोटिक्स), math.OC (अनुकूलन और नियंत्रण)
प्रकाशन समय: अप्रैल 2024 (arXiv v3: 14 अक्टूबर 2025)
पेपर लिंक: https://arxiv.org/abs/2504.00236

सारांश

यह पेपर जटिल वातावरण में विसरण मॉडल का उपयोग करके गतिशीलता-व्यवहार्य प्रक्षेपवक्र उत्पन्न करने की नियंत्रण समस्या को संबोधित करता है, विशेष रूप से उन परिदृश्यों में जहां प्रणाली गतिशीलता व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण है। पेपर एक नवीन ढांचा प्रस्तावित करता है जो अनुक्रमिक भविष्यवाणी और प्रक्षेपण तंत्र के माध्यम से प्रणाली गतिशीलता को विसरण मॉडल की विनोइसिंग प्रक्रिया में सीधे एकीकृत करता है। यह तंत्र विसरण मॉडल के शोर शेड्यूलिंग के साथ संरेखित है, जो सुनिश्चित करता है कि उत्पन्न प्रक्षेपवक्र विशेषज्ञ प्रदर्शन के साथ सुसंगत हैं और अंतर्निहित भौतिक बाधाओं का पालन करते हैं। यह विधि अधिकतम संभावना प्रक्षेपवक्र उत्पन्न कर सकती है और रैखिक प्रतिक्रिया नियंत्रकों द्वारा उत्पन्न प्रक्षेपवक्र को सटीक रूप से पुनः प्राप्त कर सकती है, यहां तक कि स्पष्ट गतिशीलता ज्ञान उपलब्ध न होने की स्थिति में भी।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: पारंपरिक विसरण मॉडल प्रक्षेपवक्र उत्पन्न करते समय स्पष्ट गतिशीलता-सचेतता की कमी रखते हैं, और उत्पन्न प्रक्षेपवक्र अक्सर विशिष्ट प्रणाली की भौतिक बाधाओं का उल्लंघन करते हैं
व्यावहारिक चुनौतियां: रोबोटिक्स में, डेटासेट आमतौर पर विभिन्न रोबोट के प्रदर्शन डेटा से युक्त होते हैं, जिनमें विभिन्न गतिशीलता विशेषताएं होती हैं, जो व्यक्तिगत रोबोट व्यवहार के लिए मॉडल के सामान्यीकरण क्षमता को बाधित करती हैं
सुरक्षा विचार: सुरक्षा-महत्वपूर्ण अनुप्रयोगों में, बाधा उल्लंघन प्रणाली विफलता का कारण बन सकते हैं, जिसके लिए कम्प्यूटेशनल रूप से महंगे पोस्ट-प्रोसेसिंग या वास्तविक समय सुधार की आवश्यकता होती है

अनुसंधान प्रेरणा

मौजूदा विसरण मॉडल जटिल डेटा वितरण सीखने में उत्कृष्ट हैं, लेकिन नियंत्रण और रोबोटिक्स अनुप्रयोगों में गतिशीलता संगति समस्याएं हैं
एक ऐसी विधि की आवश्यकता है जो उत्पन्न प्रक्षेपवक्र की भौतिक व्यवहार्यता सुनिश्चित कर सके, साथ ही विसरण मॉडल की जनरेटिव क्षमता को बनाए रखे
ज्ञात और अज्ञात प्रणाली गतिशीलता दोनों स्थितियों में लागू होने की आशा है

मुख्य योगदान

गतिशीलता-सचेत विनोइसिंग तंत्र: एक नवीन एल्गोरिथम प्रस्तावित करता है जो विनोइसिंग प्रक्रिया में प्रक्षेपण चरण जोड़कर प्रणाली गतिशीलता को विसरण मॉडल में एकीकृत करता है
ज्ञात और अज्ञात प्रणालियों के लिए लागू: ज्ञात और अज्ञात प्रणाली गतिशीलता परिदृश्यों में जटिल नियंत्रण समस्याओं को हल करने में इस विधि की प्रभावशीलता प्रदर्शित करता है
सैद्धांतिक गारंटियां: सैद्धांतिक रूप से साबित करता है कि विधि रैखिक प्रतिक्रिया नियंत्रकों द्वारा उत्पन्न प्रक्षेपवक्र को पुनः प्राप्त कर सकती है, अधिकतम संभावना प्रक्षेपवक्र उत्पन्न करती है
कम्प्यूटेशनल दक्षता: सरल मैट्रिक्स गुणन के माध्यम से प्रक्षेपण को लागू करता है, प्रत्येक विनोइसिंग पुनरावृत्ति में गैर-रैखिक अनुकूलन समस्याओं से बचता है

विधि विवरण

कार्य परिभाषा

यादृच्छिक असतत समय LTI प्रणाली पर विचार करें:

x(t+1) = Ax(t) + Bu(t) + w(t)

जहां x(t) ∈ ℝⁿ स्थिति वेक्टर है, u(t) ∈ ℝᵐ नियंत्रण इनपुट है, w(t) ∈ ℝⁿ शून्य माध्य प्रक्रिया शोर है।

लक्ष्य नियंत्रण समस्या को हल करना है:

max R(x(0:T), u(0:T-1), E)
s.t. x(t+1) = Ax(t) + Bu(t) + w(t)
     x(0) = x_init

मॉडल आर्किटेक्चर

1. ज्ञात गतिशीलता स्थिति (एल्गोरिथम 1)

रैखिक प्रणाली के लिए, स्थिति-नियंत्रण प्रक्षेपवक्र को इस प्रकार प्रदर्शित किया जा सकता है:

τ = F[x(0); u(0:T-1)] + F_w w(0:T-1)

जहां F स्वतंत्र प्रतिक्रिया मैट्रिक्स A और बाध्य प्रतिक्रिया मैट्रिक्स C_T से बना प्रणाली मैट्रिक्स है।

मुख्य एल्गोरिथम प्रवाह:

भविष्यवाणी चरण: τ̂_ = μ_θ(τ'_i, i, x_init, E) + √β_i ε_i
प्रक्षेपण चरण: τ' = (√(1-β)FF† + √β_I)τ̂_

2. अज्ञात गतिशीलता स्थिति (एल्गोरिथम 2)

विलेम्स मौलिक लेम्मा के आधार पर, हैंकेल मैट्रिक्स निर्माण का उपयोग करें:

τ = [H_{T+1}(x); H_T(u)]g

जहां H_{T+1}(x) और H_T(u) दीर्घकालीन प्रायोगिक डेटा से निर्मित हैंकेल मैट्रिक्स हैं।

तकनीकी नवाचार बिंदु

अनुक्रमिक प्रक्षेपण तंत्र: मौजूदा विधियों के विपरीत जो प्रत्येक पुनरावृत्ति में गैर-रैखिक अनुकूलन को हल करती हैं, यह पेपर सरल मैट्रिक्स गुणन का उपयोग करके प्रक्षेपण को लागू करता है
शोर शेड्यूलिंग संरेखण: प्रक्षेपण शक्ति विसरण मॉडल के शोर शेड्यूलिंग β_i के साथ संरेखित है, व्यवहार्य प्रक्षेपवक्र स्थान में क्रमिक अभिसरण सुनिश्चित करता है
डेटा-संचालित विस्तार: हैंकेल मैट्रिक्स के माध्यम से अज्ञात प्रणालियों को संभालना, स्पष्ट प्रणाली पहचान की आवश्यकता नहीं है

प्रायोगिक सेटअप

डेटासेट

LQR प्रयोग:
- 4-आयामी दोहरा एकीकरणकर्ता प्रणाली
- 10,000 लंबाई T=30 के सिंथेटिक प्रक्षेपवक्र
- प्रारंभिक स्थिति U-1,1⁴ से नमूना, लक्ष्य स्थिति U-4,4⁴ से नमूना
वेपॉइंट ट्रैकिंग और बाधा परिहार:
- गैर-उत्तल इष्टतम नियंत्रण समस्या
- 10,000 विभिन्न पर्यावरण स्थितियां
- V वेपॉइंट और O वृत्ताकार बाधाएं शामिल

मूल्यांकन मेट्रिक्स

स्थिति त्रुटि: ∥x(t) - x_LQR(t)∥₂
नियंत्रण त्रुटि: ∥u(t) - u_LQR(t)∥₂
संख्यात्मक इष्टतम समाधान से प्रक्षेपवक्र विचलन

तुलना विधियां

वैनिला विसरण: गतिशीलता-सचेत के बिना मानक विसरण मॉडल
एल्गोरिथम 1: ज्ञात गतिशीलता के साथ इस पेपर की विधि
एल्गोरिथम 2: अज्ञात गतिशीलता के साथ इस पेपर की विधि

कार्यान्वयन विवरण

तंत्रिका नेटवर्क: एनकोडर-डिकोडर आर्किटेक्चर, 3-परत कनवोल्यूशनल परत, 256 छिपी इकाइयां
प्रशिक्षण: Adam अनुकूलक, 30,000 एपोक, बैच आकार 64
विसरण सेटिंग: रैखिक शोर शेड्यूलिंग β_i = 0.001i, L=1000 चरण

प्रायोगिक परिणाम

मुख्य परिणाम

LQR कार्य प्रदर्शन

स्थिति त्रुटि: इस पेपर की विधि (ज्ञात/अज्ञात गतिशीलता) वैनिला विसरण से काफी बेहतर है
नियंत्रण त्रुटि: संपूर्ण नियंत्रण समय क्षेत्र में कम त्रुटि बनाए रखता है
संख्यात्मक तुलना: औसत त्रुटि में लगभग 60-70% की कमी

वेपॉइंट ट्रैकिंग और बाधा परिहार

प्रक्षेपवक्र गुणवत्ता: चिकनी, भौतिक रूप से व्यवहार्य प्रक्षेपवक्र उत्पन्न करता है
बाधा संतुष्टि: सफलतापूर्वक बाधाओं से बचता है और निर्दिष्ट वेपॉइंट से गुजरता है
त्रुटि विश्लेषण: t=5 और t=33 के वेपॉइंट पर त्रुटि में उल्लेखनीय कमी

मुख्य निष्कर्ष

गतिशीलता बाधाओं का महत्व: गतिशीलता-सचेत के बिना विधियां अव्यवहार्य प्रक्षेपवक्र उत्पन्न करती हैं
ज्ञात बनाम अज्ञात गतिशीलता: ज्ञात गतिशीलता विधि थोड़ी बेहतर है, लेकिन अंतर महत्वपूर्ण नहीं है
अभिसरण: अनुक्रमिक प्रक्षेपण प्रक्षेपवक्र को व्यवहार्य स्थान में क्रमिक रूप से अभिसरण सुनिश्चित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रणाली गतिशीलता को विसरण मॉडल की विनोइसिंग प्रक्रिया में सफलतापूर्वक एकीकृत करता है
ज्ञात और अज्ञात गतिशीलता दोनों स्थितियों में व्यवहार्य प्रक्षेपवक्र उत्पन्न कर सकता है
सैद्धांतिक गारंटी कि रैखिक प्रतिक्रिया नियंत्रकों के प्रक्षेपवक्र को पुनः प्राप्त कर सकता है

सीमाएं

वर्तमान ढांचा मुख्य रूप से रैखिक प्रणालियों के लिए है
गैर-रैखिक प्रणालियों के लिए अतिरिक्त रैखिकीकरण परिवर्तन की आवश्यकता है
अत्यधिक गैर-रैखिक प्रणालियों के लिए अधिक जटिल प्रक्षेपण तंत्र की आवश्यकता हो सकती है

भविष्य की दिशाएं

गैर-रैखिक प्रणालियों तक विस्तार
अधिक कुशल प्रक्षेपण तंत्र की खोज
वास्तविक समय नियंत्रण के लिए नमूनाकरण प्रक्रिया को तेज करने का अनुसंधान

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता: पूर्ण सैद्धांतिक विश्लेषण प्रदान करता है, जिसमें लेम्मा 1 और प्रमेय 2 के प्रमाण शामिल हैं
विधि नवाचार: अनुक्रमिक प्रक्षेपण तंत्र डिजाइन चतुर है, कम्प्यूटेशनल रूप से महंगे गैर-रैखिक अनुकूलन से बचता है
व्यावहारिक शक्ति: ज्ञात और अज्ञात गतिशीलता दोनों को संभालता है, व्यापक प्रयोज्यता
पर्याप्त प्रयोग: सरल LQR से जटिल गैर-उत्तल समस्याओं तक व्यापक सत्यापन

कमियां

प्रणाली सीमाएं: मुख्य रूप से रैखिक प्रणालियों के लिए, गैर-रैखिक विस्तार को अभी भी आगे के अनुसंधान की आवश्यकता है
कम्प्यूटेशनल जटिलता: हालांकि गैर-रैखिक अनुकूलन से बचता है, फिर भी प्रत्येक चरण में मैट्रिक्स संचालन की आवश्यकता है
शोर धारणा: प्रक्रिया शोर की शून्य माध्य धारणा वास्तविक अनुप्रयोगों में संतुष्ट नहीं हो सकती है

प्रभाव

शैक्षणिक योगदान: भौतिकी-सचेत जनरेटिव मॉडल के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: रोबोट प्रक्षेपवक्र नियोजन और नियंत्रण में सीधी अनुप्रयोग क्षमता
पुनरुत्पादनीयता: पूर्ण एल्गोरिथम विवरण और कोड रिपोजिटरी प्रदान करता है

लागू परिदृश्य

रोबोट प्रक्षेपवक्र नियोजन और नियंत्रण
स्वायत्त वाहन पथ उत्पादन
ड्रोन नेविगेशन
औद्योगिक स्वचालन में प्रक्षेपवक्र अनुकूलन

संदर्भ

पेपर विसरण मॉडल, भौतिकी-सचेत AI, डेटा-संचालित नियंत्रण आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, विशेष रूप से:

विलेम्स मौलिक लेम्मा (डेटा-संचालित नियंत्रण सिद्धांत आधार)
विनोइसिंग विसरण संभाव्य मॉडल (DDPM मूल सिद्धांत)
संबंधित बाधा-सचेत जनरेटिव मॉडल कार्य

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पेपर है जो भौतिक बाधाओं को विसरण मॉडल में सफलतापूर्वक एकीकृत करता है, नियंत्रण और रोबोटिक्स क्षेत्र में मूल्यवान योगदान प्रदान करता है। विधि में मजबूत नवाचार है, सैद्धांतिक विश्लेषण कठोर है, प्रायोगिक सत्यापन पर्याप्त है, और इसमें अच्छी व्यावहारिक मूल्य और शैक्षणिक प्रभाव है।

Dynamics-aware Diffusion Models for Planning and Control

गतिशीलता-सचेत विसरण मॉडल योजना और नियंत्रण के लिए

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. ज्ञात गतिशीलता स्थिति (एल्गोरिथम 1)

2. अज्ञात गतिशीलता स्थिति (एल्गोरिथम 2)

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलना विधियां

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

LQR कार्य प्रदर्शन

वेपॉइंट ट्रैकिंग और बाधा परिहार

मुख्य निष्कर्ष

संबंधित कार्य

भौतिकी-सचेत विसरण मॉडल

गति नियोजन में विसरण मॉडल

नियंत्रण में विसरण मॉडल

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ