2025-11-10T02:49:06.456849

Dynamics-aware Diffusion Models for Planning and Control

Gadginmath, Pasqualetti

This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model's denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model's noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications. Our code repository is available at www.github.com/darshangm/dynamics-aware-diffusion.

academic

Modèles de Diffusion Conscients de la Dynamique pour la Planification et le Contrôle

Informations Fondamentales

ID de l'article: 2504.00236
Titre: Dynamics-aware Diffusion Models for Planning and Control
Auteurs: Darshan Gadginmath, Fabio Pasqualetti (University of California Riverside)
Classification: cs.RO (Robotique), math.OC (Optimisation et Contrôle)
Date de publication: Avril 2024 (arXiv v3: 14 octobre 2025)
Lien de l'article: https://arxiv.org/abs/2504.00236

Résumé

Cet article aborde le problème de la génération de trajectoires dynamiquement réalisables utilisant des modèles de diffusion dans des environnements complexes, particulièrement dans les scénarios où la dynamique du système est cruciale pour les applications pratiques. L'article propose un cadre novateur qui intègre directement la dynamique du système dans le processus de débruitage du modèle de diffusion par le biais de mécanismes de prédiction séquentielle et de projection. Ce mécanisme s'aligne avec le calendrier de bruit du modèle de diffusion, garantissant que les trajectoires générées sont à la fois cohérentes avec les démonstrations d'experts et respectent les contraintes physiques sous-jacentes. La méthode est capable de générer des trajectoires de vraisemblance maximale et de récupérer avec précision les trajectoires générées par des contrôleurs de rétroaction linéaire, même en l'absence de connaissance explicite de la dynamique.

Contexte de Recherche et Motivation

Définition du Problème

Problème central: Les modèles de diffusion traditionnels manquent de capacité explicite de conscience de la dynamique lors de la génération de trajectoires, et les trajectoires générées violent fréquemment les contraintes physiques spécifiques au système
Défis pratiques: En robotique, les ensembles de données contiennent généralement des données de démonstration provenant de différents robots avec des caractéristiques dynamiques distinctes, ce qui entrave la capacité du modèle à généraliser le comportement des robots individuels
Considérations de sécurité: Dans les applications critiques pour la sécurité, les violations de contraintes peuvent entraîner une défaillance du système, nécessitant un post-traitement coûteux en calcul ou une correction en temps réel

Motivation de la Recherche

Bien que les modèles de diffusion existants excellent dans l'apprentissage de distributions de données complexes, ils présentent des problèmes de cohérence dynamique dans les applications de contrôle et de robotique
Il est nécessaire de développer une méthode capable de garantir la faisabilité physique des trajectoires générées tout en préservant la capacité générative du modèle de diffusion
L'objectif est d'être applicable à la fois aux cas de dynamique système connue et inconnue

Contributions Principales

Mécanisme de débruitage conscient de la dynamique: Propose un algorithme novateur qui intègre la dynamique du système dans le modèle de diffusion en incorporant une étape de projection dans le processus de débruitage
Applicabilité aux systèmes connus et inconnus: Démontre l'efficacité de la méthode pour résoudre des problèmes de contrôle complexes dans les scénarios de dynamique système connue et inconnue
Garanties théoriques: Prouve théoriquement que la méthode peut récupérer les trajectoires générées par des contrôleurs de rétroaction linéaire et générer des trajectoires de vraisemblance maximale
Efficacité computationnelle: Réalise la projection par simple multiplication matricielle, évitant les problèmes d'optimisation non linéaire à chaque itération de débruitage

Détails de la Méthode

Définition de la Tâche

Considérez un système LTI discret aléatoire:

x(t+1) = Ax(t) + Bu(t) + w(t)

où x(t) ∈ ℝⁿ est le vecteur d'état, u(t) ∈ ℝᵐ est l'entrée de contrôle, et w(t) ∈ ℝⁿ est le bruit de processus de moyenne nulle.

L'objectif est de résoudre le problème de contrôle:

max R(x(0:T), u(0:T-1), E)
s.c. x(t+1) = Ax(t) + Bu(t) + w(t)
     x(0) = x_init

Architecture du Modèle

1. Cas de Dynamique Connue (Algorithme 1)

Pour les systèmes linéaires, la trajectoire état-contrôle peut être représentée comme:

τ = F[x(0); u(0:T-1)] + F_w w(0:T-1)

où F est la matrice système composée de la matrice de réponse libre A et de la matrice de réponse forcée C_T.

Flux d'algorithme principal:

Étape de prédiction: τ̂_ = μ_θ(τ'_i, i, x_init, E) + √β_i ε_i
Étape de projection: τ' = (√(1-β)FF† + √β_I)τ̂_

2. Cas de Dynamique Inconnue (Algorithme 2)

Basé sur le lemme fondamental de Willems, utilisant la construction de matrice de Hankel:

τ = [H_{T+1}(x); H_T(u)]g

où H_{T+1}(x) et H_T(u) sont des matrices de Hankel construites à partir de données expérimentales à long terme.

Points d'Innovation Technique

Mécanisme de projection séquentielle: Contrairement aux méthodes existantes qui résolvent une optimisation non linéaire à chaque itération, cet article utilise une simple multiplication matricielle pour réaliser la projection
Alignement du calendrier de bruit: L'intensité de projection s'aligne avec le calendrier de bruit β_i du modèle de diffusion, garantissant une convergence progressive vers l'espace de trajectoires réalisables
Extension pilotée par les données: Réalise le traitement des systèmes inconnus par matrice de Hankel, sans nécessiter d'identification explicite du système

Configuration Expérimentale

Ensembles de Données

Expériences LQR:
- Système d'intégrateur double à 4 dimensions
- 10 000 trajectoires synthétiques de longueur T=30
- État initial échantillonné à partir de U-1,1⁴, état cible échantillonné à partir de U-4,4⁴
Suivi de points de passage et évitement d'obstacles:
- Problème de contrôle optimal non convexe
- 10 000 conditions d'environnement différentes
- Contient V points de passage et O obstacles circulaires

Métriques d'Évaluation

Erreur d'état: ∥x(t) - x_LQR(t)∥₂
Erreur de contrôle: ∥u(t) - u_LQR(t)∥₂
Déviation de trajectoire par rapport à la solution optimale numérique

Méthodes de Comparaison

Diffusion Vanilla: Modèle de diffusion standard sans conscience de la dynamique
Algorithme 1: Méthode proposée avec dynamique connue
Algorithme 2: Méthode proposée avec dynamique inconnue

Détails d'Implémentation

Réseau de neurones: Architecture encodeur-décodeur, 3 couches convolutives, 256 unités cachées
Entraînement: Optimiseur Adam, 30 000 itérations, taille de lot 64
Configuration de diffusion: Calendrier de bruit linéaire β_i = 0.001i, L=1000 étapes

Résultats Expérimentaux

Résultats Principaux

Performance de la Tâche LQR

Erreur d'état: La méthode proposée (dynamique connue/inconnue) surpasse significativement la diffusion vanilla
Erreur de contrôle: Maintient une erreur faible sur tout l'horizon de contrôle
Comparaison numérique: Réduction d'erreur moyenne d'environ 60-70%

Suivi de Points de Passage et Évitement d'Obstacles

Qualité de trajectoire: Génère des trajectoires lisses et physiquement réalisables
Satisfaction des contraintes: Évite avec succès les obstacles et passe par les points de passage spécifiés
Analyse d'erreur: Réduction significative d'erreur aux points de passage t=5 et t=33

Découvertes Clés

Importance des contraintes dynamiques: Les méthodes sans conscience de la dynamique produisent des trajectoires non réalisables
Dynamique connue vs inconnue: La méthode avec dynamique connue est légèrement supérieure, mais l'écart est faible
Convergence: La projection séquentielle garantit une convergence progressive des trajectoires vers l'espace réalisable

Travaux Connexes

Modèles de Diffusion Conscients de la Physique

Les méthodes existantes intègrent principalement les contraintes physiques par des termes de pénalité dans la fonction de perte
Inconvénient: Ne peut pas garantir le respect strict de la dynamique du système

Diffusion dans la Planification de Mouvement

Les méthodes comme Diffuser manquent d'intégration explicite de la dynamique
Nécessitent généralement un contrôleur supplémentaire pour la correction

Diffusion dans le Contrôle

Les travaux les plus pertinents incluent les méthodes de projection vers l'ensemble réalisable
Avantages de cet article: Pas besoin de connaissance dynamique complète, efficacité computationnelle supérieure

Conclusion et Discussion

Conclusions Principales

Intègre avec succès la dynamique du système dans le processus de débruitage du modèle de diffusion
Génère des trajectoires réalisables à la fois dans les cas de dynamique connue et inconnue
Fournit des garanties théoriques pour récupérer les trajectoires des contrôleurs de rétroaction linéaire

Limitations

Le cadre actuel cible principalement les systèmes linéaires
Les systèmes non linéaires nécessitent des transformations de linéarisation supplémentaires
Pour les systèmes hautement non linéaires, des mécanismes de projection plus complexes peuvent être nécessaires

Directions Futures

Extension aux systèmes non linéaires
Exploration de mécanismes de projection plus efficaces
Étude de l'accélération du processus d'échantillonnage pour le contrôle en temps réel

Évaluation Approfondie

Points Forts

Rigueur théorique: Fournit une analyse théorique complète, incluant les preuves du Lemme 1 et du Théorème 2
Innovation méthodologique: La conception du mécanisme de projection séquentielle est ingénieuse, évitant l'optimisation non linéaire coûteuse en calcul
Forte applicabilité: Traite à la fois les cas de dynamique connue et inconnue, avec une large applicabilité
Expérimentation complète: Vérification complète allant des tâches LQR simples aux problèmes non convexes complexes

Insuffisances

Limitations du système: Cible principalement les systèmes linéaires, l'extension non linéaire nécessite une recherche supplémentaire
Complexité computationnelle: Bien qu'évitant l'optimisation non linéaire, chaque étape nécessite toujours des opérations matricielles
Hypothèses de bruit: L'hypothèse de moyenne nulle sur le bruit de processus peut ne pas être satisfaite dans les applications pratiques

Impact

Contribution académique: Fournit de nouvelles perspectives pour les modèles génératifs conscients de la physique
Valeur pratique: Potentiel d'application directe en planification de trajectoire robotique et en contrôle
Reproductibilité: Fournit une description d'algorithme complète et un dépôt de code

Scénarios d'Application

Planification et contrôle de trajectoire robotique
Génération de trajectoire en conduite autonome
Navigation de drones
Optimisation de trajectoire en automatisation industrielle

Références

L'article cite des travaux importants dans les domaines des modèles de diffusion, de l'IA consciente de la physique, et du contrôle piloté par les données, notamment:

Lemme Fondamental de Willems (fondement théorique du contrôle piloté par les données)
Modèles Probabilistes de Diffusion par Débruitage (théorie fondamentale DDPM)
Travaux connexes sur les modèles génératifs conscients des contraintes

Évaluation Globale: Ceci est un article de recherche de haute qualité qui intègre avec succès les contraintes physiques dans les modèles de diffusion, fournissant une contribution précieuse aux domaines du contrôle et de la robotique. La méthode présente une forte innovativité, une analyse théorique rigoureuse, une vérification expérimentale complète, et possède une bonne valeur pratique et un impact académique significatif.