2025-11-10T02:49:06.456849

Dynamics-aware Diffusion Models for Planning and Control

Gadginmath, Pasqualetti

This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model's denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model's noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications. Our code repository is available at www.github.com/darshangm/dynamics-aware-diffusion.

academic

動力学認識拡散モデルによる計画と制御

基本情報

論文ID: 2504.00236
タイトル: Dynamics-aware Diffusion Models for Planning and Control
著者: Darshan Gadginmath, Fabio Pasqualetti (カリフォルニア大学リバーサイド校)
分類: cs.RO (ロボティクス), math.OC (最適化と制御)
発表時期: 2024年4月 (arXiv v3: 2025年10月14日)
論文リンク: https://arxiv.org/abs/2504.00236

要約

本論文は、複雑な環境において拡散モデルを用いて動力学的に実行可能な軌跡を生成する制御タスクの問題に取り組んでいます。特にシステム動力学が実用的応用に不可欠なシナリオを対象としています。本論文は、系列予測と投影メカニズムを通じてシステム動力学を拡散モデルの除ノイズプロセスに直接統合する新規フレームワークを提案しています。このメカニズムは拡散モデルのノイズスケジュールと整合し、生成された軌跡が専門家デモンストレーションと一致しながら、基礎となる物理制約を遵守することを保証します。本手法は最大尤度軌跡を生成し、明示的な動力学知識が利用不可能な場合でも線形フィードバック制御器によって生成された軌跡を正確に復元できます。

研究背景と動機

問題定義

中核的問題: 従来の拡散モデルは軌跡生成時に明示的な動力学認識能力を欠いており、生成された軌跡は特定システムの物理制約に違反することが頻繁です
実践的課題: ロボティクスにおいて、データセットは通常異なるロボットからのデモンストレーションデータを含み、異なる動力学特性を持つため、個別ロボットの動作への一般化能力を阻害します
安全性に関する考慮: 安全関連アプリケーションでは、制約違反はシステム故障につながる可能性があり、計算コストの高い後処理またはリアルタイム補正が必要になります

研究動機

既存の拡散モデルは複雑なデータ分布の学習に優れていますが、制御とロボティクス応用における動力学一貫性の問題があります
生成された軌跡の物理的実行可能性を保証しながら、拡散モデルの生成能力を維持する手法が必要です
既知および未知のシステム動力学の両方のシナリオに適用可能であることが望まれます

中核的貢献

動力学認識除ノイズメカニズム: 除ノイズプロセスに投影ステップを組み込むことでシステム動力学を拡散モデルに統合する新規アルゴリズムを提案
既知および未知システムへの適用: 既知および未知のシステム動力学シナリオの両方で複雑な制御問題を解決する本手法の有効性を実証
理論的保証: 本手法が線形フィードバック制御器によって生成された軌跡を復元し、最大尤度軌跡を生成することを理論的に証明
計算効率: 単純な行列乗算により投影を実装し、各除ノイズ反復における非線形最適化問題を回避

方法の詳細

タスク定義

確率的離散時間LTIシステムを考慮します：

x(t+1) = Ax(t) + Bu(t) + w(t)

ここで x(t) ∈ ℝⁿ は状態ベクトル、u(t) ∈ ℝᵐ は制御入力、w(t) ∈ ℝⁿ は零平均プロセスノイズです。

制御問題を解くことが目標です：

max R(x(0:T), u(0:T-1), E)
s.t. x(t+1) = Ax(t) + Bu(t) + w(t)
     x(0) = x_init

モデルアーキテクチャ

1. 既知動力学の場合 (アルゴリズム1)

線形システムについて、状態-制御軌跡は以下のように表現できます：

τ = F[x(0); u(0:T-1)] + F_w w(0:T-1)

ここで F は自由応答行列 A と強制応答行列 C_T から構成されるシステム行列です。

中核的アルゴリズムフロー:

予測ステップ: τ̂_ = μ_θ(τ'_i, i, x_init, E) + √β_i ε_i
投影ステップ: τ' = (√(1-β)FF† + √β_I)τ̂_

2. 未知動力学の場合 (アルゴリズム2)

Willemsの基本補題に基づき、Hankel行列構成を使用します：

τ = [H_{T+1}(x); H_T(u)]g

ここで H_{T+1}(x) と H_T(u) は長期実験データから構築されたHankel行列です。

技術的革新点

系列投影メカニズム: 各反復で非線形最適化を解く既存手法と異なり、本論文は単純な行列乗算により投影を実装
ノイズスケジュール整合: 投影強度は拡散モデルのノイズスケジュール β_i と整合し、実行可能軌跡空間への段階的収束を保証
データ駆動拡張: Hankel行列を通じて未知システムの処理を実現し、明示的なシステム同定が不要

実験設定

データセット

LQR実験:
- 4次元二重積分器システム
- 10,000本の長さT=30の合成軌跡
- 初期状態はU-1,1⁴から、目標状態はU-4,4⁴からサンプリング
ウェイポイント追従と障害物回避:
- 非凸最適制御問題
- 10,000種類の異なる環境条件
- V個のウェイポイントとO個の円形障害物を含む