2025-11-10T02:49:06.456849

Dynamics-aware Diffusion Models for Planning and Control

Gadginmath, Pasqualetti

This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model's denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model's noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications. Our code repository is available at www.github.com/darshangm/dynamics-aware-diffusion.

academic

계획 및 제어를 위한 동역학 인식 확산 모델

기본 정보

논문 ID: 2504.00236
제목: Dynamics-aware Diffusion Models for Planning and Control
저자: Darshan Gadginmath, Fabio Pasqualetti (University of California Riverside)
분류: cs.RO (로봇공학), math.OC (최적화 및 제어)
발표 시간: 2024년 4월 (arXiv v3: 2025년 10월 14일)
논문 링크: https://arxiv.org/abs/2504.00236

초록

본 논문은 복잡한 환경에서 확산 모델을 사용하여 동역학적으로 실행 가능한 궤적을 생성하는 제어 작업을 다룬다. 특히 시스템 동역학이 실제 응용에 매우 중요한 시나리오에서 그러하다. 본 논문은 순차 예측 및 투영 메커니즘을 통해 시스템 동역학을 확산 모델의 노이즈 제거 과정에 직접 통합하는 새로운 프레임워크를 제안한다. 이 메커니즘은 확산 모델의 노이즈 스케줄과 정렬되어 생성된 궤적이 전문가 시연과 일치하면서도 기본 물리 제약을 준수하도록 보장한다. 이 방법은 최대 우도 궤적을 생성하고 명시적 동역학 지식이 없는 경우에도 선형 피드백 제어기가 생성한 궤적을 정확하게 복구할 수 있다.

연구 배경 및 동기

문제 정의

핵심 문제: 기존 확산 모델은 궤적 생성 시 명시적인 동역학 인식 능력이 부족하며, 생성된 궤적은 특정 시스템의 물리 제약을 자주 위반한다
실제 과제: 로봇공학에서 데이터셋은 일반적으로 서로 다른 동역학 특성을 가진 다양한 로봇의 시연 데이터를 포함하여 개별 로봇 행동에 대한 모델의 일반화 능력을 방해한다
안전성 고려사항: 안전 관련 응용에서 제약 위반은 시스템 오류를 초래할 수 있으며, 계산 비용이 많이 드는 후처리 또는 실시간 보정이 필요하다

연구 동기

기존 확산 모델은 복잡한 데이터 분포 학습에서 우수하지만 제어 및 로봇공학 응용에서 동역학 일관성 문제가 있다
생성된 궤적의 물리적 실행 가능성을 보장하면서 확산 모델의 생성 능력을 유지하는 방법이 필요하다
알려진 동역학과 미지의 시스템 동역학 모두에 적용 가능한 방법을 원한다

핵심 기여

동역학 인식 노이즈 제거 메커니즘: 노이즈 제거 과정에 투영 단계를 추가하여 시스템 동역학을 확산 모델에 통합하는 새로운 알고리즘을 제안한다
알려진 및 미지의 시스템에 적용 가능: 알려진 및 미지의 시스템 동역학 시나리오에서 복잡한 제어 문제를 해결하는 방법의 효과성을 입증한다
이론적 보장: 이 방법이 선형 피드백 제어기가 생성한 궤적을 복구하고 최대 우도 궤적을 생성할 수 있음을 이론적으로 증명한다
계산 효율성: 간단한 행렬 곱셈으로 투영을 구현하여 각 노이즈 제거 반복에서 비선형 최적화 문제를 피한다

방법 상세 설명

작업 정의

확률적 이산 시간 LTI 시스템을 고려한다:

x(t+1) = Ax(t) + Bu(t) + w(t)

여기서 x(t) ∈ ℝⁿ은 상태 벡터, u(t) ∈ ℝᵐ은 제어 입력, w(t) ∈ ℝⁿ은 영균값 과정 노이즈이다.

목표는 다음 제어 문제를 해결하는 것이다:

max R(x(0:T), u(0:T-1), E)
s.t. x(t+1) = Ax(t) + Bu(t) + w(t)
     x(0) = x_init

모델 아키텍처

1. 알려진 동역학의 경우 (Algorithm 1)

선형 시스템의 경우, 상태-제어 궤적을 다음과 같이 표현할 수 있다:

τ = F[x(0); u(0:T-1)] + F_w w(0:T-1)

여기서 F는 자유 응답 행렬 A와 강제 응답 행렬 C_T로 구성된 시스템 행렬이다.

핵심 알고리즘 흐름:

예측 단계: τ̂_ = μ_θ(τ'_i, i, x_init, E) + √β_i ε_i
투영 단계: τ' = (√(1-β)FF† + √β_I)τ̂_

2. 미지의 동역학의 경우 (Algorithm 2)

Willems 기본 보조정리를 기반으로 Hankel 행렬 구성을 사용한다:

τ = [H_{T+1}(x); H_T(u)]g

여기서 H_{T+1}(x)와 H_T(u)는 장기 실험 데이터로부터 구성된 Hankel 행렬이다.

기술 혁신점

순차 투영 메커니즘: 기존 방법이 각 반복에서 비선형 최적화를 해결하는 것과 달리, 본 논문은 간단한 행렬 곱셈으로 투영을 구현한다
노이즈 스케줄 정렬: 투영 강도는 확산 모델의 노이즈 스케줄 β_i와 정렬되어 실행 가능한 궤적 공간으로의 점진적 수렴을 보장한다
데이터 기반 확장: Hankel 행렬을 통해 미지의 시스템을 처리하며, 명시적 시스템 식별이 필요하지 않다

실험 설정

데이터셋

LQR 실험:
- 4차원 이중 적분기 시스템
- 길이 T=30인 10,000개의 합성 궤적
- 초기 상태는 U-1,1⁴에서 샘플링, 목표 상태는 U-4,4⁴에서 샘플링
경로점 추적 및 장애물 회피:
- 비볼록 최적 제어 문제
- 10,000개의 서로 다른 환경 조건
- V개의 경로점과 O개의 원형 장애물 포함