2025-11-10T02:49:06.456849

Dynamics-aware Diffusion Models for Planning and Control

Gadginmath, Pasqualetti
This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model's denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model's noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications. Our code repository is available at www.github.com/darshangm/dynamics-aware-diffusion.
academic

계획 및 제어를 위한 동역학 인식 확산 모델

기본 정보

  • 논문 ID: 2504.00236
  • 제목: Dynamics-aware Diffusion Models for Planning and Control
  • 저자: Darshan Gadginmath, Fabio Pasqualetti (University of California Riverside)
  • 분류: cs.RO (로봇공학), math.OC (최적화 및 제어)
  • 발표 시간: 2024년 4월 (arXiv v3: 2025년 10월 14일)
  • 논문 링크: https://arxiv.org/abs/2504.00236

초록

본 논문은 복잡한 환경에서 확산 모델을 사용하여 동역학적으로 실행 가능한 궤적을 생성하는 제어 작업을 다룬다. 특히 시스템 동역학이 실제 응용에 매우 중요한 시나리오에서 그러하다. 본 논문은 순차 예측 및 투영 메커니즘을 통해 시스템 동역학을 확산 모델의 노이즈 제거 과정에 직접 통합하는 새로운 프레임워크를 제안한다. 이 메커니즘은 확산 모델의 노이즈 스케줄과 정렬되어 생성된 궤적이 전문가 시연과 일치하면서도 기본 물리 제약을 준수하도록 보장한다. 이 방법은 최대 우도 궤적을 생성하고 명시적 동역학 지식이 없는 경우에도 선형 피드백 제어기가 생성한 궤적을 정확하게 복구할 수 있다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 기존 확산 모델은 궤적 생성 시 명시적인 동역학 인식 능력이 부족하며, 생성된 궤적은 특정 시스템의 물리 제약을 자주 위반한다
  2. 실제 과제: 로봇공학에서 데이터셋은 일반적으로 서로 다른 동역학 특성을 가진 다양한 로봇의 시연 데이터를 포함하여 개별 로봇 행동에 대한 모델의 일반화 능력을 방해한다
  3. 안전성 고려사항: 안전 관련 응용에서 제약 위반은 시스템 오류를 초래할 수 있으며, 계산 비용이 많이 드는 후처리 또는 실시간 보정이 필요하다

연구 동기

  • 기존 확산 모델은 복잡한 데이터 분포 학습에서 우수하지만 제어 및 로봇공학 응용에서 동역학 일관성 문제가 있다
  • 생성된 궤적의 물리적 실행 가능성을 보장하면서 확산 모델의 생성 능력을 유지하는 방법이 필요하다
  • 알려진 동역학과 미지의 시스템 동역학 모두에 적용 가능한 방법을 원한다

핵심 기여

  1. 동역학 인식 노이즈 제거 메커니즘: 노이즈 제거 과정에 투영 단계를 추가하여 시스템 동역학을 확산 모델에 통합하는 새로운 알고리즘을 제안한다
  2. 알려진 및 미지의 시스템에 적용 가능: 알려진 및 미지의 시스템 동역학 시나리오에서 복잡한 제어 문제를 해결하는 방법의 효과성을 입증한다
  3. 이론적 보장: 이 방법이 선형 피드백 제어기가 생성한 궤적을 복구하고 최대 우도 궤적을 생성할 수 있음을 이론적으로 증명한다
  4. 계산 효율성: 간단한 행렬 곱셈으로 투영을 구현하여 각 노이즈 제거 반복에서 비선형 최적화 문제를 피한다

방법 상세 설명

작업 정의

확률적 이산 시간 LTI 시스템을 고려한다:

x(t+1) = Ax(t) + Bu(t) + w(t)

여기서 x(t) ∈ ℝⁿ은 상태 벡터, u(t) ∈ ℝᵐ은 제어 입력, w(t) ∈ ℝⁿ은 영균값 과정 노이즈이다.

목표는 다음 제어 문제를 해결하는 것이다:

max R(x(0:T), u(0:T-1), E)
s.t. x(t+1) = Ax(t) + Bu(t) + w(t)
     x(0) = x_init

모델 아키텍처

1. 알려진 동역학의 경우 (Algorithm 1)

선형 시스템의 경우, 상태-제어 궤적을 다음과 같이 표현할 수 있다:

τ = F[x(0); u(0:T-1)] + F_w w(0:T-1)

여기서 F는 자유 응답 행렬 A와 강제 응답 행렬 C_T로 구성된 시스템 행렬이다.

핵심 알고리즘 흐름:

  1. 예측 단계: τ̂_ = μ_θ(τ'_i, i, x_init, E) + √β_i ε_i
  2. 투영 단계: τ' = (√(1-β)FF† + √β_I)τ̂_

2. 미지의 동역학의 경우 (Algorithm 2)

Willems 기본 보조정리를 기반으로 Hankel 행렬 구성을 사용한다:

τ = [H_{T+1}(x); H_T(u)]g

여기서 H_{T+1}(x)와 H_T(u)는 장기 실험 데이터로부터 구성된 Hankel 행렬이다.

기술 혁신점

  1. 순차 투영 메커니즘: 기존 방법이 각 반복에서 비선형 최적화를 해결하는 것과 달리, 본 논문은 간단한 행렬 곱셈으로 투영을 구현한다
  2. 노이즈 스케줄 정렬: 투영 강도는 확산 모델의 노이즈 스케줄 β_i와 정렬되어 실행 가능한 궤적 공간으로의 점진적 수렴을 보장한다
  3. 데이터 기반 확장: Hankel 행렬을 통해 미지의 시스템을 처리하며, 명시적 시스템 식별이 필요하지 않다

실험 설정

데이터셋

  1. LQR 실험:
    • 4차원 이중 적분기 시스템
    • 길이 T=30인 10,000개의 합성 궤적
    • 초기 상태는 U-1,1⁴에서 샘플링, 목표 상태는 U-4,4⁴에서 샘플링
  2. 경로점 추적 및 장애물 회피:
    • 비볼록 최적 제어 문제
    • 10,000개의 서로 다른 환경 조건
    • V개의 경로점과 O개의 원형 장애물 포함

평가 지표

  • 상태 오차: ∥x(t) - x_LQR(t)∥₂
  • 제어 오차: ∥u(t) - u_LQR(t)∥₂
  • 수치 최적해와의 궤적 편차

비교 방법

  • Vanilla Diffusion: 동역학 인식이 없는 표준 확산 모델
  • Algorithm 1: 알려진 동역학을 위한 본 논문의 방법
  • Algorithm 2: 미지의 동역학을 위한 본 논문의 방법

구현 세부사항

  • 신경망: 인코더-디코더 아키텍처, 3층 합성곱 층, 256개 숨겨진 단위
  • 훈련: Adam 최적화기, 30,000 에포크, 배치 크기 64
  • 확산 설정: 선형 노이즈 스케줄 β_i = 0.001i, L=1000 단계

실험 결과

주요 결과

LQR 작업 성능

  • 상태 오차: 본 논문의 방법(알려진/미지의 동역학)은 vanilla diffusion보다 현저히 우수하다
  • 제어 오차: 전체 제어 시간 영역에서 낮은 오차 유지
  • 수치 비교: 평균 오차 약 60-70% 감소

경로점 추적 및 장애물 회피

  • 궤적 품질: 매끄럽고 물리적으로 실행 가능한 궤적 생성
  • 제약 만족: 장애물을 성공적으로 회피하고 지정된 경로점 통과
  • 오차 분석: t=5 및 t=33의 경로점에서 오차 현저히 감소

주요 발견

  1. 동역학 제약의 중요성: 동역학 인식이 없는 방법은 불가능한 궤적을 생성한다
  2. 알려진 vs 미지의 동역학: 알려진 동역학 방법이 약간 우수하지만 차이는 크지 않다
  3. 수렴성: 순차 투영은 궤적이 실행 가능한 공간으로 점진적으로 수렴하도록 보장한다

관련 연구

물리 인식 확산 모델

  • 기존 방법은 주로 손실 함수의 페널티 항을 통해 물리 제약을 통합한다
  • 단점: 시스템 동역학의 엄격한 준수를 보장할 수 없다

운동 계획에서의 확산 모델

  • Diffuser 등의 방법은 명시적 동역학 통합이 부족하다
  • 일반적으로 추가 제어기를 통한 보정이 필요하다

제어에서의 확산 모델

  • 가장 관련된 연구는 실행 가능한 집합으로의 투영 방법을 포함한다
  • 본 논문의 장점: 완전한 동역학 지식이 불필요하고 계산 효율이 더 높다

결론 및 논의

주요 결론

  1. 시스템 동역학을 확산 모델의 노이즈 제거 과정에 성공적으로 통합했다
  2. 알려진 및 미지의 동역학 상황에서 모두 실행 가능한 궤적을 생성할 수 있다
  3. 선형 피드백 제어기의 궤적을 복구할 수 있음을 이론적으로 보장한다

제한사항

  1. 현재 프레임워크는 주로 선형 시스템을 대상으로 한다
  2. 비선형 시스템은 추가 선형화 변환이 필요하다
  3. 고도로 비선형인 시스템의 경우 더 복잡한 투영 메커니즘이 필요할 수 있다

향후 방향

  1. 비선형 시스템으로의 확장
  2. 더 효율적인 투영 메커니즘 탐색
  3. 실시간 제어를 위한 샘플링 과정 가속화 연구

심층 평가

장점

  1. 이론적 엄밀성: Lemma 1 및 Theorem 2의 증명을 포함한 완전한 이론 분석 제공
  2. 방법 혁신성: 순차 투영 메커니즘 설계가 정교하며 계산 비용이 많이 드는 비선형 최적화를 피한다
  3. 실용성: 알려진 및 미지의 동역학 상황을 동시에 처리하여 적용 범위가 넓다
  4. 실험 충분성: 단순 LQR에서 복잡한 비볼록 문제까지의 포괄적 검증

부족한 점

  1. 시스템 제한: 주로 선형 시스템을 대상으로 하며 비선형 확장은 추가 연구가 필요하다
  2. 계산 복잡도: 비선형 최적화는 피하지만 각 단계에서 여전히 행렬 연산이 필요하다
  3. 노이즈 가정: 과정 노이즈의 영균값 가정이 실제 응용에서 만족하지 않을 수 있다

영향력

  1. 학술 기여: 물리 인식 생성 모델에 새로운 관점 제공
  2. 실용 가치: 로봇 궤적 계획 및 제어에 직접 응용 가능성
  3. 재현성: 완전한 알고리즘 설명 및 코드 저장소 제공

적용 시나리오

  • 로봇 궤적 계획 및 제어
  • 자율주행 경로 생성
  • 무인항공기 항법
  • 산업 자동화의 궤적 최적화

참고문헌

논문은 확산 모델, 물리 인식 AI, 데이터 기반 제어 등의 분야에서 중요한 연구를 인용하며, 특히 다음을 포함한다:

  • Willems' Fundamental Lemma (데이터 기반 제어 이론의 기초)
  • Denoising Diffusion Probabilistic Models (DDPM 기초 이론)
  • 관련 제약 인식 생성 모델 연구

종합 평가: 이것은 물리 제약을 확산 모델에 성공적으로 통합하여 제어 및 로봇공학 분야에 가치 있는 기여를 제공하는 고품질 연구 논문이다. 방법의 혁신성이 강하고 이론 분석이 엄밀하며 실험 검증이 충분하여 우수한 실용 가치와 학술 영향력을 갖는다.