2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.

Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.

academic

CCDP: 条件付き拡散ポリシーの合成とガイド付きサンプリング

基本情報

論文ID: 2503.15386
タイトル: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
著者: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL)、Sylvain Calinon (Idiap Research Institute & EPFL)、Michael Gienger (Honda Research Institute Europe)、Fan Zhang (Honda Research Institute Europe)
分類: cs.RO (ロボティクス)、cs.AI (人工知能)
発表日時: 2025年10月10日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2503.15386

要約

模倣学習は、明示的なモデル、シミュレーション、または詳細なタスク定義を必要とせず、データから直接学習する有望な方法を提供します。推論中に、学習された分布からアクションをサンプリングしてロボットで実行します。しかし、サンプリングされたアクションは様々な理由で失敗する可能性があり、成功するアクションが得られるまで単純にサンプリングステップを繰り返すことは効率が悪い可能性があります。本論文は、以前の失敗したアクションを回避することでサンプリング分布を改善する強化されたサンプリング戦略を提案しています。成功したデモンストレーションのデータのみを活用することで、この方法は追加の探索行動や高度なコントローラなしに回復アクションを推論できます。さらに、拡散モデル分解の概念を活用することで、長期履歴が必要な主要な問題を複数の小さく管理しやすいサブ問題に分解し、システムが可変の失敗カウントに適応できるようにします。この方法は、以前のサンプルが不十分な場合に動的にサンプリング空間を調整して効率を向上させる低レベルコントローラを生成します。

研究背景と動機

問題定義

本研究が解決する核心的な問題は：ロボットが学習されたポリシー分布からサンプリングしたアクションが失敗した場合、どのように効果的に回復するか？

問題の重要性

実用的なアプリケーション需要：実環境では、ロボットは部分的な制約や不確実性（例：ベッドサイドランプのスイッチを探索する、ドアの方向が不確定など）に頻繁に直面します
効率の問題：従来の方法は同じ分布から単純に繰り返しサンプリングし、既知の失敗領域の情報を無視するため、効率が低下します
実用性の制限：既存の失敗回復方法は通常、追加のリソース（シミュレーション環境、高度な推論モデル、専門家の指導）を必要とし、実際のアプリケーションでは利用できない可能性があります

既存方法の制限

二段階計画方法：
- 高レベルプランナーがアクションプリミティブを選択し、低レベルコントローラが実行
- 準最適な結果と組み合わせ爆発の問題が存在
- オプションが増えるにつれて、意思決定は計算上高くなります
ロバスト政策学習：
- ロバスト強化学習に類似した方法
- 部分的なタイプの失敗（環境パラメータの変化など）のみを処理可能
- より広範な失敗タイプ（ボタン検索など）では、単一のロバストポリシーが存在しない可能性があります
履歴認識ポリシー：
- トレーニング用の失敗データが必要で、データ収集の複雑性が増加
- 長期履歴メモリが必要で、計算複雑度が高い

核心的な貢献

分解拡散ポリシーフレームワークの提案：拡散ポリシーのモジュール性と制御性を強化し、各モジュールの影響を分析
負のガイダンスに基づく回復戦略の設計：従来の方法と異なり、失敗ケースを負のガイダンスとして使用し、ポリシーを失敗領域から遠ざけます
データアノテーションなしの失敗回復の実装：成功したデモンストレーションデータのみを使用し、オフライン分析を通じて回復アクションを識別
方法の有効性の検証：複数のタスクで最先端のベースラインとの包括的な比較を実施

方法の詳細

タスク定義

M個の成功したデモンストレーションのデータセット $\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M$ が与えられた場合、目標は条件付き分布 $p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t)$ をモデル化する拡散ポリシーを学習することです。ここで：

$a_t \in \mathbb{R}^{d_u}$ ：時刻tでのアクション
$x_t \in \mathbb{R}^{d_s}$ ：状態
$h^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T$ ：過去H個のアクションと状態の履歴

アクションが失敗した場合、システムは失敗特性セットに条件付けする必要があります： $a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})$

ここで $z^f_i = z(a^f_i, x^f_i)$ はi番目の失敗の重要な特性を抽出します。

モデルアーキテクチャ

拡散モデル分解

条件付き分布を複数の単純なサブ問題の積に分解します：

$p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}$

対応するノイズ除去項の分解： $\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))$

各モジュールの機能

$\varepsilon_a(a_t, k)$ ：デモンストレーションに類似したアクションのサンプリングを促進
$\varepsilon_s(a_t, x_t, k)$ ：アクションを現在の状態と一致させるようガイド
$\varepsilon_h(a_t, h^H_t, k)$ ：時間的連続性を促進
$\varepsilon_z(a_t, z^f_i, k)$ ：負のガイダンス、失敗領域から遠ざかる

回復モデル設計

回復アクションの定義

回復アクションセットを定義： $a \in \mathcal{R}(z^f) \text{ if } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}$

ここで $\delta_z$ は失敗特性空間における十分な相違を定義し、 $\delta_x$ は状態空間における類似性を定義します。

データ合成戦略

回復データの希薄性の問題を解決するため、データ合成を実行： $\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}$

対応するノイズ推定器： $\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))$

失敗の重要特性

3つの実用的な失敗特性抽出方法を提案：

失敗アクションの直接使用： $z(a^f, x^f) = a^f$
最終状態の使用： $z(a^f, x^f) = x^f_T$
アクションプリミティブ： $z(a^f, x^f) = m$ （離散ラベル）

実験設定

実験タスク

論文は方法の有効性を検証するため、5つの異なるタイプのタスクを設計：

ドア開閉 (DO)：方向が不明なドア開閉タスク（上、スライド、引く）
ボタン押下 (BP)：事前定義された領域内の未知の位置にあるボタンを押す
物体操作 (OM)：物体の重量に基づいて操作戦略を選択（片手、両手、押す）
物体梱包 (OP)：物体を指定されたバスケットに入れ、バスケットが満杯の場合は最も近い利用可能なバスケットを選択
バーテンダー (BT)：複数のカップを満たし、最も近いカップを優先的に選択

評価指標

タスク成功率：タスク完了の百分率
暗黙的目標達成率：デモンストレーションデータの暗黙的な好みに適合する百分率

比較方法

DP (拡散ポリシー)：標準拡散ポリシーベースライン
DP*：強化版拡散ポリシー、拒否サンプリングと領域分割を使用

実験構成

履歴長H：0-2
予測長L：1-8
適用ステップp：1-8
バッチサイズ：32-1024
トレーニングエポック：100
ノイズ除去ステップ：100

実験結果

主要結果

タスク	CCDP	DP	DP*
ドア開閉	99%	76%	100%
ボタン押下	96%	73%	86%
物体操作	70%	40%	72%
物体梱包	94%	10%	100%
バーテンダー	100%	27%	100%

暗黙的目標達成率

タスク	CCDP	DP	DP*
物体操作	66%	88%	38%
物体梱包	73%	62%	48%
バーテンダー	97%	100%	12%

主要な発見

CCDPはタスク成功率においてDPを大幅に上回り、ほとんどのタスクでDP*に近いまたはそれを超える
CCDPはデモンストレーションデータの暗黙的目標をより良く保持し、DP*はこの点で性能が低い
負のガイダンス戦略は正の制約より柔軟で、システムがより広いコンテキスト情報を活用できます

方法の比較分析

CCDP vs DP：CCDPは過去の失敗情報を考慮することで、成功率を大幅に向上
CCDP vs DP*：
- DP*は事前分類が必要、CCDPはアノテーション不要
- DP*は正の強制（サンプリング領域の制限）を使用、CCDPは負のガイダンス（失敗領域の回避）を使用
- CCDPの負のガイダンス戦略はより大きな柔軟性を提供