2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.
Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.
academic

CCDP: 条件付き拡散ポリシーの合成とガイド付きサンプリング

基本情報

  • 論文ID: 2503.15386
  • タイトル: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
  • 著者: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL)、Sylvain Calinon (Idiap Research Institute & EPFL)、Michael Gienger (Honda Research Institute Europe)、Fan Zhang (Honda Research Institute Europe)
  • 分類: cs.RO (ロボティクス)、cs.AI (人工知能)
  • 発表日時: 2025年10月10日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2503.15386

要約

模倣学習は、明示的なモデル、シミュレーション、または詳細なタスク定義を必要とせず、データから直接学習する有望な方法を提供します。推論中に、学習された分布からアクションをサンプリングしてロボットで実行します。しかし、サンプリングされたアクションは様々な理由で失敗する可能性があり、成功するアクションが得られるまで単純にサンプリングステップを繰り返すことは効率が悪い可能性があります。本論文は、以前の失敗したアクションを回避することでサンプリング分布を改善する強化されたサンプリング戦略を提案しています。成功したデモンストレーションのデータのみを活用することで、この方法は追加の探索行動や高度なコントローラなしに回復アクションを推論できます。さらに、拡散モデル分解の概念を活用することで、長期履歴が必要な主要な問題を複数の小さく管理しやすいサブ問題に分解し、システムが可変の失敗カウントに適応できるようにします。この方法は、以前のサンプルが不十分な場合に動的にサンプリング空間を調整して効率を向上させる低レベルコントローラを生成します。

研究背景と動機

問題定義

本研究が解決する核心的な問題は:ロボットが学習されたポリシー分布からサンプリングしたアクションが失敗した場合、どのように効果的に回復するか?

問題の重要性

  1. 実用的なアプリケーション需要:実環境では、ロボットは部分的な制約や不確実性(例:ベッドサイドランプのスイッチを探索する、ドアの方向が不確定など)に頻繁に直面します
  2. 効率の問題:従来の方法は同じ分布から単純に繰り返しサンプリングし、既知の失敗領域の情報を無視するため、効率が低下します
  3. 実用性の制限:既存の失敗回復方法は通常、追加のリソース(シミュレーション環境、高度な推論モデル、専門家の指導)を必要とし、実際のアプリケーションでは利用できない可能性があります

既存方法の制限

  1. 二段階計画方法
    • 高レベルプランナーがアクションプリミティブを選択し、低レベルコントローラが実行
    • 準最適な結果と組み合わせ爆発の問題が存在
    • オプションが増えるにつれて、意思決定は計算上高くなります
  2. ロバスト政策学習
    • ロバスト強化学習に類似した方法
    • 部分的なタイプの失敗(環境パラメータの変化など)のみを処理可能
    • より広範な失敗タイプ(ボタン検索など)では、単一のロバストポリシーが存在しない可能性があります
  3. 履歴認識ポリシー
    • トレーニング用の失敗データが必要で、データ収集の複雑性が増加
    • 長期履歴メモリが必要で、計算複雑度が高い

核心的な貢献

  1. 分解拡散ポリシーフレームワークの提案:拡散ポリシーのモジュール性と制御性を強化し、各モジュールの影響を分析
  2. 負のガイダンスに基づく回復戦略の設計:従来の方法と異なり、失敗ケースを負のガイダンスとして使用し、ポリシーを失敗領域から遠ざけます
  3. データアノテーションなしの失敗回復の実装:成功したデモンストレーションデータのみを使用し、オフライン分析を通じて回復アクションを識別
  4. 方法の有効性の検証:複数のタスクで最先端のベースラインとの包括的な比較を実施

方法の詳細

タスク定義

M個の成功したデモンストレーションのデータセット D={(at,xt,htH)i}i=1M\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M が与えられた場合、目標は条件付き分布 pπD(atxt,htH)p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t) をモデル化する拡散ポリシーを学習することです。ここで:

  • atRdua_t \in \mathbb{R}^{d_u}:時刻tでのアクション
  • xtRdsx_t \in \mathbb{R}^{d_s}:状態
  • htH=[atH:t1T,xtH:t1T]Th^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T:過去H個のアクションと状態の履歴

アクションが失敗した場合、システムは失敗特性セットに条件付けする必要があります: atpπ(atxt,htH,z1:Nf)a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})

ここで zif=z(aif,xif)z^f_i = z(a^f_i, x^f_i) はi番目の失敗の重要な特性を抽出します。

モデルアーキテクチャ

拡散モデル分解

条件付き分布を複数の単純なサブ問題の積に分解します:

pπ(atxt,htH,z1:Nf)ps(atxt)pa(at)ph(athtH)pa(at)i=1Npz(atzif)pa(at)p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}

対応するノイズ除去項の分解: ε^(atk,k)=εa(at,k)+ws(εs(at,xt,k)εa(at,k))+wh(εh(at,htH,k)εa(at,k))+i=1Nwzi(εz(at,zif,k)εa(at,k))\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))

各モジュールの機能

  1. εa(at,k)\varepsilon_a(a_t, k):デモンストレーションに類似したアクションのサンプリングを促進
  2. εs(at,xt,k)\varepsilon_s(a_t, x_t, k):アクションを現在の状態と一致させるようガイド
  3. εh(at,htH,k)\varepsilon_h(a_t, h^H_t, k):時間的連続性を促進
  4. εz(at,zif,k)\varepsilon_z(a_t, z^f_i, k):負のガイダンス、失敗領域から遠ざかる

回復モデル設計

回復アクションの定義

回復アクションセットを定義: aR(zf) if {z(a,x)z(af,xf)2>δzxxf2<δxa \in \mathcal{R}(z^f) \text{ if } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}

ここで δz\delta_z は失敗特性空間における十分な相違を定義し、δx\delta_x は状態空間における類似性を定義します。

データ合成戦略

回復データの希薄性の問題を解決するため、データ合成を実行: Ds(xs)={(a,xs)apˉD(ax),xxs+ξx,ξxN(0,σ2I)}\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}

対応するノイズ推定器: εˉ(a,x,k)=εa(a,k)+ws(εs(a,x,k)εa(a,k))\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))

失敗の重要特性

3つの実用的な失敗特性抽出方法を提案:

  1. 失敗アクションの直接使用z(af,xf)=afz(a^f, x^f) = a^f
  2. 最終状態の使用z(af,xf)=xTfz(a^f, x^f) = x^f_T
  3. アクションプリミティブz(af,xf)=mz(a^f, x^f) = m(離散ラベル)

実験設定

実験タスク

論文は方法の有効性を検証するため、5つの異なるタイプのタスクを設計:

  1. ドア開閉 (DO):方向が不明なドア開閉タスク(上、スライド、引く)
  2. ボタン押下 (BP):事前定義された領域内の未知の位置にあるボタンを押す
  3. 物体操作 (OM):物体の重量に基づいて操作戦略を選択(片手、両手、押す)
  4. 物体梱包 (OP):物体を指定されたバスケットに入れ、バスケットが満杯の場合は最も近い利用可能なバスケットを選択
  5. バーテンダー (BT):複数のカップを満たし、最も近いカップを優先的に選択

評価指標

  1. タスク成功率:タスク完了の百分率
  2. 暗黙的目標達成率:デモンストレーションデータの暗黙的な好みに適合する百分率

比較方法

  1. DP (拡散ポリシー):標準拡散ポリシーベースライン
  2. DP*:強化版拡散ポリシー、拒否サンプリングと領域分割を使用

実験構成

  • 履歴長H:0-2
  • 予測長L:1-8
  • 適用ステップp:1-8
  • バッチサイズ:32-1024
  • トレーニングエポック:100
  • ノイズ除去ステップ:100

実験結果

主要結果

タスクCCDPDPDP*
ドア開閉99%76%100%
ボタン押下96%73%86%
物体操作70%40%72%
物体梱包94%10%100%
バーテンダー100%27%100%

暗黙的目標達成率

タスクCCDPDPDP*
物体操作66%88%38%
物体梱包73%62%48%
バーテンダー97%100%12%

主要な発見

  1. CCDPはタスク成功率においてDPを大幅に上回り、ほとんどのタスクでDP*に近いまたはそれを超える
  2. CCDPはデモンストレーションデータの暗黙的目標をより良く保持し、DP*はこの点で性能が低い
  3. 負のガイダンス戦略は正の制約より柔軟で、システムがより広いコンテキスト情報を活用できます

方法の比較分析

  • CCDP vs DP:CCDPは過去の失敗情報を考慮することで、成功率を大幅に向上
  • CCDP vs DP*:
    • DP*は事前分類が必要、CCDPはアノテーション不要
    • DP*は正の強制(サンプリング領域の制限)を使用、CCDPは負のガイダンス(失敗領域の回避)を使用
    • CCDPの負のガイダンス戦略はより大きな柔軟性を提供

関連研究

模倣学習

  • 従来の方法:ProMP、TP-GMMなどの確率的運動プリミティブ
  • 現代的方法:暗黙的行動クローニング、拡散ポリシー、フロー整合ポリシー
  • 制限:単一サンプルの成功を保証せず、繰り返しサンプリングは効率が低い

ガイド付きポリシー推論

  • パラメータ条件付け方法:システム特性に基づくポリシーパラメータの更新
  • 階層的方法:高レベルの決定変数を使用して低レベルポリシーを制御
  • 拒否サンプリング:失敗サンプルを破棄し、新しいサンプルを生成

複数モデルの組み合わせ

  • 専門家の積 (PoE):複雑な問題を単純なサブ問題に分解
  • エネルギーモデル:高次元複雑分布への応用
  • 制約モデル組み合わせ:タスクと運動計画での成功した応用

結論と議論

主要な結論

  1. 分解戦略は有効:複雑な失敗回復問題を複数の管理可能なサブ問題に分解
  2. 負のガイダンスは正の制約より優れている:より大きな探索の柔軟性を提供
  3. 追加データ不要:成功したデモンストレーションのみで失敗回復を実現
  4. モジュール設計:可変数の失敗ケースをサポート

制限事項

  1. 手作業で設計された失敗特性:現在、失敗の重要特性を手動で定義する必要があり、自動抽出メカニズムが不足
  2. 重み調整の問題:組み合わせ重みの最適調整戦略はまだ十分に研究されていない
  3. 静的失敗の仮定:失敗原因が時間的に静的であると仮定
  4. NOT操作の不安定性:試みたNOT操作方法に安定性の問題がある

今後の方向性

  1. 自動特性抽出:潜在空間に基づく自動失敗特性抽出方法の開発
  2. 重み最適化:組み合わせ重みの適応的調整戦略の研究
  3. オフライン探索メカニズム:より効果的な回復データを抽出するためのオフライン探索メカニズムの統合
  4. 動的失敗処理:時変失敗原因を処理するシナリオへの拡張

深い評価

長所

  1. 革新性が強い:負のガイダンスに基づく拡散ポリシー組み合わせ方法を初めて提案
  2. 実用価値が高い:追加のアノテーションやシミュレーション環境を必要とせず、成功したデモンストレーションデータのみを使用
  3. 理論的基礎が堅実:確率論と拡散モデルの堅実な数学的基礎に基づく
  4. 実験が包括的:複数の異なるタイプのタスクで方法の有効性を検証
  5. モジュール設計:分解戦略は方法の解釈可能性と制御性を向上

不足

  1. 失敗検出への依存:外部失敗検出システムが必要で、システムの複雑性が増加
  2. 特性エンジニアリング:失敗の重要特性は手動で設計する必要があり、方法の汎用性を制限
  3. 静的仮定:失敗原因が静的という仮定は、一部の動的環境では成立しない可能性
  4. 計算オーバーヘッド:複数モデルの組み合わせは推論時の計算複雑度を増加させる可能性
  5. 超パラメータ感度:重みパラメータの選択は性能に大きな影響を与える

影響力

  1. 学術的貢献:ロボット失敗回復に新しい理論的枠組みと実用的方法を提供
  2. 実用的応用:サービスロボット、産業オートメーションなど多くの分野での広い応用前景
  3. 方法的啓発:負のガイダンスの考え方は他の生成モデルと制御問題に推広可能
  4. 再現性:詳細な実装詳細と超パラメータ設定を提供

適用シナリオ

  1. 部分的制約環境:環境パラメータが部分的に未知のロボットタスク
  2. 対話的タスク:フィードバックに基づいてポリシーを調整する必要があるタスク
  3. マルチモーダルタスク:複数の有効な解決策が存在するタスク
  4. 安全クリティカルアプリケーション:繰り返しの失敗を回避する必要がある安全に敏感なシナリオ

参考文献

論文は35篇の関連文献を引用しており、模倣学習、拡散モデル、ロボット制御など複数の分野の重要な研究をカバーし、本研究に堅実な理論的基礎と技術的サポートを提供しています。


総合評価:これは高品質なロボット学習論文であり、革新的な失敗回復戦略を提案し、理論的貢献と実用的応用価値の両面で優れた性能を示しています。方法設計は巧妙で、実験検証は充分であり、ロボット知能制御分野に重要な貢献をしています。