2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.

Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.

academic

CCDP: Композиция условных политик диффузии с направленной выборкой

Основная информация

ID статьи: 2503.15386
Название: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
Авторы: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
Классификация: cs.RO (Робототехника), cs.AI (Искусственный интеллект)
Дата публикации: 10 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2503.15386

Аннотация

Обучение на основе подражания предоставляет перспективный метод прямого обучения из данных без явной модели, симуляции или детального определения задачи. Во время вывода действия выбираются из изученного распределения и выполняются на роботе. Однако выбранные действия могут не удаться по различным причинам, и простое повторение этапов выборки до получения успешного действия может быть неэффективным. В данной статье предлагается улучшенная стратегия выборки, которая избегает предыдущих неудачных действий путём улучшения распределения выборки. Используя только данные успешных демонстраций, метод может вывести восстановительные действия без дополнительного исследовательского поведения или продвинутых контроллеров. Кроме того, используя концепцию разложения моделей диффузии, основная проблема, которая может потребовать длительной истории для управления сбоями, разлагается на несколько меньших, более управляемых подзадач, позволяя системе адаптироваться к переменному количеству сбоев. Метод создаёт низкоуровневый контроллер, который динамически корректирует своё пространство выборки для повышения эффективности при недостаточности предыдущих образцов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: Как эффективно осуществить восстановление, когда действия робота, выбранные из изученного распределения политики, не удаются?

Важность проблемы

Требования практического применения: В реальных окружениях роботы часто сталкиваются с частично ограниченными или неопределёнными ситуациями, такими как поиск выключателя на прикроватной тумбочке, неопределённое направление открывания двери и т.д.
Проблема эффективности: Традиционные методы просто повторяют выборку из одного и того же распределения, игнорируя информацию об известных областях отказа, что приводит к неэффективности
Ограничения практичности: Существующие методы восстановления после отказа обычно требуют дополнительных ресурсов (окружение симуляции, продвинутые модели рассуждений, экспертное руководство), которые могут быть недоступны в практических приложениях

Ограничения существующих методов

Двухуровневые методы планирования:
- Высокоуровневый планировщик выбирает примитивы действий, низкоуровневый контроллер их выполняет
- Существуют проблемы субоптимальных результатов и комбинаторного взрыва
- С увеличением количества опций принятие решений становится вычислительно дорогостоящим
Обучение робастной политике:
- Методы, подобные робастному обучению с подкреплением
- Могут обрабатывать только некоторые типы отказов (например, изменение параметров окружения)
- Для более широких типов отказов (например, поиск кнопки) единая робастная политика может не существовать
Политики, учитывающие историю:
- Требуют данные об отказах для обучения, что усложняет сбор данных
- Требуют долгосрочную память истории, что повышает вычислительную сложность

Основные вклады

Предложена структура разложения политик диффузии: Улучшена модульность и управляемость политик диффузии, проанализировано влияние каждого модуля
Разработана стратегия восстановления на основе отрицательного руководства: В отличие от традиционных методов, используются случаи отказа в качестве отрицательного руководства для направления политики в сторону от областей отказа
Реализовано восстановление после отказа без аннотирования данных: Используются только данные успешных демонстраций, восстановительные действия выводятся посредством автономного анализа
Проверена эффективность метода: Проведено комплексное сравнение с современными базовыми методами на нескольких задачах

Подробное описание метода

Определение задачи

Дан набор данных M успешных демонстраций $\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M$ , целью является обучение политике диффузии для моделирования условного распределения $p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t)$ , где:

$a_t \in \mathbb{R}^{d_u}$ : действие в момент времени t
$x_t \in \mathbb{R}^{d_s}$ : состояние
$h^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T$ : история H предыдущих действий и состояний

При отказе действия система должна быть обусловлена на наборе характеристик отказа: $a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})$

где $z^f_i = z(a^f_i, x^f_i)$ извлекает ключевые характеристики i-го отказа.

Архитектура модели

Разложение модели диффузии

Условное распределение разлагается в произведение нескольких простых подзадач:

$p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}$

Соответствующее разложение члена удаления шума: $\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))$

Функциональность каждого модуля

$\varepsilon_a(a_t, k)$ : Поощряет выборку действий, похожих на демонстрации
$\varepsilon_s(a_t, x_t, k)$ : Направляет действия для соответствия текущему состоянию
$\varepsilon_h(a_t, h^H_t, k)$ : Способствует временной непрерывности
$\varepsilon_z(a_t, z^f_i, k)$ : Отрицательное руководство, отклоняющее от областей отказа

Проектирование модели восстановления

Определение восстановительного действия

Определяется набор восстановительных действий: