2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.
Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.
academic

CCDP: Композиция условных политик диффузии с направленной выборкой

Основная информация

  • ID статьи: 2503.15386
  • Название: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
  • Авторы: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
  • Классификация: cs.RO (Робототехника), cs.AI (Искусственный интеллект)
  • Дата публикации: 10 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2503.15386

Аннотация

Обучение на основе подражания предоставляет перспективный метод прямого обучения из данных без явной модели, симуляции или детального определения задачи. Во время вывода действия выбираются из изученного распределения и выполняются на роботе. Однако выбранные действия могут не удаться по различным причинам, и простое повторение этапов выборки до получения успешного действия может быть неэффективным. В данной статье предлагается улучшенная стратегия выборки, которая избегает предыдущих неудачных действий путём улучшения распределения выборки. Используя только данные успешных демонстраций, метод может вывести восстановительные действия без дополнительного исследовательского поведения или продвинутых контроллеров. Кроме того, используя концепцию разложения моделей диффузии, основная проблема, которая может потребовать длительной истории для управления сбоями, разлагается на несколько меньших, более управляемых подзадач, позволяя системе адаптироваться к переменному количеству сбоев. Метод создаёт низкоуровневый контроллер, который динамически корректирует своё пространство выборки для повышения эффективности при недостаточности предыдущих образцов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: Как эффективно осуществить восстановление, когда действия робота, выбранные из изученного распределения политики, не удаются?

Важность проблемы

  1. Требования практического применения: В реальных окружениях роботы часто сталкиваются с частично ограниченными или неопределёнными ситуациями, такими как поиск выключателя на прикроватной тумбочке, неопределённое направление открывания двери и т.д.
  2. Проблема эффективности: Традиционные методы просто повторяют выборку из одного и того же распределения, игнорируя информацию об известных областях отказа, что приводит к неэффективности
  3. Ограничения практичности: Существующие методы восстановления после отказа обычно требуют дополнительных ресурсов (окружение симуляции, продвинутые модели рассуждений, экспертное руководство), которые могут быть недоступны в практических приложениях

Ограничения существующих методов

  1. Двухуровневые методы планирования:
    • Высокоуровневый планировщик выбирает примитивы действий, низкоуровневый контроллер их выполняет
    • Существуют проблемы субоптимальных результатов и комбинаторного взрыва
    • С увеличением количества опций принятие решений становится вычислительно дорогостоящим
  2. Обучение робастной политике:
    • Методы, подобные робастному обучению с подкреплением
    • Могут обрабатывать только некоторые типы отказов (например, изменение параметров окружения)
    • Для более широких типов отказов (например, поиск кнопки) единая робастная политика может не существовать
  3. Политики, учитывающие историю:
    • Требуют данные об отказах для обучения, что усложняет сбор данных
    • Требуют долгосрочную память истории, что повышает вычислительную сложность

Основные вклады

  1. Предложена структура разложения политик диффузии: Улучшена модульность и управляемость политик диффузии, проанализировано влияние каждого модуля
  2. Разработана стратегия восстановления на основе отрицательного руководства: В отличие от традиционных методов, используются случаи отказа в качестве отрицательного руководства для направления политики в сторону от областей отказа
  3. Реализовано восстановление после отказа без аннотирования данных: Используются только данные успешных демонстраций, восстановительные действия выводятся посредством автономного анализа
  4. Проверена эффективность метода: Проведено комплексное сравнение с современными базовыми методами на нескольких задачах

Подробное описание метода

Определение задачи

Дан набор данных M успешных демонстраций D={(at,xt,htH)i}i=1M\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M, целью является обучение политике диффузии для моделирования условного распределения pπD(atxt,htH)p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t), где:

  • atRdua_t \in \mathbb{R}^{d_u}: действие в момент времени t
  • xtRdsx_t \in \mathbb{R}^{d_s}: состояние
  • htH=[atH:t1T,xtH:t1T]Th^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T: история H предыдущих действий и состояний

При отказе действия система должна быть обусловлена на наборе характеристик отказа: atpπ(atxt,htH,z1:Nf)a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})

где zif=z(aif,xif)z^f_i = z(a^f_i, x^f_i) извлекает ключевые характеристики i-го отказа.

Архитектура модели

Разложение модели диффузии

Условное распределение разлагается в произведение нескольких простых подзадач:

pπ(atxt,htH,z1:Nf)ps(atxt)pa(at)ph(athtH)pa(at)i=1Npz(atzif)pa(at)p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}

Соответствующее разложение члена удаления шума: ε^(atk,k)=εa(at,k)+ws(εs(at,xt,k)εa(at,k))+wh(εh(at,htH,k)εa(at,k))+i=1Nwzi(εz(at,zif,k)εa(at,k))\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))

Функциональность каждого модуля

  1. εa(at,k)\varepsilon_a(a_t, k): Поощряет выборку действий, похожих на демонстрации
  2. εs(at,xt,k)\varepsilon_s(a_t, x_t, k): Направляет действия для соответствия текущему состоянию
  3. εh(at,htH,k)\varepsilon_h(a_t, h^H_t, k): Способствует временной непрерывности
  4. εz(at,zif,k)\varepsilon_z(a_t, z^f_i, k): Отрицательное руководство, отклоняющее от областей отказа

Проектирование модели восстановления

Определение восстановительного действия

Определяется набор восстановительных действий:

\|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}$$ где $\delta_z$ определяет достаточное различие в пространстве характеристик отказа, $\delta_x$ определяет сходство в пространстве состояний. #### Стратегия синтеза данных Для решения проблемы разреженности данных восстановления выполняется синтез данных: $$\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}$$ Соответствующий оценитель шума: $$\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))$$ #### Ключевые характеристики отказа Предложены три практических метода извлечения характеристик отказа: 1. **Прямое использование действия отказа**: $z(a^f, x^f) = a^f$ 2. **Использование конечного состояния**: $z(a^f, x^f) = x^f_T$ 3. **Примитивы действий**: $z(a^f, x^f) = m$ (дискретная метка) ## Экспериментальная установка ### Экспериментальные задачи Статья разработала 5 различных типов задач для проверки эффективности метода: 1. **Открывание двери (DO)**: Задача открывания двери с неизвестным направлением (вверх, скольжение, тягание) 2. **Нажатие кнопки (BP)**: Нажатие кнопки в неизвестном месте в предопределённой области 3. **Манипуляция объектом (OM)**: Выбор стратегии манипуляции на основе веса объекта (одной рукой, двумя руками, толкание) 4. **Упаковка объекта (OP)**: Размещение объекта в указанную корзину, выбор ближайшей доступной корзины при заполнении 5. **Бармен (BT)**: Заполнение нескольких чашек, приоритет ближайшей чашке ### Метрики оценки 1. **Коэффициент успеха задачи**: Процент завершённых задач 2. **Коэффициент достижения неявной цели**: Процент соответствия неявным предпочтениям в данных демонстрации ### Методы сравнения 1. **DP (Diffusion Policy)**: Базовая политика диффузии 2. **DP***: Улучшенная политика диффузии, использующая отклоняющую выборку и разделение областей ### Конфигурация экспериментов - Длина истории H: 0-2 - Длина предсказания L: 1-8 - Количество применяемых шагов p: 1-8 - Размер пакета: 32-1024 - Количество эпох обучения: 100 - Количество шагов удаления шума: 100 ## Результаты экспериментов ### Основные результаты | Задача | CCDP | DP | DP* | |--------|------|----|----| | Открывание двери | 99% | 76% | 100% | | Нажатие кнопки | 96% | 73% | 86% | | Манипуляция объектом | 70% | 40% | 72% | | Упаковка объекта | 94% | 10% | 100% | | Бармен | 100% | 27% | 100% | ### Коэффициент достижения неявной цели | Задача | CCDP | DP | DP* | |--------|------|----|----| | Манипуляция объектом | 66% | 88% | 38% | | Упаковка объекта | 73% | 62% | 48% | | Бармен | 97% | 100% | 12% | ### Ключевые выводы 1. **CCDP значительно превосходит DP по коэффициенту успеха задачи**, приближаясь или превосходя DP* в большинстве задач 2. **CCDP лучше сохраняет неявные цели данных демонстрации**, тогда как DP* показывает худшие результаты в этом отношении 3. **Стратегия отрицательного руководства более гибкая, чем положительные ограничения**, позволяя системе использовать более широкий контекст информации ### Анализ сравнения методов - **CCDP vs DP**: CCDP значительно повышает коэффициент успеха, учитывая информацию об истории отказов - **CCDP vs DP***: - DP* требует предварительной классификации, CCDP не требует аннотирования - DP* использует положительное принуждение (ограничение области выборки), CCDP использует отрицательное руководство (избегание областей отказа) - Стратегия отрицательного руководства CCDP обеспечивает большую гибкость ## Связанные работы ### Обучение на основе подражания - **Традиционные методы**: ProMP, TP-GMM и другие вероятностные примитивы движения - **Современные методы**: Implicit Behavior Cloning, политики диффузии, политики потока соответствия - **Ограничения**: Не гарантируют успех при однократной выборке, повторная выборка неэффективна ### Направленное рассуждение политики - **Методы параметрической обусловленности**: Обновление параметров политики на основе характеристик системы - **Иерархические методы**: Использование высокоуровневых переменных решения для управления низкоуровневой политикой - **Отклоняющая выборка**: Отбрасывание неудачных образцов, генерирование новых образцов ### Композиция нескольких моделей - **Произведение экспертов (PoE)**: Разложение сложных проблем на простые подзадачи - **Энергетические модели**: Применение в высокомерных сложных распределениях - **Композиция моделей с ограничениями**: Успешное применение в планировании задач и движений ## Заключение и обсуждение ### Основные выводы 1. **Эффективность стратегии разложения**: Разложение сложной проблемы восстановления после отказа на несколько управляемых подзадач 2. **Отрицательное руководство превосходит положительные ограничения**: Обеспечивает большую гибкость исследования 3. **Не требует дополнительных данных**: Восстановление после отказа возможно, используя только успешные демонстрации 4. **Модульное проектирование**: Поддерживает переменное количество случаев отказа ### Ограничения 1. **Ручное проектирование характеристик отказа**: В настоящее время требуется ручное определение ключевых характеристик отказа, отсутствует механизм автоматического извлечения 2. **Проблема регулировки весов**: Оптимальная стратегия регулировки весов композиции ещё недостаточно изучена 3. **Предположение о статичности отказа**: Предполагается, что причины отказа остаются статичными во времени 4. **Нестабильность операции NOT**: Попытанные методы операции NOT показывают проблемы со стабильностью ### Направления будущих исследований 1. **Автоматическое извлечение характеристик**: Разработка методов автоматического извлечения характеристик отказа на основе латентного пространства 2. **Оптимизация весов**: Исследование стратегий адаптивной регулировки весов композиции 3. **Механизмы автономного исследования**: Интеграция механизмов автономного исследования для извлечения более эффективных данных восстановления 4. **Обработка динамических отказов**: Расширение на сценарии с изменяющимися во времени причинами отказа ## Глубокая оценка ### Преимущества 1. **Высокая инновационность**: Впервые предложен метод композиции политик диффузии на основе отрицательного руководства 2. **Высокая практическая ценность**: Не требует дополнительного аннотирования или окружения симуляции, использует только данные успешных демонстраций 3. **Прочная теоретическая база**: Основана на твёрдой математической базе теории вероятностей и моделей диффузии 4. **Комплексные эксперименты**: Проверена эффективность метода на различных типах задач 5. **Модульное проектирование**: Стратегия разложения повышает интерпретируемость и управляемость метода ### Недостатки 1. **Зависимость от обнаружения отказа**: Требует внешней системы обнаружения отказа, что усложняет систему 2. **Инженерия характеристик**: Ключевые характеристики отказа требуют ручного проектирования, что ограничивает универсальность метода 3. **Статичное предположение**: Предположение о статичности причин отказа может не выполняться в некоторых динамических окружениях 4. **Вычислительные затраты**: Композиция нескольких моделей может увеличить вычислительные затраты при выводе 5. **Чувствительность к гиперпараметрам**: Выбор весовых параметров существенно влияет на производительность ### Влияние 1. **Академический вклад**: Предоставляет новую теоретическую структуру и практический метод для восстановления после отказа робота 2. **Практическое применение**: Имеет широкие перспективы применения в сервисной робототехнике, промышленной автоматизации и других областях 3. **Методологическое вдохновение**: Идея отрицательного руководства может быть обобщена на другие генеративные модели и задачи управления 4. **Воспроизводимость**: Предоставлены подробные детали реализации и настройки гиперпараметров ### Применимые сценарии 1. **Окружения с частичными ограничениями**: Применимо к задачам робота в окружениях с частично неизвестными параметрами 2. **Интерактивные задачи**: Задачи, требующие корректировки политики на основе обратной связи 3. **Многомодальные задачи**: Задачи с множеством допустимых решений 4. **Приложения, критичные по безопасности**: Сценарии, требующие избежания повторных отказов ## Библиография Статья цитирует 35 связанных работ, охватывающих важные исследования в области обучения на основе подражания, моделей диффузии, управления роботом и других областей, обеспечивая прочную теоретическую базу и техническую поддержку для данного исследования. --- **Общая оценка**: Это высококачественная статья по робототехнике, предлагающая инновационную стратегию восстановления после отказа, демонстрирующая отличные результаты как в теоретическом вкладе, так и в практической ценности применения. Метод хорошо спроектирован, эксперименты полны, что делает значительный вклад в область интеллектуального управления роботом.