2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.

Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.

academic

CCDP : Composition de Politiques de Diffusion Conditionnelle avec Échantillonnage Guidé

Informations Fondamentales

ID de l'article : 2503.15386
Titre : CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
Auteurs : Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
Classification : cs.RO (Robotique), cs.AI (Intelligence Artificielle)
Date de publication : 10 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2503.15386

Résumé

L'apprentissage par imitation offre une approche prometteuse pour apprendre directement à partir de données, sans nécessiter de modèle explicite, de simulation ou de définition détaillée de tâche. Lors de l'inférence, les actions sont échantillonnées à partir de la distribution apprise et exécutées sur le robot. Cependant, les actions échantillonnées peuvent échouer pour diverses raisons, et la simple répétition des étapes d'échantillonnage jusqu'à l'obtention d'une action réussie peut être inefficace. Cet article propose une stratégie d'échantillonnage améliorée qui évite les actions précédemment infructueuses en améliorant la distribution d'échantillonnage. En exploitant uniquement les données de démonstrations réussies, la méthode peut déduire des actions de récupération sans nécessiter d'exploration supplémentaire ou de contrôleur avancé. De plus, en utilisant le concept de décomposition de modèles de diffusion, le problème principal qui pourrait nécessiter un historique à long terme pour gérer les échecs est décomposé en plusieurs sous-problèmes plus petits et plus gérables, permettant au système de s'adapter à des nombres d'échecs variables. La méthode produit un contrôleur de bas niveau qui ajuste dynamiquement son espace d'échantillonnage pour améliorer l'efficacité lorsque les échantillons précédents sont insuffisants.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : Comment effectuer efficacement une récupération lorsque les actions échantillonnées par le robot à partir de la distribution de politique apprise échouent ?

Importance du Problème

Besoins d'application pratique : Dans les environnements réels, les robots rencontrent fréquemment des situations partiellement contraintes ou incertaines, comme chercher l'interrupteur d'une lampe de chevet ou pousser une porte dont la direction est incertaine
Problèmes d'efficacité : Les méthodes traditionnelles répètent simplement l'échantillonnage à partir de la même distribution, ignorant les informations sur les régions d'échec connues, ce qui entraîne une inefficacité
Limitations pratiques : Les méthodes existantes de récupération d'échec nécessitent généralement des ressources supplémentaires (environnement de simulation, modèles de raisonnement avancés, guidance d'experts), qui peuvent ne pas être disponibles dans les applications pratiques

Limitations des Méthodes Existantes

Approches de planification à deux niveaux :
- Le planificateur de haut niveau sélectionne les primitives d'action, le contrôleur de bas niveau les exécute
- Existence de résultats sous-optimaux et problèmes d'explosion combinatoire
- La prise de décision devient coûteuse en calcul à mesure que le nombre d'options augmente
Apprentissage de politiques robustes :
- Méthodes similaires à l'apprentissage par renforcement robuste
- Capable de traiter seulement certains types d'échecs (par exemple, changements de paramètres environnementaux)
- Pour des types d'échecs plus larges (par exemple, recherche de bouton), une politique robuste unique peut ne pas exister
Politiques conscientes de l'historique :
- Nécessite des données d'échec pour l'entraînement, augmentant la complexité de la collecte de données
- Nécessite une mémoire historique à long terme, complexité de calcul élevée

Contributions Principales

Proposition d'un cadre de politique de diffusion décomposée : Améliore la modularité et la contrôlabilité des politiques de diffusion, et analyse l'impact de chaque module
Conception d'une stratégie de récupération basée sur la guidance négative : Contrairement aux méthodes traditionnelles, utilise les cas d'échec comme guidance négative pour guider la politique loin des régions d'échec
Implémentation de récupération d'échec sans annotation de données : Utilise uniquement les données de démonstration réussie, identifiant les actions de récupération par analyse hors ligne
Vérification de l'efficacité de la méthode : Comparaison complète avec les dernières méthodes de référence sur plusieurs tâches

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble de données $\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M$ de M démonstrations réussies, l'objectif est d'apprendre une politique de diffusion pour modéliser la distribution conditionnelle $p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t)$ , où :

$a_t \in \mathbb{R}^{d_u}$ : action au moment t
$x_t \in \mathbb{R}^{d_s}$ : état
$h^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T$ : historique des H actions et états précédents

Lorsqu'une action échoue, le système doit être conditionné à l'ensemble des caractéristiques d'échec : $a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})$

où $z^f_i = z(a^f_i, x^f_i)$ extrait les caractéristiques clés du i-ème échec.

Architecture du Modèle

Décomposition du Modèle de Diffusion

La distribution conditionnelle est décomposée en un produit de sous-problèmes plus simples :

$p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}$

Le terme de débruitage correspondant se décompose en : $\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))$

Fonctionnalités de Chaque Module

$\varepsilon_a(a_t, k)$ : Encourage l'échantillonnage d'actions similaires aux démonstrations
$\varepsilon_s(a_t, x_t, k)$ : Guide les actions pour correspondre à l'état actuel
$\varepsilon_h(a_t, h^H_t, k)$ : Promeut la continuité temporelle
$\varepsilon_z(a_t, z^f_i, k)$ : Guidance négative, éloignant des régions d'échec

Conception du Modèle de Récupération

Définition des Actions de Récupération

L'ensemble des actions de récupération est défini comme : $a \in \mathcal{R}(z^f) \text{ si } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}$

où $\delta_z$ définit une différence suffisante dans l'espace des caractéristiques d'échec, et $\delta_x$ définit la similarité dans l'espace d'état.

Stratégie de Synthèse de Données

Pour résoudre le problème de rareté des données de récupération, une synthèse de données est effectuée : $\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}$

L'estimateur de bruit correspondant : $\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))$

Caractéristiques Clés d'Échec

Trois méthodes pratiques d'extraction de caractéristiques d'échec sont proposées :

Utilisation directe de l'action d'échec : $z(a^f, x^f) = a^f$
Utilisation de l'état final : $z(a^f, x^f) = x^f_T$
Primitives d'action : $z(a^f, x^f) = m$ (étiquette discrète)

Configuration Expérimentale

Tâches Expérimentales

L'article conçoit 5 tâches de différents types pour vérifier l'efficacité de la méthode :

Door Opening (DO) : Tâche d'ouverture de porte, direction inconnue (vers le haut, glissement, tirage)
Button Pressing (BP) : Appui sur un bouton à une position inconnue dans une zone prédéfinie
Object Manipulation (OM) : Sélection de stratégie de manipulation selon le poids de l'objet (une main, deux mains, poussée)
Object Packing (OP) : Placement d'objets dans un panier spécifié, sélection du panier le plus proche disponible une fois rempli
Bartender (BT) : Remplissage de plusieurs tasses, sélection prioritaire de la tasse la plus proche

Métriques d'Évaluation

Taux de succès de la tâche : Pourcentage de tâches complétées
Taux de réalisation d'objectif implicite : Pourcentage conforme aux préférences implicites dans les données de démonstration

Méthodes de Comparaison

DP (Diffusion Policy) : Ligne de base de politique de diffusion standard
DP* : Politique de diffusion améliorée, utilisant l'échantillonnage par rejet et la segmentation de région

Configuration Expérimentale

Longueur d'historique H : 0-2
Longueur de prédiction L : 1-8
Nombre d'étapes d'application p : 1-8
Taille de lot : 32-1024
Nombre d'itérations d'entraînement : 100
Nombre d'étapes de débruitage : 100

Résultats Expérimentaux

Résultats Principaux

Tâche	CCDP	DP	DP*
Door Opening	99%	76%	100%
Button Pressing	96%	73%	86%
Object Manipulation	70%	40%	72%
Object Packing	94%	10%	100%
Bartender	100%	27%	100%

Taux de Réalisation d'Objectif Implicite

Tâche	CCDP	DP	DP*
Object Manipulation	66%	88%	38%
Object Packing	73%	62%	48%
Bartender	97%	100%	12%

Découvertes Clés

CCDP surpasse significativement DP en taux de succès de tâche, se rapprochant ou dépassant DP* sur la plupart des tâches
CCDP préserve mieux les objectifs implicites des données de démonstration, tandis que DP* montre des performances plus faibles dans ce domaine
La stratégie de guidance négative est plus flexible que les contraintes positives, permettant au système d'exploiter un contexte plus large

Analyse Comparative des Méthodes

CCDP vs DP : CCDP améliore significativement le taux de succès en considérant les informations d'échec historiques
CCDP vs DP* :
- DP* nécessite une classification préalable, CCDP ne nécessite pas d'annotation
- DP* utilise un forçage positif (limitation de la région d'échantillonnage), CCDP utilise une guidance négative (évitement des régions d'échec)
- La stratégie de guidance négative de CCDP offre une plus grande flexibilité

Travaux Connexes

Apprentissage par Imitation

Méthodes traditionnelles : ProMP, TP-GMM et autres primitives de mouvement probabilistes
Méthodes modernes : Implicit Behavior Cloning, politiques de diffusion, stratégies de correspondance de flux
Limitations : Ne garantissent pas le succès d'un seul échantillonnage, l'échantillonnage répété est inefficace

Inférence de Politique Guidée

Méthodes de conditionnement paramétrique : Mise à jour des paramètres de politique basée sur les caractéristiques du système
Méthodes hiérarchiques : Utilisation de variables de décision de haut niveau pour contrôler les politiques de bas niveau
Échantillonnage par rejet : Rejet des échantillons échoués, génération de nouveaux échantillons

Composition de Modèles Multiples

Produit d'experts (PoE) : Décomposition de problèmes complexes en sous-problèmes simples
Modèles énergétiques : Applications dans les distributions complexes de haute dimension
Composition de modèles de contrainte : Applications réussies en planification de tâches et de mouvement

Conclusion et Discussion

Conclusions Principales

Efficacité de la stratégie de décomposition : Décomposition du problème complexe de récupération d'échec en plusieurs sous-problèmes gérables
Supériorité de la guidance négative sur les contraintes positives : Offre une plus grande flexibilité d'exploration
Pas de besoin de données supplémentaires : Récupération d'échec réalisable en utilisant uniquement les démonstrations réussies
Conception modulaire : Support pour un nombre variable de cas d'échec

Limitations

Caractéristiques d'échec conçues manuellement : Nécessite actuellement une définition manuelle des caractéristiques clés d'échec, manque de mécanisme d'extraction automatique
Problème d'ajustement des poids : La stratégie optimale d'ajustement des poids de composition n'a pas été suffisamment étudiée
Hypothèse d'échec statique : Suppose que les causes d'échec restent statiques dans le temps
Instabilité de l'opération NOT : Les méthodes d'opération NOT tentées présentent des problèmes de stabilité

Directions Futures

Extraction automatique de caractéristiques : Développement de méthodes d'extraction automatique de caractéristiques d'échec basées sur l'espace latent
Optimisation des poids : Étude de stratégies d'ajustement adaptatif des poids de composition
Mécanismes d'exploration hors ligne : Intégration de mécanismes d'exploration hors ligne pour extraire des données de récupération plus efficaces
Traitement d'échecs dynamiques : Extension pour traiter les scénarios avec causes d'échec variant dans le temps

Évaluation Approfondie

Avantages

Innovation forte : Première proposition d'une méthode de composition de politique de diffusion basée sur la guidance négative
Valeur pratique élevée : Pas besoin d'annotation supplémentaire ou d'environnement de simulation, utilisant uniquement les données de démonstration réussie
Fondations théoriques solides : Basée sur des fondations mathématiques solides de la théorie des probabilités et des modèles de diffusion
Expériences complètes : Vérification de l'efficacité de la méthode sur plusieurs tâches de différents types
Conception modulaire : La stratégie de décomposition améliore l'interprétabilité et la contrôlabilité de la méthode

Insuffisances

Dépendance à la détection d'échec : Nécessite un système externe de détection d'échec, augmentant la complexité du système
Ingénierie de caractéristiques : Les caractéristiques clés d'échec nécessitent une conception manuelle, limitant la généralité de la méthode
Hypothèse statique : L'hypothèse que les causes d'échec sont statiques peut ne pas tenir dans certains environnements dynamiques
Surcharge de calcul : La composition de modèles multiples peut augmenter la complexité de calcul lors de l'inférence
Sensibilité aux hyperparamètres : Le choix des paramètres de poids a un impact significatif sur les performances

Impact

Contribution académique : Fournit un nouveau cadre théorique et une méthode pratique pour la récupération d'échec en robotique
Applications pratiques : Perspectives d'application larges dans les robots de service, l'automatisation industrielle et autres domaines
Inspiration méthodologique : L'idée de guidance négative peut être généralisée à d'autres modèles génératifs et problèmes de contrôle
Reproductibilité : Fournit des détails d'implémentation détaillés et des paramètres de configuration

Scénarios d'Application

Environnements partiellement contraints : Applicable aux tâches robotiques où les paramètres environnementaux sont partiellement inconnus
Tâches interactives : Tâches nécessitant l'ajustement de la politique en fonction des retours
Tâches multimodales : Tâches avec plusieurs solutions valides
Applications critiques pour la sécurité : Scénarios sensibles à la sécurité nécessitant d'éviter les échecs répétés

Références

L'article cite 35 références connexes, couvrant plusieurs domaines importants tels que l'apprentissage par imitation, les modèles de diffusion et le contrôle robotique, fournissant une base théorique solide et un support technique pour cette recherche.

Évaluation Globale : Cet article est un travail de haute qualité en robotique qui propose une stratégie innovante de récupération d'échec. Il se distingue par ses contributions théoriques et sa valeur d'application pratique. La conception de la méthode est ingénieuse, la vérification expérimentale est complète, et il apporte une contribution importante au domaine du contrôle intelligent des robots.