2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.
Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.
academic

CCDP : Composition de Politiques de Diffusion Conditionnelle avec Échantillonnage Guidé

Informations Fondamentales

  • ID de l'article : 2503.15386
  • Titre : CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
  • Auteurs : Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
  • Classification : cs.RO (Robotique), cs.AI (Intelligence Artificielle)
  • Date de publication : 10 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2503.15386

Résumé

L'apprentissage par imitation offre une approche prometteuse pour apprendre directement à partir de données, sans nécessiter de modèle explicite, de simulation ou de définition détaillée de tâche. Lors de l'inférence, les actions sont échantillonnées à partir de la distribution apprise et exécutées sur le robot. Cependant, les actions échantillonnées peuvent échouer pour diverses raisons, et la simple répétition des étapes d'échantillonnage jusqu'à l'obtention d'une action réussie peut être inefficace. Cet article propose une stratégie d'échantillonnage améliorée qui évite les actions précédemment infructueuses en améliorant la distribution d'échantillonnage. En exploitant uniquement les données de démonstrations réussies, la méthode peut déduire des actions de récupération sans nécessiter d'exploration supplémentaire ou de contrôleur avancé. De plus, en utilisant le concept de décomposition de modèles de diffusion, le problème principal qui pourrait nécessiter un historique à long terme pour gérer les échecs est décomposé en plusieurs sous-problèmes plus petits et plus gérables, permettant au système de s'adapter à des nombres d'échecs variables. La méthode produit un contrôleur de bas niveau qui ajuste dynamiquement son espace d'échantillonnage pour améliorer l'efficacité lorsque les échantillons précédents sont insuffisants.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : Comment effectuer efficacement une récupération lorsque les actions échantillonnées par le robot à partir de la distribution de politique apprise échouent ?

Importance du Problème

  1. Besoins d'application pratique : Dans les environnements réels, les robots rencontrent fréquemment des situations partiellement contraintes ou incertaines, comme chercher l'interrupteur d'une lampe de chevet ou pousser une porte dont la direction est incertaine
  2. Problèmes d'efficacité : Les méthodes traditionnelles répètent simplement l'échantillonnage à partir de la même distribution, ignorant les informations sur les régions d'échec connues, ce qui entraîne une inefficacité
  3. Limitations pratiques : Les méthodes existantes de récupération d'échec nécessitent généralement des ressources supplémentaires (environnement de simulation, modèles de raisonnement avancés, guidance d'experts), qui peuvent ne pas être disponibles dans les applications pratiques

Limitations des Méthodes Existantes

  1. Approches de planification à deux niveaux :
    • Le planificateur de haut niveau sélectionne les primitives d'action, le contrôleur de bas niveau les exécute
    • Existence de résultats sous-optimaux et problèmes d'explosion combinatoire
    • La prise de décision devient coûteuse en calcul à mesure que le nombre d'options augmente
  2. Apprentissage de politiques robustes :
    • Méthodes similaires à l'apprentissage par renforcement robuste
    • Capable de traiter seulement certains types d'échecs (par exemple, changements de paramètres environnementaux)
    • Pour des types d'échecs plus larges (par exemple, recherche de bouton), une politique robuste unique peut ne pas exister
  3. Politiques conscientes de l'historique :
    • Nécessite des données d'échec pour l'entraînement, augmentant la complexité de la collecte de données
    • Nécessite une mémoire historique à long terme, complexité de calcul élevée

Contributions Principales

  1. Proposition d'un cadre de politique de diffusion décomposée : Améliore la modularité et la contrôlabilité des politiques de diffusion, et analyse l'impact de chaque module
  2. Conception d'une stratégie de récupération basée sur la guidance négative : Contrairement aux méthodes traditionnelles, utilise les cas d'échec comme guidance négative pour guider la politique loin des régions d'échec
  3. Implémentation de récupération d'échec sans annotation de données : Utilise uniquement les données de démonstration réussie, identifiant les actions de récupération par analyse hors ligne
  4. Vérification de l'efficacité de la méthode : Comparaison complète avec les dernières méthodes de référence sur plusieurs tâches

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble de données D={(at,xt,htH)i}i=1M\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M de M démonstrations réussies, l'objectif est d'apprendre une politique de diffusion pour modéliser la distribution conditionnelle pπD(atxt,htH)p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t), où :

  • atRdua_t \in \mathbb{R}^{d_u} : action au moment t
  • xtRdsx_t \in \mathbb{R}^{d_s} : état
  • htH=[atH:t1T,xtH:t1T]Th^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T : historique des H actions et états précédents

Lorsqu'une action échoue, le système doit être conditionné à l'ensemble des caractéristiques d'échec : atpπ(atxt,htH,z1:Nf)a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})

zif=z(aif,xif)z^f_i = z(a^f_i, x^f_i) extrait les caractéristiques clés du i-ème échec.

Architecture du Modèle

Décomposition du Modèle de Diffusion

La distribution conditionnelle est décomposée en un produit de sous-problèmes plus simples :

pπ(atxt,htH,z1:Nf)ps(atxt)pa(at)ph(athtH)pa(at)i=1Npz(atzif)pa(at)p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}

Le terme de débruitage correspondant se décompose en : ε^(atk,k)=εa(at,k)+ws(εs(at,xt,k)εa(at,k))+wh(εh(at,htH,k)εa(at,k))+i=1Nwzi(εz(at,zif,k)εa(at,k))\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))

Fonctionnalités de Chaque Module

  1. εa(at,k)\varepsilon_a(a_t, k) : Encourage l'échantillonnage d'actions similaires aux démonstrations
  2. εs(at,xt,k)\varepsilon_s(a_t, x_t, k) : Guide les actions pour correspondre à l'état actuel
  3. εh(at,htH,k)\varepsilon_h(a_t, h^H_t, k) : Promeut la continuité temporelle
  4. εz(at,zif,k)\varepsilon_z(a_t, z^f_i, k) : Guidance négative, éloignant des régions d'échec

Conception du Modèle de Récupération

Définition des Actions de Récupération

L'ensemble des actions de récupération est défini comme : aR(zf) si {z(a,x)z(af,xf)2>δzxxf2<δxa \in \mathcal{R}(z^f) \text{ si } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}

δz\delta_z définit une différence suffisante dans l'espace des caractéristiques d'échec, et δx\delta_x définit la similarité dans l'espace d'état.

Stratégie de Synthèse de Données

Pour résoudre le problème de rareté des données de récupération, une synthèse de données est effectuée : Ds(xs)={(a,xs)apˉD(ax),xxs+ξx,ξxN(0,σ2I)}\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}

L'estimateur de bruit correspondant : εˉ(a,x,k)=εa(a,k)+ws(εs(a,x,k)εa(a,k))\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))

Caractéristiques Clés d'Échec

Trois méthodes pratiques d'extraction de caractéristiques d'échec sont proposées :

  1. Utilisation directe de l'action d'échec : z(af,xf)=afz(a^f, x^f) = a^f
  2. Utilisation de l'état final : z(af,xf)=xTfz(a^f, x^f) = x^f_T
  3. Primitives d'action : z(af,xf)=mz(a^f, x^f) = m (étiquette discrète)

Configuration Expérimentale

Tâches Expérimentales

L'article conçoit 5 tâches de différents types pour vérifier l'efficacité de la méthode :

  1. Door Opening (DO) : Tâche d'ouverture de porte, direction inconnue (vers le haut, glissement, tirage)
  2. Button Pressing (BP) : Appui sur un bouton à une position inconnue dans une zone prédéfinie
  3. Object Manipulation (OM) : Sélection de stratégie de manipulation selon le poids de l'objet (une main, deux mains, poussée)
  4. Object Packing (OP) : Placement d'objets dans un panier spécifié, sélection du panier le plus proche disponible une fois rempli
  5. Bartender (BT) : Remplissage de plusieurs tasses, sélection prioritaire de la tasse la plus proche

Métriques d'Évaluation

  1. Taux de succès de la tâche : Pourcentage de tâches complétées
  2. Taux de réalisation d'objectif implicite : Pourcentage conforme aux préférences implicites dans les données de démonstration

Méthodes de Comparaison

  1. DP (Diffusion Policy) : Ligne de base de politique de diffusion standard
  2. DP* : Politique de diffusion améliorée, utilisant l'échantillonnage par rejet et la segmentation de région

Configuration Expérimentale

  • Longueur d'historique H : 0-2
  • Longueur de prédiction L : 1-8
  • Nombre d'étapes d'application p : 1-8
  • Taille de lot : 32-1024
  • Nombre d'itérations d'entraînement : 100
  • Nombre d'étapes de débruitage : 100

Résultats Expérimentaux

Résultats Principaux

TâcheCCDPDPDP*
Door Opening99%76%100%
Button Pressing96%73%86%
Object Manipulation70%40%72%
Object Packing94%10%100%
Bartender100%27%100%

Taux de Réalisation d'Objectif Implicite

TâcheCCDPDPDP*
Object Manipulation66%88%38%
Object Packing73%62%48%
Bartender97%100%12%

Découvertes Clés

  1. CCDP surpasse significativement DP en taux de succès de tâche, se rapprochant ou dépassant DP* sur la plupart des tâches
  2. CCDP préserve mieux les objectifs implicites des données de démonstration, tandis que DP* montre des performances plus faibles dans ce domaine
  3. La stratégie de guidance négative est plus flexible que les contraintes positives, permettant au système d'exploiter un contexte plus large

Analyse Comparative des Méthodes

  • CCDP vs DP : CCDP améliore significativement le taux de succès en considérant les informations d'échec historiques
  • CCDP vs DP* :
    • DP* nécessite une classification préalable, CCDP ne nécessite pas d'annotation
    • DP* utilise un forçage positif (limitation de la région d'échantillonnage), CCDP utilise une guidance négative (évitement des régions d'échec)
    • La stratégie de guidance négative de CCDP offre une plus grande flexibilité

Travaux Connexes

Apprentissage par Imitation

  • Méthodes traditionnelles : ProMP, TP-GMM et autres primitives de mouvement probabilistes
  • Méthodes modernes : Implicit Behavior Cloning, politiques de diffusion, stratégies de correspondance de flux
  • Limitations : Ne garantissent pas le succès d'un seul échantillonnage, l'échantillonnage répété est inefficace

Inférence de Politique Guidée

  • Méthodes de conditionnement paramétrique : Mise à jour des paramètres de politique basée sur les caractéristiques du système
  • Méthodes hiérarchiques : Utilisation de variables de décision de haut niveau pour contrôler les politiques de bas niveau
  • Échantillonnage par rejet : Rejet des échantillons échoués, génération de nouveaux échantillons

Composition de Modèles Multiples

  • Produit d'experts (PoE) : Décomposition de problèmes complexes en sous-problèmes simples
  • Modèles énergétiques : Applications dans les distributions complexes de haute dimension
  • Composition de modèles de contrainte : Applications réussies en planification de tâches et de mouvement

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la stratégie de décomposition : Décomposition du problème complexe de récupération d'échec en plusieurs sous-problèmes gérables
  2. Supériorité de la guidance négative sur les contraintes positives : Offre une plus grande flexibilité d'exploration
  3. Pas de besoin de données supplémentaires : Récupération d'échec réalisable en utilisant uniquement les démonstrations réussies
  4. Conception modulaire : Support pour un nombre variable de cas d'échec

Limitations

  1. Caractéristiques d'échec conçues manuellement : Nécessite actuellement une définition manuelle des caractéristiques clés d'échec, manque de mécanisme d'extraction automatique
  2. Problème d'ajustement des poids : La stratégie optimale d'ajustement des poids de composition n'a pas été suffisamment étudiée
  3. Hypothèse d'échec statique : Suppose que les causes d'échec restent statiques dans le temps
  4. Instabilité de l'opération NOT : Les méthodes d'opération NOT tentées présentent des problèmes de stabilité

Directions Futures

  1. Extraction automatique de caractéristiques : Développement de méthodes d'extraction automatique de caractéristiques d'échec basées sur l'espace latent
  2. Optimisation des poids : Étude de stratégies d'ajustement adaptatif des poids de composition
  3. Mécanismes d'exploration hors ligne : Intégration de mécanismes d'exploration hors ligne pour extraire des données de récupération plus efficaces
  4. Traitement d'échecs dynamiques : Extension pour traiter les scénarios avec causes d'échec variant dans le temps

Évaluation Approfondie

Avantages

  1. Innovation forte : Première proposition d'une méthode de composition de politique de diffusion basée sur la guidance négative
  2. Valeur pratique élevée : Pas besoin d'annotation supplémentaire ou d'environnement de simulation, utilisant uniquement les données de démonstration réussie
  3. Fondations théoriques solides : Basée sur des fondations mathématiques solides de la théorie des probabilités et des modèles de diffusion
  4. Expériences complètes : Vérification de l'efficacité de la méthode sur plusieurs tâches de différents types
  5. Conception modulaire : La stratégie de décomposition améliore l'interprétabilité et la contrôlabilité de la méthode

Insuffisances

  1. Dépendance à la détection d'échec : Nécessite un système externe de détection d'échec, augmentant la complexité du système
  2. Ingénierie de caractéristiques : Les caractéristiques clés d'échec nécessitent une conception manuelle, limitant la généralité de la méthode
  3. Hypothèse statique : L'hypothèse que les causes d'échec sont statiques peut ne pas tenir dans certains environnements dynamiques
  4. Surcharge de calcul : La composition de modèles multiples peut augmenter la complexité de calcul lors de l'inférence
  5. Sensibilité aux hyperparamètres : Le choix des paramètres de poids a un impact significatif sur les performances

Impact

  1. Contribution académique : Fournit un nouveau cadre théorique et une méthode pratique pour la récupération d'échec en robotique
  2. Applications pratiques : Perspectives d'application larges dans les robots de service, l'automatisation industrielle et autres domaines
  3. Inspiration méthodologique : L'idée de guidance négative peut être généralisée à d'autres modèles génératifs et problèmes de contrôle
  4. Reproductibilité : Fournit des détails d'implémentation détaillés et des paramètres de configuration

Scénarios d'Application

  1. Environnements partiellement contraints : Applicable aux tâches robotiques où les paramètres environnementaux sont partiellement inconnus
  2. Tâches interactives : Tâches nécessitant l'ajustement de la politique en fonction des retours
  3. Tâches multimodales : Tâches avec plusieurs solutions valides
  4. Applications critiques pour la sécurité : Scénarios sensibles à la sécurité nécessitant d'éviter les échecs répétés

Références

L'article cite 35 références connexes, couvrant plusieurs domaines importants tels que l'apprentissage par imitation, les modèles de diffusion et le contrôle robotique, fournissant une base théorique solide et un support technique pour cette recherche.


Évaluation Globale : Cet article est un travail de haute qualité en robotique qui propose une stratégie innovante de récupération d'échec. Il se distingue par ses contributions théoriques et sa valeur d'application pratique. La conception de la méthode est ingénieuse, la vérification expérimentale est complète, et il apporte une contribution importante au domaine du contrôle intelligent des robots.