2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.
Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.
academic

CCDP: Komposition von bedingten Diffusionsrichtlinien mit gesteuerter Stichprobenentnahme

Grundlegende Informationen

  • Papier-ID: 2503.15386
  • Titel: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
  • Autoren: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
  • Klassifizierung: cs.RO (Robotik), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
  • Papierlink: https://arxiv.org/abs/2503.15386

Zusammenfassung

Imitationslernen bietet eine vielversprechende Methode zum direkten Lernen aus Daten ohne explizite Modelle, Simulation oder detaillierte Aufgabendefinitionen. Während der Inferenz werden Aktionen aus der gelernten Verteilung abgetastet und auf dem Roboter ausgeführt. Allerdings können abgetastete Aktionen aus verschiedenen Gründen fehlschlagen, und das einfache wiederholte Abtasten bis zum Erhalt einer erfolgreichen Aktion kann ineffizient sein. Dieses Papier schlägt eine verbesserte Stichprobennahmestrategie vor, die frühere erfolglose Aktionen durch Verbesserung der Stichprobenverteilung vermeidet. Durch die ausschließliche Nutzung von Daten aus erfolgreichen Demonstrationen kann das Verfahren Wiederherstellungsaktionen ableiten, ohne zusätzliches Explorationsverhalten oder fortgeschrittene Regler zu benötigen. Darüber hinaus nutzt die Methode das Konzept der Diffusionsmodellzerlegung, um das Hauptproblem, das möglicherweise eine lange Historie zur Bewältigung von Fehlern erfordert, in mehrere kleinere, besser handhabbare Teilprobleme zu zerlegen, wodurch das System sich an variable Fehlerzählungen anpassen kann. Das Verfahren erzeugt einen Low-Level-Regler, der seinen Stichprobenraum dynamisch anpasst, um die Effizienz zu verbessern, wenn vorherige Stichproben unzureichend sind.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie kann eine effektive Wiederherstellung durchgeführt werden, wenn Aktionen, die der Roboter aus der gelernten Richtlinienverteilung abtastet, fehlschlagen?

Bedeutung des Problems

  1. Anforderungen praktischer Anwendungen: In realen Umgebungen stoßen Roboter häufig auf teilweise eingeschränkte oder unsichere Situationen, wie das Tasten nach einem Nachttischlampen-Schalter oder das Öffnen einer Tür mit unsicherer Richtung
  2. Effizienzbeschränkungen: Traditionelle Methoden wiederholen einfach die Stichprobenentnahme aus derselben Verteilung und ignorieren Informationen über bekannte Fehlerbereiche, was zu Ineffizienz führt
  3. Praktische Einschränkungen: Bestehende Methoden zur Fehlerwiederherstellung erfordern normalerweise zusätzliche Ressourcen (Simulationsumgebungen, fortgeschrittene Inferenzmodelle, Expertenleitung), die in praktischen Anwendungen möglicherweise nicht verfügbar sind

Einschränkungen bestehender Methoden

  1. Zweistufige Planungsmethoden:
    • Der High-Level-Planer wählt Aktionsprimitives aus, der Low-Level-Regler führt sie aus
    • Es gibt suboptimale Ergebnisse und kombinatorische Explosionsprobleme
    • Mit zunehmenden Optionen wird die Entscheidungsfindung rechnerisch teuer
  2. Robustes Richtlinienlernen:
    • Methoden ähnlich robustem Verstärkungslernen
    • Können nur bestimmte Fehlertypen verarbeiten (z. B. Umgebungsparameteränderungen)
    • Für breitere Fehlertypen (z. B. Tastensuche) existiert möglicherweise keine einzelne robuste Richtlinie
  3. Historienabhängige Richtlinien:
    • Erfordern Fehlerdaten für das Training, was die Komplexität der Datenerfassung erhöht
    • Benötigen lange Gedächtnishistorie mit hoher Rechenkomplexität

Kernbeiträge

  1. Vorschlag eines Zerlegungsrahmens für Diffusionsrichtlinien: Verbessert die Modularität und Kontrollierbarkeit von Diffusionsrichtlinien und analysiert die Auswirkungen jedes Moduls
  2. Gestaltung einer Wiederherstellungsstrategie basierend auf negativer Führung: Im Gegensatz zu traditionellen Methoden werden Fehlerfälle als negative Führung verwendet, um die Richtlinie von Fehlerbereichen wegzuleiten
  3. Implementierung der Fehlerwiederherstellung ohne Datenannotation: Nur erfolgreiche Demonstrationsdaten werden verwendet, und Wiederherstellungsaktionen werden durch Offline-Analyse identifiziert
  4. Validierung der Methodeneffektivität: Umfassender Vergleich mit modernsten Baselines bei mehreren Aufgaben

Methodendetails

Aufgabendefinition

Gegeben ein Datensatz von M erfolgreichen Demonstrationen D={(at,xt,htH)i}i=1M\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M, besteht das Ziel darin, eine Diffusionsrichtlinie zu erlernen, um die bedingte Verteilung pπD(atxt,htH)p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t) zu modellieren, wobei:

  • atRdua_t \in \mathbb{R}^{d_u}: Aktion zum Zeitpunkt t
  • xtRdsx_t \in \mathbb{R}^{d_s}: Zustand
  • htH=[atH:t1T,xtH:t1T]Th^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T: Historie der vorherigen H Aktionen und Zustände

Wenn eine Aktion fehlschlägt, muss das System auf den Satz von Fehlermerkmalen konditioniert werden: atpπ(atxt,htH,z1:Nf)a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})

wobei zif=z(aif,xif)z^f_i = z(a^f_i, x^f_i) Schlüsselmerkmale des i-ten Fehlers extrahiert.

Modellarchitektur

Diffusionsmodellzerlegung

Die bedingte Verteilung wird in ein Produkt mehrerer einfacher Teilprobleme zerlegt:

pπ(atxt,htH,z1:Nf)ps(atxt)pa(at)ph(athtH)pa(at)i=1Npz(atzif)pa(at)p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}

Der entsprechende Entrauschungsterm wird zerlegt in: ε^(atk,k)=εa(at,k)+ws(εs(at,xt,k)εa(at,k))+wh(εh(at,htH,k)εa(at,k))+i=1Nwzi(εz(at,zif,k)εa(at,k))\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))

Funktionen der einzelnen Module

  1. εa(at,k)\varepsilon_a(a_t, k): Ermutigt das Abtasten von Aktionen, die den Demonstrationen ähnlich sind
  2. εs(at,xt,k)\varepsilon_s(a_t, x_t, k): Leitet Aktionen, um den aktuellen Zustand zu erfüllen
  3. εh(at,htH,k)\varepsilon_h(a_t, h^H_t, k): Fördert zeitliche Kontinuität
  4. εz(at,zif,k)\varepsilon_z(a_t, z^f_i, k): Negative Führung, um sich von Fehlerbereichen zu entfernen

Gestaltung des Wiederherstellungsmodells

Definition von Wiederherstellungsaktionen

Definieren Sie die Menge der Wiederherstellungsaktionen:

\|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}$$ wobei $\delta_z$ ausreichende Unterschiedlichkeit im Fehlermerkmalsraum definiert und $\delta_x$ Ähnlichkeit im Zustandsraum definiert. #### Datensynthesestrategie Um das Problem der spärlichen Wiederherstellungsdaten zu lösen, wird eine Datensynthese durchgeführt: $$\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}$$ Der entsprechende Rauschschätzer: $$\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))$$ #### Schlüsselmerkmale von Fehlern Drei praktische Methoden zur Extraktion von Fehlermerkmalen werden vorgeschlagen: 1. **Direkte Verwendung fehlgeschlagener Aktionen**: $z(a^f, x^f) = a^f$ 2. **Verwendung des Endzustands**: $z(a^f, x^f) = x^f_T$ 3. **Aktionsprimitives**: $z(a^f, x^f) = m$ (diskrete Bezeichnung) ## Experimentelle Einrichtung ### Experimentelle Aufgaben Das Papier entwirft 5 verschiedene Aufgabentypen zur Validierung der Methodeneffektivität: 1. **Door Opening (DO)**: Türöffnungsaufgabe mit unbekannter Richtung (oben, Schieber, Zug) 2. **Button Pressing (BP)**: Drücken eines Knopfes an unbekannter Position in einem vordefinierten Bereich 3. **Object Manipulation (OM)**: Auswahl einer Manipulationsstrategie basierend auf Objektgewicht (einhändig, zweihändig, Schieber) 4. **Object Packing (OP)**: Platzieren von Objekten in einem angegebenen Korb, Auswahl des nächsten verfügbaren Korbs, wenn dieser voll ist 5. **Bartender (BT)**: Füllen mehrerer Tassen mit Priorisierung des nächsten Bechers ### Bewertungsmetriken 1. **Aufgabenerfolgsquote**: Prozentsatz der abgeschlossenen Aufgaben 2. **Implizite Zielerfüllungsquote**: Prozentsatz der Einhaltung impliziter Vorlieben in Demonstrationsdaten ### Vergleichsmethoden 1. **DP (Diffusion Policy)**: Standard-Diffusionsrichtlinien-Baseline 2. **DP***: Verbesserte Diffusionsrichtlinie mit Ablehnungsstichprobenentnahme und Bereichsaufteilung ### Experimentelle Konfiguration - Historienlänge H: 0-2 - Vorhersagelänge L: 1-8 - Anwendungsschritte p: 1-8 - Batch-Größe: 32-1024 - Trainingsrunden: 100 - Entrauschungsschritte: 100 ## Experimentelle Ergebnisse ### Hauptergebnisse | Aufgabe | CCDP | DP | DP* | |---------|------|----|----| | Door Opening | 99% | 76% | 100% | | Button Pressing | 96% | 73% | 86% | | Object Manipulation | 70% | 40% | 72% | | Object Packing | 94% | 10% | 100% | | Bartender | 100% | 27% | 100% | ### Implizite Zielerfüllungsquote | Aufgabe | CCDP | DP | DP* | |---------|------|----|----| | Object Manipulation | 66% | 88% | 38% | | Object Packing | 73% | 62% | 48% | | Bartender | 97% | 100% | 12% | ### Wichtigste Erkenntnisse 1. **CCDP übertrifft DP bei der Aufgabenerfolgsquote erheblich** und nähert sich oder übertrifft DP* bei den meisten Aufgaben 2. **CCDP bewahrt die impliziten Ziele der Demonstrationsdaten besser**, während DP* in diesem Aspekt schlechter abschneidet 3. **Die negative Führungsstrategie ist flexibler als positive Einschränkungen** und ermöglicht dem System, ein breiteres Spektrum von Kontextinformationen zu nutzen ### Methodenvergleichsanalyse - **CCDP vs DP**: CCDP verbessert die Erfolgsquote erheblich, indem es frühere Fehlerinformationen berücksichtigt - **CCDP vs DP***: - DP* erfordert Vorklassifizierung, CCDP benötigt keine Annotation - DP* verwendet positive Erzwingung (Einschränkung des Stichprobenbereichs), CCDP verwendet negative Führung (Vermeidung von Fehlerbereichen) - Die negative Führungsstrategie von CCDP bietet größere Flexibilität ## Verwandte Arbeiten ### Imitationslernen - **Traditionelle Methoden**: ProMP, TP-GMM und andere probabilistische Bewegungsprimitives - **Moderne Methoden**: Implicit Behavior Cloning, Diffusionsrichtlinien, Flow-Matching-Richtlinien - **Einschränkungen**: Garantieren keinen einmaligen Stichprobenerfolg, wiederholte Stichprobenentnahme ist ineffizient ### Gelenkte Richtlinieninferenz - **Parameterkonditionierungsmethoden**: Aktualisierung von Richtlinienparametern basierend auf Systemmerkmalen - **Hierarchische Methoden**: Verwendung von High-Level-Entscheidungsvariablen zur Steuerung von Low-Level-Richtlinien - **Ablehnungsstichprobenentnahme**: Verwerfen fehlgeschlagener Stichproben und Generieren neuer Stichproben ### Mehrmodellkombination - **Produkt von Experten (PoE)**: Zerlegung komplexer Probleme in einfache Teilprobleme - **Energiemodelle**: Anwendungen in hochdimensionalen komplexen Verteilungen - **Kombinierte Einschränkungsmodelle**: Erfolgreiche Anwendungen in Aufgaben- und Bewegungsplanung ## Schlussfolgerung und Diskussion ### Hauptschlussfolgerungen 1. **Zerlegungsstrategie ist wirksam**: Zerlegt das komplexe Fehlerwiederherstellungsproblem in mehrere handhabbare Teilprobleme 2. **Negative Führung übertrifft positive Einschränkungen**: Bietet größere Explorationsflexibilität 3. **Keine zusätzlichen Daten erforderlich**: Fehlerwiederherstellung ist nur mit erfolgreichen Demonstrationen möglich 4. **Modulares Design**: Unterstützt variable Anzahl von Fehlerfällen ### Einschränkungen 1. **Handwerklich gestaltete Fehlermerkmale**: Erfordert derzeit manuelle Definition von Schlüsselmerkmalen von Fehlern, es fehlt ein automatischer Extraktionsmechanismus 2. **Gewichtungsabstimmungsproblem**: Die optimale Abstimmungsstrategie für Kombinationsgewichte wurde noch nicht ausreichend untersucht 3. **Statische Fehlerannahme**: Geht davon aus, dass Fehlerursachen zeitlich statisch bleiben 4. **Instabilität der NOT-Operation**: Die versuchten NOT-Operationsmethoden weisen Stabilitätsprobleme auf ### Zukünftige Richtungen 1. **Automatische Merkmalsextraktion**: Entwicklung automatischer Methoden zur Extraktion von Fehlermerkmalen basierend auf latenten Räumen 2. **Gewichtsoptimierung**: Untersuchung adaptiver Abstimmungsstrategien für Kombinationsgewichte 3. **Offline-Explorationsmechanismen**: Integration von Offline-Explorationsmechanismen zur Extraktion effektiverer Wiederherstellungsdaten 4. **Dynamische Fehlerbehandlung**: Erweiterung auf Szenarien mit zeitvariablen Fehlerursachen ## Tiefgreifende Bewertung ### Stärken 1. **Hohe Innovativität**: Erste Vorschlag einer Diffusionsrichtlinien-Kombinationsmethode basierend auf negativer Führung 2. **Hoher praktischer Wert**: Keine zusätzliche Annotation oder Simulationsumgebung erforderlich, nur erfolgreiche Demonstrationsdaten 3. **Solide theoretische Grundlagen**: Basiert auf soliden mathematischen Grundlagen der Wahrscheinlichkeitstheorie und Diffusionsmodelle 4. **Umfassende Experimente**: Validierung der Methodeneffektivität bei mehreren verschiedenen Aufgabentypen 5. **Modulares Design**: Das Zerlegungsdesign verbessert die Interpretierbarkeit und Kontrollierbarkeit der Methode ### Mängel 1. **Abhängigkeit von Fehlererkennung**: Erfordert ein externes Fehlererkennungssystem, was die Systemkomplexität erhöht 2. **Feature Engineering**: Schlüsselmerkmale von Fehlern müssen manuell gestaltet werden, was die Allgemeingültigkeit der Methode einschränkt 3. **Statische Annahme**: Die Annahme statischer Fehlerursachen gilt möglicherweise nicht in bestimmten dynamischen Umgebungen 4. **Rechenkomplexität**: Die Mehrmodellkombination kann die Rechenkomplexität während der Inferenz erhöhen 5. **Empfindlichkeit gegenüber Hyperparametern**: Die Auswahl von Gewichtungsparametern hat großen Einfluss auf die Leistung ### Auswirkungen 1. **Akademischer Beitrag**: Bietet einen neuen theoretischen Rahmen und praktische Methoden für die Roboter-Fehlerwiederherstellung 2. **Praktische Anwendung**: Hat breite Anwendungsperspektiven in Servicerobotern, Industrieautomation und anderen Bereichen 3. **Methodische Inspiration**: Die Idee der negativen Führung kann auf andere generative Modelle und Kontrollprobleme verallgemeinert werden 4. **Reproduzierbarkeit**: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen ### Anwendbare Szenarien 1. **Teilweise eingeschränkte Umgebungen**: Geeignet für Roboteraufgaben mit teilweise unbekannten Umgebungsparametern 2. **Interaktive Aufgaben**: Aufgaben, die eine Strategieanpassung basierend auf Rückmeldung erfordern 3. **Multimodale Aufgaben**: Aufgaben mit mehreren gültigen Lösungen 4. **Sicherheitskritische Anwendungen**: Sicherheitsempfindliche Szenarien, die wiederholte Fehler vermeiden müssen ## Literaturverzeichnis Das Papier zitiert 35 relevante Literaturquellen, die Arbeiten aus mehreren Bereichen wie Imitationslernen, Diffusionsmodelle und Robotersteuerung abdecken und eine solide theoretische Grundlage und technische Unterstützung für diese Forschung bieten. --- **Gesamtbewertung**: Dies ist ein hochqualitatives Robotiklernpapier, das eine innovative Fehlerwiederherstellungsstrategie vorschlägt und sowohl in theoretischen Beiträgen als auch in praktischem Anwendungswert hervorragende Leistungen zeigt. Das Methodendesign ist elegant, die experimentelle Validierung ist umfassend, und es leistet wichtige Beiträge zum Bereich der intelligenten Robotersteuerung.