2025-11-11T09:10:09.674062

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Razmjoo, Calinon, Gienger et al.

Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem, which may require long-horizon history to manage failures, into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.

academic

CCDP: Komposition von bedingten Diffusionsrichtlinien mit gesteuerter Stichprobenentnahme

Grundlegende Informationen

Papier-ID: 2503.15386
Titel: CCDP: Composition of Conditional Diffusion Policies with Guided Sampling
Autoren: Amirreza Razmjoo (Honda Research Institute Europe & Idiap Research Institute & EPFL), Sylvain Calinon (Idiap Research Institute & EPFL), Michael Gienger (Honda Research Institute Europe), Fan Zhang (Honda Research Institute Europe)
Klassifizierung: cs.RO (Robotik), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
Papierlink: https://arxiv.org/abs/2503.15386

Zusammenfassung

Imitationslernen bietet eine vielversprechende Methode zum direkten Lernen aus Daten ohne explizite Modelle, Simulation oder detaillierte Aufgabendefinitionen. Während der Inferenz werden Aktionen aus der gelernten Verteilung abgetastet und auf dem Roboter ausgeführt. Allerdings können abgetastete Aktionen aus verschiedenen Gründen fehlschlagen, und das einfache wiederholte Abtasten bis zum Erhalt einer erfolgreichen Aktion kann ineffizient sein. Dieses Papier schlägt eine verbesserte Stichprobennahmestrategie vor, die frühere erfolglose Aktionen durch Verbesserung der Stichprobenverteilung vermeidet. Durch die ausschließliche Nutzung von Daten aus erfolgreichen Demonstrationen kann das Verfahren Wiederherstellungsaktionen ableiten, ohne zusätzliches Explorationsverhalten oder fortgeschrittene Regler zu benötigen. Darüber hinaus nutzt die Methode das Konzept der Diffusionsmodellzerlegung, um das Hauptproblem, das möglicherweise eine lange Historie zur Bewältigung von Fehlern erfordert, in mehrere kleinere, besser handhabbare Teilprobleme zu zerlegen, wodurch das System sich an variable Fehlerzählungen anpassen kann. Das Verfahren erzeugt einen Low-Level-Regler, der seinen Stichprobenraum dynamisch anpasst, um die Effizienz zu verbessern, wenn vorherige Stichproben unzureichend sind.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie kann eine effektive Wiederherstellung durchgeführt werden, wenn Aktionen, die der Roboter aus der gelernten Richtlinienverteilung abtastet, fehlschlagen?

Bedeutung des Problems

Anforderungen praktischer Anwendungen: In realen Umgebungen stoßen Roboter häufig auf teilweise eingeschränkte oder unsichere Situationen, wie das Tasten nach einem Nachttischlampen-Schalter oder das Öffnen einer Tür mit unsicherer Richtung
Effizienzbeschränkungen: Traditionelle Methoden wiederholen einfach die Stichprobenentnahme aus derselben Verteilung und ignorieren Informationen über bekannte Fehlerbereiche, was zu Ineffizienz führt
Praktische Einschränkungen: Bestehende Methoden zur Fehlerwiederherstellung erfordern normalerweise zusätzliche Ressourcen (Simulationsumgebungen, fortgeschrittene Inferenzmodelle, Expertenleitung), die in praktischen Anwendungen möglicherweise nicht verfügbar sind

Einschränkungen bestehender Methoden

Zweistufige Planungsmethoden:
- Der High-Level-Planer wählt Aktionsprimitives aus, der Low-Level-Regler führt sie aus
- Es gibt suboptimale Ergebnisse und kombinatorische Explosionsprobleme
- Mit zunehmenden Optionen wird die Entscheidungsfindung rechnerisch teuer
Robustes Richtlinienlernen:
- Methoden ähnlich robustem Verstärkungslernen
- Können nur bestimmte Fehlertypen verarbeiten (z. B. Umgebungsparameteränderungen)
- Für breitere Fehlertypen (z. B. Tastensuche) existiert möglicherweise keine einzelne robuste Richtlinie
Historienabhängige Richtlinien:
- Erfordern Fehlerdaten für das Training, was die Komplexität der Datenerfassung erhöht
- Benötigen lange Gedächtnishistorie mit hoher Rechenkomplexität

Kernbeiträge

Vorschlag eines Zerlegungsrahmens für Diffusionsrichtlinien: Verbessert die Modularität und Kontrollierbarkeit von Diffusionsrichtlinien und analysiert die Auswirkungen jedes Moduls
Gestaltung einer Wiederherstellungsstrategie basierend auf negativer Führung: Im Gegensatz zu traditionellen Methoden werden Fehlerfälle als negative Führung verwendet, um die Richtlinie von Fehlerbereichen wegzuleiten
Implementierung der Fehlerwiederherstellung ohne Datenannotation: Nur erfolgreiche Demonstrationsdaten werden verwendet, und Wiederherstellungsaktionen werden durch Offline-Analyse identifiziert
Validierung der Methodeneffektivität: Umfassender Vergleich mit modernsten Baselines bei mehreren Aufgaben

Methodendetails

Aufgabendefinition

Gegeben ein Datensatz von M erfolgreichen Demonstrationen $\mathcal{D} = \{(a_t, x_t, h^H_t)_i\}_{i=1}^M$ , besteht das Ziel darin, eine Diffusionsrichtlinie zu erlernen, um die bedingte Verteilung $p_\pi^{\mathcal{D}}(a_t | x_t, h^H_t)$ zu modellieren, wobei:

$a_t \in \mathbb{R}^{d_u}$ : Aktion zum Zeitpunkt t
$x_t \in \mathbb{R}^{d_s}$ : Zustand
$h^H_t = [a_{t-H:t-1}^T, x_{t-H:t-1}^T]^T$ : Historie der vorherigen H Aktionen und Zustände

Wenn eine Aktion fehlschlägt, muss das System auf den Satz von Fehlermerkmalen konditioniert werden: $a_t \sim p_\pi(a_t | x_t, h^H_t, z^f_{1:N})$

wobei $z^f_i = z(a^f_i, x^f_i)$ Schlüsselmerkmale des i-ten Fehlers extrahiert.

Modellarchitektur

Diffusionsmodellzerlegung

Die bedingte Verteilung wird in ein Produkt mehrerer einfacher Teilprobleme zerlegt:

$p_\pi(a_t | x_t, h^H_t, z^f_{1:N}) \propto \frac{p_s(a_t | x_t)}{p_a(a_t)} \cdot \frac{p_h(a_t | h^H_t)}{p_a(a_t)} \cdot \prod_{i=1}^N \frac{p_z(a_t | z^f_i)}{p_a(a_t)}$

Der entsprechende Entrauschungsterm wird zerlegt in: $\hat{\varepsilon}(a^k_t, k) = \varepsilon_a(a_t, k) + w_s(\varepsilon_s(a_t, x_t, k) - \varepsilon_a(a_t, k)) + w_h(\varepsilon_h(a_t, h^H_t, k) - \varepsilon_a(a_t, k)) + \sum_{i=1}^N w^i_z(\varepsilon_z(a_t, z^f_i, k) - \varepsilon_a(a_t, k))$

Funktionen der einzelnen Module

$\varepsilon_a(a_t, k)$ : Ermutigt das Abtasten von Aktionen, die den Demonstrationen ähnlich sind
$\varepsilon_s(a_t, x_t, k)$ : Leitet Aktionen, um den aktuellen Zustand zu erfüllen
$\varepsilon_h(a_t, h^H_t, k)$ : Fördert zeitliche Kontinuität
$\varepsilon_z(a_t, z^f_i, k)$ : Negative Führung, um sich von Fehlerbereichen zu entfernen

Gestaltung des Wiederherstellungsmodells

Definition von Wiederherstellungsaktionen

Definieren Sie die Menge der Wiederherstellungsaktionen: $a \in \mathcal{R}(z^f) \text{ if } \begin{cases} \|z(a,x) - z(a^f, x^f)\|_2 > \delta_z \\ \|x - x^f\|_2 < \delta_x \end{cases}$

wobei $\delta_z$ ausreichende Unterschiedlichkeit im Fehlermerkmalsraum definiert und $\delta_x$ Ähnlichkeit im Zustandsraum definiert.

Datensynthesestrategie

Um das Problem der spärlichen Wiederherstellungsdaten zu lösen, wird eine Datensynthese durchgeführt: $\mathcal{D}_s(x_s) = \{(a, x_s) | a \sim \bar{p}_{\mathcal{D}}(a|x), x \in x_s + \xi_x, \xi_x \sim \mathcal{N}(0, \sigma^2 I)\}$

Der entsprechende Rauschschätzer: $\bar{\varepsilon}(a, x, k) = \varepsilon_a(a, k) + w_s(\varepsilon_s(a, x, k) - \varepsilon_a(a, k))$

Schlüsselmerkmale von Fehlern

Drei praktische Methoden zur Extraktion von Fehlermerkmalen werden vorgeschlagen:

Direkte Verwendung fehlgeschlagener Aktionen: $z(a^f, x^f) = a^f$
Verwendung des Endzustands: $z(a^f, x^f) = x^f_T$
Aktionsprimitives: $z(a^f, x^f) = m$ (diskrete Bezeichnung)

Experimentelle Einrichtung

Experimentelle Aufgaben

Das Papier entwirft 5 verschiedene Aufgabentypen zur Validierung der Methodeneffektivität:

Door Opening (DO): Türöffnungsaufgabe mit unbekannter Richtung (oben, Schieber, Zug)
Button Pressing (BP): Drücken eines Knopfes an unbekannter Position in einem vordefinierten Bereich
Object Manipulation (OM): Auswahl einer Manipulationsstrategie basierend auf Objektgewicht (einhändig, zweihändig, Schieber)
Object Packing (OP): Platzieren von Objekten in einem angegebenen Korb, Auswahl des nächsten verfügbaren Korbs, wenn dieser voll ist
Bartender (BT): Füllen mehrerer Tassen mit Priorisierung des nächsten Bechers

Bewertungsmetriken

Aufgabenerfolgsquote: Prozentsatz der abgeschlossenen Aufgaben
Implizite Zielerfüllungsquote: Prozentsatz der Einhaltung impliziter Vorlieben in Demonstrationsdaten

Vergleichsmethoden

DP (Diffusion Policy): Standard-Diffusionsrichtlinien-Baseline
DP*: Verbesserte Diffusionsrichtlinie mit Ablehnungsstichprobenentnahme und Bereichsaufteilung

Experimentelle Konfiguration

Historienlänge H: 0-2
Vorhersagelänge L: 1-8
Anwendungsschritte p: 1-8
Batch-Größe: 32-1024
Trainingsrunden: 100
Entrauschungsschritte: 100

Experimentelle Ergebnisse

Hauptergebnisse

Aufgabe	CCDP	DP	DP*
Door Opening	99%	76%	100%
Button Pressing	96%	73%	86%
Object Manipulation	70%	40%	72%
Object Packing	94%	10%	100%
Bartender	100%	27%	100%

Implizite Zielerfüllungsquote

Aufgabe	CCDP	DP	DP*
Object Manipulation	66%	88%	38%
Object Packing	73%	62%	48%
Bartender	97%	100%	12%

Wichtigste Erkenntnisse

CCDP übertrifft DP bei der Aufgabenerfolgsquote erheblich und nähert sich oder übertrifft DP* bei den meisten Aufgaben
CCDP bewahrt die impliziten Ziele der Demonstrationsdaten besser, während DP* in diesem Aspekt schlechter abschneidet
Die negative Führungsstrategie ist flexibler als positive Einschränkungen und ermöglicht dem System, ein breiteres Spektrum von Kontextinformationen zu nutzen

Methodenvergleichsanalyse

CCDP vs DP: CCDP verbessert die Erfolgsquote erheblich, indem es frühere Fehlerinformationen berücksichtigt
CCDP vs DP*:
- DP* erfordert Vorklassifizierung, CCDP benötigt keine Annotation
- DP* verwendet positive Erzwingung (Einschränkung des Stichprobenbereichs), CCDP verwendet negative Führung (Vermeidung von Fehlerbereichen)
- Die negative Führungsstrategie von CCDP bietet größere Flexibilität

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Zerlegungsstrategie ist wirksam: Zerlegt das komplexe Fehlerwiederherstellungsproblem in mehrere handhabbare Teilprobleme
Negative Führung übertrifft positive Einschränkungen: Bietet größere Explorationsflexibilität
Keine zusätzlichen Daten erforderlich: Fehlerwiederherstellung ist nur mit erfolgreichen Demonstrationen möglich
Modulares Design: Unterstützt variable Anzahl von Fehlerfällen

Einschränkungen

Handwerklich gestaltete Fehlermerkmale: Erfordert derzeit manuelle Definition von Schlüsselmerkmalen von Fehlern, es fehlt ein automatischer Extraktionsmechanismus
Gewichtungsabstimmungsproblem: Die optimale Abstimmungsstrategie für Kombinationsgewichte wurde noch nicht ausreichend untersucht
Statische Fehlerannahme: Geht davon aus, dass Fehlerursachen zeitlich statisch bleiben
Instabilität der NOT-Operation: Die versuchten NOT-Operationsmethoden weisen Stabilitätsprobleme auf

Zukünftige Richtungen

Automatische Merkmalsextraktion: Entwicklung automatischer Methoden zur Extraktion von Fehlermerkmalen basierend auf latenten Räumen
Gewichtsoptimierung: Untersuchung adaptiver Abstimmungsstrategien für Kombinationsgewichte
Offline-Explorationsmechanismen: Integration von Offline-Explorationsmechanismen zur Extraktion effektiverer Wiederherstellungsdaten
Dynamische Fehlerbehandlung: Erweiterung auf Szenarien mit zeitvariablen Fehlerursachen

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste Vorschlag einer Diffusionsrichtlinien-Kombinationsmethode basierend auf negativer Führung
Hoher praktischer Wert: Keine zusätzliche Annotation oder Simulationsumgebung erforderlich, nur erfolgreiche Demonstrationsdaten
Solide theoretische Grundlagen: Basiert auf soliden mathematischen Grundlagen der Wahrscheinlichkeitstheorie und Diffusionsmodelle
Umfassende Experimente: Validierung der Methodeneffektivität bei mehreren verschiedenen Aufgabentypen
Modulares Design: Das Zerlegungsdesign verbessert die Interpretierbarkeit und Kontrollierbarkeit der Methode

Mängel

Abhängigkeit von Fehlererkennung: Erfordert ein externes Fehlererkennungssystem, was die Systemkomplexität erhöht
Feature Engineering: Schlüsselmerkmale von Fehlern müssen manuell gestaltet werden, was die Allgemeingültigkeit der Methode einschränkt
Statische Annahme: Die Annahme statischer Fehlerursachen gilt möglicherweise nicht in bestimmten dynamischen Umgebungen
Rechenkomplexität: Die Mehrmodellkombination kann die Rechenkomplexität während der Inferenz erhöhen
Empfindlichkeit gegenüber Hyperparametern: Die Auswahl von Gewichtungsparametern hat großen Einfluss auf die Leistung

Auswirkungen

Akademischer Beitrag: Bietet einen neuen theoretischen Rahmen und praktische Methoden für die Roboter-Fehlerwiederherstellung
Praktische Anwendung: Hat breite Anwendungsperspektiven in Servicerobotern, Industrieautomation und anderen Bereichen
Methodische Inspiration: Die Idee der negativen Führung kann auf andere generative Modelle und Kontrollprobleme verallgemeinert werden
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen

Anwendbare Szenarien

Teilweise eingeschränkte Umgebungen: Geeignet für Roboteraufgaben mit teilweise unbekannten Umgebungsparametern
Interaktive Aufgaben: Aufgaben, die eine Strategieanpassung basierend auf Rückmeldung erfordern
Multimodale Aufgaben: Aufgaben mit mehreren gültigen Lösungen
Sicherheitskritische Anwendungen: Sicherheitsempfindliche Szenarien, die wiederholte Fehler vermeiden müssen

Literaturverzeichnis

Das Papier zitiert 35 relevante Literaturquellen, die Arbeiten aus mehreren Bereichen wie Imitationslernen, Diffusionsmodelle und Robotersteuerung abdecken und eine solide theoretische Grundlage und technische Unterstützung für diese Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Robotiklernpapier, das eine innovative Fehlerwiederherstellungsstrategie vorschlägt und sowohl in theoretischen Beiträgen als auch in praktischem Anwendungswert hervorragende Leistungen zeigt. Das Methodendesign ist elegant, die experimentelle Validierung ist umfassend, und es leistet wichtige Beiträge zum Bereich der intelligenten Robotersteuerung.