Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic
Phys2Real: Fusion von VLM-Priors mit interaktiver Online-Adaptation für unsicherheitsgerichtete Sim-zu-Real-Manipulation
Dieses Paper präsentiert Phys2Real, eine Reinforcement-Learning-Pipeline für Sim-zu-Real-zu-Sim-Manipulation, die Physik-Parameterschätzung durch Visionssprachmodelle (VLM) mit interaktiver Online-Adaptation kombiniert und dabei Unsicherheit bewusst berücksichtigt, um Sim-zu-Real-Transferherausforderungen in der Robotermanipulation zu bewältigen. Die Methode umfasst drei Kernkomponenten: (1) hochgetreue geometrische Rekonstruktion basierend auf 3D-Gaußschen Splats, (2) VLM-abgeleitete Priorverteilungen für Physikparameter, (3) Online-Physikparameterschätzung basierend auf Interaktionsdaten. Bei ebenen Schiebaufgaben mit T-förmigen Blöcken und Hämmern zeigt Phys2Real signifikante Verbesserungen gegenüber Domain-Randomization-Baselines: T-förmiger Block mit Gewicht unten 100% vs. 79% Erfolgsquote, T-förmiger Block mit Gewicht oben 57% vs. 23%, Hammeraufgabe 15% schneller durchschnittliche Abschlusszeit.
Der Transfer von Robotermanipulationsrichtlinien von der Simulation in die reale Welt bleibt eine grundlegende Herausforderung, besonders für Aufgaben, die präzise Dynamik erfordern. Traditionelle Domain-Randomization-Methoden (DR) bieten zwar Robustheit, verwenden aber typischerweise gemittelte Verhaltensweisen und können sich nicht an objektspezifische Physikattributänderungen anpassen.
Menschen zeigen beim Manipulieren neuer Objekte hervorragendes Explorationsverhalten: Sie bilden zunächst basierend auf visueller Erscheinung vorläufige Urteile über Physikattribute, verfeinern diese Schätzungen dann durch Interaktion. Inspiriert von diesem Ansatz zielt dieses Paper darauf ab, Robotern ähnliche Fähigkeiten durch Kombination von visueller Physikinterpretation mit interaktivem Lernen zu vermitteln, um die Manipulationsleistung in realen Umgebungen zu verbessern.
Unsicherheitsgerichtete Fusion von VLM-Priors und interaktiver Adaptation: Zeigt erstmals, dass VLMs Physikparameterschätzungen (wie Massenschwerpunkt) liefern können und mit interaktionsbasierter Parameterschätzung für echtzeitliche niederfrequente Regelung kombiniert werden können
Ensemble-basierte Unsicherheitsquantifizierung: Zerlegt Unsicherheit in epistemische und aleatorische Unsicherheit, fusioniert VLM-Priors und interaktive Schätzungen durch inverse Varianzgewichtung
Physik-informierte digitale Zwillinge: Kombiniert 3D-Gaußsche-Splat-Rekonstruktion mit Online-Physikattributschätzung zur Erstellung digitaler Zwillinge mit geometrischen und physikalischen Informationen
Dieses Paper untersucht Nicht-Greif-Manipulationsaufgaben, bei denen der Roboter Objekte mit unterschiedlichen Physikattributen (wie Massenschwerpunkt, Reibungskoeffizient) durch Schieben zu Zielposition und -orientierung bewegen muss. Eingaben umfassen Objekthaltung, Roboter-Endeffektor-Position und geschätzte Physikparameter; Ausgaben sind Endeffektor-Positionsänderungen.
Phase 1: Richtlinie wird mit echten Physikparametern trainiert
Phase 1.5: Feinabstimmung mit verrauschten Physikparametern zur Robustheit gegenüber nachgelagertem Rauschen
Phase 2: Trainiert Ensemble von N=10 Adaptationsmodellen zur Vorhersage von Physikparametern aus Beobachtungs-Aktions-Historie
Nur VLM-Schätzung: 4,76% Erfolgsquote (Gewicht oben)
Nur RMA: 14,29% Erfolgsquote (Gewicht oben)
Phys2Real-Fusion: 57,14% Erfolgsquote
Ergebnisse zeigen, dass die Kombination von VLM und Interaktionsinformation für Erfolg entscheidend ist; einzelne Verwendung führt zu schlechter Leistung.
Traditionelle Methoden trainieren robuste Richtlinien durch Randomisierung von Simulationsdynamik, verwenden aber oft gemittelte Verhaltensweisen auf Kosten der Leistung. Systemidentifikationsmethoden erfordern manuelle Parameteranpassung und erzeugen statische Modelle.
Methoden wie RMA funktionieren gut in Szenen mit kontinuierlichem Kontakt (wie Lokomotion), sehen sich aber in allgemeinen Manipulationsaufgaben mit intermittierentem Kontakt Herausforderungen gegenüber. Dieses Paper adressiert dies durch VLM-Priors und unsicherheitsgerichtete Fusion.
NeRF und GSplat können hochgetreue 3D-Szenen rekonstruieren, aber bestehende digitale Zwillinge konzentrieren sich auf visuelle Wiedergabetreue und ignorieren Physikattribute. Dieses Paper erstellt physik-informierte digitale Zwillinge.
Neuere Arbeiten zeigen VLM-Physikinterpretationsfähigkeiten, hauptsächlich für hochrangige Planung. Dieses Paper integriert erstmals VLM-Physikparameterschätzung direkt in niederfrequente Kontrollrichtlinien.
Phys2Real demonstriert erfolgreich die Effektivität der Kombination von VLM-visueller Interpretation mit interaktiver Adaptation und zeigt signifikante Verbesserungen gegenüber Domain-Randomization-Baselines bei mehreren Manipulationsaufgaben. Der unsicherheitsgerichtete Fusionsmechanismus ermöglicht dem System, Gewichte basierend auf Zuverlässigkeit verschiedener Informationsquellen dynamisch anzupassen.
Symmetrieannahme: Rekonstruktions-Pipeline funktioniert optimal bei näherungsweise symmetrischen Objekten, Spiegelung kann echte Form nicht-symmetrischer Objekte verzerren
VLM-Schätzungsverzerrung: VLMs neigen dazu, zum geometrischen Zentrum zu verschieben, können physikalisch inkonsistente Schätzungen erzeugen
Aufgabenkomplexität: Aktuelle validierte Aufgaben sind relativ einfach, Generalisierung zu komplexeren Operationen unklar
Wahrnehmungsabhängigkeit: Abhängig von Motion-Capture-System, Übergang zu reiner visueller Wahrnehmung ist zukünftige Richtung
Diese Arbeit leistet wichtige Beiträge zum Robotiklernbereich und demonstriert Anwendungspotenzial von Grundmodellen in niederfrequenter Kontrolle. Erwartet wird, dass sie mehr Forschung zu Kombination visueller Interpretation mit interaktivem Lernen inspiriert und Sim-zu-Real-Transfertechnologie vorantreibt.
1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
Gesamtbewertung: Dies ist ein hochqualitatives Robotiklernpaper, das innovativ mehrere Spitzentechnologien kombiniert und eine neuartige und effektive Lösung für das Sim-zu-Real-Transferproblem bietet. Trotz einiger Limitierungen erreichen technische Beiträge und experimentelle Validierung hohe Standards mit bedeutendem akademischen Wert und Anwendungsperspektive.