2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.

Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .

academic

Phys2Real: Fusion von VLM-Priors mit interaktiver Online-Adaptation für unsicherheitsgerichtete Sim-zu-Real-Manipulation

Grundinformationen

Paper-ID: 2510.11689
Titel: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Autoren: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
Institutionen: ¹Stanford University, ²Princeton University
Klassifizierung: cs.RO (Robotik), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.11689v1

Zusammenfassung

Dieses Paper präsentiert Phys2Real, eine Reinforcement-Learning-Pipeline für Sim-zu-Real-zu-Sim-Manipulation, die Physik-Parameterschätzung durch Visionssprachmodelle (VLM) mit interaktiver Online-Adaptation kombiniert und dabei Unsicherheit bewusst berücksichtigt, um Sim-zu-Real-Transferherausforderungen in der Robotermanipulation zu bewältigen. Die Methode umfasst drei Kernkomponenten: (1) hochgetreue geometrische Rekonstruktion basierend auf 3D-Gaußschen Splats, (2) VLM-abgeleitete Priorverteilungen für Physikparameter, (3) Online-Physikparameterschätzung basierend auf Interaktionsdaten. Bei ebenen Schiebaufgaben mit T-förmigen Blöcken und Hämmern zeigt Phys2Real signifikante Verbesserungen gegenüber Domain-Randomization-Baselines: T-förmiger Block mit Gewicht unten 100% vs. 79% Erfolgsquote, T-förmiger Block mit Gewicht oben 57% vs. 23%, Hammeraufgabe 15% schneller durchschnittliche Abschlusszeit.

Forschungshintergrund und Motivation

Kernproblem

Der Transfer von Robotermanipulationsrichtlinien von der Simulation in die reale Welt bleibt eine grundlegende Herausforderung, besonders für Aufgaben, die präzise Dynamik erfordern. Traditionelle Domain-Randomization-Methoden (DR) bieten zwar Robustheit, verwenden aber typischerweise gemittelte Verhaltensweisen und können sich nicht an objektspezifische Physikattributänderungen anpassen.

Forschungsmotivation

Menschen zeigen beim Manipulieren neuer Objekte hervorragendes Explorationsverhalten: Sie bilden zunächst basierend auf visueller Erscheinung vorläufige Urteile über Physikattribute, verfeinern diese Schätzungen dann durch Interaktion. Inspiriert von diesem Ansatz zielt dieses Paper darauf ab, Robotern ähnliche Fähigkeiten durch Kombination von visueller Physikinterpretation mit interaktivem Lernen zu vermitteln, um die Manipulationsleistung in realen Umgebungen zu verbessern.

Limitierungen bestehender Methoden

Domain Randomization: Trainiert robuste Richtlinien, opfert aber Leistung, kann sich nicht an objektspezifische Variationen anpassen
Systemidentifikation: Erfordert manuelle Parameteranpassung, erzeugt statische Modelle
Online-Richtlinienadaptation: Sieht sich in Szenen mit intermittierendem Kontakt Herausforderungen gegenüber, fehlt externe Priorinformation
Digitale Zwillinge: Konzentrieren sich auf visuelle Wiedergabetreue, ignorieren Physikattribute

Kernbeiträge

Unsicherheitsgerichtete Fusion von VLM-Priors und interaktiver Adaptation: Zeigt erstmals, dass VLMs Physikparameterschätzungen (wie Massenschwerpunkt) liefern können und mit interaktionsbasierter Parameterschätzung für echtzeitliche niederfrequente Regelung kombiniert werden können
Ensemble-basierte Unsicherheitsquantifizierung: Zerlegt Unsicherheit in epistemische und aleatorische Unsicherheit, fusioniert VLM-Priors und interaktive Schätzungen durch inverse Varianzgewichtung
Physik-informierte digitale Zwillinge: Kombiniert 3D-Gaußsche-Splat-Rekonstruktion mit Online-Physikattributschätzung zur Erstellung digitaler Zwillinge mit geometrischen und physikalischen Informationen

Methodische Details

Aufgabendefinition

Dieses Paper untersucht Nicht-Greif-Manipulationsaufgaben, bei denen der Roboter Objekte mit unterschiedlichen Physikattributen (wie Massenschwerpunkt, Reibungskoeffizient) durch Schieben zu Zielposition und -orientierung bewegen muss. Eingaben umfassen Objekthaltung, Roboter-Endeffektor-Position und geschätzte Physikparameter; Ausgaben sind Endeffektor-Positionsänderungen.

Modellarchitektur

1. Real-zu-Sim-Szenariorekonstruktion

Verwendet SAM-2 zur Zielobjektsegmentierung
Trainiert 3D-Gaußsche-Splat-Modelle (GSplat)
Extrahiert oberflächenausgerichtete Netze durch SuGaR
Generiert simulationsreife wasserdichte Netz-Assets

2. Physik-parametrische Richtlinienlernen

Verwendet dreigliedriges Trainingsparadigma:

Phase 1: Richtlinie wird mit echten Physikparametern trainiert Phase 1.5: Feinabstimmung mit verrauschten Physikparametern zur Robustheit gegenüber nachgelagertem Rauschen Phase 2: Trainiert Ensemble von N=10 Adaptationsmodellen zur Vorhersage von Physikparametern aus Beobachtungs-Aktions-Historie

3. Unsicherheitsquantifizierung und Fusion

VLM-Schätzung (θ_vlm, σ_vlm):

Fragt GPT-5 zur Schätzung aufgabenrelevanter Physikparameter ab
Fragt M Mal für N Bilder ab, berechnet aggregierte Mittelwerte und Unsicherheit

RMA-Schätzung (θ_rma, σ_rma):

Epistemische Unsicherheit: σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
Aleatorische Unsicherheit: σ²_aleatoric = (1/N)∑σᵢ²
Gesamte RMA-Unsicherheit: σ²_rma = σ²_epistemic + σ²_aleatoric

Inverse Varianzgewichtungsfusion:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

Technische Innovationen

Interpretierbare Physikparameter: Direkte Konditionierung auf Physikparameter statt latente Variablen ermöglicht direkte VLM-Schätzungsintegration
Dualquellen-Unsicherheitsfusion: Bei hoher Unsicherheit der Interaktionshistorie wird mehr auf VLM-Schätzung verlassen und umgekehrt
Ensemble-Unsicherheitszerlegung: Trennt Modell- und Datenunsicherheit für präzisere Unsicherheitsschätzung

Experimentelles Setup

Experimentelle Aufgaben

T-förmiger Block-Schieber: Ändert Massenschwerpunkt durch 143-Gramm-Metallgewicht an verschiedenen Positionen, testet zwei Konfigurationen
- Gewicht oben: Massenschwerpunkt +6,1 cm, anspruchsvoller
- Gewicht unten: Massenschwerpunkt -0,7 cm, relativ einfach
Hammer-Schieber: Massenschwerpunkt nahe Hammerkopf, erzeugt komplexe Bewegungsdynamik

Bewertungsmetriken

Erfolgsquote: Positionsfehler <3 cm und Orientierungsfehler <20°
Endpositionsfehler (cm)
Endorientierungsfehler (Grad)
Aufgabenabschlusszeit (Sekunden)

Vergleichsmethoden

Domain Randomization (DR): Standard-Domain-Randomization-Baseline
Diffusion Policy: Stark überwachte Lernbaseline
RMA-only: Nur Adaptationsmodell
Physics-conditioned VLM: Nur VLM-Schätzung
Physics-conditioned privileged: Privilegierte Baseline mit echten Physikparametern

Implementierungsdetails

Verwendet 6-DOF UFactory xArm-Manipulator
PPO-Training, 4096 parallele Umgebungen
Asymmetrische Actor-Critic-Architektur
Motion-Capture-System für präzise Objekthaltung

Experimentelle Ergebnisse

Hauptergebnisse

T-förmiger Block-Schieber (Gewicht unten):

Phys2Real: 100% Erfolgsquote, 1,76±0,54 cm Positionsfehler
DR-Baseline: 79,17% Erfolgsquote, 7,14±11,34 cm Positionsfehler
Privilegierte Baseline: 95,83% Erfolgsquote, 1,92±0,50 cm Positionsfehler

T-förmiger Block-Schieber (Gewicht oben, anspruchsvoller):

Phys2Real: 57,14% Erfolgsquote, 2,60±0,90 cm Positionsfehler
DR-Baseline: 23,81% Erfolgsquote, 6,00±5,78 cm Positionsfehler
Privilegierte Baseline: 90,48% Erfolgsquote, 1,90±0,98 cm Positionsfehler

Hammer-Schieber:

Phys2Real und DR erreichen beide 100% Erfolgsquote
Phys2Real durchschnittliche Abschlusszeit 77,79±44,08 Sekunden
DR durchschnittliche Abschlusszeit 90,65±42,03 Sekunden, 14,2% Verbesserung

Ablationsstudien

VLM vs. RMA einzeln:

Nur VLM-Schätzung: 4,76% Erfolgsquote (Gewicht oben)
Nur RMA: 14,29% Erfolgsquote (Gewicht oben)
Phys2Real-Fusion: 57,14% Erfolgsquote

Ergebnisse zeigen, dass die Kombination von VLM und Interaktionsinformation für Erfolg entscheidend ist; einzelne Verwendung führt zu schlechter Leistung.

Fallstudienanalyse

Abbildung 6 zeigt die Entwicklung der Parameterschätzung während typischer Ausführung:

Anfangs RMA-Schätzung hochgradig unsicher und vom wahren Wert abweichend
Mit fortgesetztem Kontakt sinkt Unsicherheit, Fusionsschätzung konvergiert zum wahren Wert
Nach Kontaktende steigt Unsicherheit wieder an mangels neuer Information

Experimentelle Erkenntnisse

Wert der Physikparameterschätzung: Genaue Physikparameterschätzung verbessert Manipulationsleistung signifikant
Notwendigkeit der Fusion: VLM und Interaktionsinformation sind unerlässlich, einzelne Verwendung führt zu drastischem Leistungsabfall
Bedeutung der Unsicherheitsgerichtetheit: Effektive Informationsfusion durch Unsicherheitsgewichtung
Robustheit: Zeigt starke Robustheit gegenüber ungenauen VLM-Schätzungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Phys2Real demonstriert erfolgreich die Effektivität der Kombination von VLM-visueller Interpretation mit interaktiver Adaptation und zeigt signifikante Verbesserungen gegenüber Domain-Randomization-Baselines bei mehreren Manipulationsaufgaben. Der unsicherheitsgerichtete Fusionsmechanismus ermöglicht dem System, Gewichte basierend auf Zuverlässigkeit verschiedener Informationsquellen dynamisch anzupassen.

Limitierungen

Symmetrieannahme: Rekonstruktions-Pipeline funktioniert optimal bei näherungsweise symmetrischen Objekten, Spiegelung kann echte Form nicht-symmetrischer Objekte verzerren
VLM-Schätzungsverzerrung: VLMs neigen dazu, zum geometrischen Zentrum zu verschieben, können physikalisch inkonsistente Schätzungen erzeugen
Aufgabenkomplexität: Aktuelle validierte Aufgaben sind relativ einfach, Generalisierung zu komplexeren Operationen unklar
Wahrnehmungsabhängigkeit: Abhängig von Motion-Capture-System, Übergang zu reiner visueller Wahrnehmung ist zukünftige Richtung

Zukünftige Richtungen

Erweiterung auf Rekonstruktionsstrategien für nicht-symmetrische Objekte
Ersatz von Motion Capture durch wahrnehmungsbasiertes Tracking
Validierung bei komplexeren Manipulationsaufgaben
Erkundung der Schätzung anderer Physikparameter (wie Reibung, Steifigkeit)

Tiefgehende Bewertung

Stärken

Starke Innovativität: Erstmals organische Fusion von VLM-Physikinterpretation mit RMA-Adaptation, eröffnet neue Forschungsrichtung
Vernünftige technische Lösung: Unsicherheitszerlegung und inverse Varianzgewichtungsfusion haben theoretische Grundlagen
Umfassende Experimente: Mehrtask-, Multikonfigurationsauswertung, Ablationsstudien offenbaren Komponentenbeiträge
Hoher praktischer Wert: Bietet neue Lösungsansätze für Sim-zu-Real-Transfer

Mängel

Begrenzte Aufgabenreichweite: Nur ebene Schiebaufgaben validiert, Generalisierung zu komplexeren Operationen unklar
VLM-Abhängigkeit: Stark abhängig von VLM-Physikinterpretationsfähigkeiten, möglicherweise systematische Verzerrungen
Rechenlast: Ensemble-Methoden und VLM-Abfragen können zusätzliche Rechenlast verursachen
Unzureichende theoretische Analyse: Fehlt Konvergenzanalyse der Fusionsstrategie

Auswirkungen

Diese Arbeit leistet wichtige Beiträge zum Robotiklernbereich und demonstriert Anwendungspotenzial von Grundmodellen in niederfrequenter Kontrolle. Erwartet wird, dass sie mehr Forschung zu Kombination visueller Interpretation mit interaktivem Lernen inspiriert und Sim-zu-Real-Transfertechnologie vorantreibt.

Anwendungsszenarien

Manipulationsaufgaben mit präziser Physikmodellierung erforderlich
Szenarien mit unbekannten oder variablen Objektphysikattributen
Nicht-Greif-Operationen mit intermittierentem Kontakt
Anwendungen mit schneller Anpassung an neue Objekte erforderlich

Referenzen

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.

Gesamtbewertung: Dies ist ein hochqualitatives Robotiklernpaper, das innovativ mehrere Spitzentechnologien kombiniert und eine neuartige und effektive Lösung für das Sim-zu-Real-Transferproblem bietet. Trotz einiger Limitierungen erreichen technische Beiträge und experimentelle Validierung hohe Standards mit bedeutendem akademischen Wert und Anwendungsperspektive.