2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic

Phys2Real: Fusion von VLM-Priors mit interaktiver Online-Adaptation für unsicherheitsgerichtete Sim-zu-Real-Manipulation

Grundinformationen

  • Paper-ID: 2510.11689
  • Titel: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
  • Autoren: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
  • Institutionen: ¹Stanford University, ²Princeton University
  • Klassifizierung: cs.RO (Robotik), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 13. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.11689v1

Zusammenfassung

Dieses Paper präsentiert Phys2Real, eine Reinforcement-Learning-Pipeline für Sim-zu-Real-zu-Sim-Manipulation, die Physik-Parameterschätzung durch Visionssprachmodelle (VLM) mit interaktiver Online-Adaptation kombiniert und dabei Unsicherheit bewusst berücksichtigt, um Sim-zu-Real-Transferherausforderungen in der Robotermanipulation zu bewältigen. Die Methode umfasst drei Kernkomponenten: (1) hochgetreue geometrische Rekonstruktion basierend auf 3D-Gaußschen Splats, (2) VLM-abgeleitete Priorverteilungen für Physikparameter, (3) Online-Physikparameterschätzung basierend auf Interaktionsdaten. Bei ebenen Schiebaufgaben mit T-förmigen Blöcken und Hämmern zeigt Phys2Real signifikante Verbesserungen gegenüber Domain-Randomization-Baselines: T-förmiger Block mit Gewicht unten 100% vs. 79% Erfolgsquote, T-förmiger Block mit Gewicht oben 57% vs. 23%, Hammeraufgabe 15% schneller durchschnittliche Abschlusszeit.

Forschungshintergrund und Motivation

Kernproblem

Der Transfer von Robotermanipulationsrichtlinien von der Simulation in die reale Welt bleibt eine grundlegende Herausforderung, besonders für Aufgaben, die präzise Dynamik erfordern. Traditionelle Domain-Randomization-Methoden (DR) bieten zwar Robustheit, verwenden aber typischerweise gemittelte Verhaltensweisen und können sich nicht an objektspezifische Physikattributänderungen anpassen.

Forschungsmotivation

Menschen zeigen beim Manipulieren neuer Objekte hervorragendes Explorationsverhalten: Sie bilden zunächst basierend auf visueller Erscheinung vorläufige Urteile über Physikattribute, verfeinern diese Schätzungen dann durch Interaktion. Inspiriert von diesem Ansatz zielt dieses Paper darauf ab, Robotern ähnliche Fähigkeiten durch Kombination von visueller Physikinterpretation mit interaktivem Lernen zu vermitteln, um die Manipulationsleistung in realen Umgebungen zu verbessern.

Limitierungen bestehender Methoden

  1. Domain Randomization: Trainiert robuste Richtlinien, opfert aber Leistung, kann sich nicht an objektspezifische Variationen anpassen
  2. Systemidentifikation: Erfordert manuelle Parameteranpassung, erzeugt statische Modelle
  3. Online-Richtlinienadaptation: Sieht sich in Szenen mit intermittierendem Kontakt Herausforderungen gegenüber, fehlt externe Priorinformation
  4. Digitale Zwillinge: Konzentrieren sich auf visuelle Wiedergabetreue, ignorieren Physikattribute

Kernbeiträge

  1. Unsicherheitsgerichtete Fusion von VLM-Priors und interaktiver Adaptation: Zeigt erstmals, dass VLMs Physikparameterschätzungen (wie Massenschwerpunkt) liefern können und mit interaktionsbasierter Parameterschätzung für echtzeitliche niederfrequente Regelung kombiniert werden können
  2. Ensemble-basierte Unsicherheitsquantifizierung: Zerlegt Unsicherheit in epistemische und aleatorische Unsicherheit, fusioniert VLM-Priors und interaktive Schätzungen durch inverse Varianzgewichtung
  3. Physik-informierte digitale Zwillinge: Kombiniert 3D-Gaußsche-Splat-Rekonstruktion mit Online-Physikattributschätzung zur Erstellung digitaler Zwillinge mit geometrischen und physikalischen Informationen

Methodische Details

Aufgabendefinition

Dieses Paper untersucht Nicht-Greif-Manipulationsaufgaben, bei denen der Roboter Objekte mit unterschiedlichen Physikattributen (wie Massenschwerpunkt, Reibungskoeffizient) durch Schieben zu Zielposition und -orientierung bewegen muss. Eingaben umfassen Objekthaltung, Roboter-Endeffektor-Position und geschätzte Physikparameter; Ausgaben sind Endeffektor-Positionsänderungen.

Modellarchitektur

1. Real-zu-Sim-Szenariorekonstruktion

  • Verwendet SAM-2 zur Zielobjektsegmentierung
  • Trainiert 3D-Gaußsche-Splat-Modelle (GSplat)
  • Extrahiert oberflächenausgerichtete Netze durch SuGaR
  • Generiert simulationsreife wasserdichte Netz-Assets

2. Physik-parametrische Richtlinienlernen

Verwendet dreigliedriges Trainingsparadigma:

Phase 1: Richtlinie wird mit echten Physikparametern trainiert Phase 1.5: Feinabstimmung mit verrauschten Physikparametern zur Robustheit gegenüber nachgelagertem Rauschen Phase 2: Trainiert Ensemble von N=10 Adaptationsmodellen zur Vorhersage von Physikparametern aus Beobachtungs-Aktions-Historie

3. Unsicherheitsquantifizierung und Fusion

VLM-Schätzung (θ_vlm, σ_vlm):

  • Fragt GPT-5 zur Schätzung aufgabenrelevanter Physikparameter ab
  • Fragt M Mal für N Bilder ab, berechnet aggregierte Mittelwerte und Unsicherheit

RMA-Schätzung (θ_rma, σ_rma):

  • Epistemische Unsicherheit: σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
  • Aleatorische Unsicherheit: σ²_aleatoric = (1/N)∑σᵢ²
  • Gesamte RMA-Unsicherheit: σ²_rma = σ²_epistemic + σ²_aleatoric

Inverse Varianzgewichtungsfusion:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

Technische Innovationen

  1. Interpretierbare Physikparameter: Direkte Konditionierung auf Physikparameter statt latente Variablen ermöglicht direkte VLM-Schätzungsintegration
  2. Dualquellen-Unsicherheitsfusion: Bei hoher Unsicherheit der Interaktionshistorie wird mehr auf VLM-Schätzung verlassen und umgekehrt
  3. Ensemble-Unsicherheitszerlegung: Trennt Modell- und Datenunsicherheit für präzisere Unsicherheitsschätzung

Experimentelles Setup

Experimentelle Aufgaben

  1. T-förmiger Block-Schieber: Ändert Massenschwerpunkt durch 143-Gramm-Metallgewicht an verschiedenen Positionen, testet zwei Konfigurationen
    • Gewicht oben: Massenschwerpunkt +6,1 cm, anspruchsvoller
    • Gewicht unten: Massenschwerpunkt -0,7 cm, relativ einfach
  2. Hammer-Schieber: Massenschwerpunkt nahe Hammerkopf, erzeugt komplexe Bewegungsdynamik

Bewertungsmetriken

  • Erfolgsquote: Positionsfehler <3 cm und Orientierungsfehler <20°
  • Endpositionsfehler (cm)
  • Endorientierungsfehler (Grad)
  • Aufgabenabschlusszeit (Sekunden)

Vergleichsmethoden

  • Domain Randomization (DR): Standard-Domain-Randomization-Baseline
  • Diffusion Policy: Stark überwachte Lernbaseline
  • RMA-only: Nur Adaptationsmodell
  • Physics-conditioned VLM: Nur VLM-Schätzung
  • Physics-conditioned privileged: Privilegierte Baseline mit echten Physikparametern

Implementierungsdetails

  • Verwendet 6-DOF UFactory xArm-Manipulator
  • PPO-Training, 4096 parallele Umgebungen
  • Asymmetrische Actor-Critic-Architektur
  • Motion-Capture-System für präzise Objekthaltung

Experimentelle Ergebnisse

Hauptergebnisse

T-förmiger Block-Schieber (Gewicht unten):

  • Phys2Real: 100% Erfolgsquote, 1,76±0,54 cm Positionsfehler
  • DR-Baseline: 79,17% Erfolgsquote, 7,14±11,34 cm Positionsfehler
  • Privilegierte Baseline: 95,83% Erfolgsquote, 1,92±0,50 cm Positionsfehler

T-förmiger Block-Schieber (Gewicht oben, anspruchsvoller):

  • Phys2Real: 57,14% Erfolgsquote, 2,60±0,90 cm Positionsfehler
  • DR-Baseline: 23,81% Erfolgsquote, 6,00±5,78 cm Positionsfehler
  • Privilegierte Baseline: 90,48% Erfolgsquote, 1,90±0,98 cm Positionsfehler

Hammer-Schieber:

  • Phys2Real und DR erreichen beide 100% Erfolgsquote
  • Phys2Real durchschnittliche Abschlusszeit 77,79±44,08 Sekunden
  • DR durchschnittliche Abschlusszeit 90,65±42,03 Sekunden, 14,2% Verbesserung

Ablationsstudien

VLM vs. RMA einzeln:

  • Nur VLM-Schätzung: 4,76% Erfolgsquote (Gewicht oben)
  • Nur RMA: 14,29% Erfolgsquote (Gewicht oben)
  • Phys2Real-Fusion: 57,14% Erfolgsquote

Ergebnisse zeigen, dass die Kombination von VLM und Interaktionsinformation für Erfolg entscheidend ist; einzelne Verwendung führt zu schlechter Leistung.

Fallstudienanalyse

Abbildung 6 zeigt die Entwicklung der Parameterschätzung während typischer Ausführung:

  • Anfangs RMA-Schätzung hochgradig unsicher und vom wahren Wert abweichend
  • Mit fortgesetztem Kontakt sinkt Unsicherheit, Fusionsschätzung konvergiert zum wahren Wert
  • Nach Kontaktende steigt Unsicherheit wieder an mangels neuer Information

Experimentelle Erkenntnisse

  1. Wert der Physikparameterschätzung: Genaue Physikparameterschätzung verbessert Manipulationsleistung signifikant
  2. Notwendigkeit der Fusion: VLM und Interaktionsinformation sind unerlässlich, einzelne Verwendung führt zu drastischem Leistungsabfall
  3. Bedeutung der Unsicherheitsgerichtetheit: Effektive Informationsfusion durch Unsicherheitsgewichtung
  4. Robustheit: Zeigt starke Robustheit gegenüber ungenauen VLM-Schätzungen

Verwandte Arbeiten

Domain Randomization und Systemidentifikation

Traditionelle Methoden trainieren robuste Richtlinien durch Randomisierung von Simulationsdynamik, verwenden aber oft gemittelte Verhaltensweisen auf Kosten der Leistung. Systemidentifikationsmethoden erfordern manuelle Parameteranpassung und erzeugen statische Modelle.

Online-Richtlinienadaptation

Methoden wie RMA funktionieren gut in Szenen mit kontinuierlichem Kontakt (wie Lokomotion), sehen sich aber in allgemeinen Manipulationsaufgaben mit intermittierentem Kontakt Herausforderungen gegenüber. Dieses Paper adressiert dies durch VLM-Priors und unsicherheitsgerichtete Fusion.

Digitale Zwillinge und Rendering

NeRF und GSplat können hochgetreue 3D-Szenen rekonstruieren, aber bestehende digitale Zwillinge konzentrieren sich auf visuelle Wiedergabetreue und ignorieren Physikattribute. Dieses Paper erstellt physik-informierte digitale Zwillinge.

VLM-Physikinterpretation

Neuere Arbeiten zeigen VLM-Physikinterpretationsfähigkeiten, hauptsächlich für hochrangige Planung. Dieses Paper integriert erstmals VLM-Physikparameterschätzung direkt in niederfrequente Kontrollrichtlinien.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Phys2Real demonstriert erfolgreich die Effektivität der Kombination von VLM-visueller Interpretation mit interaktiver Adaptation und zeigt signifikante Verbesserungen gegenüber Domain-Randomization-Baselines bei mehreren Manipulationsaufgaben. Der unsicherheitsgerichtete Fusionsmechanismus ermöglicht dem System, Gewichte basierend auf Zuverlässigkeit verschiedener Informationsquellen dynamisch anzupassen.

Limitierungen

  1. Symmetrieannahme: Rekonstruktions-Pipeline funktioniert optimal bei näherungsweise symmetrischen Objekten, Spiegelung kann echte Form nicht-symmetrischer Objekte verzerren
  2. VLM-Schätzungsverzerrung: VLMs neigen dazu, zum geometrischen Zentrum zu verschieben, können physikalisch inkonsistente Schätzungen erzeugen
  3. Aufgabenkomplexität: Aktuelle validierte Aufgaben sind relativ einfach, Generalisierung zu komplexeren Operationen unklar
  4. Wahrnehmungsabhängigkeit: Abhängig von Motion-Capture-System, Übergang zu reiner visueller Wahrnehmung ist zukünftige Richtung

Zukünftige Richtungen

  1. Erweiterung auf Rekonstruktionsstrategien für nicht-symmetrische Objekte
  2. Ersatz von Motion Capture durch wahrnehmungsbasiertes Tracking
  3. Validierung bei komplexeren Manipulationsaufgaben
  4. Erkundung der Schätzung anderer Physikparameter (wie Reibung, Steifigkeit)

Tiefgehende Bewertung

Stärken

  1. Starke Innovativität: Erstmals organische Fusion von VLM-Physikinterpretation mit RMA-Adaptation, eröffnet neue Forschungsrichtung
  2. Vernünftige technische Lösung: Unsicherheitszerlegung und inverse Varianzgewichtungsfusion haben theoretische Grundlagen
  3. Umfassende Experimente: Mehrtask-, Multikonfigurationsauswertung, Ablationsstudien offenbaren Komponentenbeiträge
  4. Hoher praktischer Wert: Bietet neue Lösungsansätze für Sim-zu-Real-Transfer

Mängel

  1. Begrenzte Aufgabenreichweite: Nur ebene Schiebaufgaben validiert, Generalisierung zu komplexeren Operationen unklar
  2. VLM-Abhängigkeit: Stark abhängig von VLM-Physikinterpretationsfähigkeiten, möglicherweise systematische Verzerrungen
  3. Rechenlast: Ensemble-Methoden und VLM-Abfragen können zusätzliche Rechenlast verursachen
  4. Unzureichende theoretische Analyse: Fehlt Konvergenzanalyse der Fusionsstrategie

Auswirkungen

Diese Arbeit leistet wichtige Beiträge zum Robotiklernbereich und demonstriert Anwendungspotenzial von Grundmodellen in niederfrequenter Kontrolle. Erwartet wird, dass sie mehr Forschung zu Kombination visueller Interpretation mit interaktivem Lernen inspiriert und Sim-zu-Real-Transfertechnologie vorantreibt.

Anwendungsszenarien

  • Manipulationsaufgaben mit präziser Physikmodellierung erforderlich
  • Szenarien mit unbekannten oder variablen Objektphysikattributen
  • Nicht-Greif-Operationen mit intermittierentem Kontakt
  • Anwendungen mit schneller Anpassung an neue Objekte erforderlich

Referenzen

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.


Gesamtbewertung: Dies ist ein hochqualitatives Robotiklernpaper, das innovativ mehrere Spitzentechnologien kombiniert und eine neuartige und effektive Lösung für das Sim-zu-Real-Transferproblem bietet. Trotz einiger Limitierungen erreichen technische Beiträge und experimentelle Validierung hohe Standards mit bedeutendem akademischen Wert und Anwendungsperspektive.