Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic
Phys2Real: Fusione di Priori VLM con Adattamento Online Interattivo per Manipolazione Sim-to-Real Consapevole dell'Incertezza
Il presente articolo propone Phys2Real, una pipeline di apprendimento per rinforzo real-to-sim-to-real che combina la stima dei parametri fisici basata su modelli di linguaggio visivo (VLM) con l'adattamento online interattivo, affrontando le sfide del trasferimento sim-to-real nella manipolazione robotica attraverso una fusione consapevole dell'incertezza. Il metodo comprende tre componenti fondamentali: (1) ricostruzione geometrica ad alta fedeltà basata su Gaussian Splatting 3D, (2) distribuzioni a priori dei parametri fisici dedotte da VLM, (3) stima online dei parametri fisici basata su dati interattivi. Nei compiti di spinta planare con blocchi a forma di T e martelli, Phys2Real raggiunge miglioramenti significativi rispetto alla linea di base della randomizzazione di dominio: blocco a forma di T con peso inferiore 100% vs 79%, blocco a forma di T con peso superiore 57% vs 23%, compito di spinta del martello con tempo medio di completamento 15% più veloce.
Il trasferimento delle strategie di manipolazione robotica dalla simulazione al mondo reale rimane una sfida fondamentale, in particolare per compiti che richiedono dinamiche precise. Sebbene i metodi tradizionali di randomizzazione di dominio (Domain Randomization, DR) forniscano robustezza, spesso adottano comportamenti medi per impostazione predefinita, incapaci di adattarsi alle variazioni delle proprietà fisiche specifiche degli oggetti.
Gli esseri umani dimostrano comportamenti esplorativi eccezionali quando manipolano nuovi oggetti: inizialmente formano giudizi preliminari sulle proprietà fisiche degli oggetti basati sull'aspetto visivo, quindi affinano queste stime attraverso l'interazione. Ispirato da questo, il presente lavoro mira a fornire ai robot capacità simili, combinando il ragionamento fisico visivo con l'apprendimento interattivo per migliorare le prestazioni di manipolazione in ambienti reali.
Fusione di priori VLM consapevoli dell'incertezza con adattamento interattivo: dimostra per la prima volta che i VLM possono fornire stime dei parametri fisici (come il baricentro) e combinarle con stime basate su interazione per il controllo in anello chiuso a basso livello in tempo reale
Quantificazione dell'incertezza basata su ensemble: scompone l'incertezza in incertezza epistemica e aleatoria, fondendo priori VLM e stime interattive attraverso ponderazione della varianza inversa
Gemello digitale informato dalla fisica: combina la ricostruzione con Gaussian Splatting 3D con la stima online degli attributi fisici, creando gemelli digitali contenenti informazioni geometriche e fisiche
Il presente articolo studia compiti di manipolazione non-grasping, dove il robot deve manipolare oggetti con diverse proprietà fisiche (come baricentro, coefficiente di attrito) verso posizioni e orientamenti target attraverso spinte. Gli input includono la posa dell'oggetto, la posizione dell'end-effector del robot e i parametri fisici stimati, mentre l'output è la variazione della posizione dell'end-effector.
Fase 1: La strategia viene addestrata condizionata ai parametri fisici reali
Fase 1.5: Messa a punto della strategia utilizzando parametri fisici rumorosi, stabilendo robustezza alle stime rumorose a valle
Fase 2: Addestramento di un ensemble di N=10 modelli di adattamento, prevedendo parametri fisici dalla cronologia osservazione-azione
Parametri fisici interpretabili: condizionamento diretto ai parametri fisici piuttosto che a variabili latenti apprese, consentendo la fusione diretta delle stime VLM
Fusione dell'incertezza da due fonti: quando l'incertezza della cronologia interattiva è elevata, si affida maggiormente alle stime VLM, e viceversa
Scomposizione dell'incertezza dell'ensemble: separa l'incertezza del modello dall'incertezza dei dati, fornendo stime di incertezza più precise
Solo stima VLM: 4,76% tasso di successo (peso superiore)
Solo RMA: 14,29% tasso di successo (peso superiore)
Fusione Phys2Real: 57,14% tasso di successo
I risultati dimostrano che la combinazione di informazioni VLM e interattive è cruciale per il successo, con prestazioni scadenti quando utilizzate singolarmente.
Valore della stima dei parametri fisici: la stima accurata dei parametri fisici migliora significativamente le prestazioni di manipolazione
Necessità della fusione: le informazioni VLM e interattive sono entrambe essenziali, con prestazioni drasticamente ridotte quando utilizzate singolarmente
Importanza della consapevolezza dell'incertezza: la ponderazione basata sull'incertezza ha realizzato una fusione efficace delle informazioni
Robustezza: mostra forte robustezza rispetto alle stime VLM imprecise
I metodi tradizionali addestrano strategie robuste attraverso la randomizzazione della dinamica di simulazione, ma spesso adottano comportamenti medi sacrificando le prestazioni. I metodi di identificazione del sistema richiedono regolazione manuale dei parametri e producono modelli statici.
Metodi come RMA funzionano bene in scenari di contatto continuo (come la locomozione), ma affrontano sfide nel contatto intermittente dei compiti di manipolazione generale. Il presente articolo risolve questo problema attraverso priori VLM e fusione consapevole dell'incertezza.
NeRF e GSplat possono ricostruire scene 3D ad alta fedeltà, ma i gemelli digitali esistenti si concentrano sulla fedeltà visiva, trascurando le proprietà fisiche. Il presente articolo crea gemelli digitali contenenti informazioni fisiche.
Lavori recenti hanno dimostrato le capacità di ragionamento fisico dei VLM, ma principalmente per la pianificazione di alto livello. Il presente articolo integra per la prima volta la stima dei parametri fisici VLM direttamente nelle strategie di controllo a basso livello.
Phys2Real dimostra con successo l'efficacia della combinazione del ragionamento visivo VLM con l'adattamento interattivo, raggiungendo miglioramenti significativi rispetto alla linea di base della randomizzazione di dominio in molteplici compiti di manipolazione. Il meccanismo di fusione consapevole dell'incertezza consente al sistema di regolare dinamicamente i pesi in base all'affidabilità di ciascuna fonte di informazione.
Assunzione di simmetria: la pipeline di ricostruzione funziona meglio con oggetti approssimativamente simmetrici, il mirroring potrebbe distorcere la vera forma di oggetti asimmetrici
Bias nella stima VLM: i VLM tendono a spostarsi verso il centro geometrico, potendo produrre stime fisicamente incoerenti
Complessità del compito: i compiti verificati attualmente sono relativamente semplici, la generalizzabilità a operazioni più complesse rimane da verificare
Dipendenza dalla percezione: dipende dal sistema di cattura del movimento, il trasferimento verso la percezione puramente visiva è una direzione futura
Questo lavoro fornisce contributi importanti al campo dell'apprendimento robotico, dimostrando il potenziale di applicazione dei modelli fondamentali nel controllo a basso livello. Si prevede di ispirare più ricerche che combinano il ragionamento visivo con l'apprendimento interattivo, promuovendo lo sviluppo della tecnologia di trasferimento sim-to-real.
1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'apprendimento robotico, che combina innovativamente molteplici tecnologie all'avanguardia, fornendo una soluzione nuova ed efficace al problema del trasferimento sim-to-real. Sebbene presenti alcune limitazioni, i suoi contributi tecnici e la verifica sperimentale raggiungono uno standard elevato, possedendo importante valore accademico e prospettive di applicazione.