2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.

Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .

academic

Phys2Real: Fusione di Priori VLM con Adattamento Online Interattivo per Manipolazione Sim-to-Real Consapevole dell'Incertezza

Informazioni Fondamentali

ID Articolo: 2510.11689
Titolo: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Autori: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
Istituzioni: ¹Stanford University, ²Princeton University
Classificazione: cs.RO (Robotica), cs.AI (Intelligenza Artificiale)
Data di Pubblicazione: 13 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.11689v1

Riassunto

Il presente articolo propone Phys2Real, una pipeline di apprendimento per rinforzo real-to-sim-to-real che combina la stima dei parametri fisici basata su modelli di linguaggio visivo (VLM) con l'adattamento online interattivo, affrontando le sfide del trasferimento sim-to-real nella manipolazione robotica attraverso una fusione consapevole dell'incertezza. Il metodo comprende tre componenti fondamentali: (1) ricostruzione geometrica ad alta fedeltà basata su Gaussian Splatting 3D, (2) distribuzioni a priori dei parametri fisici dedotte da VLM, (3) stima online dei parametri fisici basata su dati interattivi. Nei compiti di spinta planare con blocchi a forma di T e martelli, Phys2Real raggiunge miglioramenti significativi rispetto alla linea di base della randomizzazione di dominio: blocco a forma di T con peso inferiore 100% vs 79%, blocco a forma di T con peso superiore 57% vs 23%, compito di spinta del martello con tempo medio di completamento 15% più veloce.

Contesto di Ricerca e Motivazione

Problema Fondamentale

Il trasferimento delle strategie di manipolazione robotica dalla simulazione al mondo reale rimane una sfida fondamentale, in particolare per compiti che richiedono dinamiche precise. Sebbene i metodi tradizionali di randomizzazione di dominio (Domain Randomization, DR) forniscano robustezza, spesso adottano comportamenti medi per impostazione predefinita, incapaci di adattarsi alle variazioni delle proprietà fisiche specifiche degli oggetti.

Motivazione della Ricerca

Gli esseri umani dimostrano comportamenti esplorativi eccezionali quando manipolano nuovi oggetti: inizialmente formano giudizi preliminari sulle proprietà fisiche degli oggetti basati sull'aspetto visivo, quindi affinano queste stime attraverso l'interazione. Ispirato da questo, il presente lavoro mira a fornire ai robot capacità simili, combinando il ragionamento fisico visivo con l'apprendimento interattivo per migliorare le prestazioni di manipolazione in ambienti reali.

Limitazioni dei Metodi Esistenti

Randomizzazione di dominio: addestra strategie robuste ma sacrifica le prestazioni, incapace di adattarsi alle variazioni specifiche degli oggetti
Identificazione del sistema: richiede regolazione manuale dei parametri, produce modelli statici
Adattamento della strategia online: affronta sfide in scenari di contatto intermittente, manca di informazioni a priori esterne
Gemelli digitali: si concentra sulla fedeltà visiva, trascura le proprietà fisiche

Contributi Fondamentali

Fusione di priori VLM consapevoli dell'incertezza con adattamento interattivo: dimostra per la prima volta che i VLM possono fornire stime dei parametri fisici (come il baricentro) e combinarle con stime basate su interazione per il controllo in anello chiuso a basso livello in tempo reale
Quantificazione dell'incertezza basata su ensemble: scompone l'incertezza in incertezza epistemica e aleatoria, fondendo priori VLM e stime interattive attraverso ponderazione della varianza inversa
Gemello digitale informato dalla fisica: combina la ricostruzione con Gaussian Splatting 3D con la stima online degli attributi fisici, creando gemelli digitali contenenti informazioni geometriche e fisiche

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il presente articolo studia compiti di manipolazione non-grasping, dove il robot deve manipolare oggetti con diverse proprietà fisiche (come baricentro, coefficiente di attrito) verso posizioni e orientamenti target attraverso spinte. Gli input includono la posa dell'oggetto, la posizione dell'end-effector del robot e i parametri fisici stimati, mentre l'output è la variazione della posizione dell'end-effector.

Architettura del Modello

1. Ricostruzione della Scena Real-to-Sim

Utilizzo di SAM-2 per la segmentazione dell'oggetto target
Addestramento del modello Gaussian Splatting 3D (GSplat)
Estrazione di mesh allineate alla superficie tramite SuGaR
Generazione di asset mesh impermeabili pronti per la simulazione

2. Apprendimento della Strategia Condizionata ai Parametri Fisici

Adotta un paradigma di addestramento in tre fasi:

Fase 1: La strategia viene addestrata condizionata ai parametri fisici reali Fase 1.5: Messa a punto della strategia utilizzando parametri fisici rumorosi, stabilendo robustezza alle stime rumorose a valle Fase 2: Addestramento di un ensemble di N=10 modelli di adattamento, prevedendo parametri fisici dalla cronologia osservazione-azione

3. Quantificazione e Fusione dell'Incertezza

Stima VLM (θ_vlm, σ_vlm):

Query a GPT-5 per stimare parametri fisici rilevanti per il compito
Query M volte per N immagini, calcolo della media aggregata e dell'incertezza

Stima RMA (θ_rma, σ_rma):

Incertezza epistemica: σ²_epistemica = (1/N)∑(θᵢ - θ_rma)²
Incertezza aleatoria: σ²_aleatoria = (1/N)∑σᵢ²
Incertezza RMA totale: σ²_rma = σ²_epistemica + σ²_aleatoria

Fusione con Ponderazione della Varianza Inversa:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

Punti di Innovazione Tecnica

Parametri fisici interpretabili: condizionamento diretto ai parametri fisici piuttosto che a variabili latenti apprese, consentendo la fusione diretta delle stime VLM
Fusione dell'incertezza da due fonti: quando l'incertezza della cronologia interattiva è elevata, si affida maggiormente alle stime VLM, e viceversa
Scomposizione dell'incertezza dell'ensemble: separa l'incertezza del modello dall'incertezza dei dati, fornendo stime di incertezza più precise

Configurazione Sperimentale

Compiti Sperimentali

Spinta del blocco a forma di T: modifica del baricentro posizionando pesi metallici di 143 grammi in diverse posizioni, test di due configurazioni
- Peso nella parte superiore: baricentro +6,1 cm, più impegnativo
- Peso nella parte inferiore: baricentro -0,7 cm, relativamente semplice
Spinta del martello: baricentro vicino alla testa del martello, produce dinamiche di movimento complesse

Metriche di Valutazione

Tasso di successo: errore di posizione <3 cm e errore di orientamento <20°
Errore di posizione finale (cm)
Errore di orientamento finale (gradi)
Tempo di completamento del compito (secondi)

Metodi di Confronto

Domain Randomization (DR): linea di base standard di randomizzazione di dominio
Diffusion Policy: linea di base di apprendimento supervisionato forte
RMA-only: solo modello di adattamento
Physics-conditioned VLM: solo stima VLM
Physics-conditioned privileged: linea di base privilegiata con parametri fisici reali

Dettagli di Implementazione

Braccio robotico UFactory xArm a 6-DOF
Addestramento PPO, 4096 ambienti paralleli
Architettura actor-critic asimmetrica
Sistema di cattura del movimento per ottenere pose precise degli oggetti

Risultati Sperimentali

Risultati Principali

Spinta del blocco a forma di T (peso inferiore):

Phys2Real: 100% tasso di successo, errore di posizione 1,76±0,54 cm
Linea di base DR: 79,17% tasso di successo, errore di posizione 7,14±11,34 cm
Linea di base privilegiata: 95,83% tasso di successo, errore di posizione 1,92±0,50 cm

Spinta del blocco a forma di T (peso superiore, più impegnativo):

Phys2Real: 57,14% tasso di successo, errore di posizione 2,60±0,90 cm
Linea di base DR: 23,81% tasso di successo, errore di posizione 6,00±5,78 cm
Linea di base privilegiata: 90,48% tasso di successo, errore di posizione 1,90±0,98 cm

Spinta del martello:

Phys2Real e DR raggiungono entrambi 100% tasso di successo
Tempo medio di completamento Phys2Real: 77,79±44,08 secondi
Tempo medio di completamento DR: 90,65±42,03 secondi, miglioramento del 14,2%

Studi di Ablazione

VLM vs RMA utilizzati singolarmente:

Solo stima VLM: 4,76% tasso di successo (peso superiore)
Solo RMA: 14,29% tasso di successo (peso superiore)
Fusione Phys2Real: 57,14% tasso di successo

I risultati dimostrano che la combinazione di informazioni VLM e interattive è cruciale per il successo, con prestazioni scadenti quando utilizzate singolarmente.

Analisi di Casi

La Figura 6 mostra l'evoluzione della stima dei parametri durante l'esecuzione tipica:

Inizialmente la stima RMA è altamente incerta e devia dal valore reale
Con il proseguimento del contatto, l'incertezza diminuisce e la stima fusa converge verso il valore reale
Dopo la fine del contatto, l'incertezza aumenta nuovamente a causa della mancanza di nuove informazioni

Scoperte Sperimentali

Valore della stima dei parametri fisici: la stima accurata dei parametri fisici migliora significativamente le prestazioni di manipolazione
Necessità della fusione: le informazioni VLM e interattive sono entrambe essenziali, con prestazioni drasticamente ridotte quando utilizzate singolarmente
Importanza della consapevolezza dell'incertezza: la ponderazione basata sull'incertezza ha realizzato una fusione efficace delle informazioni
Robustezza: mostra forte robustezza rispetto alle stime VLM imprecise

Lavori Correlati

Randomizzazione di Dominio e Identificazione del Sistema

I metodi tradizionali addestrano strategie robuste attraverso la randomizzazione della dinamica di simulazione, ma spesso adottano comportamenti medi sacrificando le prestazioni. I metodi di identificazione del sistema richiedono regolazione manuale dei parametri e producono modelli statici.

Adattamento della Strategia Online

Metodi come RMA funzionano bene in scenari di contatto continuo (come la locomozione), ma affrontano sfide nel contatto intermittente dei compiti di manipolazione generale. Il presente articolo risolve questo problema attraverso priori VLM e fusione consapevole dell'incertezza.

Gemelli Digitali e Rendering

NeRF e GSplat possono ricostruire scene 3D ad alta fedeltà, ma i gemelli digitali esistenti si concentrano sulla fedeltà visiva, trascurando le proprietà fisiche. Il presente articolo crea gemelli digitali contenenti informazioni fisiche.

Ragionamento Fisico dei VLM

Lavori recenti hanno dimostrato le capacità di ragionamento fisico dei VLM, ma principalmente per la pianificazione di alto livello. Il presente articolo integra per la prima volta la stima dei parametri fisici VLM direttamente nelle strategie di controllo a basso livello.

Conclusioni e Discussione

Conclusioni Principali

Phys2Real dimostra con successo l'efficacia della combinazione del ragionamento visivo VLM con l'adattamento interattivo, raggiungendo miglioramenti significativi rispetto alla linea di base della randomizzazione di dominio in molteplici compiti di manipolazione. Il meccanismo di fusione consapevole dell'incertezza consente al sistema di regolare dinamicamente i pesi in base all'affidabilità di ciascuna fonte di informazione.

Limitazioni

Assunzione di simmetria: la pipeline di ricostruzione funziona meglio con oggetti approssimativamente simmetrici, il mirroring potrebbe distorcere la vera forma di oggetti asimmetrici
Bias nella stima VLM: i VLM tendono a spostarsi verso il centro geometrico, potendo produrre stime fisicamente incoerenti
Complessità del compito: i compiti verificati attualmente sono relativamente semplici, la generalizzabilità a operazioni più complesse rimane da verificare
Dipendenza dalla percezione: dipende dal sistema di cattura del movimento, il trasferimento verso la percezione puramente visiva è una direzione futura

Direzioni Future

Estensione a strategie di ricostruzione per oggetti asimmetrici
Sostituzione della cattura del movimento con tracciamento basato su percezione
Verifica delle prestazioni in compiti di manipolazione più complessi
Esplorazione della stima di altri parametri fisici (come attrito, rigidità)

Valutazione Approfondita

Punti di Forza

Forte innovatività: prima fusione organica del ragionamento fisico VLM con l'adattamento RMA, apre nuove direzioni di ricerca
Soluzione tecnica ragionevole: la scomposizione dell'incertezza e la fusione con ponderazione della varianza inversa hanno fondamenti teorici
Sperimentazione completa: valutazione comprensiva di più compiti e configurazioni, gli studi di ablazione rivelano i contributi di ciascun componente
Alto valore pratico: fornisce nuovi approcci risolutivi per il trasferimento sim-to-real

Insufficienze

Ambito dei compiti limitato: verifica solo compiti di spinta planare, la generalizzabilità a operazioni complesse è sconosciuta
Dipendenza da VLM: dipende fortemente dalle capacità di ragionamento fisico dei VLM, potrebbe presentare bias sistematici
Overhead computazionale: i metodi ensemble e le query VLM potrebbero introdurre costi computazionali aggiuntivi
Analisi teorica insufficiente: manca l'analisi teorica della convergenza della strategia di fusione

Impatto

Questo lavoro fornisce contributi importanti al campo dell'apprendimento robotico, dimostrando il potenziale di applicazione dei modelli fondamentali nel controllo a basso livello. Si prevede di ispirare più ricerche che combinano il ragionamento visivo con l'apprendimento interattivo, promuovendo lo sviluppo della tecnologia di trasferimento sim-to-real.

Scenari Applicabili

Compiti di manipolazione che richiedono modellazione fisica precisa
Scenari con proprietà fisiche degli oggetti sconosciute o variabili
Operazioni non-grasping con contatto intermittente
Applicazioni che richiedono adattamento rapido a nuovi oggetti

Riferimenti Bibliografici

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'apprendimento robotico, che combina innovativamente molteplici tecnologie all'avanguardia, fornendo una soluzione nuova ed efficace al problema del trasferimento sim-to-real. Sebbene presenti alcune limitazioni, i suoi contributi tecnici e la verifica sperimentale raggiungono uno standard elevato, possedendo importante valore accademico e prospettive di applicazione.