2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.

Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .

academic

Phys2Real : Fusion des Priors VLM avec Adaptation Interactive en Ligne pour la Manipulation Sim-to-Real Consciente de l'Incertitude

Informations Fondamentales

ID de l'article : 2510.11689
Titre : Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Auteurs : Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
Institutions : ¹Université Stanford, ²Université de Princeton
Classification : cs.RO (Robotique), cs.AI (Intelligence Artificielle)
Date de publication : 13 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.11689v1

Résumé

Cet article propose Phys2Real, un pipeline d'apprentissage par renforcement real-to-sim-to-real combinant l'estimation des paramètres physiques par modèles de langage visuel (VLM) avec une adaptation interactive en ligne, résolvant les défis du transfert sim-to-real en robotique de manipulation par fusion consciente de l'incertitude. La méthode comprend trois composants fondamentaux : (1) la reconstruction géométrique haute-fidélité basée sur les gaussiennes 3D, (2) les distributions a priori des paramètres physiques déduites par VLM, (3) l'estimation en ligne des paramètres physiques basée sur les données interactives. Sur les tâches de poussée planaire avec des blocs en T et des marteaux, Phys2Real atteint des améliorations significatives par rapport aux lignes de base de randomisation de domaine : bloc en T pondéré en bas 100% vs 79%, bloc en T pondéré en haut 57% vs 23%, tâche de poussée de marteau 15% plus rapide en temps d'exécution moyen.

Contexte et Motivation de la Recherche

Problème Central

Le transfert des stratégies de manipulation robotique de la simulation vers le monde réel demeure un défi fondamental, particulièrement pour les tâches nécessitant une dynamique précise. Les méthodes traditionnelles de randomisation de domaine (Domain Randomization, DR), bien qu'elles fournissent de la robustesse, adoptent souvent un comportement moyenné par défaut, incapable de s'adapter aux variations des propriétés physiques d'objets spécifiques.

Motivation de la Recherche

Les humains démontrent un comportement exploratoire remarquable lors de la manipulation de nouveaux objets : ils forment d'abord un jugement préliminaire sur les propriétés physiques de l'objet basé sur son apparence visuelle, puis affinent ces estimations par l'interaction. Inspiré par cette observation, cet article vise à doter les robots de capacités similaires, en combinant le raisonnement physique visuel avec l'apprentissage interactif pour améliorer la performance de manipulation en environnement réel.

Limitations des Approches Existantes

Randomisation de domaine : Entraîne des stratégies robustes mais sacrifie la performance, incapable de s'adapter aux variations spécifiques aux objets
Identification de systèmes : Nécessite un ajustement manuel des paramètres, produit des modèles statiques
Adaptation de stratégie en ligne : Fait face à des défis dans les scénarios de contact intermittent, manque d'informations a priori externes
Jumeaux numériques : Se concentre sur la fidélité visuelle, néglige les propriétés physiques

Contributions Fondamentales

Fusion de priors VLM conscients de l'incertitude avec adaptation interactive : Première démonstration que les VLMs peuvent fournir des estimations de paramètres physiques (comme le centre de masse) et être combinés avec des estimations basées sur l'interaction pour le contrôle en boucle fermée bas niveau en temps réel
Quantification de l'incertitude basée sur l'ensemble : Décompose l'incertitude en incertitude épistémique et incertitude aléatoire, fusionnant les priors VLM et les estimations interactives par pondération par variance inverse
Jumeau numérique informé par la physique : Combine la reconstruction par gaussiennes 3D avec l'estimation en ligne des propriétés physiques, créant un jumeau numérique contenant les informations géométriques et physiques

Détails de la Méthode

Définition de la Tâche

Cet article étudie les tâches de manipulation sans préhension, où le robot doit manipuler des objets ayant des propriétés physiques différentes (comme le centre de masse, le coefficient de friction) jusqu'à une position et orientation cibles par poussée. Les entrées incluent la pose de l'objet, la position de l'effecteur terminal du robot et les paramètres physiques estimés, les sorties étant les variations de position de l'effecteur terminal.

Architecture du Modèle

1. Reconstruction de Scène Real-to-Sim

Utilise SAM-2 pour segmenter l'objet cible
Entraîne un modèle de gaussiennes 3D (GSplat)
Extrait un maillage aligné à la surface via SuGaR
Génère des ressources de maillage étanche prêtes pour la simulation

2. Apprentissage de Stratégie Conditionnée par Paramètres Physiques

Adopte un paradigme d'entraînement en trois phases :

Phase 1 : La stratégie est entraînée conditionnée par les paramètres physiques réels Phase 1.5 : Affinage de la stratégie avec des paramètres physiques bruyants, établissant la robustesse aux estimations bruyantes en aval Phase 2 : Entraînement d'un ensemble de N=10 modèles d'adaptation, prédisant les paramètres physiques à partir de l'historique observation-action

3. Quantification et Fusion de l'Incertitude

Estimation VLM (θ_vlm, σ_vlm):

Interroge GPT-5 pour estimer les paramètres physiques pertinents à la tâche
Interroge M fois pour N images, calcule la moyenne agrégée et l'incertitude

Estimation RMA (θ_rma, σ_rma):

Incertitude épistémique : σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
Incertitude aléatoire : σ²_aleatoric = (1/N)∑σᵢ²
Incertitude RMA totale : σ²_rma = σ²_epistemic + σ²_aleatoric

Fusion par pondération par variance inverse :

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

Points d'Innovation Technique

Paramètres physiques interprétables : Conditionnement direct par paramètres physiques plutôt que par variables latentes apprises, permettant l'intégration directe des estimations VLM
Fusion d'incertitude bi-source : Dépend davantage des estimations VLM lorsque l'incertitude de l'historique interactif est élevée, et inversement
Décomposition de l'incertitude d'ensemble : Sépare l'incertitude du modèle et l'incertitude des données, fournissant une estimation d'incertitude plus précise

Configuration Expérimentale

Tâches Expérimentales

Poussée de bloc en T : Modification du centre de masse en plaçant des poids métalliques de 143 grammes à différentes positions, test de deux configurations
- Poids en haut : centre de masse +6,1 cm, plus difficile
- Poids en bas : centre de masse -0,7 cm, relativement simple
Poussée de marteau : Centre de masse proche de la tête du marteau, produisant une dynamique de mouvement complexe

Métriques d'Évaluation

Taux de succès : erreur de position <3 cm et erreur d'orientation <20°
Erreur de position finale (cm)
Erreur d'orientation finale (degrés)
Temps d'exécution de la tâche (secondes)

Méthodes de Comparaison

Domain Randomization (DR) : Ligne de base standard de randomisation de domaine
Diffusion Policy : Ligne de base d'apprentissage supervisé fort
RMA-only : Utilisant uniquement le modèle d'adaptation
Physics-conditioned VLM : Utilisant uniquement l'estimation VLM
Physics-conditioned privileged : Ligne de base privilégiée utilisant les paramètres physiques réels

Détails d'Implémentation

Utilise le bras robotique 6-DOF UFactory xArm
Entraînement PPO, 4096 environnements parallèles
Architecture actor-critic asymétrique
Système de capture de mouvement pour l'obtention de poses d'objets précises

Résultats Expérimentaux

Résultats Principaux

Poussée de bloc en T (poids en bas) :

Phys2Real : 100% de taux de succès, erreur de position 1,76±0,54 cm
Ligne de base DR : 79,17% de taux de succès, erreur de position 7,14±11,34 cm
Ligne de base privilégiée : 95,83% de taux de succès, erreur de position 1,92±0,50 cm

Poussée de bloc en T (poids en haut, plus difficile) :

Phys2Real : 57,14% de taux de succès, erreur de position 2,60±0,90 cm
Ligne de base DR : 23,81% de taux de succès, erreur de position 6,00±5,78 cm
Ligne de base privilégiée : 90,48% de taux de succès, erreur de position 1,90±0,98 cm

Poussée de marteau :

Phys2Real et DR atteignent tous deux 100% de taux de succès
Temps d'exécution moyen Phys2Real : 77,79±44,08 secondes
Temps d'exécution moyen DR : 90,65±42,03 secondes, amélioration de 14,2%

Études d'Ablation

VLM vs RMA utilisés séparément :

Estimation VLM uniquement : 4,76% de taux de succès (poids en haut)
RMA uniquement : 14,29% de taux de succès (poids en haut)
Fusion Phys2Real : 57,14% de taux de succès

Les résultats démontrent que la combinaison des informations VLM et interactives est cruciale pour le succès, aucune utilisation isolée ne pouvant atteindre une bonne performance.

Analyse de Cas

La Figure 6 montre l'évolution de l'estimation des paramètres au cours d'une exécution typique :

Au début, l'estimation RMA présente une incertitude élevée et s'écarte de la vraie valeur
Avec la poursuite du contact, l'incertitude diminue et l'estimation fusionnée converge vers la vraie valeur
Après la fin du contact, l'incertitude augmente à nouveau en raison du manque d'informations nouvelles

Résultats Expérimentaux

Valeur de l'estimation des paramètres physiques : L'estimation précise des paramètres physiques améliore significativement la performance de manipulation
Nécessité de la fusion : Les informations VLM et interactives sont indispensables, leur utilisation isolée entraîne une chute drastique de performance
Importance de la conscience de l'incertitude : La fusion pondérée par l'incertitude réalise une fusion d'informations efficace
Robustesse : Montre une robustesse considérable face aux estimations VLM inexactes

Travaux Connexes

Randomisation de Domaine et Identification de Systèmes

Les méthodes traditionnelles entraînent des stratégies robustes par randomisation de la dynamique de simulation, mais adoptent souvent un comportement moyenné sacrifiant la performance. Les méthodes d'identification de systèmes nécessitent un ajustement manuel des paramètres et produisent des modèles statiques.

Adaptation de Stratégie en Ligne

Les méthodes comme RMA fonctionnent bien dans les scénarios de contact continu (comme la locomotion), mais font face à des défis dans les contacts intermittents des tâches de manipulation générales. Cet article résout ce problème par des priors VLM et une fusion consciente de l'incertitude.

Jumeaux Numériques et Rendu

NeRF et GSplat peuvent reconstruire des scènes 3D haute-fidélité, mais les jumeaux numériques existants se concentrent sur la fidélité visuelle, négligeant les propriétés physiques. Cet article crée un jumeau numérique contenant des informations physiques.

Raisonnement Physique des VLMs

Les travaux récents démontrent les capacités de raisonnement physique des VLMs, mais les utilisent principalement pour la planification haut niveau. Cet article intègre pour la première fois l'estimation des paramètres physiques VLM directement dans les stratégies de contrôle bas niveau.

Conclusion et Discussion

Conclusions Principales

Phys2Real démontre avec succès l'efficacité de la combinaison du raisonnement visuel VLM avec l'adaptation interactive, surpassant significativement les lignes de base de randomisation de domaine sur plusieurs tâches de manipulation. Le mécanisme de fusion consciente de l'incertitude permet au système d'ajuster dynamiquement les poids selon la fiabilité de chaque source d'information.

Limitations

Hypothèse de symétrie : Le pipeline de reconstruction fonctionne mieux sur les objets approximativement symétriques, la mise en miroir pouvant déformer la vraie forme des objets non symétriques
Biais d'estimation VLM : Les VLMs tendent à se décaler vers le centre géométrique, pouvant produire des estimations physiquement incohérentes
Complexité des tâches : La validation actuelle porte sur des tâches relativement simples, la généralisation à des opérations plus complexes reste à vérifier
Dépendance perceptuelle : Dépend du système de capture de mouvement, la transition vers la perception pure est une direction future

Directions Futures

Étendre les stratégies de reconstruction aux objets non symétriques
Remplacer la capture de mouvement par un suivi basé sur la perception
Valider la performance sur des tâches de manipulation plus complexes
Explorer l'estimation d'autres paramètres physiques (comme la friction, la rigidité)

Évaluation Approfondie

Points Forts

Innovation forte : Première fusion organique du raisonnement physique VLM avec l'adaptation RMA, ouvrant une nouvelle direction de recherche
Solution technique raisonnable : La décomposition de l'incertitude et la fusion par pondération par variance inverse ont une base théorique
Expérimentation complète : Évaluation exhaustive multi-tâches et multi-configurations, les études d'ablation révèlent les contributions de chaque composant
Valeur pratique élevée : Fournit une nouvelle approche pour résoudre le problème du transfert sim-to-real

Insuffisances

Portée des tâches limitée : Validation uniquement sur des tâches de poussée planaire, la généralisation à des opérations complexes est inconnue
Dépendance aux VLMs : Dépend fortement des capacités de raisonnement physique des VLMs, peut présenter des biais systématiques
Surcharge computationnelle : Les méthodes d'ensemble et les interrogations VLM peuvent entraîner des coûts computationnels supplémentaires
Analyse théorique insuffisante : Manque d'analyse théorique de la convergence de la stratégie de fusion

Impact

Cet ouvrage apporte une contribution importante au domaine de la robotique, démontrant le potentiel des modèles fondamentaux dans le contrôle bas niveau. On s'attend à ce qu'il inspire davantage de recherches combinant le raisonnement visuel et l'apprentissage interactif, promouvant le développement de la technologie de transfert sim-to-real.

Scénarios Applicables

Tâches de manipulation nécessitant une modélisation physique précise
Scénarios où les propriétés physiques des objets sont inconnues ou variables
Manipulation sans préhension avec contact intermittent
Applications nécessitant une adaptation rapide à de nouveaux objets

Références

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.

Évaluation Globale : Ceci est un article de haute qualité en robotique et apprentissage, combinant de manière innovante plusieurs technologies de pointe, fournissant une solution nouvelle et efficace au problème du transfert sim-to-real. Malgré certaines limitations, ses contributions techniques et sa validation expérimentale atteignent un niveau élevé, possédant une valeur académique et des perspectives d'application importantes.