Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic
Phys2Real : Fusion des Priors VLM avec Adaptation Interactive en Ligne pour la Manipulation Sim-to-Real Consciente de l'Incertitude
Cet article propose Phys2Real, un pipeline d'apprentissage par renforcement real-to-sim-to-real combinant l'estimation des paramètres physiques par modèles de langage visuel (VLM) avec une adaptation interactive en ligne, résolvant les défis du transfert sim-to-real en robotique de manipulation par fusion consciente de l'incertitude. La méthode comprend trois composants fondamentaux : (1) la reconstruction géométrique haute-fidélité basée sur les gaussiennes 3D, (2) les distributions a priori des paramètres physiques déduites par VLM, (3) l'estimation en ligne des paramètres physiques basée sur les données interactives. Sur les tâches de poussée planaire avec des blocs en T et des marteaux, Phys2Real atteint des améliorations significatives par rapport aux lignes de base de randomisation de domaine : bloc en T pondéré en bas 100% vs 79%, bloc en T pondéré en haut 57% vs 23%, tâche de poussée de marteau 15% plus rapide en temps d'exécution moyen.
Le transfert des stratégies de manipulation robotique de la simulation vers le monde réel demeure un défi fondamental, particulièrement pour les tâches nécessitant une dynamique précise. Les méthodes traditionnelles de randomisation de domaine (Domain Randomization, DR), bien qu'elles fournissent de la robustesse, adoptent souvent un comportement moyenné par défaut, incapable de s'adapter aux variations des propriétés physiques d'objets spécifiques.
Les humains démontrent un comportement exploratoire remarquable lors de la manipulation de nouveaux objets : ils forment d'abord un jugement préliminaire sur les propriétés physiques de l'objet basé sur son apparence visuelle, puis affinent ces estimations par l'interaction. Inspiré par cette observation, cet article vise à doter les robots de capacités similaires, en combinant le raisonnement physique visuel avec l'apprentissage interactif pour améliorer la performance de manipulation en environnement réel.
Fusion de priors VLM conscients de l'incertitude avec adaptation interactive : Première démonstration que les VLMs peuvent fournir des estimations de paramètres physiques (comme le centre de masse) et être combinés avec des estimations basées sur l'interaction pour le contrôle en boucle fermée bas niveau en temps réel
Quantification de l'incertitude basée sur l'ensemble : Décompose l'incertitude en incertitude épistémique et incertitude aléatoire, fusionnant les priors VLM et les estimations interactives par pondération par variance inverse
Jumeau numérique informé par la physique : Combine la reconstruction par gaussiennes 3D avec l'estimation en ligne des propriétés physiques, créant un jumeau numérique contenant les informations géométriques et physiques
Cet article étudie les tâches de manipulation sans préhension, où le robot doit manipuler des objets ayant des propriétés physiques différentes (comme le centre de masse, le coefficient de friction) jusqu'à une position et orientation cibles par poussée. Les entrées incluent la pose de l'objet, la position de l'effecteur terminal du robot et les paramètres physiques estimés, les sorties étant les variations de position de l'effecteur terminal.
Adopte un paradigme d'entraînement en trois phases :
Phase 1 : La stratégie est entraînée conditionnée par les paramètres physiques réels
Phase 1.5 : Affinage de la stratégie avec des paramètres physiques bruyants, établissant la robustesse aux estimations bruyantes en aval
Phase 2 : Entraînement d'un ensemble de N=10 modèles d'adaptation, prédisant les paramètres physiques à partir de l'historique observation-action
Paramètres physiques interprétables : Conditionnement direct par paramètres physiques plutôt que par variables latentes apprises, permettant l'intégration directe des estimations VLM
Fusion d'incertitude bi-source : Dépend davantage des estimations VLM lorsque l'incertitude de l'historique interactif est élevée, et inversement
Décomposition de l'incertitude d'ensemble : Sépare l'incertitude du modèle et l'incertitude des données, fournissant une estimation d'incertitude plus précise
Poussée de bloc en T : Modification du centre de masse en plaçant des poids métalliques de 143 grammes à différentes positions, test de deux configurations
Poids en haut : centre de masse +6,1 cm, plus difficile
Poids en bas : centre de masse -0,7 cm, relativement simple
Poussée de marteau : Centre de masse proche de la tête du marteau, produisant une dynamique de mouvement complexe
Estimation VLM uniquement : 4,76% de taux de succès (poids en haut)
RMA uniquement : 14,29% de taux de succès (poids en haut)
Fusion Phys2Real : 57,14% de taux de succès
Les résultats démontrent que la combinaison des informations VLM et interactives est cruciale pour le succès, aucune utilisation isolée ne pouvant atteindre une bonne performance.
Valeur de l'estimation des paramètres physiques : L'estimation précise des paramètres physiques améliore significativement la performance de manipulation
Nécessité de la fusion : Les informations VLM et interactives sont indispensables, leur utilisation isolée entraîne une chute drastique de performance
Importance de la conscience de l'incertitude : La fusion pondérée par l'incertitude réalise une fusion d'informations efficace
Robustesse : Montre une robustesse considérable face aux estimations VLM inexactes
Les méthodes traditionnelles entraînent des stratégies robustes par randomisation de la dynamique de simulation, mais adoptent souvent un comportement moyenné sacrifiant la performance. Les méthodes d'identification de systèmes nécessitent un ajustement manuel des paramètres et produisent des modèles statiques.
Les méthodes comme RMA fonctionnent bien dans les scénarios de contact continu (comme la locomotion), mais font face à des défis dans les contacts intermittents des tâches de manipulation générales. Cet article résout ce problème par des priors VLM et une fusion consciente de l'incertitude.
NeRF et GSplat peuvent reconstruire des scènes 3D haute-fidélité, mais les jumeaux numériques existants se concentrent sur la fidélité visuelle, négligeant les propriétés physiques. Cet article crée un jumeau numérique contenant des informations physiques.
Les travaux récents démontrent les capacités de raisonnement physique des VLMs, mais les utilisent principalement pour la planification haut niveau. Cet article intègre pour la première fois l'estimation des paramètres physiques VLM directement dans les stratégies de contrôle bas niveau.
Phys2Real démontre avec succès l'efficacité de la combinaison du raisonnement visuel VLM avec l'adaptation interactive, surpassant significativement les lignes de base de randomisation de domaine sur plusieurs tâches de manipulation. Le mécanisme de fusion consciente de l'incertitude permet au système d'ajuster dynamiquement les poids selon la fiabilité de chaque source d'information.
Hypothèse de symétrie : Le pipeline de reconstruction fonctionne mieux sur les objets approximativement symétriques, la mise en miroir pouvant déformer la vraie forme des objets non symétriques
Biais d'estimation VLM : Les VLMs tendent à se décaler vers le centre géométrique, pouvant produire des estimations physiquement incohérentes
Complexité des tâches : La validation actuelle porte sur des tâches relativement simples, la généralisation à des opérations plus complexes reste à vérifier
Dépendance perceptuelle : Dépend du système de capture de mouvement, la transition vers la perception pure est une direction future
Innovation forte : Première fusion organique du raisonnement physique VLM avec l'adaptation RMA, ouvrant une nouvelle direction de recherche
Solution technique raisonnable : La décomposition de l'incertitude et la fusion par pondération par variance inverse ont une base théorique
Expérimentation complète : Évaluation exhaustive multi-tâches et multi-configurations, les études d'ablation révèlent les contributions de chaque composant
Valeur pratique élevée : Fournit une nouvelle approche pour résoudre le problème du transfert sim-to-real
Cet ouvrage apporte une contribution importante au domaine de la robotique, démontrant le potentiel des modèles fondamentaux dans le contrôle bas niveau. On s'attend à ce qu'il inspire davantage de recherches combinant le raisonnement visuel et l'apprentissage interactif, promouvant le développement de la technologie de transfert sim-to-real.
1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
Évaluation Globale : Ceci est un article de haute qualité en robotique et apprentissage, combinant de manière innovante plusieurs technologies de pointe, fournissant une solution nouvelle et efficace au problème du transfert sim-to-real. Malgré certaines limitations, ses contributions techniques et sa validation expérimentale atteignent un niveau élevé, possédant une valeur académique et des perspectives d'application importantes.