Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic
Phys2Real: VLM पूर्वानुमानों को अनिश्चितता-जागरूक सिम-टू-रियल हेराफेरी के लिए इंटरैक्टिव ऑनलाइन अनुकूलन के साथ संलयन करना
यह पेपर Phys2Real प्रस्तुत करता है, जो दृश्य भाषा मॉडल (VLM) भौतिक पैरामीटर अनुमान को इंटरैक्टिव ऑनलाइन अनुकूलन के साथ जोड़ता है। यह real-to-sim-to-real सुदृढ़ शिक्षा पाइपलाइन रोबोटिक हेराफेरी में सिम-टू-रियल स्थानांतरण चुनौतियों को अनिश्चितता-जागरूक संलयन के माध्यम से संबोधित करता है। विधि में तीन मुख्य घटक हैं: (1) 3D गॉसियन स्प्लैटिंग पर आधारित उच्च-निष्ठा ज्यामितीय पुनर्निर्माण, (2) VLM अनुमान भौतिक पैरामीटर पूर्व वितरण, (3) इंटरैक्टिव डेटा पर आधारित ऑनलाइन भौतिक पैरामीटर अनुमान। T-आकार ब्लॉक और हथौड़े के समतल धकेलने कार्यों में, Phys2Real डोमेन यादृच्छिकीकरण आधारभूत की तुलना में महत्वपूर्ण सुधार प्राप्त करता है: निचले भारित T-आकार ब्लॉक 100% बनाम 79% सफलता दर, ऊपरी भारित T-आकार ब्लॉक 57% बनाम 23%, हथौड़े धकेलने कार्य में 15% तेज़ औसत पूर्णता समय।
रोबोटिक हेराफेरी नीतियों का सिमुलेशन से वास्तविक दुनिया में स्थानांतरण अभी भी एक मौलिक चुनौती है, विशेषकर सटीक गतिविज्ञान की आवश्यकता वाले कार्यों के लिए। पारंपरिक डोमेन यादृच्छिकीकरण (Domain Randomization, DR) विधियाँ, हालांकि मजबूती प्रदान कर सकती हैं, अक्सर औसत व्यवहार को डिफ़ॉल्ट रूप से अपनाती हैं और विशिष्ट वस्तु भौतिक गुणों में परिवर्तन के अनुकूल नहीं हो सकती हैं।
मनुष्य नई वस्तुओं को संचालित करते समय उत्कृष्ट अन्वेषण व्यवहार प्रदर्शित करते हैं: पहले दृश्य उपस्थिति के आधार पर वस्तु भौतिक गुणों का प्रारंभिक निर्णय बनाते हैं, फिर इंटरैक्शन के माध्यम से इन अनुमानों को परिष्कृत करते हैं। इस प्रेरणा से, यह पेपर रोबोटों को दृश्य भौतिकी तर्क और इंटरैक्टिव शिक्षा को संयोजित करके समान क्षमता प्रदान करने का लक्ष्य रखता है।
अनिश्चितता-जागरूक VLM पूर्वानुमान और इंटरैक्टिव अनुकूलन का संलयन: पहली बार प्रदर्शित करता है कि VLMs भौतिक पैरामीटर अनुमान (जैसे द्रव्यमान केंद्र) प्रदान कर सकते हैं और इंटरैक्टिव-आधारित पैरामीटर अनुमान के साथ संयुक्त होकर वास्तविक समय निम्न-स्तरीय बंद-लूप नियंत्रण के लिए उपयोग किए जा सकते हैं
समूह-आधारित अनिश्चितता परिमाणीकरण: अनिश्चितता को ज्ञानात्मक अनिश्चितता और आकस्मिक अनिश्चितता में विघटित करता है, प्रतिलोम-विचरण भारित संलयन के माध्यम से VLM पूर्वानुमान और इंटरैक्टिव अनुमान को संयोजित करता है
भौतिकी-सूचित डिजिटल जुड़वाँ: 3D गॉसियन स्प्लैटिंग पुनर्निर्माण को ऑनलाइन भौतिक गुण अनुमान के साथ जोड़ता है, ज्यामितीय और भौतिक जानकारी युक्त डिजिटल जुड़वाँ बनाता है
यह पेपर गैर-पकड़ने वाली हेराफेरी कार्यों का अध्ययन करता है, जहाँ रोबोट को विभिन्न भौतिक गुणों (जैसे द्रव्यमान केंद्र, घर्षण गुणांक) वाली वस्तुओं को धकेलने आदि के माध्यम से लक्ष्य स्थिति और मुद्रा तक पहुँचाना आवश्यक है। इनपुट में वस्तु मुद्रा, रोबोट अंत-प्रभावकारी स्थिति और अनुमानित भौतिक पैरामीटर शामिल हैं, आउटपुट अंत-प्रभावकारी स्थिति परिवर्तन है।
चरण 1: नीति वास्तविक भौतिक पैरामीटर के साथ सशर्त प्रशिक्षित होती है
चरण 1.5: शोर भौतिक पैरामीटर का उपयोग करके नीति को सूक्ष्म-समायोजित करना, डाउनस्ट्रीम शोर अनुमान के लिए मजबूती स्थापित करना
चरण 2: N=10 अनुकूलन मॉडल के समूह को प्रशिक्षित करना, अवलोकन-क्रिया इतिहास से भौतिक पैरामीटर की भविष्यवाणी करना
पारंपरिक विधियाँ सिमुलेशन गतिविज्ञान को यादृच्छिक करके मजबूत नीति प्रशिक्षित करती हैं, लेकिन अक्सर औसत व्यवहार अपनाती हैं और प्रदर्शन में कमी करती हैं। प्रणाली पहचान विधियों को मैनुअल समायोजन की आवश्यकता है और स्थिर मॉडल उत्पन्न करते हैं।
RMA जैसी विधियाँ निरंतर संपर्क परिदृश्यों (जैसे गति) में अच्छा प्रदर्शन करती हैं, लेकिन सामान्य हेराफेरी कार्यों में रुक-रुक कर संपर्क में चुनौतियों का सामना करती हैं। यह पेपर VLM पूर्वानुमान और अनिश्चितता-जागरूक संलयन के माध्यम से इस समस्या को हल करता है।
NeRF और GSplat उच्च-निष्ठा 3D दृश्य पुनर्निर्माण कर सकते हैं, लेकिन मौजूदा डिजिटल जुड़वाँ दृश्य निष्ठा पर केंद्रित हैं, भौतिक गुणों को नज़रअंदाज़ करते हैं। यह पेपर भौतिक जानकारी युक्त डिजिटल जुड़वाँ बनाता है।
हाल के कार्य VLMs की भौतिकी तर्क क्षमता दर्शाते हैं, लेकिन मुख्य रूप से उच्च-स्तरीय योजना के लिए उपयोग किए जाते हैं। यह पेपर पहली बार VLM भौतिक पैरामीटर अनुमान को निम्न-स्तरीय नियंत्रण नीति में सीधे एकीकृत करता है।
Phys2Real सफलतापूर्वक VLM दृश्य तर्क और इंटरैक्टिव अनुकूलन के संयोजन की प्रभावशीलता प्रदर्शित करता है, कई हेराफेरी कार्यों में डोमेन यादृच्छिकीकरण आधारभूत से महत्वपूर्ण रूप से बेहतर है। अनिश्चितता-जागरूक संलयन तंत्र प्रणाली को प्रत्येक जानकारी स्रोत की विश्वसनीयता के आधार पर गतिशील रूप से वजन समायोजित करने में सक्षम बनाता है।
यह कार्य रोबोटिक्स शिक्षा क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है, निम्न-स्तरीय नियंत्रण में आधारभूत मॉडल के अनुप्रयोग क्षमता प्रदर्शित करता है। दृश्य तर्क और इंटरैक्टिव शिक्षा को संयोजित करने वाले अधिक अनुसंधान को प्रेरित करने और सिम-टू-रियल स्थानांतरण प्रौद्योगिकी विकास को आगे बढ़ाने की अपेक्षा है।
1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला रोबोटिक्स शिक्षा पेपर है जो रचनात्मक रूप से कई अग्रणी तकनीकों को संयोजित करता है, सिम-टू-रियल स्थानांतरण समस्या के लिए नवीन और प्रभावी समाधान प्रदान करता है। कुछ सीमाओं के बावजूद, इसके तकनीकी योगदान और प्रायोगिक सत्यापन दोनों उच्च मानदंड तक पहुँचते हैं, महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएँ रखते हैं।