2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.

Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .

academic

Phys2Real: VLM पूर्वानुमानों को अनिश्चितता-जागरूक सिम-टू-रियल हेराफेरी के लिए इंटरैक्टिव ऑनलाइन अनुकूलन के साथ संलयन करना

मूल जानकारी

पेपर ID: 2510.11689
शीर्षक: Phys2Real: VLM पूर्वानुमानों को अनिश्चितता-जागरूक सिम-टू-रियल हेराफेरी के लिए इंटरैक्टिव ऑनलाइन अनुकूलन के साथ संलयन करना
लेखक: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
संस्थान: ¹Stanford University, ²Princeton University
वर्गीकरण: cs.RO (रोबोटिक्स), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन तिथि: 13 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.11689v1

सारांश

यह पेपर Phys2Real प्रस्तुत करता है, जो दृश्य भाषा मॉडल (VLM) भौतिक पैरामीटर अनुमान को इंटरैक्टिव ऑनलाइन अनुकूलन के साथ जोड़ता है। यह real-to-sim-to-real सुदृढ़ शिक्षा पाइपलाइन रोबोटिक हेराफेरी में सिम-टू-रियल स्थानांतरण चुनौतियों को अनिश्चितता-जागरूक संलयन के माध्यम से संबोधित करता है। विधि में तीन मुख्य घटक हैं: (1) 3D गॉसियन स्प्लैटिंग पर आधारित उच्च-निष्ठा ज्यामितीय पुनर्निर्माण, (2) VLM अनुमान भौतिक पैरामीटर पूर्व वितरण, (3) इंटरैक्टिव डेटा पर आधारित ऑनलाइन भौतिक पैरामीटर अनुमान। T-आकार ब्लॉक और हथौड़े के समतल धकेलने कार्यों में, Phys2Real डोमेन यादृच्छिकीकरण आधारभूत की तुलना में महत्वपूर्ण सुधार प्राप्त करता है: निचले भारित T-आकार ब्लॉक 100% बनाम 79% सफलता दर, ऊपरी भारित T-आकार ब्लॉक 57% बनाम 23%, हथौड़े धकेलने कार्य में 15% तेज़ औसत पूर्णता समय।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

रोबोटिक हेराफेरी नीतियों का सिमुलेशन से वास्तविक दुनिया में स्थानांतरण अभी भी एक मौलिक चुनौती है, विशेषकर सटीक गतिविज्ञान की आवश्यकता वाले कार्यों के लिए। पारंपरिक डोमेन यादृच्छिकीकरण (Domain Randomization, DR) विधियाँ, हालांकि मजबूती प्रदान कर सकती हैं, अक्सर औसत व्यवहार को डिफ़ॉल्ट रूप से अपनाती हैं और विशिष्ट वस्तु भौतिक गुणों में परिवर्तन के अनुकूल नहीं हो सकती हैं।

अनुसंधान प्रेरणा

मनुष्य नई वस्तुओं को संचालित करते समय उत्कृष्ट अन्वेषण व्यवहार प्रदर्शित करते हैं: पहले दृश्य उपस्थिति के आधार पर वस्तु भौतिक गुणों का प्रारंभिक निर्णय बनाते हैं, फिर इंटरैक्शन के माध्यम से इन अनुमानों को परिष्कृत करते हैं। इस प्रेरणा से, यह पेपर रोबोटों को दृश्य भौतिकी तर्क और इंटरैक्टिव शिक्षा को संयोजित करके समान क्षमता प्रदान करने का लक्ष्य रखता है।

मौजूदा विधियों की सीमाएँ

डोमेन यादृच्छिकीकरण: मजबूत नीति प्रशिक्षण लेकिन प्रदर्शन में कमी, वस्तु-विशिष्ट परिवर्तनों के अनुकूल नहीं
प्रणाली पहचान: मैनुअल पैरामीटर समायोजन की आवश्यकता, स्थिर मॉडल उत्पन्न करता है
ऑनलाइन नीति अनुकूलन: रुक-रुक कर संपर्क परिदृश्यों में चुनौतियों का सामना, बाहरी पूर्व जानकारी की कमी
डिजिटल जुड़वाँ: दृश्य निष्ठा पर केंद्रित, भौतिक गुणों को नज़रअंदाज़ करता है

मुख्य योगदान

अनिश्चितता-जागरूक VLM पूर्वानुमान और इंटरैक्टिव अनुकूलन का संलयन: पहली बार प्रदर्शित करता है कि VLMs भौतिक पैरामीटर अनुमान (जैसे द्रव्यमान केंद्र) प्रदान कर सकते हैं और इंटरैक्टिव-आधारित पैरामीटर अनुमान के साथ संयुक्त होकर वास्तविक समय निम्न-स्तरीय बंद-लूप नियंत्रण के लिए उपयोग किए जा सकते हैं
समूह-आधारित अनिश्चितता परिमाणीकरण: अनिश्चितता को ज्ञानात्मक अनिश्चितता और आकस्मिक अनिश्चितता में विघटित करता है, प्रतिलोम-विचरण भारित संलयन के माध्यम से VLM पूर्वानुमान और इंटरैक्टिव अनुमान को संयोजित करता है
भौतिकी-सूचित डिजिटल जुड़वाँ: 3D गॉसियन स्प्लैटिंग पुनर्निर्माण को ऑनलाइन भौतिक गुण अनुमान के साथ जोड़ता है, ज्यामितीय और भौतिक जानकारी युक्त डिजिटल जुड़वाँ बनाता है

विधि विवरण

कार्य परिभाषा

यह पेपर गैर-पकड़ने वाली हेराफेरी कार्यों का अध्ययन करता है, जहाँ रोबोट को विभिन्न भौतिक गुणों (जैसे द्रव्यमान केंद्र, घर्षण गुणांक) वाली वस्तुओं को धकेलने आदि के माध्यम से लक्ष्य स्थिति और मुद्रा तक पहुँचाना आवश्यक है। इनपुट में वस्तु मुद्रा, रोबोट अंत-प्रभावकारी स्थिति और अनुमानित भौतिक पैरामीटर शामिल हैं, आउटपुट अंत-प्रभावकारी स्थिति परिवर्तन है।

मॉडल आर्किटेक्चर

1. Real-to-Sim दृश्य पुनर्निर्माण

SAM-2 का उपयोग करके लक्ष्य वस्तु को विभाजित करना
3D गॉसियन स्प्लैटिंग (GSplat) मॉडल प्रशिक्षित करना
SuGaR के माध्यम से सतह-संरेखित जाल निकालना
सिमुलेशन-तैयार जल-रोधी जाल संपत्ति उत्पन्न करना

2. भौतिक पैरामीटर-सशर्त नीति शिक्षा

तीन-चरणीय प्रशिक्षण प्रतिमान अपनाता है:

चरण 1: नीति वास्तविक भौतिक पैरामीटर के साथ सशर्त प्रशिक्षित होती है चरण 1.5: शोर भौतिक पैरामीटर का उपयोग करके नीति को सूक्ष्म-समायोजित करना, डाउनस्ट्रीम शोर अनुमान के लिए मजबूती स्थापित करना चरण 2: N=10 अनुकूलन मॉडल के समूह को प्रशिक्षित करना, अवलोकन-क्रिया इतिहास से भौतिक पैरामीटर की भविष्यवाणी करना

3. अनिश्चितता परिमाणीकरण और संलयन

VLM अनुमान (θ_vlm, σ_vlm):

कार्य-संबंधित भौतिक पैरामीटर अनुमान के लिए GPT-5 को क्वेरी करना
N छवियों के लिए प्रत्येक को M बार क्वेरी करना, एकत्रित माध्य और अनिश्चितता की गणना करना

RMA अनुमान (θ_rma, σ_rma):

ज्ञानात्मक अनिश्चितता: σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
आकस्मिक अनिश्चितता: σ²_aleatoric = (1/N)∑σᵢ²
कुल RMA अनिश्चितता: σ²_rma = σ²_epistemic + σ²_aleatoric

प्रतिलोम-विचरण भारित संलयन:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

तकनीकी नवाचार बिंदु

व्याख्यायोग्य भौतिक पैरामीटर: सीधे भौतिक पैरामीटर के साथ सशर्त, सीखे गए अव्यक्त चर के बजाय, VLM अनुमान को सीधे संलयन करने में सक्षम बनाता है
द्वि-स्रोत अनिश्चितता संलयन: जब इंटरैक्टिव इतिहास अनिश्चितता अधिक हो तो VLM अनुमान पर अधिक निर्भर करता है, और इसके विपरीत
समूह अनिश्चितता विघटन: मॉडल अनिश्चितता और डेटा अनिश्चितता को अलग करता है, अधिक सटीक अनिश्चितता अनुमान प्रदान करता है

प्रायोगिक सेटअप

प्रायोगिक कार्य

T-आकार ब्लॉक धकेलना: विभिन्न स्थानों पर 143 ग्राम धातु वजन रखकर द्रव्यमान केंद्र परिवर्तित करना, दो कॉन्फ़िगरेशन का परीक्षण
- वजन शीर्ष पर: द्रव्यमान केंद्र +6.1cm, अधिक चुनौतीपूर्ण
- वजन नीचे: द्रव्यमान केंद्र -0.7cm, अपेक्षाकृत सरल
हथौड़ा धकेलना: द्रव्यमान केंद्र हथौड़े के सिर के पास, जटिल गति गतिविज्ञान उत्पन्न करता है

मूल्यांकन मेट्रिक्स

सफलता दर: स्थिति त्रुटि <3cm और दिशा त्रुटि <20°
अंतिम स्थिति त्रुटि (cm)
अंतिम दिशा त्रुटि (डिग्री)
कार्य पूर्णता समय (सेकंड)

तुलना विधियाँ

Domain Randomization (DR): मानक डोमेन यादृच्छिकीकरण आधारभूत
Diffusion Policy: दृढ़ निरीक्षण शिक्षा आधारभूत
RMA-only: केवल अनुकूलन मॉडल का उपयोग
Physics-conditioned VLM: केवल VLM अनुमान का उपयोग
Physics-conditioned privileged: वास्तविक भौतिक पैरामीटर का उपयोग करने वाली विशेषाधिकार आधारभूत

कार्यान्वयन विवरण

6-DOF UFactory xArm रोबोटिक भुजा का उपयोग
PPO प्रशिक्षण, 4096 समानांतर वातावरण
असमान actor-critic आर्किटेक्चर
गति कैप्चर प्रणाली सटीक वस्तु मुद्रा प्राप्त करने के लिए

प्रायोगिक परिणाम

मुख्य परिणाम

T-आकार ब्लॉक धकेलना (नीचे वजन):

Phys2Real: 100% सफलता दर, 1.76±0.54cm स्थिति त्रुटि
DR आधारभूत: 79.17% सफलता दर, 7.14±11.34cm स्थिति त्रुटि
विशेषाधिकार आधारभूत: 95.83% सफलता दर, 1.92±0.50cm स्थिति त्रुटि

T-आकार ब्लॉक धकेलना (ऊपर वजन, अधिक चुनौतीपूर्ण):

Phys2Real: 57.14% सफलता दर, 2.60±0.90cm स्थिति त्रुटि
DR आधारभूत: 23.81% सफलता दर, 6.00±5.78cm स्थिति त्रुटि
विशेषाधिकार आधारभूत: 90.48% सफलता दर, 1.90±0.98cm स्थिति त्रुटि

हथौड़ा धकेलना:

Phys2Real और DR दोनों 100% सफलता दर प्राप्त करते हैं
Phys2Real औसत पूर्णता समय 77.79±44.08 सेकंड
DR औसत पूर्णता समय 90.65±42.03 सेकंड, 14.2% सुधार

विलोपन प्रयोग

VLM बनाम RMA अलग-अलग उपयोग:

केवल VLM अनुमान: 4.76% सफलता दर (ऊपर वजन)
केवल RMA: 14.29% सफलता दर (ऊपर वजन)
Phys2Real संलयन: 57.14% सफलता दर

परिणाम दर्शाते हैं कि VLM और इंटरैक्टिव जानकारी का संयोजन सफलता के लिए महत्वपूर्ण है, किसी एक का अलग से उपयोग अच्छा प्रदर्शन नहीं दे सकता।

केस विश्लेषण

चित्र 6 विशिष्ट निष्पादन के दौरान पैरामीटर अनुमान के विकास को दर्शाता है:

प्रारंभिक चरण में RMA अनुमान अत्यधिक अनिश्चित और वास्तविक मान से विचलित
संपर्क जारी रहने के साथ, अनिश्चितता कम होती है, संलयन अनुमान वास्तविक मान की ओर अभिसरित होता है
संपर्क समाप्त होने के बाद, नई जानकारी की कमी के कारण, अनिश्चितता फिर से बढ़ती है

प्रायोगिक निष्कर्ष

भौतिक पैरामीटर अनुमान का मूल्य: सटीक भौतिक पैरामीटर अनुमान हेराफेरी प्रदर्शन में महत्वपूर्ण सुधार करता है
संलयन की आवश्यकता: VLM और इंटरैक्टिव जानकारी दोनों आवश्यक हैं, किसी एक का अलग उपयोग प्रदर्शन में तीव्र गिरावट लाता है
अनिश्चितता-जागरूकता का महत्व: अनिश्चितता भारण के माध्यम से प्रभावी जानकारी संलयन प्राप्त किया गया
मजबूती: अनुचित VLM अनुमान के प्रति मजबूत प्रदर्शन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Phys2Real सफलतापूर्वक VLM दृश्य तर्क और इंटरैक्टिव अनुकूलन के संयोजन की प्रभावशीलता प्रदर्शित करता है, कई हेराफेरी कार्यों में डोमेन यादृच्छिकीकरण आधारभूत से महत्वपूर्ण रूप से बेहतर है। अनिश्चितता-जागरूक संलयन तंत्र प्रणाली को प्रत्येक जानकारी स्रोत की विश्वसनीयता के आधार पर गतिशील रूप से वजन समायोजित करने में सक्षम बनाता है।

सीमाएँ

सममितता धारणा: पुनर्निर्माण पाइपलाइन लगभग सममित वस्तुओं के लिए सर्वोत्तम काम करता है, दर्पण गैर-सममित वस्तुओं के वास्तविक आकार को विकृत कर सकता है
VLM अनुमान पूर्वाग्रह: VLM ज्यामितीय केंद्र की ओर पूर्वाग्रह दिखाते हैं, भौतिकी-असंगत अनुमान उत्पन्न कर सकते हैं
कार्य जटिलता: वर्तमान सत्यापन कार्य अपेक्षाकृत सरल हैं, अधिक जटिल हेराफेरी का सामान्यीकरण सत्यापन की प्रतीक्षा में है
धारणा निर्भरता: गति कैप्चर प्रणाली पर निर्भर, शुद्ध दृश्य धारणा में स्थानांतरण भविष्य की दिशा है

भविष्य की दिशाएँ

गैर-सममित वस्तु पुनर्निर्माण रणनीति में विस्तार
गति कैप्चर को धारणा-आधारित ट्रैकिंग से प्रतिस्थापित करना
अधिक जटिल हेराफेरी कार्यों में प्रदर्शन का सत्यापन
अन्य भौतिक पैरामीटर (जैसे घर्षण, कठोरता) के अनुमान की खोज

गहन मूल्यांकन

शक्तियाँ

मजबूत नवाचार: पहली बार VLM भौतिकी तर्क को RMA अनुकूलन के साथ जैविक रूप से संलयन करता है, नई अनुसंधान दिशा खोलता है
तर्कसंगत तकनीकी समाधान: अनिश्चितता विघटन और प्रतिलोम-विचरण भारित संलयन में सैद्धांतिक आधार है
व्यापक प्रयोग: बहु-कार्य, बहु-कॉन्फ़िगरेशन व्यापक मूल्यांकन, विलोपन प्रयोग प्रत्येक घटक के योगदान को प्रकट करते हैं
उच्च व्यावहारिक मूल्य: सिम-टू-रियल स्थानांतरण के लिए नई समस्या-समाधान दिशा प्रदान करता है

कमियाँ

सीमित कार्य श्रेणी: केवल समतल धकेलने कार्यों का सत्यापन, जटिल हेराफेरी का सामान्यीकरण अज्ञात
VLM निर्भरता: VLM भौतिकी तर्क क्षमता पर गंभीर निर्भरता, संभावित प्रणालीगत पूर्वाग्रह
कम्प्यूटेशनल ओवरहेड: समूह विधि और VLM क्वेरी अतिरिक्त कम्प्यूटेशनल लागत ला सकते हैं
अपर्याप्त सैद्धांतिक विश्लेषण: संलयन रणनीति के सैद्धांतिक अभिसरण विश्लेषण की कमी

प्रभाव

यह कार्य रोबोटिक्स शिक्षा क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है, निम्न-स्तरीय नियंत्रण में आधारभूत मॉडल के अनुप्रयोग क्षमता प्रदर्शित करता है। दृश्य तर्क और इंटरैक्टिव शिक्षा को संयोजित करने वाले अधिक अनुसंधान को प्रेरित करने और सिम-टू-रियल स्थानांतरण प्रौद्योगिकी विकास को आगे बढ़ाने की अपेक्षा है।

लागू परिदृश्य

सटीक भौतिक मॉडलिंग की आवश्यकता वाले हेराफेरी कार्य
वस्तु भौतिक गुण अज्ञात या परिवर्तनशील परिदृश्य
रुक-रुक कर संपर्क गैर-पकड़ने वाली हेराफेरी
नई वस्तुओं के लिए तेजी से अनुकूलन की आवश्यकता वाले अनुप्रयोग

संदर्भ

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला रोबोटिक्स शिक्षा पेपर है जो रचनात्मक रूप से कई अग्रणी तकनीकों को संयोजित करता है, सिम-टू-रियल स्थानांतरण समस्या के लिए नवीन और प्रभावी समाधान प्रदान करता है। कुछ सीमाओं के बावजूद, इसके तकनीकी योगदान और प्रायोगिक सत्यापन दोनों उच्च मानदंड तक पहुँचते हैं, महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएँ रखते हैं।