Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic
Phys2Real: دمج أولويات نماذج اللغة الرؤية مع التكيف التفاعلي عبر الإنترنت لمعالجة الروبوتات الموجهة بالتنبيهات
تقدم هذه الورقة Phys2Real، وهي خط أنابيب تعلم معزز من الواقع إلى المحاكاة إلى الواقع يجمع بين تقدير المعاملات الفيزيائية لنماذج اللغة الرؤية (VLM) والتكيف التفاعلي عبر الإنترنت، مما يعالج تحديات نقل المحاكاة إلى الواقع في معالجة الروبوتات من خلال دمج موجه بالتنبيهات. تتضمن الطريقة ثلاثة مكونات أساسية: (1) إعادة بناء هندسية عالية الدقة بناءً على التشتت الغاوسي ثلاثي الأبعاد، (2) توزيعات أولويات المعاملات الفيزيائية المستنتجة من VLM، (3) تقدير المعاملات الفيزيائية عبر الإنترنت بناءً على بيانات التفاعل. في مهام الدفع المستوية لكتل T والمطارق، حققت Phys2Real تحسنات كبيرة مقارنة بخط الأساس للعشوائية في المجال: معدل النجاح 100% مقابل 79% لكتل T الموزونة في الأسفل، 57% مقابل 23% لكتل T الموزونة في الأعلى، وتحسن بنسبة 15% في متوسط وقت الإكمال لمهام دفع المطارق.
يظل نقل سياسات معالجة الروبوتات من المحاكاة إلى العالم الحقيقي تحديًا أساسيًا، خاصة بالنسبة للمهام التي تتطلب ديناميكيات دقيقة. بينما توفر طرق العشوائية في المجال (Domain Randomization, DR) التقليدية المتانة، فإنها غالبًا ما تعتمد على سلوك متوسط بشكل افتراضي، وغير قادرة على التكيف مع التغييرات في الخصائص الفيزيائية للأجسام المحددة.
يُظهر البشر سلوكًا استكشافيًا متفوقًا عند التعامل مع أجسام جديدة: أولاً، يشكلون حكمًا أوليًا حول الخصائص الفيزيائية للجسم بناءً على المظهر البصري، ثم يقومون بتحسين هذه التقديرات من خلال التفاعل. مستوحاة من هذا، تهدف هذه الورقة إلى تزويد الروبوتات بقدرات مماثلة، من خلال الجمع بين الاستدلال الفيزيائي البصري والتعلم التفاعلي لتحسين أداء المعالجة في البيئات الحقيقية.
دمج أولويات VLM الموجهة بالتنبيهات مع التكيف التفاعلي: يُظهر للمرة الأولى أن نماذج اللغة الرؤية يمكنها توفير تقديرات المعاملات الفيزيائية (مثل مركز الكتلة)، والجمع بينها وبين تقدير المعاملات القائم على التفاعل، للتحكم الحلقي المغلق منخفض المستوى في الوقت الفعلي
تحديد التنبيهات القائم على التجميع: يفكك التنبيهات إلى عدم اليقين الإدراكي والعشوائي، من خلال دمج معاكس التباين لأولويات VLM والتقديرات التفاعلية
التوأم الرقمي المدرك فيزيائيًا: يجمع بين إعادة البناء بالتشتت الغاوسي ثلاثي الأبعاد وتقدير الخصائص الفيزيائية عبر الإنترنت، لإنشاء توأم رقمي يحتوي على معلومات هندسية وفيزيائية
تبحث هذه الورقة في مهام المعالجة غير القبضة، حيث يحتاج الروبوت إلى التعامل مع الأجسام ذات الخصائص الفيزيائية المختلفة (مثل مركز الكتلة ومعامل الاحتكاك) إلى موضع وموجه الهدف من خلال الدفع وغيره. يتضمن الإدخال موضع الجسم وموضع محرر الروبوت والمعاملات الفيزيائية المقدرة، والإخراج هو التغيير في موضع محرر الروبوت.
المرحلة 1: يتم تدريب السياسة مشروطة بالمعاملات الفيزيائية الحقيقية
المرحلة 1.5: ضبط السياسة باستخدام معاملات فيزيائية مشوشة، لإنشاء متانة لتقديرات الضوضاء اللاحقة
المرحلة 2: تدريب تجميع N=10 نماذج تكيف، للتنبؤ بالمعاملات الفيزيائية من سجل الملاحظة والإجراء
تدرب الطرق التقليدية سياسات قوية من خلال عشوائية ديناميكيات المحاكاة، لكنها غالبًا ما تعتمد على سلوك متوسط على حساب الأداء. تتطلب طرق تحديد النظام ضبط معاملات يدوي وتنتج نماذج ثابتة.
تُظهر طرق مثل RMA أداءً جيدًا في سيناريوهات الاتصال المستمر (مثل الحركة)، لكنها تواجه تحديات في الاتصال المتقطع في مهام المعالجة العامة. تحل هذه الورقة هذه المشكلة من خلال أولويات VLM والدمج الموجه بالتنبيهات.
يمكن لـ NeRF و GSplat إعادة بناء مشاهد ثلاثية الأبعاد عالية الدقة، لكن التوائم الرقمية الموجودة تركز على الدقة البصرية، متجاهلة الخصائص الفيزيائية. تنشئ هذه الورقة توأمًا رقميًا يحتوي على معلومات فيزيائية.
تُظهر الأعمال الحديثة قدرات الاستدلال الفيزيائي لنماذج اللغة الرؤية، لكنها تُستخدم بشكل أساسي للتخطيط عالي المستوى. تدمج هذه الورقة للمرة الأولى تقدير المعاملات الفيزيائية لـ VLM مباشرة في سياسات التحكم منخفضة المستوى.
نجحت Phys2Real في إظهار فعالية الجمع بين الاستدلال البصري لـ VLM والتكيف التفاعلي، متفوقة بشكل كبير على خط أساس العشوائية في المجال في عدة مهام معالجة. تسمح آلية الدمج الموجهة بالتنبيهات للنظام بتعديل الأوزان ديناميكيًا بناءً على موثوقية كل مصدر معلومات.
يوفر هذا العمل مساهمة مهمة لمجال تعلم الروبوتات، ويُظهر إمكانية تطبيق النماذج الأساسية في التحكم منخفض المستوى. من المتوقع أن يلهم المزيد من الأبحاث التي تجمع بين الاستدلال البصري والتعلم التفاعلي، مما يدفع تطور تكنولوجيا نقل المحاكاة إلى الواقع.
1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
التقييم الإجمالي: هذه ورقة عالية الجودة في مجال تعلم الروبوتات، تجمع بشكل مبتكر بين عدة تقنيات متقدمة، وتوفر حلاً جديدًا وفعالاً لمشكلة نقل المحاكاة إلى الواقع. على الرغم من وجود بعض القيود، فإن مساهماتها التقنية والتحقق التجريبي يصلان إلى معايير عالية، مع قيمة أكاديمية وآفاق تطبيقية مهمة.