2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic

Phys2Real: دمج أولويات نماذج اللغة الرؤية مع التكيف التفاعلي عبر الإنترنت لمعالجة الروبوتات الموجهة بالتنبيهات

المعلومات الأساسية

  • معرّف الورقة: 2510.11689
  • العنوان: Phys2Real: دمج أولويات نماذج اللغة الرؤية مع التكيف التفاعلي عبر الإنترنت لمعالجة الروبوتات الموجهة بالتنبيهات
  • المؤلفون: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
  • المؤسسات: ¹جامعة ستانفورد، ²جامعة برينستون
  • التصنيف: cs.RO (الروبوتات)، cs.AI (الذكاء الاصطناعي)
  • تاريخ النشر: 13 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.11689v1

الملخص

تقدم هذه الورقة Phys2Real، وهي خط أنابيب تعلم معزز من الواقع إلى المحاكاة إلى الواقع يجمع بين تقدير المعاملات الفيزيائية لنماذج اللغة الرؤية (VLM) والتكيف التفاعلي عبر الإنترنت، مما يعالج تحديات نقل المحاكاة إلى الواقع في معالجة الروبوتات من خلال دمج موجه بالتنبيهات. تتضمن الطريقة ثلاثة مكونات أساسية: (1) إعادة بناء هندسية عالية الدقة بناءً على التشتت الغاوسي ثلاثي الأبعاد، (2) توزيعات أولويات المعاملات الفيزيائية المستنتجة من VLM، (3) تقدير المعاملات الفيزيائية عبر الإنترنت بناءً على بيانات التفاعل. في مهام الدفع المستوية لكتل T والمطارق، حققت Phys2Real تحسنات كبيرة مقارنة بخط الأساس للعشوائية في المجال: معدل النجاح 100% مقابل 79% لكتل T الموزونة في الأسفل، 57% مقابل 23% لكتل T الموزونة في الأعلى، وتحسن بنسبة 15% في متوسط وقت الإكمال لمهام دفع المطارق.

السياق البحثي والدافع

المشكلة الأساسية

يظل نقل سياسات معالجة الروبوتات من المحاكاة إلى العالم الحقيقي تحديًا أساسيًا، خاصة بالنسبة للمهام التي تتطلب ديناميكيات دقيقة. بينما توفر طرق العشوائية في المجال (Domain Randomization, DR) التقليدية المتانة، فإنها غالبًا ما تعتمد على سلوك متوسط بشكل افتراضي، وغير قادرة على التكيف مع التغييرات في الخصائص الفيزيائية للأجسام المحددة.

دافع البحث

يُظهر البشر سلوكًا استكشافيًا متفوقًا عند التعامل مع أجسام جديدة: أولاً، يشكلون حكمًا أوليًا حول الخصائص الفيزيائية للجسم بناءً على المظهر البصري، ثم يقومون بتحسين هذه التقديرات من خلال التفاعل. مستوحاة من هذا، تهدف هذه الورقة إلى تزويد الروبوتات بقدرات مماثلة، من خلال الجمع بين الاستدلال الفيزيائي البصري والتعلم التفاعلي لتحسين أداء المعالجة في البيئات الحقيقية.

قيود الطرق الموجودة

  1. العشوائية في المجال: تدريب سياسات قوية لكن على حساب الأداء، غير قادرة على التكيف مع التغييرات الخاصة بالأجسام
  2. تحديد النظام: يتطلب ضبط معاملات يدوي، ينتج نماذج ثابتة
  3. التكيف السياسي عبر الإنترنت: يواجه تحديات في سيناريوهات الاتصال المتقطع، يفتقر إلى معلومات أولية خارجية
  4. التوأم الرقمي: يركز على الدقة البصرية، يتجاهل الخصائص الفيزيائية

المساهمات الأساسية

  1. دمج أولويات VLM الموجهة بالتنبيهات مع التكيف التفاعلي: يُظهر للمرة الأولى أن نماذج اللغة الرؤية يمكنها توفير تقديرات المعاملات الفيزيائية (مثل مركز الكتلة)، والجمع بينها وبين تقدير المعاملات القائم على التفاعل، للتحكم الحلقي المغلق منخفض المستوى في الوقت الفعلي
  2. تحديد التنبيهات القائم على التجميع: يفكك التنبيهات إلى عدم اليقين الإدراكي والعشوائي، من خلال دمج معاكس التباين لأولويات VLM والتقديرات التفاعلية
  3. التوأم الرقمي المدرك فيزيائيًا: يجمع بين إعادة البناء بالتشتت الغاوسي ثلاثي الأبعاد وتقدير الخصائص الفيزيائية عبر الإنترنت، لإنشاء توأم رقمي يحتوي على معلومات هندسية وفيزيائية

شرح الطريقة

تعريف المهمة

تبحث هذه الورقة في مهام المعالجة غير القبضة، حيث يحتاج الروبوت إلى التعامل مع الأجسام ذات الخصائص الفيزيائية المختلفة (مثل مركز الكتلة ومعامل الاحتكاك) إلى موضع وموجه الهدف من خلال الدفع وغيره. يتضمن الإدخال موضع الجسم وموضع محرر الروبوت والمعاملات الفيزيائية المقدرة، والإخراج هو التغيير في موضع محرر الروبوت.

معمارية النموذج

1. إعادة بناء المشهد من الواقع إلى المحاكاة

  • استخدام تقسيم SAM-2 لتقسيم الجسم المستهدف
  • تدريب نموذج التشتت الغاوسي ثلاثي الأبعاد (GSplat)
  • استخراج شبكة محاذاة السطح من خلال SuGaR
  • توليد أصول شبكة محكمة جاهزة للمحاكاة

2. تعلم السياسة المشروطة بالمعاملات الفيزيائية

يعتمد على نموذج تدريب ثلاثي المراحل:

المرحلة 1: يتم تدريب السياسة مشروطة بالمعاملات الفيزيائية الحقيقية المرحلة 1.5: ضبط السياسة باستخدام معاملات فيزيائية مشوشة، لإنشاء متانة لتقديرات الضوضاء اللاحقة المرحلة 2: تدريب تجميع N=10 نماذج تكيف، للتنبؤ بالمعاملات الفيزيائية من سجل الملاحظة والإجراء

3. تحديد التنبيهات والدمج

تقدير VLM (θ_vlm, σ_vlm):

  • الاستعلام عن GPT-5 لتقدير المعاملات الفيزيائية ذات الصلة بالمهمة
  • الاستعلام M مرات لكل صورة N، حساب المتوسط المجمع وعدم اليقين

تقدير RMA (θ_rma, σ_rma):

  • عدم اليقين الإدراكي: σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
  • عدم اليقين العشوائي: σ²_aleatoric = (1/N)∑σᵢ²
  • إجمالي عدم اليقين RMA: σ²_rma = σ²_epistemic + σ²_aleatoric

دمج معاكس التباين:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

نقاط الابتكار التقني

  1. معاملات فيزيائية قابلة للتفسير: التشريط المباشر بالمعاملات الفيزيائية بدلاً من متغيرات الكمون المتعلمة، مما يسمح بدمج تقديرات VLM مباشرة
  2. دمج عدم اليقين ثنائي المصدر: عند ارتفاع عدم اليقين في السجل التفاعلي، يعتمد أكثر على تقدير VLM، والعكس صحيح
  3. تحليل عدم اليقين في التجميع: فصل عدم اليقين في النموذج وعدم اليقين في البيانات، توفير تقدير عدم اليقين الأكثر دقة

إعداد التجربة

مهام التجربة

  1. دفع كتل T: تغيير مركز الكتلة بوضع أوزان معدنية 143 جرام في مواضع مختلفة، اختبار تكوينين
    • الوزن في الأعلى: مركز الكتلة +6.1 سم، أكثر تحديًا
    • الوزن في الأسفل: مركز الكتلة -0.7 سم، نسبيًا أبسط
  2. دفع المطارق: مركز الكتلة بالقرب من رأس المطرقة، ينتج ديناميكيات حركة معقدة

مقاييس التقييم

  • معدل النجاح: خطأ الموضع <3 سم وخطأ الاتجاه <20°
  • خطأ الموضع النهائي (سم)
  • خطأ الاتجاه النهائي (درجة)
  • وقت إكمال المهمة (ثانية)

طرق المقارنة

  • العشوائية في المجال (DR): خط الأساس القياسي للعشوائية في المجال
  • سياسة الانتشار: خط أساس التعلم الخاضع للإشراف الكامل
  • RMA فقط: استخدام نموذج التكيف فقط
  • مشروط فيزيائي VLM: استخدام تقدير VLM فقط
  • مشروط فيزيائي مميز: استخدام خط أساس امتياز المعاملات الفيزيائية الحقيقية

تفاصيل التنفيذ

  • استخدام ذراع UFactory xArm بـ 6 درجات حرية
  • تدريب PPO، 4096 بيئة متوازية
  • معمارية غير متماثلة للممثل والناقد
  • نظام التقاط الحركة للحصول على موضع الجسم الدقيق

نتائج التجربة

النتائج الرئيسية

دفع كتل T (الوزن في الأسفل):

  • Phys2Real: معدل نجاح 100%، خطأ موضع 1.76±0.54 سم
  • خط أساس DR: معدل نجاح 79.17%، خطأ موضع 7.14±11.34 سم
  • خط أساس الامتياز: معدل نجاح 95.83%، خطأ موضع 1.92±0.50 سم

دفع كتل T (الوزن في الأعلى، أكثر تحديًا):

  • Phys2Real: معدل نجاح 57.14%، خطأ موضع 2.60±0.90 سم
  • خط أساس DR: معدل نجاح 23.81%، خطأ موضع 6.00±5.78 سم
  • خط أساس الامتياز: معدل نجاح 90.48%، خطأ موضع 1.90±0.98 سم

دفع المطارق:

  • حققت Phys2Real و DR معدل نجاح 100%
  • متوسط وقت إكمال Phys2Real 77.79±44.08 ثانية
  • متوسط وقت إكمال DR 90.65±42.03 ثانية، تحسن بنسبة 14.2%

تجارب الاستئصال

VLM مقابل RMA الاستخدام المنفصل:

  • تقدير VLM فقط: معدل نجاح 4.76% (الوزن في الأعلى)
  • RMA فقط: معدل نجاح 14.29% (الوزن في الأعلى)
  • دمج Phys2Real: معدل نجاح 57.14%

تُظهر النتائج أن الجمع بين معلومات VLM والتفاعل حاسم للنجاح، والاستخدام المنفصل لأي منهما غير قادر على تحقيق أداء جيدة.

تحليل الحالة

يوضح الشكل 6 تطور تقدير المعاملات أثناء التنفيذ النموذجي:

  • في البداية، تقدير RMA عالي عدم اليقين وينحرف عن القيمة الحقيقية
  • مع استمرار الاتصال، ينخفض عدم اليقين، ويتقارب تقدير الدمج نحو القيمة الحقيقية
  • بعد انتهاء الاتصال، يرتفع عدم اليقين مرة أخرى بسبب نقص المعلومات الجديدة

النتائج التجريبية

  1. قيمة تقدير المعاملات الفيزيائية: يحسن تقدير المعاملات الفيزيائية الدقيق أداء المعالجة بشكل كبير
  2. ضرورة الدمج: معلومات VLM والتفاعل لا غنى عنها، والاستخدام المنفصل يؤدي إلى انخفاض حاد في الأداء
  3. أهمية الوعي بعدم اليقين: يحقق دمج المعلومات الفعال من خلال الترجيح بعدم اليقين
  4. المتانة: يُظهر متانة قوية تجاه تقديرات VLM غير الدقيقة

الأعمال ذات الصلة

العشوائية في المجال وتحديد النظام

تدرب الطرق التقليدية سياسات قوية من خلال عشوائية ديناميكيات المحاكاة، لكنها غالبًا ما تعتمد على سلوك متوسط على حساب الأداء. تتطلب طرق تحديد النظام ضبط معاملات يدوي وتنتج نماذج ثابتة.

التكيف السياسي عبر الإنترنت

تُظهر طرق مثل RMA أداءً جيدًا في سيناريوهات الاتصال المستمر (مثل الحركة)، لكنها تواجه تحديات في الاتصال المتقطع في مهام المعالجة العامة. تحل هذه الورقة هذه المشكلة من خلال أولويات VLM والدمج الموجه بالتنبيهات.

التوأم الرقمي والعرض

يمكن لـ NeRF و GSplat إعادة بناء مشاهد ثلاثية الأبعاد عالية الدقة، لكن التوائم الرقمية الموجودة تركز على الدقة البصرية، متجاهلة الخصائص الفيزيائية. تنشئ هذه الورقة توأمًا رقميًا يحتوي على معلومات فيزيائية.

الاستدلال الفيزيائي لنماذج اللغة الرؤية

تُظهر الأعمال الحديثة قدرات الاستدلال الفيزيائي لنماذج اللغة الرؤية، لكنها تُستخدم بشكل أساسي للتخطيط عالي المستوى. تدمج هذه الورقة للمرة الأولى تقدير المعاملات الفيزيائية لـ VLM مباشرة في سياسات التحكم منخفضة المستوى.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجحت Phys2Real في إظهار فعالية الجمع بين الاستدلال البصري لـ VLM والتكيف التفاعلي، متفوقة بشكل كبير على خط أساس العشوائية في المجال في عدة مهام معالجة. تسمح آلية الدمج الموجهة بالتنبيهات للنظام بتعديل الأوزان ديناميكيًا بناءً على موثوقية كل مصدر معلومات.

القيود

  1. افتراض التماثل: تعمل خط أنابيب إعادة البناء بشكل أفضل على الأجسام المتماثلة تقريبًا، قد تشوه المرآة الشكل الحقيقي للأجسام غير المتماثلة
  2. انحياز تقدير VLM: يميل VLM إلى الانحياز نحو المركز الهندسي، قد ينتج تقديرات فيزيائية غير متسقة
  3. تعقيد المهمة: تم التحقق من المهام الحالية نسبيًا بسيطة، لا تزال قابلية التعميم للعمليات الأكثر تعقيدًا بحاجة إلى التحقق
  4. الاعتماد على الإدراك: يعتمد على نظام التقاط الحركة، الانتقال إلى الإدراك البصري البحت هو اتجاه مستقبلي

الاتجاهات المستقبلية

  1. توسيع استراتيجيات إعادة البناء للأجسام غير المتماثلة
  2. استبدال التقاط الحركة بالتتبع القائم على الإدراك
  3. التحقق من الأداء في مهام معالجة أكثر تعقيدًا
  4. استكشاف تقدير معاملات فيزيائية أخرى (مثل الاحتكاك والصلابة)

التقييم المتعمق

المزايا

  1. ابتكار قوي: دمج أول لاستدلال VLM الفيزيائي مع تكيف RMA، يفتح اتجاهًا بحثيًا جديدًا
  2. حل تقني معقول: يتمتع تحليل عدم اليقين ودمج معاكس التباين بأساس نظري
  3. تجارب شاملة: تقييم شامل لمهام متعددة وتكوينات متعددة، تجارب الاستئصال تكشف مساهمة كل مكون
  4. قيمة عملية عالية: توفير فكرة حل جديدة لمشكلة نقل المحاكاة إلى الواقع

أوجه القصور

  1. نطاق مهام محدود: تم التحقق فقط من مهام الدفع المستوية، لا تزال قابلية التعميم للعمليات المعقدة غير معروفة
  2. الاعتماد على VLM: يعتمد بشكل كبير على قدرات الاستدلال الفيزيائي لـ VLM، قد يكون هناك انحياز منهجي
  3. التكلفة الحسابية: قد تجلب طرق التجميع واستعلامات VLM تكاليف حسابية إضافية
  4. نقص التحليل النظري: يفتقر إلى تحليل التقارب النظري لاستراتيجية الدمج

التأثير

يوفر هذا العمل مساهمة مهمة لمجال تعلم الروبوتات، ويُظهر إمكانية تطبيق النماذج الأساسية في التحكم منخفض المستوى. من المتوقع أن يلهم المزيد من الأبحاث التي تجمع بين الاستدلال البصري والتعلم التفاعلي، مما يدفع تطور تكنولوجيا نقل المحاكاة إلى الواقع.

السيناريوهات القابلة للتطبيق

  • مهام المعالجة التي تتطلب نمذجة فيزيائية دقيقة
  • السيناريوهات التي تكون فيها الخصائص الفيزيائية للأجسام غير معروفة أو متغيرة
  • المعالجة غير القبضة مع الاتصال المتقطع
  • التطبيقات التي تتطلب التكيف السريع مع أجسام جديدة

المراجع

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.


التقييم الإجمالي: هذه ورقة عالية الجودة في مجال تعلم الروبوتات، تجمع بشكل مبتكر بين عدة تقنيات متقدمة، وتوفر حلاً جديدًا وفعالاً لمشكلة نقل المحاكاة إلى الواقع. على الرغم من وجود بعض القيود، فإن مساهماتها التقنية والتحقق التجريبي يصلان إلى معايير عالية، مع قيمة أكاديمية وآفاق تطبيقية مهمة.