2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic

iMoWM: تدجين نموذج عالم متعدد الأنماط التفاعلي لمعالجة الروبوتات

المعلومات الأساسية

  • معرّف الورقة: 2510.09036
  • العنوان: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
  • المؤلفون: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
  • المؤسسات: ¹جامعة نانيانج التكنولوجية، ²جامعة تسينغهوا
  • التصنيف: cs.RO (الروبوتات)
  • تاريخ النشر: 10 أكتوبر 2024 (ورقة arXiv التمهيدية)
  • رابط الورقة: https://arxiv.org/abs/2510.09036
  • صفحة المشروع: https://xingyoujun.github.io/imowm/

الملخص

يحمل تعلم نماذج العالم إمكانات هائلة في معالجة الروبوتات، حيث يعمل كمحاكي للتفاعل مع العالم الحقيقي. على الرغم من التقدم الواسع في نماذج العالم القائمة على الفيديو ثنائي الأبعاد، فإن هذه الطرق غالباً ما تفتقر إلى القدرات الهندسية والاستدلال المكاني، وهو أمر حاسم لالتقاط البنية الفيزيائية للعالم ثلاثي الأبعاد. لمعالجة هذا القيد، يقترح المؤلفون iMoWM، وهو نموذج عالم تفاعلي جديد يمكنه توليد صور ملونة وخرائط عمق وأقنعة ذراع الروبوت بطريقة انحدارية مشروطة بالإجراءات. للتغلب على التكاليف الحسابية العالية الناجمة عن المعلومات ثلاثية الأبعاد، يقترح المؤلفون MMTokenizer، الذي يوحد المدخلات متعددة الأنماط في تمثيل رموز مضغوط. يسمح هذا التصميم لـ iMoWM بالاستفادة من نموذج VideoGPT المدرب مسبقاً على نطاق واسع، مع الحفاظ على الكفاءة ودمج معلومات فيزيائية أغنى.

السياق البحثي والدافع

تعريف المشكلة

تتطلب مهام معالجة الروبوتات التنبؤ الدقيق بالديناميكيات الفيزيائية في البيئات ثلاثية الأبعاد، لكن نماذج العالم الحالية تعاني من المشاكل التالية:

  1. نقص الفهم الهندسي: تعتمد معظم الطرق على التنبؤ بفيديو RGB فقط، وتفتقر إلى التمثيل الصريح للبنية المكانية ثلاثية الأبعاد
  2. التكاليف الحسابية العالية: معالجة المعلومات ثلاثية الأبعاد مباشرة (مثل التوزيعات الغاوسية ثلاثية الأبعاد) تتطلب نفقات حسابية ضخمة
  3. القدرة المحدودة على التعميم: نقص القيود المشروطة بالإجراءات يجعل من الصعب التكيف مع سيناريوهات معالجة الروبوتات المتنوعة

الدافع البحثي

تحدث معالجة الروبوتات في الفضاء ثلاثي الأبعاد، والاعتماد على معلومات RGB فقط يمكن أن يؤدي إلى أخطاء في التغييرات البصرية والتفاعلات المعقدة بين الأجسام. على الرغم من أن الطرق ثلاثية الأبعاد الحالية مثل GWM تستخدم التوزيعات الغاوسية ثلاثية الأبعاد، إلا أنها تعتمد على إعادة بناء 3DGS عالية الجودة، وهو ما يكون محدوداً في السيناريوهات أحادية الكاميرا ويصعب توسيعه.

المساهمات الأساسية

  1. اقتراح إطار عمل iMoWM: أول نموذج عالم متعدد الأنماط تفاعلي يمكنه التنبؤ بالصور الملونة وخرائط العمق وأقنعة ذراع الروبوت في نفس الوقت
  2. تصميم MMTokenizer: مُرمِّز متعدد الأنماط مبتكر يوحد المدخلات غير المتجانسة في تمثيل رموز مضغوط، مما يقلل بشكل كبير من التكاليف الحسابية
  3. تحقيق تطبيقات متعددة المهام: يدعم توليد الفيديو المشروط بالإجراءات والتعلم المعزز القائم على النموذج (MBRL) والتعلم بالمحاكاة في العالم الحقيقي
  4. التحقق من الأداء المتفوقة: تحقيق أداء متقدمة على المعايير المفتوحة والتجارب في العالم الحقيقي

شرح الطريقة

تعريف المهمة

بالنظر إلى الملاحظة الأولية O₁ (التي تتضمن صورة ملونة وخريطة عمق وقناع ذراع الروبوت) وتسلسل الإجراءات {aₜ}ᵀₜ₌₁، يحتاج iMoWM إلى التنبؤ بتسلسل الملاحظات متعددة الأنماط المستقبلية {Oₜ}ᵀₜ₌₂.

معمارية النموذج

تصميم MMTokenizer

MMTokenizer هو الابتكار الأساسي، ويستخدم إطار عمل مشفر-فك تشفير مزدوج {(Ec,Dc), (Ed,Dd)}:

  1. ترميز السياق: استخدام مشفر السياق لمعالجة الإطار الأولي
    Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
    
  2. ترميز الديناميكية: يركز المشفر المشروط على المناطق الديناميكية
    Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
    
  3. التكيف الموضوعي: نسخ الطبقات الأولى والأخيرة للتعامل مع الاختلافات في توزيع الميزات بين الأنماط المختلفة، مع إدخال تضمينات خاصة بالنمط

محول الانحدار الذاتي

يستخدم معمارية محول بأسلوب LLaMA، تتضمن:

  • تطبيع RMSNorm
  • دالة تفعيل SwiGLU
  • ترميز الموضع الدوراني
  • آلية حقن رمز الفتحة المشروطة بالإجراء

يتم تنفيذ شرط الإجراء من خلال رموز الفتحة:

[Sₜ] = [S] + Linear(aₜ)

الهدف التدريبي هو خسارة الإنتروبيا المتقاطعة:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

نقاط الابتكار التقني

  1. تمثيل موحد متعدد الأنماط: أول مرة يتم فيها توحيد ترميز RGB والعمق والقناع، مما يتجنب فقدان المعلومات بين الأنماط
  2. تحسين الكفاءة الحسابية: يركز المشفر الديناميكي فقط على المناطق المتغيرة، مما يقلل بشكل كبير من عدد الرموز
  3. إعادة استخدام النموذج المدرب مسبقاً: التصميم متوافق مع أوزان VideoGPT المدربة مسبقاً الموجودة، مما يسرع التقارب

إعداد التجارب

مجموعات البيانات

  1. مجموعة بيانات دفع الروبوت BAIR: 43K فيديو تدريبي، 256 فيديو اختبار، دقة 64×64
  2. مجموعة بيانات RoboNet: استخدام مجموعة فرعية من 19K فيديو تدريبي، 256 فيديو اختبار
  3. مجموعة البيانات المجمعة ذاتياً: 1K فيديو تدريبي، 150 فيديو اختبار، دقة عالية 256×256
  4. معيار Meta-World: 6 مهام معالجة روبوتية لتقييم التعلم المعزز

مؤشرات التقييم

  • جودة البصرية: FVD و PSNR و SSIM و LPIPS
  • دقة العمق: AbsRel (الخطأ النسبي المطلق)
  • أداء التشغيل: معدل نجاح المهمة

طرق المقارنة

  • MaskViT و SVG و GHVAE (خطوط أساس التنبؤ بالفيديو)
  • iVideoGPT (أقوى خط أساس RGB)
  • GWM (طريقة التوزيع الغاوسي ثلاثي الأبعاد)

تفاصيل التنفيذ

  • استخدام Video Depth Anything لتوليد خرائط العمق
  • Grounding DINO + SAM2 لاستخراج أقنعة ذراع الروبوت
  • تهيئة أوزان التدريب المسبق للمحول
  • 4 rollouts للمقارنة العادلة

نتائج التجارب

النتائج الرئيسية

أداء توليد الفيديو

على مجموعة بيانات BAIR:

  • FVD: 60.9 (مقابل iVideoGPT 65.01)
  • PSNR: 23.82 (مقابل iVideoGPT 23.40)
  • SSIM: 0.896 (مقابل iVideoGPT 0.882)
  • LPIPS: 0.051 (مقابل iVideoGPT 0.058)
  • AbsRel: 0.045 (مقابل iVideoGPT 0.059)

متفوقة بشكل شامل على الطرق الأساسية على مجموعة بيانات RoboNet، مع تحقيق PSNR بقيمة 38.33 على البيانات الحقيقية عالية الدقة.

أداء التعلم المعزز

متفوقة على iVideoGPT و GWM في جميع المهام الـ 6 على Meta-World، مع سرعة تقارب أسرع ومعدل نجاح نهائي أعلى. يحسن rollout الذي يدرك الهندسة أداء RL بشكل كبير.

النشر في العالم الحقيقي

في مهام تكديس الأكواب والتقاط الخبز على روبوت GALAXEA A1:

  • معدل النجاح الإجمالي: 29/35 (مقابل iVideoGPT 13/35، GT 27/35)
  • قريب من أداء البيانات الحقيقية، مما يتحقق من الدقة العالية للـ rollout متعدد الأنماط

تجارب الاستئصال

  1. تأثير MMTokenizer: مقارنة بـ tokenizer الأصلي، انخفض وقت الاستدلال من 860 ثانية إلى 10 ثوانٍ، مع تحسين جميع المؤشرات البصرية
  2. تحليل مساهمة النمط:
    • RGB+Depth+Mask (الطريقة الكاملة): FVD 67.6
    • RGB فقط: FVD 70.2
    • RGB+Mask: FVD 70.6
    • RGB+Depth: FVD 67.5

يساهم كل نمط في تحسين الأداء، مع أن معلومات العمق توفر أكبر مساهمة.

النتائج التجريبية

  1. حساسية الدقة: يحسن الإدخال عالي الدقة الأداء بشكل كبير، لأنه يوفر معلومات عمق وقناع أكثر دقة
  2. أهمية المعلومات الهندسية: توفر خرائط العمق قيوداً هندسية أغنى من الأقنعة
  3. الكفاءة الحسابية: يحسن MMTokenizer سرعة الاستدلال بشكل كبير مع الحفاظ على الأداء

الأعمال ذات الصلة

تعلم نماذج العالم

استلهمت الطرق المبكرة من VideoGPT لتوكنة فيديو RGB، وقادت النماذج الانتشارية الحديثة التنبؤ في الفضاء الكامن. يستخدم GWM 3DGS لكنه محدود بجودة السيناريوهات أحادية الكاميرا.

التنبؤ بالفيديو ثنائي الأبعاد

تستكشف طرق مثل TesserAct توليد RGB-D، لكنها تفتقر إلى شرط الإجراء الصريح، مما يحد من التطبيقات الروبوتية.

نماذج العالم لمعالجة الروبوتات

تُستخدم بشكل أساسي لتعزيز البيانات ومحاكاة RL، لكنها تفتقر عموماً إلى معلومات ثلاثية الأبعاد، مما يحد من فعاليتها كمحاكي ومولد بيانات.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نماذج العالم متعددة الأنماط متفوقة بشكل كبير على طرق RGB النقية
  2. يحقق MMTokenizer توازناً جيداً بين الكفاءة والأداء
  3. المعلومات الهندسية حاسمة لمهام معالجة الروبوتات
  4. تُظهر الطريقة أداءً ممتازاً في بيئات المحاكاة والعالم الحقيقي

القيود

  1. الاعتماد على التدريب المسبق: لا تزال بحاجة إلى تدريب مسبق على نطاق واسع لتحقيق الإمكانات الكاملة لنماذج العالم متعددة الأنماط
  2. الموارد الحسابية: على الرغم من أنها أكثر كفاءة من طرق 3DGS، إلا أنها تتطلب حسابات أكثر من طرق RGB النقية
  3. الاعتماد على جودة العمق: تتأثر الأداء بجودة تقدير العمق

الاتجاهات المستقبلية

  1. استكشاف التدريب المسبق متعدد الأنماط على نطاق أكبر
  2. البحث عن طرق تمثيل ثلاثية الأبعاد أكثر كفاءة
  3. التوسع إلى منصات وأنواع مهام روبوتية أكثر

التقييم المتعمق

المميزات

  1. ابتكار قوي: أول محاولة منهجية لإدخال معلومات متعددة الأنماط في نماذج العالم، مع مسار تقني جديد
  2. اكتمال الهندسة: تشكيل حلقة مغلقة كاملة من التصميم النظري إلى النشر الفعلي
  3. تجارب شاملة: تغطي المحاكاة واختبارات المعايير والتحقق من الروبوتات الحقيقية
  4. أداء ملحوظة: تحقيق تحسينات واضحة في مؤشرات متعددة

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى التحليل النظري العميق لسبب تحسن المعلومات متعددة الأنماط للأداء
  2. التحقق المحدود من التعميم: التحقق بشكل أساسي على منصات روبوتية محددة، مع الحاجة إلى التحقق الإضافي من قدرة التعميم عبر المنصات
  3. تحليل نفقات الحوسبة: على الرغم من الإشارة إلى تحسن الكفاءة، إلا أنه يفتقر إلى تحليل تفصيلي لتعقيد الحوسبة

التأثير

  1. القيمة الأكاديمية: توفير اتجاه جديد متعدد الأنماط لبحث نماذج العالم
  2. القيمة العملية: التطبيق المباشر على أنظمة الروبوتات الحقيقية، مع قيمة عملية قوية
  3. قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ شاملة والالتزام بالمصدر المفتوح

السيناريوهات المعمول بها

  1. مهام معالجة الروبوتات التي تتطلب فهماً هندسياً دقيقاً
  2. سيناريوهات تعلم الروبوتات ذات البيانات النادرة
  3. تطبيقات التعلم المعزز التي تتطلب محاكاة عالية الدقة

المراجع

تستشهد هذه الورقة بـ 63 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات نماذج العالم والتنبؤ بالفيديو والتعلم الروبوتي، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الشامل: هذه ورقة عالية الجودة في مجال تعلم الروبوتات، وقد قدمت مساهمات مهمة في اتجاه نماذج العالم متعددة الأنماط. نقاط الابتكار التقني واضحة، والتحقق التجريبي شامل، مع قيمة أكاديمية وعملية قوية.