iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic
iMoWM: تدجين نموذج عالم متعدد الأنماط التفاعلي لمعالجة الروبوتات
يحمل تعلم نماذج العالم إمكانات هائلة في معالجة الروبوتات، حيث يعمل كمحاكي للتفاعل مع العالم الحقيقي. على الرغم من التقدم الواسع في نماذج العالم القائمة على الفيديو ثنائي الأبعاد، فإن هذه الطرق غالباً ما تفتقر إلى القدرات الهندسية والاستدلال المكاني، وهو أمر حاسم لالتقاط البنية الفيزيائية للعالم ثلاثي الأبعاد. لمعالجة هذا القيد، يقترح المؤلفون iMoWM، وهو نموذج عالم تفاعلي جديد يمكنه توليد صور ملونة وخرائط عمق وأقنعة ذراع الروبوت بطريقة انحدارية مشروطة بالإجراءات. للتغلب على التكاليف الحسابية العالية الناجمة عن المعلومات ثلاثية الأبعاد، يقترح المؤلفون MMTokenizer، الذي يوحد المدخلات متعددة الأنماط في تمثيل رموز مضغوط. يسمح هذا التصميم لـ iMoWM بالاستفادة من نموذج VideoGPT المدرب مسبقاً على نطاق واسع، مع الحفاظ على الكفاءة ودمج معلومات فيزيائية أغنى.
تحدث معالجة الروبوتات في الفضاء ثلاثي الأبعاد، والاعتماد على معلومات RGB فقط يمكن أن يؤدي إلى أخطاء في التغييرات البصرية والتفاعلات المعقدة بين الأجسام. على الرغم من أن الطرق ثلاثية الأبعاد الحالية مثل GWM تستخدم التوزيعات الغاوسية ثلاثية الأبعاد، إلا أنها تعتمد على إعادة بناء 3DGS عالية الجودة، وهو ما يكون محدوداً في السيناريوهات أحادية الكاميرا ويصعب توسيعه.
بالنظر إلى الملاحظة الأولية O₁ (التي تتضمن صورة ملونة وخريطة عمق وقناع ذراع الروبوت) وتسلسل الإجراءات {aₜ}ᵀₜ₌₁، يحتاج iMoWM إلى التنبؤ بتسلسل الملاحظات متعددة الأنماط المستقبلية {Oₜ}ᵀₜ₌₂.
متفوقة على iVideoGPT و GWM في جميع المهام الـ 6 على Meta-World، مع سرعة تقارب أسرع ومعدل نجاح نهائي أعلى. يحسن rollout الذي يدرك الهندسة أداء RL بشكل كبير.
استلهمت الطرق المبكرة من VideoGPT لتوكنة فيديو RGB، وقادت النماذج الانتشارية الحديثة التنبؤ في الفضاء الكامن. يستخدم GWM 3DGS لكنه محدود بجودة السيناريوهات أحادية الكاميرا.
تستشهد هذه الورقة بـ 63 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات نماذج العالم والتنبؤ بالفيديو والتعلم الروبوتي، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة عالية الجودة في مجال تعلم الروبوتات، وقد قدمت مساهمات مهمة في اتجاه نماذج العالم متعددة الأنماط. نقاط الابتكار التقني واضحة، والتحقق التجريبي شامل، مع قيمة أكاديمية وعملية قوية.