iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
세계 모델 학습은 실제 세계 상호작용의 시뮬레이터로서 로봇 조작에 막대한 잠재력을 가지고 있습니다. 2D 비디오 기반 세계 모델이 광범위한 진전을 이루었지만, 이러한 방법들은 종종 3D 세계의 물리적 구조를 포착하는 데 필수적인 기하학적 및 공간 추론 능력이 부족합니다. 이러한 한계를 해결하기 위해 저자들은 동작 조건 하에서 컬러 이미지, 깊이 맵, 로봇 팔 마스크를 자회귀 방식으로 생성할 수 있는 새로운 대화형 세계 모델인 iMoWM을 제안합니다. 3D 정보로 인한 높은 계산 비용을 극복하기 위해 저자들은 다중모달 입력을 간결한 토큰 표현으로 통합하는 MMTokenizer를 제안합니다. 이러한 설계를 통해 iMoWM은 대규모 사전학습된 VideoGPT 모델을 활용하면서 높은 효율성을 유지하고 더욱 풍부한 물리 정보를 통합할 수 있습니다.
로봇 조작은 3D 공간에서 발생하며, RGB 정보에만 의존하면 시각적 변화와 복잡한 물체 상호작용 하에서 오류가 발생하기 쉽습니다. GWM과 같은 기존 3D 방법은 3D 가우시안 분포를 채택하지만 고품질의 3DGS 재구성에 의존하며, 단안 시나리오에서 효과가 제한적이고 확장이 어렵습니다.