2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

基本信息

论文ID: 2510.09036
标题: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
作者: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
机构: ¹南洋理工大学，²清华大学
分类: cs.RO (机器人学)
发表时间: 2024年10月10日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09036
项目主页: https://xingyoujun.github.io/imowm/

摘要

学习世界模型在机器人操作中具有巨大潜力，可作为真实世界交互的模拟器。虽然基于2D视频的世界模型取得了广泛进展，但这些方法往往缺乏几何和空间推理能力，而这对于捕获3D世界的物理结构至关重要。为解决这一局限性，作者提出了iMoWM，这是一种新颖的交互式世界模型，能够以自回归方式在动作条件下生成彩色图像、深度图和机器人手臂掩码。为克服三维信息带来的高计算成本，作者提出了MMTokenizer，将多模态输入统一为紧凑的token表示。这种设计使iMoWM能够利用大规模预训练的VideoGPT模型，同时保持高效率并融入更丰富的物理信息。

研究背景与动机

问题定义

机器人操作任务需要对3D环境中的物理动态进行准确预测，但现有的世界模型主要存在以下问题：

缺乏几何理解：大多数方法仅基于RGB视频预测，缺乏对3D空间结构的显式表示
计算成本高昂：直接处理3D信息（如3D高斯分布）计算开销巨大
泛化能力有限：缺乏动作条件约束，难以适应多样化的机器人操作场景

研究动机

机器人操作发生在三维空间中，仅依赖RGB信息容易在视觉变化和复杂物体交互下产生错误。现有的3D方法如GWM虽然采用3D高斯分布，但依赖于高质量的3DGS重建，在单目场景下效果有限且难以扩展。

核心贡献

提出iMoWM框架：首个能够同时预测彩色图像、深度图和机器人手臂掩码的交互式多模态世界模型
设计MMTokenizer：创新的多模态标记器，将异构输入统一为紧凑token表示，显著降低计算成本
实现多任务应用：支持动作条件视频生成、模型基础强化学习(MBRL)和真实世界模仿学习
验证性能优越性：在公开基准和真实世界实验中均达到最先进性能

上下文编码：使用上下文编码器处理初始帧
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```

动态编码：条件编码器专注于动态区域

Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T

模态适配：复制首末层处理不同模态的特征分布差异，引入模态特定嵌入

自回归Transformer

采用LLaMA风格的transformer架构，包含：

RMSNorm归一化
SwiGLU激活函数
旋转位置编码
动作条件slot token注入机制

动作条件通过slot token实现：

[Sₜ] = [S] + Linear(aₜ)

训练目标为交叉熵损失：

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

技术创新点

统一多模态表示：首次将RGB、深度、掩码统一编码，避免模态间信息丢失
计算效率优化：动态编码器仅关注变化区域，大幅降低token数量
预训练模型复用：设计兼容现有VideoGPT预训练权重，加速收敛

实验设置

数据集

BAIR机器人推动数据集：43K训练视频，256测试视频，64×64分辨率
RoboNet数据集：使用19K训练视频子集，256测试视频
自收集数据集：1K训练视频，150测试视频，256×256高分辨率
Meta-World基准：6个机器人操作任务用于强化学习评估

评价指标

视觉质量：FVD、PSNR、SSIM、LPIPS
深度精度：AbsRel（绝对相对误差）
操作性能：任务成功率

对比方法

MaskViT、SVG、GHVAE（视频预测基线）
iVideoGPT（最强RGB基线）
GWM（3D高斯分布方法）

实现细节

使用Video Depth Anything生成深度图
Grounding DINO + SAM2提取机器人手臂掩码
预训练权重初始化transformer
4个rollout用于公平比较

FVD: 60.9 (vs iVideoGPT 65.01)
PSNR: 23.82 (vs iVideoGPT 23.40)
SSIM: 0.896 (vs iVideoGPT 0.882)
LPIPS: 0.051 (vs iVideoGPT 0.058)
AbsRel: 0.045 (vs iVideoGPT 0.059)

在RoboNet数据集上全面优于基线方法，在高分辨率真实数据上PSNR达到38.33。

强化学习性能

在Meta-World 6个任务上均优于iVideoGPT和GWM，平均收敛速度更快，最终成功率更高。几何感知的rollout显著提升了RL性能。

真实世界部署

在GALAXEA A1机器人上的杯子堆叠和拿取面包任务中：

总成功率：29/35 (vs iVideoGPT 13/35, GT 27/35)
接近真实数据性能，验证了多模态rollout的高保真度

消融实验

MMTokenizer效果：相比原始tokenizer，推理时间从860s降至10s，同时提升所有视觉指标
模态贡献分析：
- RGB+Depth+Mask (完整方法): FVD 67.6
- 仅RGB: FVD 70.2
- RGB+Mask: FVD 70.6
- RGB+Depth: FVD 67.5