2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

基本信息

  • 论文ID: 2510.09036
  • 标题: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
  • 作者: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
  • 机构: ¹南洋理工大学,²清华大学
  • 分类: cs.RO (机器人学)
  • 发表时间: 2024年10月10日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09036
  • 项目主页: https://xingyoujun.github.io/imowm/

摘要

学习世界模型在机器人操作中具有巨大潜力,可作为真实世界交互的模拟器。虽然基于2D视频的世界模型取得了广泛进展,但这些方法往往缺乏几何和空间推理能力,而这对于捕获3D世界的物理结构至关重要。为解决这一局限性,作者提出了iMoWM,这是一种新颖的交互式世界模型,能够以自回归方式在动作条件下生成彩色图像、深度图和机器人手臂掩码。为克服三维信息带来的高计算成本,作者提出了MMTokenizer,将多模态输入统一为紧凑的token表示。这种设计使iMoWM能够利用大规模预训练的VideoGPT模型,同时保持高效率并融入更丰富的物理信息。

研究背景与动机

问题定义

机器人操作任务需要对3D环境中的物理动态进行准确预测,但现有的世界模型主要存在以下问题:

  1. 缺乏几何理解:大多数方法仅基于RGB视频预测,缺乏对3D空间结构的显式表示
  2. 计算成本高昂:直接处理3D信息(如3D高斯分布)计算开销巨大
  3. 泛化能力有限:缺乏动作条件约束,难以适应多样化的机器人操作场景

研究动机

机器人操作发生在三维空间中,仅依赖RGB信息容易在视觉变化和复杂物体交互下产生错误。现有的3D方法如GWM虽然采用3D高斯分布,但依赖于高质量的3DGS重建,在单目场景下效果有限且难以扩展。

核心贡献

  1. 提出iMoWM框架:首个能够同时预测彩色图像、深度图和机器人手臂掩码的交互式多模态世界模型
  2. 设计MMTokenizer:创新的多模态标记器,将异构输入统一为紧凑token表示,显著降低计算成本
  3. 实现多任务应用:支持动作条件视频生成、模型基础强化学习(MBRL)和真实世界模仿学习
  4. 验证性能优越性:在公开基准和真实世界实验中均达到最先进性能

方法详解

任务定义

给定初始观察O₁(包含彩色图像、深度图、机器人手臂掩码)和动作序列{aₜ}ᵀₜ₌₁,iMoWM需要预测未来的多模态观察序列{Oₜ}ᵀₜ₌₂。

模型架构

MMTokenizer设计

MMTokenizer是核心创新,采用双编码器-解码器框架{(Ec,Dc), (Ed,Dd)}:

  1. 上下文编码:使用上下文编码器处理初始帧
    Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
    
  2. 动态编码:条件编码器专注于动态区域
    Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
    
  3. 模态适配:复制首末层处理不同模态的特征分布差异,引入模态特定嵌入

自回归Transformer

采用LLaMA风格的transformer架构,包含:

  • RMSNorm归一化
  • SwiGLU激活函数
  • 旋转位置编码
  • 动作条件slot token注入机制

动作条件通过slot token实现:

[Sₜ] = [S] + Linear(aₜ)

训练目标为交叉熵损失:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

技术创新点

  1. 统一多模态表示:首次将RGB、深度、掩码统一编码,避免模态间信息丢失
  2. 计算效率优化:动态编码器仅关注变化区域,大幅降低token数量
  3. 预训练模型复用:设计兼容现有VideoGPT预训练权重,加速收敛

实验设置

数据集

  1. BAIR机器人推动数据集:43K训练视频,256测试视频,64×64分辨率
  2. RoboNet数据集:使用19K训练视频子集,256测试视频
  3. 自收集数据集:1K训练视频,150测试视频,256×256高分辨率
  4. Meta-World基准:6个机器人操作任务用于强化学习评估

评价指标

  • 视觉质量:FVD、PSNR、SSIM、LPIPS
  • 深度精度:AbsRel(绝对相对误差)
  • 操作性能:任务成功率

对比方法

  • MaskViT、SVG、GHVAE(视频预测基线)
  • iVideoGPT(最强RGB基线)
  • GWM(3D高斯分布方法)

实现细节

  • 使用Video Depth Anything生成深度图
  • Grounding DINO + SAM2提取机器人手臂掩码
  • 预训练权重初始化transformer
  • 4个rollout用于公平比较

实验结果

主要结果

视频生成性能

在BAIR数据集上:

  • FVD: 60.9 (vs iVideoGPT 65.01)
  • PSNR: 23.82 (vs iVideoGPT 23.40)
  • SSIM: 0.896 (vs iVideoGPT 0.882)
  • LPIPS: 0.051 (vs iVideoGPT 0.058)
  • AbsRel: 0.045 (vs iVideoGPT 0.059)

在RoboNet数据集上全面优于基线方法,在高分辨率真实数据上PSNR达到38.33。

强化学习性能

在Meta-World 6个任务上均优于iVideoGPT和GWM,平均收敛速度更快,最终成功率更高。几何感知的rollout显著提升了RL性能。

真实世界部署

在GALAXEA A1机器人上的杯子堆叠和拿取面包任务中:

  • 总成功率:29/35 (vs iVideoGPT 13/35, GT 27/35)
  • 接近真实数据性能,验证了多模态rollout的高保真度

消融实验

  1. MMTokenizer效果:相比原始tokenizer,推理时间从860s降至10s,同时提升所有视觉指标
  2. 模态贡献分析
    • RGB+Depth+Mask (完整方法): FVD 67.6
    • 仅RGB: FVD 70.2
    • RGB+Mask: FVD 70.6
    • RGB+Depth: FVD 67.5

每个模态都对性能提升有贡献,深度信息贡献最大。

实验发现

  1. 分辨率敏感性:高分辨率输入显著提升性能,因为能提供更精确的深度和掩码信息
  2. 几何信息重要性:深度图比掩码提供更丰富的几何约束
  3. 计算效率:MMTokenizer在保持性能的同时大幅提升推理速度

相关工作

学习世界模型

早期方法受VideoGPT启发进行RGB视频标记化,近期扩散模型推动了潜在空间预测。GWM采用3DGS但受限于单目场景质量。

4D视频预测

TesserAct等方法探索RGB-D生成,但缺乏显式动作条件,限制了机器人应用。

机器人操作世界模型

主要用于数据增强和RL仿真,但普遍缺乏3D信息,限制了作为仿真器和数据生成器的效果。

结论与讨论

主要结论

  1. 多模态世界模型显著优于纯RGB方法
  2. MMTokenizer实现了效率和性能的良好平衡
  3. 几何信息对机器人操作任务至关重要
  4. 方法在仿真和真实环境中都表现出色

局限性

  1. 预训练依赖:仍需大规模预训练才能充分发挥多模态世界模型的泛化能力
  2. 计算资源:虽然相比3DGS方法更高效,但仍比纯RGB方法计算量大
  3. 深度质量依赖:性能受深度估计质量影响

未来方向

  1. 探索更大规模的多模态预训练
  2. 研究更高效的3D表示方法
  3. 扩展到更多机器人平台和任务类型

深度评价

优点

  1. 创新性强:首次系统性地将多模态信息引入世界模型,技术路线新颖
  2. 工程完整:从理论设计到实际部署形成完整闭环
  3. 实验充分:涵盖仿真、基准测试和真实机器人验证
  4. 性能显著:在多个指标上取得明显提升

不足

  1. 理论分析不足:缺乏对为什么多模态信息能提升性能的深入理论分析
  2. 泛化性验证有限:主要在特定机器人平台上验证,跨平台泛化能力需进一步验证
  3. 计算开销分析:虽然提到效率提升,但缺乏详细的计算复杂度分析

影响力

  1. 学术价值:为世界模型研究提供了新的多模态方向
  2. 实用价值:直接应用于真实机器人系统,实用性强
  3. 可复现性:提供了详细的实现细节和开源承诺

适用场景

  1. 需要精确几何理解的机器人操作任务
  2. 数据稀缺的机器人学习场景
  3. 需要高保真仿真的强化学习应用

参考文献

本文引用了63篇相关文献,涵盖世界模型、视频预测、机器人学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的机器人学习论文,在多模态世界模型方向做出了重要贡献。技术创新点明确,实验验证充分,具有较强的学术价值和实用价值。