2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic

iMoWM: Domando Modelos de Mundo Multimodal Interactivo para Manipulación Robótica

Información Básica

  • ID del Artículo: 2510.09036
  • Título: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
  • Autores: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
  • Instituciones: ¹Universidad Tecnológica de Nanyang, ²Universidad Tsinghua
  • Clasificación: cs.RO (Robótica)
  • Fecha de Publicación: 10 de octubre de 2024 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09036
  • Página del Proyecto: https://xingyoujun.github.io/imowm/

Resumen

El aprendizaje de modelos de mundo presenta un enorme potencial en la manipulación robótica, funcionando como simulador de interacciones del mundo real. Aunque los modelos de mundo basados en video 2D han logrado avances generalizados, estos métodos frecuentemente carecen de capacidades de razonamiento geométrico y espacial, que son cruciales para capturar la estructura física del mundo 3D. Para abordar esta limitación, los autores proponen iMoWM, un novedoso modelo de mundo interactivo capaz de generar de manera autorregresiva imágenes a color, mapas de profundidad y máscaras del brazo robótico condicionadas por acciones. Para superar el alto costo computacional derivado de la información tridimensional, los autores proponen MMTokenizer, que unifica entradas multimodales en una representación compacta de tokens. Este diseño permite que iMoWM aproveche modelos VideoGPT preentrenados a gran escala, manteniendo eficiencia e incorporando información física más rica.

Antecedentes de Investigación y Motivación

Definición del Problema

Las tareas de manipulación robótica requieren predicción precisa de dinámicas físicas en entornos 3D, pero los modelos de mundo existentes presentan los siguientes problemas:

  1. Falta de Comprensión Geométrica: La mayoría de métodos se basan únicamente en predicción de video RGB, careciendo de representación explícita de la estructura espacial 3D
  2. Costo Computacional Elevado: El procesamiento directo de información 3D (como distribuciones gaussianas 3D) conlleva gastos computacionales enormes
  3. Capacidad de Generalización Limitada: La ausencia de restricciones condicionadas por acciones dificulta la adaptación a escenarios diversos de manipulación robótica

Motivación de la Investigación

La manipulación robótica ocurre en espacios tridimensionales, y depender únicamente de información RGB es propenso a errores bajo cambios visuales e interacciones complejas de objetos. Los métodos 3D existentes como GWM, aunque utilizan distribuciones gaussianas 3D, dependen de reconstrucciones 3DGS de alta calidad, con rendimiento limitado en escenas monoculares y difíciles de escalar.

Contribuciones Principales

  1. Propuesta del Marco iMoWM: Primer modelo de mundo multimodal interactivo capaz de predecir simultáneamente imágenes a color, mapas de profundidad y máscaras del brazo robótico
  2. Diseño de MMTokenizer: Tokenizador multimodal innovador que unifica entradas heterogéneas en representación compacta de tokens, reduciendo significativamente el costo computacional
  3. Implementación de Aplicaciones Multitarea: Soporte para generación de video condicionado por acciones, aprendizaje por refuerzo basado en modelos (MBRL) y aprendizaje por imitación en el mundo real
  4. Verificación de Rendimiento Superior: Logro de rendimiento de vanguardia tanto en puntos de referencia públicos como en experimentos del mundo real

Explicación Detallada del Método

Definición de la Tarea

Dada una observación inicial O₁ (que contiene imagen a color, mapa de profundidad y máscara del brazo robótico) y una secuencia de acciones {aₜ}ᵀₜ₌₁, iMoWM debe predecir la secuencia de observaciones multimodales futuras {Oₜ}ᵀₜ₌₂.

Arquitectura del Modelo

Diseño de MMTokenizer

MMTokenizer es la innovación central, adoptando un marco dual de codificador-decodificador {(Ec,Dc), (Ed,Dd)}:

  1. Codificación de Contexto: Utiliza codificador de contexto para procesar fotogramas iniciales
    Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
    
  2. Codificación Dinámica: Codificador condicional enfocado en regiones dinámicas
    Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
    
  3. Adaptación Modal: Replicación de capas iniciales y finales para procesar diferencias en distribuciones de características entre modalidades, introduciendo incrustaciones específicas de modalidad

Transformer Autorregresivo

Adopta arquitectura transformer estilo LLaMA, incluyendo:

  • Normalización RMSNorm
  • Función de activación SwiGLU
  • Codificación de posición rotacional
  • Mecanismo de inyección de token slot condicionado por acciones

El condicionamiento de acciones se implementa mediante tokens slot:

[Sₜ] = [S] + Linear(aₜ)

El objetivo de entrenamiento es pérdida de entropía cruzada:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Puntos Técnicos Innovadores

  1. Representación Multimodal Unificada: Primera unificación de codificación RGB, profundidad y máscara, evitando pérdida de información entre modalidades
  2. Optimización de Eficiencia Computacional: Codificador dinámico enfocado únicamente en regiones cambiantes, reduciendo significativamente la cantidad de tokens
  3. Reutilización de Modelos Preentrenados: Diseño compatible con pesos preentrenados VideoGPT existentes, acelerando convergencia

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos de Empuje de Robot BAIR: 43K videos de entrenamiento, 256 videos de prueba, resolución 64×64
  2. Conjunto de Datos RoboNet: Subconjunto de 19K videos de entrenamiento, 256 videos de prueba
  3. Conjunto de Datos Recopilado Internamente: 1K videos de entrenamiento, 150 videos de prueba, resolución alta 256×256
  4. Punto de Referencia Meta-World: 6 tareas de manipulación robótica para evaluación de aprendizaje por refuerzo

Métricas de Evaluación

  • Calidad Visual: FVD, PSNR, SSIM, LPIPS
  • Precisión de Profundidad: AbsRel (error relativo absoluto)
  • Rendimiento Operacional: Tasa de éxito de tareas

Métodos de Comparación

  • MaskViT, SVG, GHVAE (líneas base de predicción de video)
  • iVideoGPT (línea base RGB más fuerte)
  • GWM (método de distribución gaussiana 3D)

Detalles de Implementación

  • Uso de Video Depth Anything para generar mapas de profundidad
  • Grounding DINO + SAM2 para extracción de máscaras del brazo robótico
  • Inicialización de pesos preentrenados del transformer
  • 4 rollouts para comparación justa

Resultados Experimentales

Resultados Principales

Rendimiento de Generación de Video

En el conjunto de datos BAIR:

  • FVD: 60.9 (vs iVideoGPT 65.01)
  • PSNR: 23.82 (vs iVideoGPT 23.40)
  • SSIM: 0.896 (vs iVideoGPT 0.882)
  • LPIPS: 0.051 (vs iVideoGPT 0.058)
  • AbsRel: 0.045 (vs iVideoGPT 0.059)

Superioridad generalizada sobre métodos base en el conjunto de datos RoboNet, alcanzando PSNR de 38.33 en datos reales de alta resolución.

Rendimiento de Aprendizaje por Refuerzo

Superioridad sobre iVideoGPT y GWM en las 6 tareas Meta-World, con velocidad de convergencia más rápida y tasa de éxito final más alta. Los rollouts conscientes de geometría mejoran significativamente el rendimiento de RL.

Despliegue en el Mundo Real

En tareas de apilamiento de tazas y recogida de pan en robot GALAXEA A1:

  • Tasa de éxito total: 29/35 (vs iVideoGPT 13/35, datos reales 27/35)
  • Aproximación al rendimiento de datos reales, validando la alta fidelidad de rollouts multimodales

Experimentos de Ablación

  1. Efecto de MMTokenizer: Comparado con tokenizador original, tiempo de inferencia reducido de 860s a 10s, mientras se mejoran todas las métricas visuales
  2. Análisis de Contribución Modal:
    • RGB+Profundidad+Máscara (método completo): FVD 67.6
    • Solo RGB: FVD 70.2
    • RGB+Máscara: FVD 70.6
    • RGB+Profundidad: FVD 67.5

Cada modalidad contribuye a la mejora de rendimiento, con información de profundidad proporcionando la contribución máxima.

Hallazgos Experimentales

  1. Sensibilidad de Resolución: Entradas de alta resolución mejoran significativamente el rendimiento al proporcionar información de profundidad y máscara más precisa
  2. Importancia de Información Geométrica: Los mapas de profundidad proporcionan restricciones geométricas más ricas que las máscaras
  3. Eficiencia Computacional: MMTokenizer mejora significativamente la velocidad de inferencia mientras mantiene rendimiento

Trabajo Relacionado

Aprendizaje de Modelos de Mundo

Los métodos tempranos inspirados en VideoGPT realizan tokenización de video RGB, mientras que modelos de difusión recientes impulsan predicción en espacio latente. GWM adopta 3DGS pero está limitado por calidad de escenas monoculares.

Predicción de Video 4D

Métodos como TesserAct exploran generación RGB-D, pero carecen de condicionamiento explícito por acciones, limitando aplicaciones robóticas.

Modelos de Mundo para Manipulación Robótica

Utilizados principalmente para aumento de datos y simulación de RL, pero generalmente carecen de información 3D, limitando efectividad como simuladores y generadores de datos.

Conclusiones y Discusión

Conclusiones Principales

  1. Los modelos de mundo multimodal superan significativamente métodos solo RGB
  2. MMTokenizer logra buen equilibrio entre eficiencia y rendimiento
  3. La información geométrica es crucial para tareas de manipulación robótica
  4. El método demuestra excelente rendimiento tanto en simulación como en entornos reales

Limitaciones

  1. Dependencia de Preentrenamiento: Aún requiere preentrenamiento a gran escala para aprovechar completamente la capacidad de generalización de modelos de mundo multimodal
  2. Recursos Computacionales: Aunque más eficiente que métodos 3DGS, requiere más cómputo que métodos solo RGB
  3. Dependencia de Calidad de Profundidad: El rendimiento se ve afectado por la calidad de estimación de profundidad

Direcciones Futuras

  1. Exploración de preentrenamiento multimodal a mayor escala
  2. Investigación de métodos de representación 3D más eficientes
  3. Extensión a más plataformas robóticas y tipos de tareas

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera introducción sistemática de información multimodal en modelos de mundo, con enfoque técnico novedoso
  2. Completitud de Ingeniería: Forma ciclo cerrado completo desde diseño teórico hasta despliegue práctico
  3. Experimentación Exhaustiva: Abarca simulación, pruebas de referencia y validación con robots reales
  4. Mejora de Rendimiento Significativa: Logra mejoras notables en múltiples métricas

Deficiencias

  1. Análisis Teórico Insuficiente: Carece de análisis teórico profundo sobre por qué la información multimodal mejora el rendimiento
  2. Verificación de Generalización Limitada: Validación principalmente en plataformas robóticas específicas, requiriendo verificación adicional de capacidad de generalización entre plataformas
  3. Análisis de Costo Computacional: Aunque menciona mejora de eficiencia, carece de análisis detallado de complejidad computacional

Impacto

  1. Valor Académico: Proporciona nueva dirección multimodal para investigación de modelos de mundo
  2. Valor Práctico: Aplicación directa a sistemas robóticos reales con fuerte practicidad
  3. Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código abierto

Escenarios Aplicables

  1. Tareas de manipulación robótica que requieren comprensión geométrica precisa
  2. Escenarios de aprendizaje robótico con datos escasos
  3. Aplicaciones de aprendizaje por refuerzo que requieren simulación de alta fidelidad

Referencias

Este artículo cita 63 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo modelos de mundo, predicción de video y aprendizaje robótico, proporcionando base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad en aprendizaje robótico que realiza contribuciones importantes en la dirección de modelos de mundo multimodal. Los puntos de innovación técnica son claros, la verificación experimental es exhaustiva, y posee fuerte valor académico y práctico.