2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

iMoWM: Domando Modelos de Mundo Multimodal Interactivo para Manipulación Robótica

Información Básica

ID del Artículo: 2510.09036
Título: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Autores: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
Instituciones: ¹Universidad Tecnológica de Nanyang, ²Universidad Tsinghua
Clasificación: cs.RO (Robótica)
Fecha de Publicación: 10 de octubre de 2024 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09036
Página del Proyecto: https://xingyoujun.github.io/imowm/

Resumen

El aprendizaje de modelos de mundo presenta un enorme potencial en la manipulación robótica, funcionando como simulador de interacciones del mundo real. Aunque los modelos de mundo basados en video 2D han logrado avances generalizados, estos métodos frecuentemente carecen de capacidades de razonamiento geométrico y espacial, que son cruciales para capturar la estructura física del mundo 3D. Para abordar esta limitación, los autores proponen iMoWM, un novedoso modelo de mundo interactivo capaz de generar de manera autorregresiva imágenes a color, mapas de profundidad y máscaras del brazo robótico condicionadas por acciones. Para superar el alto costo computacional derivado de la información tridimensional, los autores proponen MMTokenizer, que unifica entradas multimodales en una representación compacta de tokens. Este diseño permite que iMoWM aproveche modelos VideoGPT preentrenados a gran escala, manteniendo eficiencia e incorporando información física más rica.

Antecedentes de Investigación y Motivación

Definición del Problema

Las tareas de manipulación robótica requieren predicción precisa de dinámicas físicas en entornos 3D, pero los modelos de mundo existentes presentan los siguientes problemas:

Falta de Comprensión Geométrica: La mayoría de métodos se basan únicamente en predicción de video RGB, careciendo de representación explícita de la estructura espacial 3D
Costo Computacional Elevado: El procesamiento directo de información 3D (como distribuciones gaussianas 3D) conlleva gastos computacionales enormes
Capacidad de Generalización Limitada: La ausencia de restricciones condicionadas por acciones dificulta la adaptación a escenarios diversos de manipulación robótica

Motivación de la Investigación

La manipulación robótica ocurre en espacios tridimensionales, y depender únicamente de información RGB es propenso a errores bajo cambios visuales e interacciones complejas de objetos. Los métodos 3D existentes como GWM, aunque utilizan distribuciones gaussianas 3D, dependen de reconstrucciones 3DGS de alta calidad, con rendimiento limitado en escenas monoculares y difíciles de escalar.

Contribuciones Principales

Propuesta del Marco iMoWM: Primer modelo de mundo multimodal interactivo capaz de predecir simultáneamente imágenes a color, mapas de profundidad y máscaras del brazo robótico
Diseño de MMTokenizer: Tokenizador multimodal innovador que unifica entradas heterogéneas en representación compacta de tokens, reduciendo significativamente el costo computacional
Implementación de Aplicaciones Multitarea: Soporte para generación de video condicionado por acciones, aprendizaje por refuerzo basado en modelos (MBRL) y aprendizaje por imitación en el mundo real
Verificación de Rendimiento Superior: Logro de rendimiento de vanguardia tanto en puntos de referencia públicos como en experimentos del mundo real

Explicación Detallada del Método

Definición de la Tarea

Dada una observación inicial O₁ (que contiene imagen a color, mapa de profundidad y máscara del brazo robótico) y una secuencia de acciones {aₜ}ᵀₜ₌₁, iMoWM debe predecir la secuencia de observaciones multimodales futuras {Oₜ}ᵀₜ₌₂.

Arquitectura del Modelo

Diseño de MMTokenizer

MMTokenizer es la innovación central, adoptando un marco dual de codificador-decodificador {(Ec,Dc), (Ed,Dd)}:

Codificación de Contexto: Utiliza codificador de contexto para procesar fotogramas iniciales
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```
Codificación Dinámica: Codificador condicional enfocado en regiones dinámicas
```
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
```
Adaptación Modal: Replicación de capas iniciales y finales para procesar diferencias en distribuciones de características entre modalidades, introduciendo incrustaciones específicas de modalidad

Transformer Autorregresivo

Adopta arquitectura transformer estilo LLaMA, incluyendo:

Normalización RMSNorm
Función de activación SwiGLU
Codificación de posición rotacional
Mecanismo de inyección de token slot condicionado por acciones

El condicionamiento de acciones se implementa mediante tokens slot:

[Sₜ] = [S] + Linear(aₜ)

El objetivo de entrenamiento es pérdida de entropía cruzada:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Puntos Técnicos Innovadores

Representación Multimodal Unificada: Primera unificación de codificación RGB, profundidad y máscara, evitando pérdida de información entre modalidades
Optimización de Eficiencia Computacional: Codificador dinámico enfocado únicamente en regiones cambiantes, reduciendo significativamente la cantidad de tokens
Reutilización de Modelos Preentrenados: Diseño compatible con pesos preentrenados VideoGPT existentes, acelerando convergencia

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Empuje de Robot BAIR: 43K videos de entrenamiento, 256 videos de prueba, resolución 64×64
Conjunto de Datos RoboNet: Subconjunto de 19K videos de entrenamiento, 256 videos de prueba
Conjunto de Datos Recopilado Internamente: 1K videos de entrenamiento, 150 videos de prueba, resolución alta 256×256
Punto de Referencia Meta-World: 6 tareas de manipulación robótica para evaluación de aprendizaje por refuerzo

Métricas de Evaluación

Calidad Visual: FVD, PSNR, SSIM, LPIPS
Precisión de Profundidad: AbsRel (error relativo absoluto)
Rendimiento Operacional: Tasa de éxito de tareas

Métodos de Comparación

MaskViT, SVG, GHVAE (líneas base de predicción de video)
iVideoGPT (línea base RGB más fuerte)
GWM (método de distribución gaussiana 3D)

Detalles de Implementación

Uso de Video Depth Anything para generar mapas de profundidad
Grounding DINO + SAM2 para extracción de máscaras del brazo robótico
Inicialización de pesos preentrenados del transformer
4 rollouts para comparación justa

Resultados Experimentales

Resultados Principales

Rendimiento de Generación de Video

En el conjunto de datos BAIR:

FVD: 60.9 (vs iVideoGPT 65.01)
PSNR: 23.82 (vs iVideoGPT 23.40)
SSIM: 0.896 (vs iVideoGPT 0.882)
LPIPS: 0.051 (vs iVideoGPT 0.058)
AbsRel: 0.045 (vs iVideoGPT 0.059)

Superioridad generalizada sobre métodos base en el conjunto de datos RoboNet, alcanzando PSNR de 38.33 en datos reales de alta resolución.

Rendimiento de Aprendizaje por Refuerzo

Superioridad sobre iVideoGPT y GWM en las 6 tareas Meta-World, con velocidad de convergencia más rápida y tasa de éxito final más alta. Los rollouts conscientes de geometría mejoran significativamente el rendimiento de RL.

Despliegue en el Mundo Real

En tareas de apilamiento de tazas y recogida de pan en robot GALAXEA A1:

Tasa de éxito total: 29/35 (vs iVideoGPT 13/35, datos reales 27/35)
Aproximación al rendimiento de datos reales, validando la alta fidelidad de rollouts multimodales

Experimentos de Ablación

Efecto de MMTokenizer: Comparado con tokenizador original, tiempo de inferencia reducido de 860s a 10s, mientras se mejoran todas las métricas visuales
Análisis de Contribución Modal:
- RGB+Profundidad+Máscara (método completo): FVD 67.6
- Solo RGB: FVD 70.2
- RGB+Máscara: FVD 70.6
- RGB+Profundidad: FVD 67.5

Cada modalidad contribuye a la mejora de rendimiento, con información de profundidad proporcionando la contribución máxima.

Hallazgos Experimentales

Sensibilidad de Resolución: Entradas de alta resolución mejoran significativamente el rendimiento al proporcionar información de profundidad y máscara más precisa
Importancia de Información Geométrica: Los mapas de profundidad proporcionan restricciones geométricas más ricas que las máscaras
Eficiencia Computacional: MMTokenizer mejora significativamente la velocidad de inferencia mientras mantiene rendimiento

Trabajo Relacionado

Aprendizaje de Modelos de Mundo

Los métodos tempranos inspirados en VideoGPT realizan tokenización de video RGB, mientras que modelos de difusión recientes impulsan predicción en espacio latente. GWM adopta 3DGS pero está limitado por calidad de escenas monoculares.

Predicción de Video 4D

Métodos como TesserAct exploran generación RGB-D, pero carecen de condicionamiento explícito por acciones, limitando aplicaciones robóticas.

Modelos de Mundo para Manipulación Robótica

Utilizados principalmente para aumento de datos y simulación de RL, pero generalmente carecen de información 3D, limitando efectividad como simuladores y generadores de datos.

Conclusiones y Discusión

Conclusiones Principales

Los modelos de mundo multimodal superan significativamente métodos solo RGB
MMTokenizer logra buen equilibrio entre eficiencia y rendimiento
La información geométrica es crucial para tareas de manipulación robótica
El método demuestra excelente rendimiento tanto en simulación como en entornos reales

Limitaciones

Dependencia de Preentrenamiento: Aún requiere preentrenamiento a gran escala para aprovechar completamente la capacidad de generalización de modelos de mundo multimodal
Recursos Computacionales: Aunque más eficiente que métodos 3DGS, requiere más cómputo que métodos solo RGB
Dependencia de Calidad de Profundidad: El rendimiento se ve afectado por la calidad de estimación de profundidad

Direcciones Futuras

Exploración de preentrenamiento multimodal a mayor escala
Investigación de métodos de representación 3D más eficientes
Extensión a más plataformas robóticas y tipos de tareas

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera introducción sistemática de información multimodal en modelos de mundo, con enfoque técnico novedoso
Completitud de Ingeniería: Forma ciclo cerrado completo desde diseño teórico hasta despliegue práctico
Experimentación Exhaustiva: Abarca simulación, pruebas de referencia y validación con robots reales
Mejora de Rendimiento Significativa: Logra mejoras notables en múltiples métricas

Deficiencias

Análisis Teórico Insuficiente: Carece de análisis teórico profundo sobre por qué la información multimodal mejora el rendimiento
Verificación de Generalización Limitada: Validación principalmente en plataformas robóticas específicas, requiriendo verificación adicional de capacidad de generalización entre plataformas
Análisis de Costo Computacional: Aunque menciona mejora de eficiencia, carece de análisis detallado de complejidad computacional

Impacto

Valor Académico: Proporciona nueva dirección multimodal para investigación de modelos de mundo
Valor Práctico: Aplicación directa a sistemas robóticos reales con fuerte practicidad
Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código abierto

Escenarios Aplicables

Tareas de manipulación robótica que requieren comprensión geométrica precisa
Escenarios de aprendizaje robótico con datos escasos
Aplicaciones de aprendizaje por refuerzo que requieren simulación de alta fidelidad

Referencias

Este artículo cita 63 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo modelos de mundo, predicción de video y aprendizaje robótico, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad en aprendizaje robótico que realiza contribuciones importantes en la dirección de modelos de mundo multimodal. Los puntos de innovación técnica son claros, la verificación experimental es exhaustiva, y posee fuerte valor académico y práctico.