iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic
iMoWM: Domando Modelos de Mundo Multimodal Interactivo para Manipulación Robótica
El aprendizaje de modelos de mundo presenta un enorme potencial en la manipulación robótica, funcionando como simulador de interacciones del mundo real. Aunque los modelos de mundo basados en video 2D han logrado avances generalizados, estos métodos frecuentemente carecen de capacidades de razonamiento geométrico y espacial, que son cruciales para capturar la estructura física del mundo 3D. Para abordar esta limitación, los autores proponen iMoWM, un novedoso modelo de mundo interactivo capaz de generar de manera autorregresiva imágenes a color, mapas de profundidad y máscaras del brazo robótico condicionadas por acciones. Para superar el alto costo computacional derivado de la información tridimensional, los autores proponen MMTokenizer, que unifica entradas multimodales en una representación compacta de tokens. Este diseño permite que iMoWM aproveche modelos VideoGPT preentrenados a gran escala, manteniendo eficiencia e incorporando información física más rica.
Las tareas de manipulación robótica requieren predicción precisa de dinámicas físicas en entornos 3D, pero los modelos de mundo existentes presentan los siguientes problemas:
Falta de Comprensión Geométrica: La mayoría de métodos se basan únicamente en predicción de video RGB, careciendo de representación explícita de la estructura espacial 3D
Costo Computacional Elevado: El procesamiento directo de información 3D (como distribuciones gaussianas 3D) conlleva gastos computacionales enormes
Capacidad de Generalización Limitada: La ausencia de restricciones condicionadas por acciones dificulta la adaptación a escenarios diversos de manipulación robótica
La manipulación robótica ocurre en espacios tridimensionales, y depender únicamente de información RGB es propenso a errores bajo cambios visuales e interacciones complejas de objetos. Los métodos 3D existentes como GWM, aunque utilizan distribuciones gaussianas 3D, dependen de reconstrucciones 3DGS de alta calidad, con rendimiento limitado en escenas monoculares y difíciles de escalar.
Propuesta del Marco iMoWM: Primer modelo de mundo multimodal interactivo capaz de predecir simultáneamente imágenes a color, mapas de profundidad y máscaras del brazo robótico
Diseño de MMTokenizer: Tokenizador multimodal innovador que unifica entradas heterogéneas en representación compacta de tokens, reduciendo significativamente el costo computacional
Implementación de Aplicaciones Multitarea: Soporte para generación de video condicionado por acciones, aprendizaje por refuerzo basado en modelos (MBRL) y aprendizaje por imitación en el mundo real
Verificación de Rendimiento Superior: Logro de rendimiento de vanguardia tanto en puntos de referencia públicos como en experimentos del mundo real
Dada una observación inicial O₁ (que contiene imagen a color, mapa de profundidad y máscara del brazo robótico) y una secuencia de acciones {aₜ}ᵀₜ₌₁, iMoWM debe predecir la secuencia de observaciones multimodales futuras {Oₜ}ᵀₜ₌₂.
MMTokenizer es la innovación central, adoptando un marco dual de codificador-decodificador {(Ec,Dc), (Ed,Dd)}:
Codificación de Contexto: Utiliza codificador de contexto para procesar fotogramas iniciales
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
Codificación Dinámica: Codificador condicional enfocado en regiones dinámicas
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
Adaptación Modal: Replicación de capas iniciales y finales para procesar diferencias en distribuciones de características entre modalidades, introduciendo incrustaciones específicas de modalidad
Representación Multimodal Unificada: Primera unificación de codificación RGB, profundidad y máscara, evitando pérdida de información entre modalidades
Optimización de Eficiencia Computacional: Codificador dinámico enfocado únicamente en regiones cambiantes, reduciendo significativamente la cantidad de tokens
Reutilización de Modelos Preentrenados: Diseño compatible con pesos preentrenados VideoGPT existentes, acelerando convergencia
Superioridad sobre iVideoGPT y GWM en las 6 tareas Meta-World, con velocidad de convergencia más rápida y tasa de éxito final más alta. Los rollouts conscientes de geometría mejoran significativamente el rendimiento de RL.
Efecto de MMTokenizer: Comparado con tokenizador original, tiempo de inferencia reducido de 860s a 10s, mientras se mejoran todas las métricas visuales
Sensibilidad de Resolución: Entradas de alta resolución mejoran significativamente el rendimiento al proporcionar información de profundidad y máscara más precisa
Importancia de Información Geométrica: Los mapas de profundidad proporcionan restricciones geométricas más ricas que las máscaras
Eficiencia Computacional: MMTokenizer mejora significativamente la velocidad de inferencia mientras mantiene rendimiento
Los métodos tempranos inspirados en VideoGPT realizan tokenización de video RGB, mientras que modelos de difusión recientes impulsan predicción en espacio latente. GWM adopta 3DGS pero está limitado por calidad de escenas monoculares.
Utilizados principalmente para aumento de datos y simulación de RL, pero generalmente carecen de información 3D, limitando efectividad como simuladores y generadores de datos.
Dependencia de Preentrenamiento: Aún requiere preentrenamiento a gran escala para aprovechar completamente la capacidad de generalización de modelos de mundo multimodal
Recursos Computacionales: Aunque más eficiente que métodos 3DGS, requiere más cómputo que métodos solo RGB
Dependencia de Calidad de Profundidad: El rendimiento se ve afectado por la calidad de estimación de profundidad
Análisis Teórico Insuficiente: Carece de análisis teórico profundo sobre por qué la información multimodal mejora el rendimiento
Verificación de Generalización Limitada: Validación principalmente en plataformas robóticas específicas, requiriendo verificación adicional de capacidad de generalización entre plataformas
Análisis de Costo Computacional: Aunque menciona mejora de eficiencia, carece de análisis detallado de complejidad computacional
Este artículo cita 63 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo modelos de mundo, predicción de video y aprendizaje robótico, proporcionando base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad en aprendizaje robótico que realiza contribuciones importantes en la dirección de modelos de mundo multimodal. Los puntos de innovación técnica son claros, la verificación experimental es exhaustiva, y posee fuerte valor académico y práctico.