iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic
iMoWM: Укрощение интерактивной многомодальной мировой модели для робототехнического манипулирования
Обучение мировых моделей имеет огромный потенциал в робототехническом манипулировании, служа симулятором для взаимодействия с реальным миром. Хотя мировые модели на основе двумерного видео достигли значительного прогресса, эти методы часто не обладают способностями геометрического и пространственного рассуждения, которые критически важны для захвата физической структуры трёхмерного мира. Для решения этого ограничения авторы предлагают iMoWM — новую интерактивную мировую модель, способную авторегрессивно генерировать цветные изображения, карты глубины и маски роботического манипулятора при условии действия. Для преодоления высоких вычислительных затрат, вызванных трёхмерной информацией, авторы предлагают MMTokenizer, который объединяет многомодальные входные данные в компактное представление токенов. Такая конструкция позволяет iMoWM использовать крупномасштабную предварительно обученную модель VideoGPT, сохраняя при этом высокую эффективность и интегрируя более богатую физическую информацию.
Задачи робототехнического манипулирования требуют точного предсказания физической динамики в трёхмерной среде, но существующие мировые модели имеют следующие основные проблемы:
Недостаток геометрического понимания: Большинство методов основаны только на предсказании RGB-видео, без явного представления трёхмерной пространственной структуры
Высокие вычислительные затраты: Прямая обработка трёхмерной информации (например, трёхмерных гауссовых распределений) требует огромных вычислительных ресурсов
Ограниченная способность к обобщению: Отсутствие ограничений, обусловленных действиями, затрудняет адаптацию к разнообразным сценариям робототехнического манипулирования
Робототехническое манипулирование происходит в трёхмерном пространстве, и полагаться только на информацию RGB легко приводит к ошибкам при визуальных изменениях и сложных взаимодействиях объектов. Существующие трёхмерные методы, такие как GWM, хотя и используют трёхмерные гауссовы распределения, зависят от высококачественной реконструкции 3DGS, что ограничивает их эффективность в монокулярных сценах и затрудняет масштабирование.
Предложение структуры iMoWM: Первая интерактивная многомодальная мировая модель, способная одновременно предсказывать цветные изображения, карты глубины и маски роботического манипулятора
Разработка MMTokenizer: Инновационный многомодальный токенизатор, объединяющий разнородные входные данные в компактное представление токенов, значительно снижающий вычислительные затраты
Реализация многозадачных приложений: Поддержка условной по действиям генерации видео, обучения с подкреплением на основе модели (MBRL) и имитационного обучения в реальном мире
Проверка превосходной производительности: Достижение передовых результатов как на открытых эталонах, так и в экспериментах с реальными роботами
При наличии начального наблюдения O₁ (включающего цветное изображение, карту глубины и маску роботического манипулятора) и последовательности действий {aₜ}ᵀₜ₌₁, iMoWM должна предсказать будущую последовательность многомодальных наблюдений {Oₜ}ᵀₜ₌₂.
Кодирование контекста: Использование кодировщика контекста для обработки начального кадра
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
Кодирование динамики: Условный кодировщик сосредоточен на динамических областях
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
Адаптация модальности: Копирование первого и последнего слоёв для обработки различий в распределении признаков разных модальностей, введение модально-специфичных встраиваний
Унифицированное многомодальное представление: Впервые объединены RGB, глубина и маска в единое кодирование, избегая потери информации между модальностями
Оптимизация вычислительной эффективности: Динамический кодировщик сосредоточен только на изменяющихся областях, значительно снижая количество токенов
Повторное использование предварительно обученной модели: Конструкция совместима с существующими предварительно обученными весами VideoGPT, ускоряя сходимость
На 6 задачах Meta-World превосходит iVideoGPT и GWM, с более быстрой скоростью сходимости и более высокой финальной вероятностью успеха. Развёртывание с геометрическим осознанием значительно улучшает производительность RL.
Чувствительность к разрешению: Входные данные высокого разрешения значительно улучшают производительность, обеспечивая более точную информацию о глубине и маске
Важность геометрической информации: Карты глубины обеспечивают более богатые геометрические ограничения, чем маски
Вычислительная эффективность: MMTokenizer значительно повышает скорость вывода при сохранении производительности
Ранние методы, вдохновлённые VideoGPT, проводили токенизацию RGB-видео, недавние модели диффузии способствовали предсказанию в скрытом пространстве. GWM использует 3DGS, но ограничен качеством в монокулярных сценах.
Главным образом используются для увеличения данных и симуляции RL, но обычно не содержат трёхмерной информации, что ограничивает их эффективность в качестве симуляторов и генераторов данных.
Зависимость от предварительного обучения: По-прежнему требуется крупномасштабное предварительное обучение для полного раскрытия способностей многомодальной мировой модели к обобщению
Вычислительные ресурсы: Хотя более эффективно, чем методы 3DGS, всё ещё требует больше вычислений, чем методы на основе чистого RGB
Зависимость от качества глубины: Производительность зависит от качества оценки глубины
Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ того, почему многомодальная информация улучшает производительность
Ограниченная проверка обобщаемости: Главным образом проверено на конкретных робототехнических платформах, требуется дальнейшая проверка кросс-платформной обобщаемости
Анализ вычислительных затрат: Хотя упоминается улучшение эффективности, отсутствует подробный анализ вычислительной сложности
Статья цитирует 63 соответствующих работы, охватывающих важные работы в области мировых моделей, предсказания видео, робототехнического обучения и других областей, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная статья по робототехническому обучению, вносящая значительный вклад в направление многомодальных мировых моделей. Технические инновационные моменты ясны, экспериментальная проверка полна, обладает сильной академической и практической ценностью.