2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

iMoWM: Укрощение интерактивной многомодальной мировой модели для робототехнического манипулирования

Основная информация

ID статьи: 2510.09036
Название: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Авторы: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
Учреждения: ¹Технологический университет Наньян, ²Университет Цинхуа
Категория: cs.RO (Робототехника)
Дата публикации: 10 октября 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09036
Страница проекта: https://xingyoujun.github.io/imowm/

Аннотация

Обучение мировых моделей имеет огромный потенциал в робототехническом манипулировании, служа симулятором для взаимодействия с реальным миром. Хотя мировые модели на основе двумерного видео достигли значительного прогресса, эти методы часто не обладают способностями геометрического и пространственного рассуждения, которые критически важны для захвата физической структуры трёхмерного мира. Для решения этого ограничения авторы предлагают iMoWM — новую интерактивную мировую модель, способную авторегрессивно генерировать цветные изображения, карты глубины и маски роботического манипулятора при условии действия. Для преодоления высоких вычислительных затрат, вызванных трёхмерной информацией, авторы предлагают MMTokenizer, который объединяет многомодальные входные данные в компактное представление токенов. Такая конструкция позволяет iMoWM использовать крупномасштабную предварительно обученную модель VideoGPT, сохраняя при этом высокую эффективность и интегрируя более богатую физическую информацию.

Исследовательский контекст и мотивация

Определение проблемы

Задачи робототехнического манипулирования требуют точного предсказания физической динамики в трёхмерной среде, но существующие мировые модели имеют следующие основные проблемы:

Недостаток геометрического понимания: Большинство методов основаны только на предсказании RGB-видео, без явного представления трёхмерной пространственной структуры
Высокие вычислительные затраты: Прямая обработка трёхмерной информации (например, трёхмерных гауссовых распределений) требует огромных вычислительных ресурсов
Ограниченная способность к обобщению: Отсутствие ограничений, обусловленных действиями, затрудняет адаптацию к разнообразным сценариям робототехнического манипулирования

Исследовательская мотивация

Робототехническое манипулирование происходит в трёхмерном пространстве, и полагаться только на информацию RGB легко приводит к ошибкам при визуальных изменениях и сложных взаимодействиях объектов. Существующие трёхмерные методы, такие как GWM, хотя и используют трёхмерные гауссовы распределения, зависят от высококачественной реконструкции 3DGS, что ограничивает их эффективность в монокулярных сценах и затрудняет масштабирование.

Основные вклады

Предложение структуры iMoWM: Первая интерактивная многомодальная мировая модель, способная одновременно предсказывать цветные изображения, карты глубины и маски роботического манипулятора
Разработка MMTokenizer: Инновационный многомодальный токенизатор, объединяющий разнородные входные данные в компактное представление токенов, значительно снижающий вычислительные затраты
Реализация многозадачных приложений: Поддержка условной по действиям генерации видео, обучения с подкреплением на основе модели (MBRL) и имитационного обучения в реальном мире
Проверка превосходной производительности: Достижение передовых результатов как на открытых эталонах, так и в экспериментах с реальными роботами

Подробное описание метода

Определение задачи

При наличии начального наблюдения O₁ (включающего цветное изображение, карту глубины и маску роботического манипулятора) и последовательности действий {aₜ}ᵀₜ₌₁, iMoWM должна предсказать будущую последовательность многомодальных наблюдений {Oₜ}ᵀₜ₌₂.

Архитектура модели

Конструкция MMTokenizer

MMTokenizer является ключевым инновационным решением, использующим двойную архитектуру кодировщик-декодировщик {(Ec,Dc), (Ed,Dd)}:

Кодирование контекста: Использование кодировщика контекста для обработки начального кадра
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```
Кодирование динамики: Условный кодировщик сосредоточен на динамических областях
```
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
```
Адаптация модальности: Копирование первого и последнего слоёв для обработки различий в распределении признаков разных модальностей, введение модально-специфичных встраиваний

Авторегрессивный Transformer

Использование архитектуры трансформатора в стиле LLaMA, включающей:

Нормализацию RMSNorm
Функцию активации SwiGLU
Кодирование ротационной позиции
Механизм инъекции токена слота, обусловленного действием

Действие кодируется через токен слота:

[Sₜ] = [S] + Linear(aₜ)

Цель обучения — потеря перекрёстной энтропии:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Технические инновационные моменты

Унифицированное многомодальное представление: Впервые объединены RGB, глубина и маска в единое кодирование, избегая потери информации между модальностями
Оптимизация вычислительной эффективности: Динамический кодировщик сосредоточен только на изменяющихся областях, значительно снижая количество токенов
Повторное использование предварительно обученной модели: Конструкция совместима с существующими предварительно обученными весами VideoGPT, ускоряя сходимость

Экспериментальная установка

Наборы данных

Набор данных BAIR Robot Push: 43K видео для обучения, 256 видео для тестирования, разрешение 64×64
Набор данных RoboNet: Использование подмножества из 19K видео для обучения, 256 видео для тестирования
Самостоятельно собранный набор данных: 1K видео для обучения, 150 видео для тестирования, высокое разрешение 256×256
Эталон Meta-World: 6 задач робототехнического манипулирования для оценки обучения с подкреплением

Метрики оценки

Визуальное качество: FVD, PSNR, SSIM, LPIPS
Точность глубины: AbsRel (абсолютная относительная ошибка)
Производительность манипулирования: Коэффициент успеха задачи

Методы сравнения

MaskViT, SVG, GHVAE (базовые методы предсказания видео)
iVideoGPT (самый сильный базовый метод RGB)
GWM (метод трёхмерного гауссова распределения)

Детали реализации

Использование Video Depth Anything для генерации карт глубины
Grounding DINO + SAM2 для извлечения маски роботического манипулятора
Инициализация трансформатора предварительно обученными весами
4 развёртывания для справедливого сравнения

Результаты экспериментов

Основные результаты

Производительность генерации видео

На наборе данных BAIR:

FVD: 60.9 (против iVideoGPT 65.01)
PSNR: 23.82 (против iVideoGPT 23.40)
SSIM: 0.896 (против iVideoGPT 0.882)
LPIPS: 0.051 (против iVideoGPT 0.058)
AbsRel: 0.045 (против iVideoGPT 0.059)

На наборе данных RoboNet всесторонне превосходит базовые методы, достигая PSNR 38.33 на высокоразрешённых реальных данных.

Производительность обучения с подкреплением

На 6 задачах Meta-World превосходит iVideoGPT и GWM, с более быстрой скоростью сходимости и более высокой финальной вероятностью успеха. Развёртывание с геометрическим осознанием значительно улучшает производительность RL.

Развёртывание в реальном мире

На робототехнических манипуляторах GALAXEA A1 для задач укладки чашек и захвата хлеба:

Общий коэффициент успеха: 29/35 (против iVideoGPT 13/35, GT 27/35)
Близко к производительности на реальных данных, подтверждая высокую точность многомодального развёртывания

Абляционные исследования

Эффект MMTokenizer: По сравнению с исходным токенизатором время вывода сокращено с 860s до 10s, при этом улучшены все визуальные показатели
Анализ вклада модальности:
- RGB+Глубина+Маска (полный метод): FVD 67.6
- Только RGB: FVD 70.2
- RGB+Маска: FVD 70.6
- RGB+Глубина: FVD 67.5

Каждая модальность вносит вклад в улучшение производительности, причём информация о глубине вносит наибольший вклад.

Экспериментальные находки

Чувствительность к разрешению: Входные данные высокого разрешения значительно улучшают производительность, обеспечивая более точную информацию о глубине и маске
Важность геометрической информации: Карты глубины обеспечивают более богатые геометрические ограничения, чем маски
Вычислительная эффективность: MMTokenizer значительно повышает скорость вывода при сохранении производительности

Связанные работы

Обучение мировых моделей

Ранние методы, вдохновлённые VideoGPT, проводили токенизацию RGB-видео, недавние модели диффузии способствовали предсказанию в скрытом пространстве. GWM использует 3DGS, но ограничен качеством в монокулярных сценах.

Предсказание четырёхмерного видео

Методы, такие как TesserAct, исследуют генерацию RGB-D, но не имеют явного обусловления действием, что ограничивает робототехнические приложения.

Мировые модели робототехнического манипулирования

Главным образом используются для увеличения данных и симуляции RL, но обычно не содержат трёхмерной информации, что ограничивает их эффективность в качестве симуляторов и генераторов данных.

Заключение и обсуждение

Основные выводы

Многомодальные мировые модели значительно превосходят методы на основе чистого RGB
MMTokenizer достигает хорошего баланса между эффективностью и производительностью
Геометрическая информация критически важна для задач робототехнического манипулирования
Метод показывает отличные результаты как в симуляции, так и в реальной среде

Ограничения

Зависимость от предварительного обучения: По-прежнему требуется крупномасштабное предварительное обучение для полного раскрытия способностей многомодальной мировой модели к обобщению
Вычислительные ресурсы: Хотя более эффективно, чем методы 3DGS, всё ещё требует больше вычислений, чем методы на основе чистого RGB
Зависимость от качества глубины: Производительность зависит от качества оценки глубины

Будущие направления

Исследование крупномасштабного многомодального предварительного обучения
Изучение более эффективных методов трёхмерного представления
Расширение на большее количество робототехнических платформ и типов задач

Глубокая оценка

Преимущества

Сильная инновационность: Впервые систематически вводит многомодальную информацию в мировые модели, с новаторским техническим подходом
Полнота инженерной реализации: Формирует полный цикл от теоретического проектирования до практического развёртывания
Достаточность экспериментов: Охватывает симуляцию, тестирование на эталонах и проверку на реальных роботах
Значительное улучшение производительности: Достигает явного улучшения по множеству показателей

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ того, почему многомодальная информация улучшает производительность
Ограниченная проверка обобщаемости: Главным образом проверено на конкретных робототехнических платформах, требуется дальнейшая проверка кросс-платформной обобщаемости
Анализ вычислительных затрат: Хотя упоминается улучшение эффективности, отсутствует подробный анализ вычислительной сложности

Влияние

Академическая ценность: Предоставляет новое многомодальное направление для исследований мировых моделей
Практическая ценность: Прямое применение к реальным робототехническим системам, высокая практичность
Воспроизводимость: Предоставляет подробные детали реализации и обещание открытого исходного кода

Применимые сценарии

Задачи робототехнического манипулирования, требующие точного геометрического понимания
Сценарии обучения робототехники с дефицитом данных
Приложения обучения с подкреплением, требующие высокоточной симуляции

Список литературы

Статья цитирует 63 соответствующих работы, охватывающих важные работы в области мировых моделей, предсказания видео, робототехнического обучения и других областей, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья по робототехническому обучению, вносящая значительный вклад в направление многомодальных мировых моделей. Технические инновационные моменты ясны, экспериментальная проверка полна, обладает сильной академической и практической ценностью.