2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

Informations Fondamentales

ID de l'article: 2510.09036
Titre: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Auteurs: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
Institutions: ¹Université Technologique de Nanyang, ²Université Tsinghua
Classification: cs.RO (Robotique)
Date de publication: 10 octobre 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09036
Page du projet: https://xingyoujun.github.io/imowm/

Résumé

L'apprentissage de modèles de monde présente un potentiel considérable pour la manipulation robotique, servant de simulateur pour les interactions avec le monde réel. Bien que les modèles de monde basés sur des vidéos 2D aient connu des progrès significatifs, ces méthodes manquent souvent de capacités de raisonnement géométrique et spatial, essentielles pour capturer la structure physique d'un monde 3D. Pour résoudre cette limitation, les auteurs proposent iMoWM, un modèle de monde interactif novateur capable de générer de manière autorégressive des images en couleur, des cartes de profondeur et des masques de bras robotique conditionnés par les actions. Pour surmonter le coût computationnel élevé des informations tridimensionnelles, les auteurs proposent MMTokenizer, qui unifie les entrées multi-modales en une représentation compacte de tokens. Cette conception permet à iMoWM de tirer parti du modèle VideoGPT préentraîné à grande échelle, tout en maintenant une efficacité élevée et en intégrant des informations physiques plus riches.

Contexte de Recherche et Motivation

Définition du Problème

Les tâches de manipulation robotique nécessitent une prédiction précise de la dynamique physique dans un environnement 3D, mais les modèles de monde existants présentent les problèmes suivants:

Manque de compréhension géométrique: La plupart des méthodes ne reposent que sur la prédiction vidéo RGB, sans représentation explicite de la structure spatiale 3D
Coût computationnel élevé: Le traitement direct des informations 3D (telles que les distributions gaussiennes 3D) entraîne des frais généraux considérables
Capacité de généralisation limitée: L'absence de contraintes conditionnées par les actions rend difficile l'adaptation à des scénarios de manipulation robotique diversifiés

Motivation de la Recherche

La manipulation robotique se déroule dans un espace tridimensionnel, et la dépendance exclusive aux informations RGB peut entraîner des erreurs en cas de variations visuelles et d'interactions complexes entre objets. Les méthodes 3D existantes, telles que GWM, bien qu'utilisant des distributions gaussiennes 3D, dépendent de reconstructions 3DGS de haute qualité, avec des résultats limités dans les scènes monoculaires et une extensibilité difficile.

Contributions Principales

Proposition du cadre iMoWM: Premier modèle de monde multi-modal interactif capable de prédire simultanément les images en couleur, les cartes de profondeur et les masques de bras robotique
Conception de MMTokenizer: Un tokeniseur multi-modal innovant qui unifie les entrées hétérogènes en une représentation compacte de tokens, réduisant considérablement le coût computationnel
Implémentation d'applications multi-tâches: Support de la génération vidéo conditionnée par les actions, de l'apprentissage par renforcement basé sur un modèle (MBRL) et de l'apprentissage par imitation dans le monde réel
Vérification de performances supérieures: Atteinte de performances de pointe sur les repères publics et les expériences du monde réel

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une observation initiale O₁ (contenant une image en couleur, une carte de profondeur et un masque de bras robotique) et une séquence d'actions {aₜ}ᵀₜ₌₁, iMoWM doit prédire la séquence d'observations multi-modales futures {Oₜ}ᵀₜ₌₂.

Architecture du Modèle

Conception de MMTokenizer

MMTokenizer est l'innovation centrale, adoptant une architecture double encodeur-décodeur {(Ec,Dc), (Ed,Dd)}:

Encodage contextuel: Utilisation d'un encodeur contextuel pour traiter la trame initiale
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```
Encodage dynamique: L'encodeur conditionnel se concentre sur les régions dynamiques
```
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
```
Adaptation modale: Duplication des couches initiales et finales pour traiter les différences de distribution de caractéristiques entre modalités, introduction d'embeddings spécifiques aux modalités

Transformer Autorégressif

Adoption d'une architecture transformer de style LLaMA, incluant:

Normalisation RMSNorm
Fonction d'activation SwiGLU
Encodage de position rotatif
Mécanisme d'injection de slot token conditionné par les actions

Le conditionnement par les actions est réalisé via des slot tokens:

[Sₜ] = [S] + Linear(aₜ)

L'objectif d'entraînement est la perte d'entropie croisée:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Points Techniques Innovants

Représentation multi-modale unifiée: Première unification du codage RGB, profondeur et masque, évitant la perte d'information entre modalités
Optimisation de l'efficacité computationnelle: L'encodeur dynamique se concentre uniquement sur les régions changeantes, réduisant considérablement le nombre de tokens
Réutilisation de modèles préentraînés: Conception compatible avec les poids préentraînés VideoGPT existants, accélérant la convergence

Configuration Expérimentale

Ensembles de Données

Ensemble de données BAIR Robot Push: 43K vidéos d'entraînement, 256 vidéos de test, résolution 64×64
Ensemble de données RoboNet: Utilisation d'un sous-ensemble de 19K vidéos d'entraînement, 256 vidéos de test
Ensemble de données collecté personnellement: 1K vidéos d'entraînement, 150 vidéos de test, résolution haute 256×256
Repère Meta-World: 6 tâches de manipulation robotique pour l'évaluation de l'apprentissage par renforcement

Métriques d'Évaluation

Qualité visuelle: FVD, PSNR, SSIM, LPIPS
Précision de profondeur: AbsRel (erreur relative absolue)
Performance opérationnelle: Taux de réussite des tâches

Méthodes de Comparaison

MaskViT, SVG, GHVAE (lignes de base de prédiction vidéo)
iVideoGPT (ligne de base RGB la plus forte)
GWM (méthode de distribution gaussienne 3D)

Détails d'Implémentation

Utilisation de Video Depth Anything pour générer des cartes de profondeur
Grounding DINO + SAM2 pour extraire les masques de bras robotique
Initialisation des poids préentraînés du transformer
4 rollouts pour une comparaison équitable

Résultats Expérimentaux

Résultats Principaux

Performance de Génération Vidéo

Sur l'ensemble de données BAIR:

FVD: 60.9 (vs iVideoGPT 65.01)
PSNR: 23.82 (vs iVideoGPT 23.40)
SSIM: 0.896 (vs iVideoGPT 0.882)
LPIPS: 0.051 (vs iVideoGPT 0.058)
AbsRel: 0.045 (vs iVideoGPT 0.059)

Supériorité complète par rapport aux méthodes de base sur l'ensemble de données RoboNet, avec un PSNR atteignant 38.33 sur les données réelles haute résolution.

Performance de l'Apprentissage par Renforcement

Supériorité sur les 6 tâches Meta-World par rapport à iVideoGPT et GWM, avec une vitesse de convergence plus rapide et un taux de réussite final plus élevé. Les rollouts sensibles à la géométrie améliorent considérablement les performances du RL.

Déploiement dans le Monde Réel

Sur le robot GALAXEA A1 pour les tâches d'empilage de tasses et de prise de pain:

Taux de réussite global: 29/35 (vs iVideoGPT 13/35, données réelles 27/35)
Approche de la performance sur données réelles, validant la haute fidélité des rollouts multi-modaux

Expériences d'Ablation

Effet de MMTokenizer: Comparé au tokeniseur original, le temps d'inférence passe de 860s à 10s, tout en améliorant tous les indicateurs visuels
Analyse de la contribution modale:
- RGB+Profondeur+Masque (méthode complète): FVD 67.6
- RGB uniquement: FVD 70.2
- RGB+Masque: FVD 70.6
- RGB+Profondeur: FVD 67.5

Chaque modalité contribue à l'amélioration des performances, l'information de profondeur apportant la plus grande contribution.

Découvertes Expérimentales

Sensibilité à la résolution: Les entrées haute résolution améliorent considérablement les performances en fournissant des informations de profondeur et de masque plus précises
Importance de l'information géométrique: Les cartes de profondeur fournissent des contraintes géométriques plus riches que les masques
Efficacité computationnelle: MMTokenizer améliore considérablement la vitesse d'inférence tout en maintenant les performances

Travaux Connexes

Apprentissage de Modèles de Monde

Les premières méthodes inspirées par VideoGPT effectuent une tokenisation vidéo RGB, tandis que les modèles de diffusion récents ont stimulé la prédiction dans l'espace latent. GWM adopte 3DGS mais est limité par la qualité des scènes monoculaires.

Prédiction Vidéo 4D

Des méthodes telles que TesserAct explorent la génération RGB-D, mais manquent de conditionnement explicite par les actions, limitant les applications robotiques.

Modèles de Monde pour la Manipulation Robotique

Principalement utilisés pour l'augmentation de données et la simulation RL, mais manquent généralement d'informations 3D, limitant leur efficacité en tant que simulateurs et générateurs de données.

Conclusion et Discussion

Conclusions Principales

Les modèles de monde multi-modaux surpassent significativement les méthodes RGB pures
MMTokenizer réalise un bon équilibre entre efficacité et performance
L'information géométrique est cruciale pour les tâches de manipulation robotique
La méthode montre d'excellentes performances tant en simulation qu'en environnement réel

Limitations

Dépendance au préentraînement: Nécessite toujours un préentraînement à grande échelle pour exploiter pleinement la capacité de généralisation des modèles de monde multi-modaux
Ressources computationnelles: Bien que plus efficace que les méthodes 3DGS, le coût computationnel reste supérieur aux méthodes RGB pures
Dépendance à la qualité de profondeur: Les performances sont affectées par la qualité de l'estimation de profondeur

Directions Futures

Exploration du préentraînement multi-modal à plus grande échelle
Recherche de méthodes de représentation 3D plus efficaces
Extension à davantage de plateformes robotiques et de types de tâches

Évaluation Approfondie

Points Forts

Forte innovativité: Première introduction systématique d'informations multi-modales dans les modèles de monde, approche technique novatrice
Complétude de l'ingénierie: Formation d'une boucle fermée complète de la conception théorique au déploiement pratique
Expérimentation complète: Couverture de la simulation, des tests de repère et de la validation sur robots réels
Améliorations significatives de performance: Améliorations évidentes sur plusieurs indicateurs

Insuffisances

Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur les raisons pour lesquelles les informations multi-modales améliorent les performances
Vérification de généralisation limitée: Validation principalement sur des plateformes robotiques spécifiques, la capacité de généralisation inter-plateformes nécessite une vérification supplémentaire
Analyse des frais généraux computationnels: Bien que l'amélioration de l'efficacité soit mentionnée, une analyse détaillée de la complexité computationnelle fait défaut

Impact

Valeur académique: Fournit une nouvelle direction multi-modale pour la recherche sur les modèles de monde
Valeur pratique: Application directe aux systèmes robotiques réels, forte praticité
Reproductibilité: Fournit des détails d'implémentation détaillés et s'engage à l'open source

Scénarios Applicables

Tâches de manipulation robotique nécessitant une compréhension géométrique précise
Scénarios d'apprentissage robotique avec données rares
Applications d'apprentissage par renforcement nécessitant une simulation haute fidélité

Références

Cet article cite 63 références connexes, couvrant des travaux importants dans plusieurs domaines incluant les modèles de monde, la prédiction vidéo et l'apprentissage robotique, fournissant une base théorique solide pour la recherche.

Évaluation Globale: Ceci est un article de haute qualité en robotique qui apporte des contributions importantes à la direction des modèles de monde multi-modaux. Les points techniques innovants sont clairs, la vérification expérimentale est complète, et il possède une forte valeur académique et pratique.

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

iMoWM: Apprivoiser le Modèle de Monde Multi-Modal Interactif pour la Manipulation Robotique