iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic
iMoWM: Zähmung eines interaktiven Multi-Modal-Weltmodells für robotische Manipulation
Das Erlernen von Weltmodellen hat enormes Potenzial in der robotischen Manipulation als Simulator für reale Interaktionen. Obwohl 2D-videobasierte Weltmodelle erhebliche Fortschritte erzielt haben, fehlt diesen Methoden häufig die Fähigkeit zu geometrischem und räumlichem Denken, was für die Erfassung der physikalischen Struktur der 3D-Welt entscheidend ist. Um diese Einschränkung zu beheben, schlagen die Autoren iMoWM vor, ein neuartiges interaktives Weltmodell, das in autoregressiver Weise farbige Bilder, Tiefenkarten und Roboterarm-Masken unter Aktionsbedingungen generiert. Um die hohen Rechenkosten durch 3D-Informationen zu überwinden, schlagen die Autoren MMTokenizer vor, der Multi-Modal-Eingaben in kompakte Token-Darstellungen vereinheitlicht. Dieses Design ermöglicht es iMoWM, großflächig vortrainierte VideoGPT-Modelle zu nutzen, während gleichzeitig hohe Effizienz gewährleistet und reichhaltigere physikalische Informationen integriert werden.
Robotische Manipulationsaufgaben erfordern genaue Vorhersagen der physikalischen Dynamik in 3D-Umgebungen, aber bestehende Weltmodelle weisen folgende Hauptprobleme auf:
Mangelndes geometrisches Verständnis: Die meisten Methoden basieren nur auf RGB-Videovorhersage und ermangeln einer expliziten Darstellung der 3D-Raumstruktur
Hohe Rechenkosten: Die direkte Verarbeitung von 3D-Informationen (z. B. 3D-Gaußverteilungen) ist rechnerisch sehr aufwändig
Begrenzte Verallgemeinerungsfähigkeit: Ohne Aktionsbedingungseinschränkungen ist es schwierig, sich an vielfältige robotische Manipulationsszenarien anzupassen
Robotische Manipulation findet im dreidimensionalen Raum statt, und die ausschließliche Abhängigkeit von RGB-Informationen führt leicht zu Fehlern bei visuellen Veränderungen und komplexen Objektinteraktionen. Bestehende 3D-Methoden wie GWM verwenden zwar 3D-Gaußverteilungen, sind aber auf hochwertige 3DGS-Rekonstruktionen angewiesen, zeigen in monokularen Szenen begrenzte Ergebnisse und sind schwer zu skalieren.
Vorschlag des iMoWM-Rahmens: Das erste interaktive Multi-Modal-Weltmodell, das gleichzeitig farbige Bilder, Tiefenkarten und Roboterarm-Masken vorhersagen kann
Entwurf von MMTokenizer: Ein innovativer Multi-Modal-Tokenizer, der heterogene Eingaben in kompakte Token-Darstellungen vereinheitlicht und die Rechenkosten erheblich senkt
Realisierung von Multi-Task-Anwendungen: Unterstützt aktionsbedingte Videogenerierung, modellbasiertes Reinforcement Learning (MBRL) und echte Imitationslernverfahren
Überlegene Leistungsvalidierung: Erreicht State-of-the-Art-Leistung sowohl auf öffentlichen Benchmarks als auch in realen Experimenten
Gegeben eine initiale Beobachtung O₁ (bestehend aus farbigem Bild, Tiefenkarte und Roboterarm-Maske) und eine Aktionssequenz {aₜ}ᵀₜ₌₁ muss iMoWM die zukünftige Multi-Modal-Beobachtungssequenz {Oₜ}ᵀₜ₌₂ vorhersagen.
MMTokenizer ist die Kernneuerung und verwendet ein duales Encoder-Decoder-Framework {(Ec,Dc), (Ed,Dd)}:
Kontextkodierung: Verwendung des Kontext-Encoders zur Verarbeitung des Initialrahmens
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
Dynamische Kodierung: Der bedingte Encoder konzentriert sich auf dynamische Regionen
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
Modalitätsadaption: Duplizierung der ersten und letzten Schichten zur Behandlung von Merkmalverteilungsunterschieden zwischen verschiedenen Modalitäten, Einführung modalitätsspezifischer Einbettungen
Vereinheitlichte Multi-Modal-Darstellung: Erstmals werden RGB, Tiefe und Maske einheitlich kodiert, wodurch Informationsverluste zwischen Modalitäten vermieden werden
Recheneffizienzoptimierung: Der dynamische Encoder konzentriert sich nur auf sich ändernde Regionen und reduziert die Token-Anzahl erheblich
Wiederverwendung vortrainierter Modelle: Design kompatibel mit bestehenden VideoGPT-Vortrainingsgewichten, beschleunigt Konvergenz
Bei 6 Meta-World-Aufgaben überlegen gegenüber iVideoGPT und GWM, schnellere durchschnittliche Konvergenzgeschwindigkeit und höhere endgültige Erfolgsquote. Geometriebewusste Rollouts verbessern die RL-Leistung erheblich.
MMTokenizer-Effekt: Im Vergleich zum ursprünglichen Tokenizer reduziert sich die Inferenzzeit von 860s auf 10s, während gleichzeitig alle visuellen Metriken verbessert werden
Modalitätsbeitragsanalyse:
RGB+Tiefe+Maske (vollständige Methode): FVD 67,6
Nur RGB: FVD 70,2
RGB+Maske: FVD 70,6
RGB+Tiefe: FVD 67,5
Jede Modalität trägt zur Leistungsverbesserung bei, wobei Tiefeinformationen den größten Beitrag leisten.
Frühe Methoden wurden von VideoGPT inspiriert und führten RGB-Video-Tokenisierung durch, während neuere Diffusionsmodelle die Vorhersage im latenten Raum vorantrieben. GWM verwendet 3DGS, ist aber durch die Qualität in monokularen Szenen begrenzt.
Hauptsächlich für Datenerweiterung und RL-Simulation verwendet, aber allgemein mangelhaft in 3D-Informationen, was die Wirksamkeit als Simulator und Datengenerator einschränkt.
Abhängigkeit vom Vortraining: Erfordert immer noch großflächiges Vortraining, um die Verallgemeinerungsfähigkeit von Multi-Modal-Weltmodellen vollständig auszuschöpfen
Rechenressourcen: Obwohl effizienter als 3DGS-Methoden, ist der Rechenaufwand immer noch höher als bei reinen RGB-Methoden
Abhängigkeit von Tiefenqualität: Die Leistung wird durch die Qualität der Tiefenschätzung beeinflusst
Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf spezifischen Roboterplattformen validiert, plattformübergreifende Verallgemeinerungsfähigkeit erfordert weitere Verifikation
Unvollständige Rechenaufwandsanalyse: Obwohl Effizienzverbesserungen erwähnt werden, fehlt eine detaillierte Komplexitätsanalyse
Dieses Papier zitiert 63 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Weltmodelle, Videovorhersage und Roboterlernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Roboterlernpapier, das wichtige Beiträge in der Richtung Multi-Modal-Weltmodelle leistet. Die technischen Innovationspunkte sind klar, die experimentelle Validierung ist umfassend und es hat starken akademischen und praktischen Wert.