2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

Grundinformationen

Papier-ID: 2510.09036
Titel: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Autoren: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
Institutionen: ¹Nanyang Technological University, ²Tsinghua University
Klassifizierung: cs.RO (Robotik)
Veröffentlichungsdatum: 10. Oktober 2024 (arXiv Preprint)
Papierlink: https://arxiv.org/abs/2510.09036
Projektseite: https://xingyoujun.github.io/imowm/

Zusammenfassung

Das Erlernen von Weltmodellen hat enormes Potenzial in der robotischen Manipulation als Simulator für reale Interaktionen. Obwohl 2D-videobasierte Weltmodelle erhebliche Fortschritte erzielt haben, fehlt diesen Methoden häufig die Fähigkeit zu geometrischem und räumlichem Denken, was für die Erfassung der physikalischen Struktur der 3D-Welt entscheidend ist. Um diese Einschränkung zu beheben, schlagen die Autoren iMoWM vor, ein neuartiges interaktives Weltmodell, das in autoregressiver Weise farbige Bilder, Tiefenkarten und Roboterarm-Masken unter Aktionsbedingungen generiert. Um die hohen Rechenkosten durch 3D-Informationen zu überwinden, schlagen die Autoren MMTokenizer vor, der Multi-Modal-Eingaben in kompakte Token-Darstellungen vereinheitlicht. Dieses Design ermöglicht es iMoWM, großflächig vortrainierte VideoGPT-Modelle zu nutzen, während gleichzeitig hohe Effizienz gewährleistet und reichhaltigere physikalische Informationen integriert werden.

Forschungshintergrund und Motivation

Problemdefinition

Robotische Manipulationsaufgaben erfordern genaue Vorhersagen der physikalischen Dynamik in 3D-Umgebungen, aber bestehende Weltmodelle weisen folgende Hauptprobleme auf:

Mangelndes geometrisches Verständnis: Die meisten Methoden basieren nur auf RGB-Videovorhersage und ermangeln einer expliziten Darstellung der 3D-Raumstruktur
Hohe Rechenkosten: Die direkte Verarbeitung von 3D-Informationen (z. B. 3D-Gaußverteilungen) ist rechnerisch sehr aufwändig
Begrenzte Verallgemeinerungsfähigkeit: Ohne Aktionsbedingungseinschränkungen ist es schwierig, sich an vielfältige robotische Manipulationsszenarien anzupassen

Forschungsmotivation

Robotische Manipulation findet im dreidimensionalen Raum statt, und die ausschließliche Abhängigkeit von RGB-Informationen führt leicht zu Fehlern bei visuellen Veränderungen und komplexen Objektinteraktionen. Bestehende 3D-Methoden wie GWM verwenden zwar 3D-Gaußverteilungen, sind aber auf hochwertige 3DGS-Rekonstruktionen angewiesen, zeigen in monokularen Szenen begrenzte Ergebnisse und sind schwer zu skalieren.

Kernbeiträge

Vorschlag des iMoWM-Rahmens: Das erste interaktive Multi-Modal-Weltmodell, das gleichzeitig farbige Bilder, Tiefenkarten und Roboterarm-Masken vorhersagen kann
Entwurf von MMTokenizer: Ein innovativer Multi-Modal-Tokenizer, der heterogene Eingaben in kompakte Token-Darstellungen vereinheitlicht und die Rechenkosten erheblich senkt
Realisierung von Multi-Task-Anwendungen: Unterstützt aktionsbedingte Videogenerierung, modellbasiertes Reinforcement Learning (MBRL) und echte Imitationslernverfahren
Überlegene Leistungsvalidierung: Erreicht State-of-the-Art-Leistung sowohl auf öffentlichen Benchmarks als auch in realen Experimenten

Methodische Erklärung

Aufgabendefinition

Gegeben eine initiale Beobachtung O₁ (bestehend aus farbigem Bild, Tiefenkarte und Roboterarm-Maske) und eine Aktionssequenz {aₜ}ᵀₜ₌₁ muss iMoWM die zukünftige Multi-Modal-Beobachtungssequenz {Oₜ}ᵀₜ₌₂ vorhersagen.

Modellarchitektur

MMTokenizer-Entwurf

MMTokenizer ist die Kernneuerung und verwendet ein duales Encoder-Decoder-Framework {(Ec,Dc), (Ed,Dd)}:

Kontextkodierung: Verwendung des Kontext-Encoders zur Verarbeitung des Initialrahmens
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```
Dynamische Kodierung: Der bedingte Encoder konzentriert sich auf dynamische Regionen
```
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
```
Modalitätsadaption: Duplizierung der ersten und letzten Schichten zur Behandlung von Merkmalverteilungsunterschieden zwischen verschiedenen Modalitäten, Einführung modalitätsspezifischer Einbettungen

Autoregressiver Transformer

Verwendet eine LLaMA-ähnliche Transformer-Architektur mit:

RMSNorm-Normalisierung
SwiGLU-Aktivierungsfunktion
Rotationspositionskodierung
Aktionsbedingter Slot-Token-Injektionsmechanismus

Aktionsbedingungen werden durch Slot-Token realisiert:

[Sₜ] = [S] + Linear(aₜ)

Das Trainingsziel ist der Kreuzentropieverlust:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Technische Innovationspunkte

Vereinheitlichte Multi-Modal-Darstellung: Erstmals werden RGB, Tiefe und Maske einheitlich kodiert, wodurch Informationsverluste zwischen Modalitäten vermieden werden
Recheneffizienzoptimierung: Der dynamische Encoder konzentriert sich nur auf sich ändernde Regionen und reduziert die Token-Anzahl erheblich
Wiederverwendung vortrainierter Modelle: Design kompatibel mit bestehenden VideoGPT-Vortrainingsgewichten, beschleunigt Konvergenz

Experimentelle Einrichtung

Datensätze

BAIR-Roboter-Push-Datensatz: 43K Trainingsvideos, 256 Testvideos, 64×64 Auflösung
RoboNet-Datensatz: Verwendung einer Teilmenge von 19K Trainingsvideos, 256 Testvideos
Selbst erfasster Datensatz: 1K Trainingsvideos, 150 Testvideos, 256×256 Hochauflösung
Meta-World-Benchmark: 6 robotische Manipulationsaufgaben zur Bewertung des Reinforcement Learning

Bewertungsmetriken

Visuelle Qualität: FVD, PSNR, SSIM, LPIPS
Tiefengenauigkeit: AbsRel (absoluter relativer Fehler)
Manipulationsleistung: Aufgabenerfolgsquote

Vergleichsmethoden

MaskViT, SVG, GHVAE (Videovorhersage-Baselines)
iVideoGPT (stärkste RGB-Baseline)
GWM (3D-Gaußverteilungsmethode)

Implementierungsdetails

Verwendung von Video Depth Anything zur Generierung von Tiefenkarten
Grounding DINO + SAM2 zur Extraktion von Roboterarm-Masken
Transformer-Initialisierung mit Vortrainingsgewichten
4 Rollouts für fairen Vergleich

Experimentelle Ergebnisse

Hauptergebnisse

Videogenerierungsleistung

Im BAIR-Datensatz:

FVD: 60,9 (vs. iVideoGPT 65,01)
PSNR: 23,82 (vs. iVideoGPT 23,40)
SSIM: 0,896 (vs. iVideoGPT 0,882)
LPIPS: 0,051 (vs. iVideoGPT 0,058)
AbsRel: 0,045 (vs. iVideoGPT 0,059)

Im RoboNet-Datensatz durchgehend überlegen gegenüber Baseline-Methoden, mit PSNR von 38,33 bei hochauflösenden realen Daten.

Reinforcement-Learning-Leistung

Bei 6 Meta-World-Aufgaben überlegen gegenüber iVideoGPT und GWM, schnellere durchschnittliche Konvergenzgeschwindigkeit und höhere endgültige Erfolgsquote. Geometriebewusste Rollouts verbessern die RL-Leistung erheblich.

Echte Welt-Bereitstellung

Bei Aufgaben zum Stapeln von Bechern und zum Greifen von Brot auf dem GALAXEA A1-Roboter:

Gesamterfolgsquote: 29/35 (vs. iVideoGPT 13/35, GT 27/35)
Nahe an der Leistung mit echten Daten, validiert die hohe Wiedergabetreue von Multi-Modal-Rollouts

Ablationsstudien

MMTokenizer-Effekt: Im Vergleich zum ursprünglichen Tokenizer reduziert sich die Inferenzzeit von 860s auf 10s, während gleichzeitig alle visuellen Metriken verbessert werden
Modalitätsbeitragsanalyse:
- RGB+Tiefe+Maske (vollständige Methode): FVD 67,6
- Nur RGB: FVD 70,2
- RGB+Maske: FVD 70,6
- RGB+Tiefe: FVD 67,5

Jede Modalität trägt zur Leistungsverbesserung bei, wobei Tiefeinformationen den größten Beitrag leisten.

Experimentelle Erkenntnisse

Auflösungsempfindlichkeit: Hochauflösungseingaben verbessern die Leistung erheblich, da sie präzisere Tiefe und Maskeninformationen liefern
Bedeutung geometrischer Informationen: Tiefenkarten bieten reichhaltigere geometrische Einschränkungen als Masken
Recheneffizienz: MMTokenizer verbessert die Inferenzgeschwindigkeit erheblich, während die Leistung erhalten bleibt

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Multi-Modal-Weltmodelle sind deutlich überlegen gegenüber reinen RGB-Methoden
MMTokenizer erreicht ein gutes Gleichgewicht zwischen Effizienz und Leistung
Geometrische Informationen sind für robotische Manipulationsaufgaben entscheidend
Die Methode zeigt ausgezeichnete Leistung sowohl in Simulation als auch in realen Umgebungen

Einschränkungen

Abhängigkeit vom Vortraining: Erfordert immer noch großflächiges Vortraining, um die Verallgemeinerungsfähigkeit von Multi-Modal-Weltmodellen vollständig auszuschöpfen
Rechenressourcen: Obwohl effizienter als 3DGS-Methoden, ist der Rechenaufwand immer noch höher als bei reinen RGB-Methoden
Abhängigkeit von Tiefenqualität: Die Leistung wird durch die Qualität der Tiefenschätzung beeinflusst

Zukünftige Richtungen

Erforschung umfangreicherer Multi-Modal-Vortrainierung
Untersuchung effizienterer 3D-Darstellungsmethoden
Erweiterung auf weitere Roboterplattformen und Aufgabentypen

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmals systematische Integration von Multi-Modal-Informationen in Weltmodelle, neuartige technische Route
Technische Vollständigkeit: Bildet eine vollständige Schleife von theoretischem Design bis zur praktischen Bereitstellung
Umfassende Experimente: Umfasst Simulation, Benchmark-Tests und echte Robotervalidierung
Signifikante Leistung: Erreicht deutliche Verbesserungen bei mehreren Metriken

Mängel

Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum Multi-Modal-Informationen die Leistung verbessern
Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf spezifischen Roboterplattformen validiert, plattformübergreifende Verallgemeinerungsfähigkeit erfordert weitere Verifikation
Unvollständige Rechenaufwandsanalyse: Obwohl Effizienzverbesserungen erwähnt werden, fehlt eine detaillierte Komplexitätsanalyse

Auswirkungen

Akademischer Wert: Bietet neue Multi-Modal-Richtung für Weltmodellforschung
Praktischer Wert: Direkte Anwendung auf echte Robotersysteme mit starker Praktikabilität
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Zusagen

Anwendungsszenarien

Robotische Manipulationsaufgaben, die präzises geometrisches Verständnis erfordern
Roboterlernszenarien mit Datenmangel
Reinforcement-Learning-Anwendungen, die hochwertige Simulation erfordern

Referenzen

Dieses Papier zitiert 63 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Weltmodelle, Videovorhersage und Roboterlernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Roboterlernpapier, das wichtige Beiträge in der Richtung Multi-Modal-Weltmodelle leistet. Die technischen Innovationspunkte sind klar, die experimentelle Validierung ist umfassend und es hat starken akademischen und praktischen Wert.

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Forschungsmotivation

Kernbeiträge

Methodische Erklärung

Aufgabendefinition

Modellarchitektur

MMTokenizer-Entwurf

Autoregressiver Transformer

Technische Innovationspunkte

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Videogenerierungsleistung

Reinforcement-Learning-Leistung

Echte Welt-Bereitstellung

Ablationsstudien

Experimentelle Erkenntnisse

Verwandte Arbeiten

Lernende Weltmodelle

4D-Videovorhersage

Robotische Manipulations-Weltmodelle

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Mängel

Auswirkungen

Anwendungsszenarien

Referenzen

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

iMoWM: Zähmung eines interaktiven Multi-Modal-Weltmodells für robotische Manipulation