2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic

iMoWM: Zähmung eines interaktiven Multi-Modal-Weltmodells für robotische Manipulation

Grundinformationen

  • Papier-ID: 2510.09036
  • Titel: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
  • Autoren: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
  • Institutionen: ¹Nanyang Technological University, ²Tsinghua University
  • Klassifizierung: cs.RO (Robotik)
  • Veröffentlichungsdatum: 10. Oktober 2024 (arXiv Preprint)
  • Papierlink: https://arxiv.org/abs/2510.09036
  • Projektseite: https://xingyoujun.github.io/imowm/

Zusammenfassung

Das Erlernen von Weltmodellen hat enormes Potenzial in der robotischen Manipulation als Simulator für reale Interaktionen. Obwohl 2D-videobasierte Weltmodelle erhebliche Fortschritte erzielt haben, fehlt diesen Methoden häufig die Fähigkeit zu geometrischem und räumlichem Denken, was für die Erfassung der physikalischen Struktur der 3D-Welt entscheidend ist. Um diese Einschränkung zu beheben, schlagen die Autoren iMoWM vor, ein neuartiges interaktives Weltmodell, das in autoregressiver Weise farbige Bilder, Tiefenkarten und Roboterarm-Masken unter Aktionsbedingungen generiert. Um die hohen Rechenkosten durch 3D-Informationen zu überwinden, schlagen die Autoren MMTokenizer vor, der Multi-Modal-Eingaben in kompakte Token-Darstellungen vereinheitlicht. Dieses Design ermöglicht es iMoWM, großflächig vortrainierte VideoGPT-Modelle zu nutzen, während gleichzeitig hohe Effizienz gewährleistet und reichhaltigere physikalische Informationen integriert werden.

Forschungshintergrund und Motivation

Problemdefinition

Robotische Manipulationsaufgaben erfordern genaue Vorhersagen der physikalischen Dynamik in 3D-Umgebungen, aber bestehende Weltmodelle weisen folgende Hauptprobleme auf:

  1. Mangelndes geometrisches Verständnis: Die meisten Methoden basieren nur auf RGB-Videovorhersage und ermangeln einer expliziten Darstellung der 3D-Raumstruktur
  2. Hohe Rechenkosten: Die direkte Verarbeitung von 3D-Informationen (z. B. 3D-Gaußverteilungen) ist rechnerisch sehr aufwändig
  3. Begrenzte Verallgemeinerungsfähigkeit: Ohne Aktionsbedingungseinschränkungen ist es schwierig, sich an vielfältige robotische Manipulationsszenarien anzupassen

Forschungsmotivation

Robotische Manipulation findet im dreidimensionalen Raum statt, und die ausschließliche Abhängigkeit von RGB-Informationen führt leicht zu Fehlern bei visuellen Veränderungen und komplexen Objektinteraktionen. Bestehende 3D-Methoden wie GWM verwenden zwar 3D-Gaußverteilungen, sind aber auf hochwertige 3DGS-Rekonstruktionen angewiesen, zeigen in monokularen Szenen begrenzte Ergebnisse und sind schwer zu skalieren.

Kernbeiträge

  1. Vorschlag des iMoWM-Rahmens: Das erste interaktive Multi-Modal-Weltmodell, das gleichzeitig farbige Bilder, Tiefenkarten und Roboterarm-Masken vorhersagen kann
  2. Entwurf von MMTokenizer: Ein innovativer Multi-Modal-Tokenizer, der heterogene Eingaben in kompakte Token-Darstellungen vereinheitlicht und die Rechenkosten erheblich senkt
  3. Realisierung von Multi-Task-Anwendungen: Unterstützt aktionsbedingte Videogenerierung, modellbasiertes Reinforcement Learning (MBRL) und echte Imitationslernverfahren
  4. Überlegene Leistungsvalidierung: Erreicht State-of-the-Art-Leistung sowohl auf öffentlichen Benchmarks als auch in realen Experimenten

Methodische Erklärung

Aufgabendefinition

Gegeben eine initiale Beobachtung O₁ (bestehend aus farbigem Bild, Tiefenkarte und Roboterarm-Maske) und eine Aktionssequenz {aₜ}ᵀₜ₌₁ muss iMoWM die zukünftige Multi-Modal-Beobachtungssequenz {Oₜ}ᵀₜ₌₂ vorhersagen.

Modellarchitektur

MMTokenizer-Entwurf

MMTokenizer ist die Kernneuerung und verwendet ein duales Encoder-Decoder-Framework {(Ec,Dc), (Ed,Dd)}:

  1. Kontextkodierung: Verwendung des Kontext-Encoders zur Verarbeitung des Initialrahmens
    Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
    
  2. Dynamische Kodierung: Der bedingte Encoder konzentriert sich auf dynamische Regionen
    Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
    
  3. Modalitätsadaption: Duplizierung der ersten und letzten Schichten zur Behandlung von Merkmalverteilungsunterschieden zwischen verschiedenen Modalitäten, Einführung modalitätsspezifischer Einbettungen

Autoregressiver Transformer

Verwendet eine LLaMA-ähnliche Transformer-Architektur mit:

  • RMSNorm-Normalisierung
  • SwiGLU-Aktivierungsfunktion
  • Rotationspositionskodierung
  • Aktionsbedingter Slot-Token-Injektionsmechanismus

Aktionsbedingungen werden durch Slot-Token realisiert:

[Sₜ] = [S] + Linear(aₜ)

Das Trainingsziel ist der Kreuzentropieverlust:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Technische Innovationspunkte

  1. Vereinheitlichte Multi-Modal-Darstellung: Erstmals werden RGB, Tiefe und Maske einheitlich kodiert, wodurch Informationsverluste zwischen Modalitäten vermieden werden
  2. Recheneffizienzoptimierung: Der dynamische Encoder konzentriert sich nur auf sich ändernde Regionen und reduziert die Token-Anzahl erheblich
  3. Wiederverwendung vortrainierter Modelle: Design kompatibel mit bestehenden VideoGPT-Vortrainingsgewichten, beschleunigt Konvergenz

Experimentelle Einrichtung

Datensätze

  1. BAIR-Roboter-Push-Datensatz: 43K Trainingsvideos, 256 Testvideos, 64×64 Auflösung
  2. RoboNet-Datensatz: Verwendung einer Teilmenge von 19K Trainingsvideos, 256 Testvideos
  3. Selbst erfasster Datensatz: 1K Trainingsvideos, 150 Testvideos, 256×256 Hochauflösung
  4. Meta-World-Benchmark: 6 robotische Manipulationsaufgaben zur Bewertung des Reinforcement Learning

Bewertungsmetriken

  • Visuelle Qualität: FVD, PSNR, SSIM, LPIPS
  • Tiefengenauigkeit: AbsRel (absoluter relativer Fehler)
  • Manipulationsleistung: Aufgabenerfolgsquote

Vergleichsmethoden

  • MaskViT, SVG, GHVAE (Videovorhersage-Baselines)
  • iVideoGPT (stärkste RGB-Baseline)
  • GWM (3D-Gaußverteilungsmethode)

Implementierungsdetails

  • Verwendung von Video Depth Anything zur Generierung von Tiefenkarten
  • Grounding DINO + SAM2 zur Extraktion von Roboterarm-Masken
  • Transformer-Initialisierung mit Vortrainingsgewichten
  • 4 Rollouts für fairen Vergleich

Experimentelle Ergebnisse

Hauptergebnisse

Videogenerierungsleistung

Im BAIR-Datensatz:

  • FVD: 60,9 (vs. iVideoGPT 65,01)
  • PSNR: 23,82 (vs. iVideoGPT 23,40)
  • SSIM: 0,896 (vs. iVideoGPT 0,882)
  • LPIPS: 0,051 (vs. iVideoGPT 0,058)
  • AbsRel: 0,045 (vs. iVideoGPT 0,059)

Im RoboNet-Datensatz durchgehend überlegen gegenüber Baseline-Methoden, mit PSNR von 38,33 bei hochauflösenden realen Daten.

Reinforcement-Learning-Leistung

Bei 6 Meta-World-Aufgaben überlegen gegenüber iVideoGPT und GWM, schnellere durchschnittliche Konvergenzgeschwindigkeit und höhere endgültige Erfolgsquote. Geometriebewusste Rollouts verbessern die RL-Leistung erheblich.

Echte Welt-Bereitstellung

Bei Aufgaben zum Stapeln von Bechern und zum Greifen von Brot auf dem GALAXEA A1-Roboter:

  • Gesamterfolgsquote: 29/35 (vs. iVideoGPT 13/35, GT 27/35)
  • Nahe an der Leistung mit echten Daten, validiert die hohe Wiedergabetreue von Multi-Modal-Rollouts

Ablationsstudien

  1. MMTokenizer-Effekt: Im Vergleich zum ursprünglichen Tokenizer reduziert sich die Inferenzzeit von 860s auf 10s, während gleichzeitig alle visuellen Metriken verbessert werden
  2. Modalitätsbeitragsanalyse:
    • RGB+Tiefe+Maske (vollständige Methode): FVD 67,6
    • Nur RGB: FVD 70,2
    • RGB+Maske: FVD 70,6
    • RGB+Tiefe: FVD 67,5

Jede Modalität trägt zur Leistungsverbesserung bei, wobei Tiefeinformationen den größten Beitrag leisten.

Experimentelle Erkenntnisse

  1. Auflösungsempfindlichkeit: Hochauflösungseingaben verbessern die Leistung erheblich, da sie präzisere Tiefe und Maskeninformationen liefern
  2. Bedeutung geometrischer Informationen: Tiefenkarten bieten reichhaltigere geometrische Einschränkungen als Masken
  3. Recheneffizienz: MMTokenizer verbessert die Inferenzgeschwindigkeit erheblich, während die Leistung erhalten bleibt

Verwandte Arbeiten

Lernende Weltmodelle

Frühe Methoden wurden von VideoGPT inspiriert und führten RGB-Video-Tokenisierung durch, während neuere Diffusionsmodelle die Vorhersage im latenten Raum vorantrieben. GWM verwendet 3DGS, ist aber durch die Qualität in monokularen Szenen begrenzt.

4D-Videovorhersage

Methoden wie TesserAct erforschen RGB-D-Generierung, ermangeln aber expliziter Aktionsbedingungen, was die robotische Anwendung einschränkt.

Robotische Manipulations-Weltmodelle

Hauptsächlich für Datenerweiterung und RL-Simulation verwendet, aber allgemein mangelhaft in 3D-Informationen, was die Wirksamkeit als Simulator und Datengenerator einschränkt.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Multi-Modal-Weltmodelle sind deutlich überlegen gegenüber reinen RGB-Methoden
  2. MMTokenizer erreicht ein gutes Gleichgewicht zwischen Effizienz und Leistung
  3. Geometrische Informationen sind für robotische Manipulationsaufgaben entscheidend
  4. Die Methode zeigt ausgezeichnete Leistung sowohl in Simulation als auch in realen Umgebungen

Einschränkungen

  1. Abhängigkeit vom Vortraining: Erfordert immer noch großflächiges Vortraining, um die Verallgemeinerungsfähigkeit von Multi-Modal-Weltmodellen vollständig auszuschöpfen
  2. Rechenressourcen: Obwohl effizienter als 3DGS-Methoden, ist der Rechenaufwand immer noch höher als bei reinen RGB-Methoden
  3. Abhängigkeit von Tiefenqualität: Die Leistung wird durch die Qualität der Tiefenschätzung beeinflusst

Zukünftige Richtungen

  1. Erforschung umfangreicherer Multi-Modal-Vortrainierung
  2. Untersuchung effizienterer 3D-Darstellungsmethoden
  3. Erweiterung auf weitere Roboterplattformen und Aufgabentypen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmals systematische Integration von Multi-Modal-Informationen in Weltmodelle, neuartige technische Route
  2. Technische Vollständigkeit: Bildet eine vollständige Schleife von theoretischem Design bis zur praktischen Bereitstellung
  3. Umfassende Experimente: Umfasst Simulation, Benchmark-Tests und echte Robotervalidierung
  4. Signifikante Leistung: Erreicht deutliche Verbesserungen bei mehreren Metriken

Mängel

  1. Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum Multi-Modal-Informationen die Leistung verbessern
  2. Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf spezifischen Roboterplattformen validiert, plattformübergreifende Verallgemeinerungsfähigkeit erfordert weitere Verifikation
  3. Unvollständige Rechenaufwandsanalyse: Obwohl Effizienzverbesserungen erwähnt werden, fehlt eine detaillierte Komplexitätsanalyse

Auswirkungen

  1. Akademischer Wert: Bietet neue Multi-Modal-Richtung für Weltmodellforschung
  2. Praktischer Wert: Direkte Anwendung auf echte Robotersysteme mit starker Praktikabilität
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Zusagen

Anwendungsszenarien

  1. Robotische Manipulationsaufgaben, die präzises geometrisches Verständnis erfordern
  2. Roboterlernszenarien mit Datenmangel
  3. Reinforcement-Learning-Anwendungen, die hochwertige Simulation erfordern

Referenzen

Dieses Papier zitiert 63 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Weltmodelle, Videovorhersage und Roboterlernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Roboterlernpapier, das wichtige Beiträge in der Richtung Multi-Modal-Weltmodelle leistet. Die technischen Innovationspunkte sind klar, die experimentelle Validierung ist umfassend und es hat starken akademischen und praktischen Wert.