2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic

iMoWM: Addomesticare il Modello di Mondo Interattivo Multi-Modale per la Manipolazione Robotica

Informazioni Fondamentali

  • ID Articolo: 2510.09036
  • Titolo: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
  • Autori: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
  • Istituzioni: ¹Nanyang Technological University, ²Università Tsinghua
  • Classificazione: cs.RO (Robotica)
  • Data di Pubblicazione: 10 ottobre 2024 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.09036
  • Pagina Progetto: https://xingyoujun.github.io/imowm/

Riassunto

L'apprendimento di modelli di mondo presenta un enorme potenziale nella manipolazione robotica, fungendo da simulatore per l'interazione nel mondo reale. Sebbene i modelli di mondo basati su video 2D abbiano raggiunto progressi significativi, questi metodi spesso mancano di capacità di ragionamento geometrico e spaziale, essenziali per catturare la struttura fisica del mondo 3D. Per affrontare questa limitazione, gli autori propongono iMoWM, un innovativo modello di mondo interattivo in grado di generare in modo autoregressivo immagini a colori, mappe di profondità e maschere del braccio robotico condizionate dall'azione. Per superare l'elevato costo computazionale derivante dalle informazioni tridimensionali, gli autori propongono MMTokenizer, che unifica gli input multimodali in una rappresentazione token compatta. Questo design consente a iMoWM di sfruttare il modello VideoGPT preaddestrato su larga scala, mantenendo al contempo l'efficienza e incorporando informazioni fisiche più ricche.

Contesto di Ricerca e Motivazione

Definizione del Problema

I compiti di manipolazione robotica richiedono una previsione accurata della dinamica fisica in ambienti 3D, ma i modelli di mondo esistenti presentano i seguenti problemi:

  1. Mancanza di Comprensione Geometrica: La maggior parte dei metodi si basa esclusivamente sulla previsione da video RGB, mancando di una rappresentazione esplicita della struttura spaziale 3D
  2. Costo Computazionale Elevato: L'elaborazione diretta di informazioni 3D (come le distribuzioni gaussiane 3D) comporta un overhead computazionale enorme
  3. Capacità di Generalizzazione Limitata: Mancanza di vincoli condizionati dall'azione, difficoltà di adattamento a scenari di manipolazione robotica diversificati

Motivazione della Ricerca

La manipolazione robotica avviene nello spazio tridimensionale e affidarsi esclusivamente alle informazioni RGB può portare a errori in caso di variazioni visive e interazioni complesse tra oggetti. I metodi 3D esistenti come GWM, sebbene utilizzino distribuzioni gaussiane 3D, dipendono da ricostruzioni 3DGS di alta qualità, con prestazioni limitate in scenari monoculari e difficili da scalare.

Contributi Principali

  1. Proposta del Framework iMoWM: Primo modello di mondo interattivo multimodale in grado di prevedere simultaneamente immagini a colori, mappe di profondità e maschere del braccio robotico
  2. Progettazione di MMTokenizer: Innovativo tokenizer multimodale che unifica input eterogenei in una rappresentazione token compatta, riducendo significativamente i costi computazionali
  3. Implementazione di Applicazioni Multi-Compito: Supporto per generazione video condizionata dall'azione, apprendimento per rinforzo basato su modello (MBRL) e apprendimento per imitazione nel mondo reale
  4. Verifica di Prestazioni Superiori: Raggiungimento di prestazioni all'avanguardia sia su benchmark pubblici che in esperimenti nel mondo reale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data un'osservazione iniziale O₁ (contenente immagine a colori, mappa di profondità, maschera del braccio robotico) e una sequenza di azioni {aₜ}ᵀₜ₌₁, iMoWM deve prevedere la sequenza di osservazioni multimodali future {Oₜ}ᵀₜ₌₂.

Architettura del Modello

Progettazione di MMTokenizer

MMTokenizer è l'innovazione principale, adottando un framework a doppio encoder-decoder {(Ec,Dc), (Ed,Dd)}:

  1. Codifica del Contesto: Utilizzo dell'encoder di contesto per elaborare il frame iniziale
    Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
    
  2. Codifica Dinamica: L'encoder condizionato si concentra sulle regioni dinamiche
    Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
    
  3. Adattamento Modale: Replicazione dei primi e ultimi strati per gestire le differenze di distribuzione delle caratteristiche tra diverse modalità, introducendo embedding specifici per modalità

Transformer Autoregressivo

Adotta un'architettura transformer in stile LLaMA, che include:

  • Normalizzazione RMSNorm
  • Funzione di attivazione SwiGLU
  • Codifica di posizione rotazionale
  • Meccanismo di iniezione di slot token condizionato dall'azione

Il condizionamento dell'azione è implementato tramite slot token:

[Sₜ] = [S] + Linear(aₜ)

L'obiettivo di addestramento è la perdita di entropia incrociata:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Punti di Innovazione Tecnica

  1. Rappresentazione Multimodale Unificata: Prima volta che RGB, profondità e maschera vengono codificati unitamente, evitando perdite di informazioni tra modalità
  2. Ottimizzazione dell'Efficienza Computazionale: L'encoder dinamico si concentra solo sulle aree in cambiamento, riducendo drasticamente il numero di token
  3. Riutilizzo di Modelli Preaddestrati: Progettazione compatibile con i pesi preaddestrati di VideoGPT esistenti, accelerando la convergenza

Configurazione Sperimentale

Dataset

  1. Dataset BAIR Robot Push: 43K video di addestramento, 256 video di test, risoluzione 64×64
  2. Dataset RoboNet: Utilizzo di un sottoinsieme di 19K video di addestramento, 256 video di test
  3. Dataset Raccolto Autonomamente: 1K video di addestramento, 150 video di test, risoluzione 256×256 ad alta definizione
  4. Benchmark Meta-World: 6 compiti di manipolazione robotica per la valutazione dell'apprendimento per rinforzo

Metriche di Valutazione

  • Qualità Visiva: FVD, PSNR, SSIM, LPIPS
  • Precisione della Profondità: AbsRel (errore relativo assoluto)
  • Prestazioni Operative: Tasso di successo del compito

Metodi di Confronto

  • MaskViT, SVG, GHVAE (baseline di previsione video)
  • iVideoGPT (baseline RGB più forte)
  • GWM (metodo di distribuzione gaussiana 3D)

Dettagli di Implementazione

  • Utilizzo di Video Depth Anything per generare mappe di profondità
  • Grounding DINO + SAM2 per l'estrazione della maschera del braccio robotico
  • Inizializzazione dei pesi preaddestrati del transformer
  • 4 rollout per confronto equo

Risultati Sperimentali

Risultati Principali

Prestazioni di Generazione Video

Sul dataset BAIR:

  • FVD: 60.9 (vs iVideoGPT 65.01)
  • PSNR: 23.82 (vs iVideoGPT 23.40)
  • SSIM: 0.896 (vs iVideoGPT 0.882)
  • LPIPS: 0.051 (vs iVideoGPT 0.058)
  • AbsRel: 0.045 (vs iVideoGPT 0.059)

Superamento complessivo dei metodi baseline sul dataset RoboNet, con PSNR pari a 38.33 su dati reali ad alta risoluzione.

Prestazioni di Apprendimento per Rinforzo

Su 6 compiti Meta-World, superamento di iVideoGPT e GWM, con velocità di convergenza più rapida e tasso di successo finale più elevato. Il rollout consapevole della geometria ha migliorato significativamente le prestazioni di RL.

Distribuzione nel Mondo Reale

Su compiti di impilamento di tazze e raccolta di pane sul robot GALAXEA A1:

  • Tasso di successo totale: 29/35 (vs iVideoGPT 13/35, GT 27/35)
  • Prestazioni prossime ai dati reali, verificando l'alta fedeltà del rollout multimodale

Esperimenti di Ablazione

  1. Effetto di MMTokenizer: Rispetto al tokenizer originale, il tempo di inferenza è stato ridotto da 860s a 10s, migliorando al contempo tutti gli indicatori visivi
  2. Analisi del Contributo Modale:
    • RGB+Profondità+Maschera (metodo completo): FVD 67.6
    • Solo RGB: FVD 70.2
    • RGB+Maschera: FVD 70.6
    • RGB+Profondità: FVD 67.5

Ogni modalità contribuisce al miglioramento delle prestazioni, con le informazioni di profondità che forniscono il contributo maggiore.

Scoperte Sperimentali

  1. Sensibilità alla Risoluzione: L'input ad alta risoluzione migliora significativamente le prestazioni, poiché fornisce informazioni di profondità e maschera più precise
  2. Importanza delle Informazioni Geometriche: Le mappe di profondità forniscono vincoli geometrici più ricchi rispetto alle maschere
  3. Efficienza Computazionale: MMTokenizer migliora drasticamente la velocità di inferenza mantenendo le prestazioni

Lavori Correlati

Apprendimento di Modelli di Mondo

I metodi iniziali, ispirati da VideoGPT, hanno effettuato la tokenizzazione di video RGB, mentre i modelli di diffusione recenti hanno promosso la previsione nello spazio latente. GWM adotta 3DGS ma è limitato dalla qualità della scena monoculare.

Previsione Video 4D

Metodi come TesserAct esplorano la generazione RGB-D, ma mancano di condizionamento esplicito dall'azione, limitando le applicazioni robotiche.

Modelli di Mondo per Manipolazione Robotica

Principalmente utilizzati per l'aumento dei dati e la simulazione RL, ma generalmente privi di informazioni 3D, limitando l'efficacia come simulatore e generatore di dati.

Conclusioni e Discussione

Conclusioni Principali

  1. I modelli di mondo multimodali superano significativamente i metodi puramente RGB
  2. MMTokenizer raggiunge un buon equilibrio tra efficienza e prestazioni
  3. Le informazioni geometriche sono cruciali per i compiti di manipolazione robotica
  4. Il metodo mostra eccellenti prestazioni sia in simulazione che in ambienti reali

Limitazioni

  1. Dipendenza dal Preaddestramento: Richiede ancora preaddestramento su larga scala per sfruttare pienamente la capacità di generalizzazione dei modelli di mondo multimodali
  2. Risorse Computazionali: Sebbene più efficiente rispetto ai metodi 3DGS, richiede comunque più calcolo rispetto ai metodi puramente RGB
  3. Dipendenza dalla Qualità della Profondità: Le prestazioni sono influenzate dalla qualità della stima della profondità

Direzioni Future

  1. Esplorazione di preaddestramento multimodale su scala più ampia
  2. Ricerca di metodi di rappresentazione 3D più efficienti
  3. Estensione a più piattaforme robotiche e tipi di compiti

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima introduzione sistematica di informazioni multimodali nei modelli di mondo, con percorso tecnico innovativo
  2. Completezza Ingegneristica: Forma un ciclo completo dalla progettazione teorica alla distribuzione pratica
  3. Esperimenti Esaustivi: Copertura di simulazione, test su benchmark e verifica su robot reali
  4. Miglioramenti Significativi delle Prestazioni: Miglioramenti evidenti su più indicatori

Insufficienze

  1. Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché le informazioni multimodali migliorino le prestazioni
  2. Verifica di Generalizzazione Limitata: La verifica è principalmente su piattaforme robotiche specifiche, la capacità di generalizzazione cross-platform richiede ulteriore verifica
  3. Analisi dei Costi Computazionali: Sebbene si menzioni il miglioramento dell'efficienza, manca un'analisi dettagliata della complessità computazionale

Impatto

  1. Valore Accademico: Fornisce una nuova direzione multimodale per la ricerca sui modelli di mondo
  2. Valore Pratico: Applicazione diretta a sistemi robotici reali, forte praticità
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impegno open-source

Scenari Applicabili

  1. Compiti di manipolazione robotica che richiedono comprensione geometrica precisa
  2. Scenari di apprendimento robotico con dati scarsi
  3. Applicazioni di apprendimento per rinforzo che richiedono simulazione ad alta fedeltà

Bibliografia

L'articolo cita 63 riferimenti correlati, coprendo importanti lavori in più campi inclusi modelli di mondo, previsione video e apprendimento robotico, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità sulla robotica che fornisce importanti contributi nella direzione dei modelli di mondo multimodali. I punti di innovazione tecnica sono chiari, la verifica sperimentale è esaustiva e possiede un forte valore accademico e pratico.