2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

iMoWM: Addomesticare il Modello di Mondo Interattivo Multi-Modale per la Manipolazione Robotica

Informazioni Fondamentali

ID Articolo: 2510.09036
Titolo: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
Autori: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
Istituzioni: ¹Nanyang Technological University, ²Università Tsinghua
Classificazione: cs.RO (Robotica)
Data di Pubblicazione: 10 ottobre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09036
Pagina Progetto: https://xingyoujun.github.io/imowm/

Riassunto

L'apprendimento di modelli di mondo presenta un enorme potenziale nella manipolazione robotica, fungendo da simulatore per l'interazione nel mondo reale. Sebbene i modelli di mondo basati su video 2D abbiano raggiunto progressi significativi, questi metodi spesso mancano di capacità di ragionamento geometrico e spaziale, essenziali per catturare la struttura fisica del mondo 3D. Per affrontare questa limitazione, gli autori propongono iMoWM, un innovativo modello di mondo interattivo in grado di generare in modo autoregressivo immagini a colori, mappe di profondità e maschere del braccio robotico condizionate dall'azione. Per superare l'elevato costo computazionale derivante dalle informazioni tridimensionali, gli autori propongono MMTokenizer, che unifica gli input multimodali in una rappresentazione token compatta. Questo design consente a iMoWM di sfruttare il modello VideoGPT preaddestrato su larga scala, mantenendo al contempo l'efficienza e incorporando informazioni fisiche più ricche.

Contesto di Ricerca e Motivazione

Definizione del Problema

I compiti di manipolazione robotica richiedono una previsione accurata della dinamica fisica in ambienti 3D, ma i modelli di mondo esistenti presentano i seguenti problemi:

Mancanza di Comprensione Geometrica: La maggior parte dei metodi si basa esclusivamente sulla previsione da video RGB, mancando di una rappresentazione esplicita della struttura spaziale 3D
Costo Computazionale Elevato: L'elaborazione diretta di informazioni 3D (come le distribuzioni gaussiane 3D) comporta un overhead computazionale enorme
Capacità di Generalizzazione Limitata: Mancanza di vincoli condizionati dall'azione, difficoltà di adattamento a scenari di manipolazione robotica diversificati

Motivazione della Ricerca

La manipolazione robotica avviene nello spazio tridimensionale e affidarsi esclusivamente alle informazioni RGB può portare a errori in caso di variazioni visive e interazioni complesse tra oggetti. I metodi 3D esistenti come GWM, sebbene utilizzino distribuzioni gaussiane 3D, dipendono da ricostruzioni 3DGS di alta qualità, con prestazioni limitate in scenari monoculari e difficili da scalare.

Contributi Principali

Proposta del Framework iMoWM: Primo modello di mondo interattivo multimodale in grado di prevedere simultaneamente immagini a colori, mappe di profondità e maschere del braccio robotico
Progettazione di MMTokenizer: Innovativo tokenizer multimodale che unifica input eterogenei in una rappresentazione token compatta, riducendo significativamente i costi computazionali
Implementazione di Applicazioni Multi-Compito: Supporto per generazione video condizionata dall'azione, apprendimento per rinforzo basato su modello (MBRL) e apprendimento per imitazione nel mondo reale
Verifica di Prestazioni Superiori: Raggiungimento di prestazioni all'avanguardia sia su benchmark pubblici che in esperimenti nel mondo reale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data un'osservazione iniziale O₁ (contenente immagine a colori, mappa di profondità, maschera del braccio robotico) e una sequenza di azioni {aₜ}ᵀₜ₌₁, iMoWM deve prevedere la sequenza di osservazioni multimodali future {Oₜ}ᵀₜ₌₂.

Architettura del Modello

Progettazione di MMTokenizer

MMTokenizer è l'innovazione principale, adottando un framework a doppio encoder-decoder {(Ec,Dc), (Ed,Dd)}:

Codifica del Contesto: Utilizzo dell'encoder di contesto per elaborare il frame iniziale
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```

Codifica Dinamica: L'encoder condizionato si concentra sulle regioni dinamiche

Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T

Adattamento Modale: Replicazione dei primi e ultimi strati per gestire le differenze di distribuzione delle caratteristiche tra diverse modalità, introducendo embedding specifici per modalità

Transformer Autoregressivo

Adotta un'architettura transformer in stile LLaMA, che include:

Normalizzazione RMSNorm
Funzione di attivazione SwiGLU
Codifica di posizione rotazionale
Meccanismo di iniezione di slot token condizionato dall'azione

Il condizionamento dell'azione è implementato tramite slot token:

[Sₜ] = [S] + Linear(aₜ)

L'obiettivo di addestramento è la perdita di entropia incrociata:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

Punti di Innovazione Tecnica

Rappresentazione Multimodale Unificata: Prima volta che RGB, profondità e maschera vengono codificati unitamente, evitando perdite di informazioni tra modalità
Ottimizzazione dell'Efficienza Computazionale: L'encoder dinamico si concentra solo sulle aree in cambiamento, riducendo drasticamente il numero di token
Riutilizzo di Modelli Preaddestrati: Progettazione compatibile con i pesi preaddestrati di VideoGPT esistenti, accelerando la convergenza

Configurazione Sperimentale

Dataset

Dataset BAIR Robot Push: 43K video di addestramento, 256 video di test, risoluzione 64×64
Dataset RoboNet: Utilizzo di un sottoinsieme di 19K video di addestramento, 256 video di test
Dataset Raccolto Autonomamente: 1K video di addestramento, 150 video di test, risoluzione 256×256 ad alta definizione
Benchmark Meta-World: 6 compiti di manipolazione robotica per la valutazione dell'apprendimento per rinforzo

Metriche di Valutazione

Qualità Visiva: FVD, PSNR, SSIM, LPIPS
Precisione della Profondità: AbsRel (errore relativo assoluto)
Prestazioni Operative: Tasso di successo del compito

Metodi di Confronto

MaskViT, SVG, GHVAE (baseline di previsione video)
iVideoGPT (baseline RGB più forte)
GWM (metodo di distribuzione gaussiana 3D)

Dettagli di Implementazione

Utilizzo di Video Depth Anything per generare mappe di profondità
Grounding DINO + SAM2 per l'estrazione della maschera del braccio robotico
Inizializzazione dei pesi preaddestrati del transformer
4 rollout per confronto equo

Risultati Sperimentali

Risultati Principali

Prestazioni di Generazione Video

Sul dataset BAIR:

FVD: 60.9 (vs iVideoGPT 65.01)
PSNR: 23.82 (vs iVideoGPT 23.40)
SSIM: 0.896 (vs iVideoGPT 0.882)
LPIPS: 0.051 (vs iVideoGPT 0.058)
AbsRel: 0.045 (vs iVideoGPT 0.059)

Superamento complessivo dei metodi baseline sul dataset RoboNet, con PSNR pari a 38.33 su dati reali ad alta risoluzione.

Prestazioni di Apprendimento per Rinforzo

Su 6 compiti Meta-World, superamento di iVideoGPT e GWM, con velocità di convergenza più rapida e tasso di successo finale più elevato. Il rollout consapevole della geometria ha migliorato significativamente le prestazioni di RL.

Distribuzione nel Mondo Reale

Su compiti di impilamento di tazze e raccolta di pane sul robot GALAXEA A1:

Tasso di successo totale: 29/35 (vs iVideoGPT 13/35, GT 27/35)
Prestazioni prossime ai dati reali, verificando l'alta fedeltà del rollout multimodale

Esperimenti di Ablazione

Effetto di MMTokenizer: Rispetto al tokenizer originale, il tempo di inferenza è stato ridotto da 860s a 10s, migliorando al contempo tutti gli indicatori visivi
Analisi del Contributo Modale:
- RGB+Profondità+Maschera (metodo completo): FVD 67.6
- Solo RGB: FVD 70.2
- RGB+Maschera: FVD 70.6
- RGB+Profondità: FVD 67.5

Ogni modalità contribuisce al miglioramento delle prestazioni, con le informazioni di profondità che forniscono il contributo maggiore.

Scoperte Sperimentali

Sensibilità alla Risoluzione: L'input ad alta risoluzione migliora significativamente le prestazioni, poiché fornisce informazioni di profondità e maschera più precise
Importanza delle Informazioni Geometriche: Le mappe di profondità forniscono vincoli geometrici più ricchi rispetto alle maschere
Efficienza Computazionale: MMTokenizer migliora drasticamente la velocità di inferenza mantenendo le prestazioni

Lavori Correlati

Apprendimento di Modelli di Mondo

I metodi iniziali, ispirati da VideoGPT, hanno effettuato la tokenizzazione di video RGB, mentre i modelli di diffusione recenti hanno promosso la previsione nello spazio latente. GWM adotta 3DGS ma è limitato dalla qualità della scena monoculare.

Previsione Video 4D

Metodi come TesserAct esplorano la generazione RGB-D, ma mancano di condizionamento esplicito dall'azione, limitando le applicazioni robotiche.

Modelli di Mondo per Manipolazione Robotica

Principalmente utilizzati per l'aumento dei dati e la simulazione RL, ma generalmente privi di informazioni 3D, limitando l'efficacia come simulatore e generatore di dati.

Conclusioni e Discussione

Conclusioni Principali

I modelli di mondo multimodali superano significativamente i metodi puramente RGB
MMTokenizer raggiunge un buon equilibrio tra efficienza e prestazioni
Le informazioni geometriche sono cruciali per i compiti di manipolazione robotica
Il metodo mostra eccellenti prestazioni sia in simulazione che in ambienti reali

Limitazioni

Dipendenza dal Preaddestramento: Richiede ancora preaddestramento su larga scala per sfruttare pienamente la capacità di generalizzazione dei modelli di mondo multimodali
Risorse Computazionali: Sebbene più efficiente rispetto ai metodi 3DGS, richiede comunque più calcolo rispetto ai metodi puramente RGB
Dipendenza dalla Qualità della Profondità: Le prestazioni sono influenzate dalla qualità della stima della profondità

Direzioni Future

Esplorazione di preaddestramento multimodale su scala più ampia
Ricerca di metodi di rappresentazione 3D più efficienti
Estensione a più piattaforme robotiche e tipi di compiti

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima introduzione sistematica di informazioni multimodali nei modelli di mondo, con percorso tecnico innovativo
Completezza Ingegneristica: Forma un ciclo completo dalla progettazione teorica alla distribuzione pratica
Esperimenti Esaustivi: Copertura di simulazione, test su benchmark e verifica su robot reali
Miglioramenti Significativi delle Prestazioni: Miglioramenti evidenti su più indicatori

Insufficienze

Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché le informazioni multimodali migliorino le prestazioni
Verifica di Generalizzazione Limitata: La verifica è principalmente su piattaforme robotiche specifiche, la capacità di generalizzazione cross-platform richiede ulteriore verifica
Analisi dei Costi Computazionali: Sebbene si menzioni il miglioramento dell'efficienza, manca un'analisi dettagliata della complessità computazionale

Impatto

Valore Accademico: Fornisce una nuova direzione multimodale per la ricerca sui modelli di mondo
Valore Pratico: Applicazione diretta a sistemi robotici reali, forte praticità
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impegno open-source

Scenari Applicabili

Compiti di manipolazione robotica che richiedono comprensione geometrica precisa
Scenari di apprendimento robotico con dati scarsi
Applicazioni di apprendimento per rinforzo che richiedono simulazione ad alta fedeltà

Bibliografia

L'articolo cita 63 riferimenti correlati, coprendo importanti lavori in più campi inclusi modelli di mondo, previsione video e apprendimento robotico, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità sulla robotica che fornisce importanti contributi nella direzione dei modelli di mondo multimodali. I punti di innovazione tecnica sono chiari, la verifica sperimentale è esaustiva e possiede un forte valore accademico e pratico.