2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

iMoWM: 로봇 조작을 위한 대화형 다중모달 세계 모델 길들이기

기본 정보

논문 ID: 2510.09036
제목: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
저자: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
소속: ¹난양공과대학교, ²칭화대학교
분류: cs.RO (로봇공학)
발표일: 2024년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09036
프로젝트 홈페이지: https://xingyoujun.github.io/imowm/

초록

세계 모델 학습은 실제 세계 상호작용의 시뮬레이터로서 로봇 조작에 막대한 잠재력을 가지고 있습니다. 2D 비디오 기반 세계 모델이 광범위한 진전을 이루었지만, 이러한 방법들은 종종 3D 세계의 물리적 구조를 포착하는 데 필수적인 기하학적 및 공간 추론 능력이 부족합니다. 이러한 한계를 해결하기 위해 저자들은 동작 조건 하에서 컬러 이미지, 깊이 맵, 로봇 팔 마스크를 자회귀 방식으로 생성할 수 있는 새로운 대화형 세계 모델인 iMoWM을 제안합니다. 3D 정보로 인한 높은 계산 비용을 극복하기 위해 저자들은 다중모달 입력을 간결한 토큰 표현으로 통합하는 MMTokenizer를 제안합니다. 이러한 설계를 통해 iMoWM은 대규모 사전학습된 VideoGPT 모델을 활용하면서 높은 효율성을 유지하고 더욱 풍부한 물리 정보를 통합할 수 있습니다.

연구 배경 및 동기

문제 정의

로봇 조작 작업은 3D 환경에서의 물리적 동역학에 대한 정확한 예측이 필요하지만, 기존 세계 모델은 다음과 같은 문제점이 있습니다:

기하학적 이해 부족: 대부분의 방법은 RGB 비디오 예측에만 기반하며, 3D 공간 구조에 대한 명시적 표현이 부족합니다
높은 계산 비용: 3D 정보(예: 3D 가우시안 분포)를 직접 처리하는 것은 계산 오버헤드가 매우 큽니다
제한된 일반화 능력: 동작 조건 제약이 부족하여 다양한 로봇 조작 시나리오에 적응하기 어렵습니다

연구 동기

로봇 조작은 3D 공간에서 발생하며, RGB 정보에만 의존하면 시각적 변화와 복잡한 물체 상호작용 하에서 오류가 발생하기 쉽습니다. GWM과 같은 기존 3D 방법은 3D 가우시안 분포를 채택하지만 고품질의 3DGS 재구성에 의존하며, 단안 시나리오에서 효과가 제한적이고 확장이 어렵습니다.

핵심 기여

iMoWM 프레임워크 제안: 컬러 이미지, 깊이 맵, 로봇 팔 마스크를 동시에 예측할 수 있는 첫 번째 대화형 다중모달 세계 모델
MMTokenizer 설계: 이질적 입력을 간결한 토큰 표현으로 통합하는 혁신적인 다중모달 토크나이저로 계산 비용을 대폭 감소
다중 작업 응용 구현: 동작 조건 비디오 생성, 모델 기반 강화학습(MBRL), 실제 세계 모방 학습 지원
우수한 성능 검증: 공개 벤치마크 및 실제 세계 실험에서 최첨단 성능 달성

방법론 상세 설명

작업 정의

초기 관찰 O₁(컬러 이미지, 깊이 맵, 로봇 팔 마스크 포함)과 동작 수열 {aₜ}ᵀₜ₌₁이 주어졌을 때, iMoWM은 미래의 다중모달 관찰 수열 {Oₜ}ᵀₜ₌₂을 예측해야 합니다.

모델 아키텍처

MMTokenizer 설계

MMTokenizer는 핵심 혁신으로, 이중 인코더-디코더 프레임워크 {(Ec,Dc), (Ed,Dd)}를 채택합니다:

컨텍스트 인코딩: 컨텍스트 인코더를 사용하여 초기 프레임 처리
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```

동역학 인코딩: 조건부 인코더는 동역학 영역에 집중

Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T

모달리티 적응: 첫 번째와 마지막 계층을 복제하여 서로 다른 모달리티의 특성 분포 차이를 처리하고, 모달리티별 임베딩 도입

자회귀 Transformer

LLaMA 스타일의 Transformer 아키텍처를 채택하며, 다음을 포함합니다:

RMSNorm 정규화
SwiGLU 활성화 함수
회전 위치 인코딩
동작 조건 슬롯 토큰 주입 메커니즘

동작 조건은 슬롯 토큰을 통해 구현됩니다:

[Sₜ] = [S] + Linear(aₜ)

훈련 목표는 교차 엔트로피 손실입니다:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

기술 혁신점

통합 다중모달 표현: RGB, 깊이, 마스크를 처음으로 통합 인코딩하여 모달리티 간 정보 손실 방지
계산 효율성 최적화: 동역학 인코더는 변화 영역에만 집중하여 토큰 수를 대폭 감소
사전학습 모델 재사용: 기존 VideoGPT 사전학습 가중치와 호환되도록 설계하여 수렴 가속화

실험 설정

데이터셋

BAIR 로봇 푸시 데이터셋: 43K 훈련 비디오, 256개 테스트 비디오, 64×64 해상도
RoboNet 데이터셋: 19K 훈련 비디오 부분집합 사용, 256개 테스트 비디오
자체 수집 데이터셋: 1K 훈련 비디오, 150개 테스트 비디오, 256×256 고해상도
Meta-World 벤치마크: 강화학습 평가를 위한 6개 로봇 조작 작업

평가 지표

시각적 품질: FVD, PSNR, SSIM, LPIPS
깊이 정확도: AbsRel(절대 상대 오차)
조작 성능: 작업 성공률

비교 방법

MaskViT, SVG, GHVAE(비디오 예측 기준선)
iVideoGPT(최강 RGB 기준선)
GWM(3D 가우시안 분포 방법)

구현 세부사항

Video Depth Anything을 사용하여 깊이 맵 생성
Grounding DINO + SAM2로 로봇 팔 마스크 추출
사전학습 가중치로 Transformer 초기화
공정한 비교를 위해 4개의 롤아웃 사용

실험 결과

주요 결과

비디오 생성 성능

BAIR 데이터셋에서:

FVD: 60.9 (vs iVideoGPT 65.01)
PSNR: 23.82 (vs iVideoGPT 23.40)
SSIM: 0.896 (vs iVideoGPT 0.882)
LPIPS: 0.051 (vs iVideoGPT 0.058)
AbsRel: 0.045 (vs iVideoGPT 0.059)

RoboNet 데이터셋에서 모든 기준선을 전반적으로 능가하며, 고해상도 실제 데이터에서 PSNR이 38.33에 도달합니다.

강화학습 성능

Meta-World의 6개 작업 모두에서 iVideoGPT 및 GWM을 능가하며, 평균 수렴 속도가 더 빠르고 최종 성공률이 더 높습니다. 기하학 인식 롤아웃은 RL 성능을 크게 향상시킵니다.

실제 세계 배포

GALAXEA A1 로봇의 컵 쌓기 및 빵 집기 작업에서:

총 성공률: 29/35 (vs iVideoGPT 13/35, GT 27/35)
실제 데이터 성능에 가까우며, 다중모달 롤아웃의 높은 충실도를 검증합니다

절제 실험

MMTokenizer 효과: 원본 토크나이저 대비 추론 시간이 860초에서 10초로 단축되면서 모든 시각적 지표 개선
모달리티 기여도 분석:
- RGB+Depth+Mask (완전한 방법): FVD 67.6
- RGB만: FVD 70.2
- RGB+Mask: FVD 70.6
- RGB+Depth: FVD 67.5