2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.
Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/
academic

iMoWM: 로봇 조작을 위한 대화형 다중모달 세계 모델 길들이기

기본 정보

  • 논문 ID: 2510.09036
  • 제목: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
  • 저자: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
  • 소속: ¹난양공과대학교, ²칭화대학교
  • 분류: cs.RO (로봇공학)
  • 발표일: 2024년 10월 10일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.09036
  • 프로젝트 홈페이지: https://xingyoujun.github.io/imowm/

초록

세계 모델 학습은 실제 세계 상호작용의 시뮬레이터로서 로봇 조작에 막대한 잠재력을 가지고 있습니다. 2D 비디오 기반 세계 모델이 광범위한 진전을 이루었지만, 이러한 방법들은 종종 3D 세계의 물리적 구조를 포착하는 데 필수적인 기하학적 및 공간 추론 능력이 부족합니다. 이러한 한계를 해결하기 위해 저자들은 동작 조건 하에서 컬러 이미지, 깊이 맵, 로봇 팔 마스크를 자회귀 방식으로 생성할 수 있는 새로운 대화형 세계 모델인 iMoWM을 제안합니다. 3D 정보로 인한 높은 계산 비용을 극복하기 위해 저자들은 다중모달 입력을 간결한 토큰 표현으로 통합하는 MMTokenizer를 제안합니다. 이러한 설계를 통해 iMoWM은 대규모 사전학습된 VideoGPT 모델을 활용하면서 높은 효율성을 유지하고 더욱 풍부한 물리 정보를 통합할 수 있습니다.

연구 배경 및 동기

문제 정의

로봇 조작 작업은 3D 환경에서의 물리적 동역학에 대한 정확한 예측이 필요하지만, 기존 세계 모델은 다음과 같은 문제점이 있습니다:

  1. 기하학적 이해 부족: 대부분의 방법은 RGB 비디오 예측에만 기반하며, 3D 공간 구조에 대한 명시적 표현이 부족합니다
  2. 높은 계산 비용: 3D 정보(예: 3D 가우시안 분포)를 직접 처리하는 것은 계산 오버헤드가 매우 큽니다
  3. 제한된 일반화 능력: 동작 조건 제약이 부족하여 다양한 로봇 조작 시나리오에 적응하기 어렵습니다

연구 동기

로봇 조작은 3D 공간에서 발생하며, RGB 정보에만 의존하면 시각적 변화와 복잡한 물체 상호작용 하에서 오류가 발생하기 쉽습니다. GWM과 같은 기존 3D 방법은 3D 가우시안 분포를 채택하지만 고품질의 3DGS 재구성에 의존하며, 단안 시나리오에서 효과가 제한적이고 확장이 어렵습니다.

핵심 기여

  1. iMoWM 프레임워크 제안: 컬러 이미지, 깊이 맵, 로봇 팔 마스크를 동시에 예측할 수 있는 첫 번째 대화형 다중모달 세계 모델
  2. MMTokenizer 설계: 이질적 입력을 간결한 토큰 표현으로 통합하는 혁신적인 다중모달 토크나이저로 계산 비용을 대폭 감소
  3. 다중 작업 응용 구현: 동작 조건 비디오 생성, 모델 기반 강화학습(MBRL), 실제 세계 모방 학습 지원
  4. 우수한 성능 검증: 공개 벤치마크 및 실제 세계 실험에서 최첨단 성능 달성

방법론 상세 설명

작업 정의

초기 관찰 O₁(컬러 이미지, 깊이 맵, 로봇 팔 마스크 포함)과 동작 수열 {aₜ}ᵀₜ₌₁이 주어졌을 때, iMoWM은 미래의 다중모달 관찰 수열 {Oₜ}ᵀₜ₌₂을 예측해야 합니다.

모델 아키텍처

MMTokenizer 설계

MMTokenizer는 핵심 혁신으로, 이중 인코더-디코더 프레임워크 {(Ec,Dc), (Ed,Dd)}를 채택합니다:

  1. 컨텍스트 인코딩: 컨텍스트 인코더를 사용하여 초기 프레임 처리
    Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
    
  2. 동역학 인코딩: 조건부 인코더는 동역학 영역에 집중
    Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
    
  3. 모달리티 적응: 첫 번째와 마지막 계층을 복제하여 서로 다른 모달리티의 특성 분포 차이를 처리하고, 모달리티별 임베딩 도입

자회귀 Transformer

LLaMA 스타일의 Transformer 아키텍처를 채택하며, 다음을 포함합니다:

  • RMSNorm 정규화
  • SwiGLU 활성화 함수
  • 회전 위치 인코딩
  • 동작 조건 슬롯 토큰 주입 메커니즘

동작 조건은 슬롯 토큰을 통해 구현됩니다:

[Sₜ] = [S] + Linear(aₜ)

훈련 목표는 교차 엔트로피 손실입니다:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

기술 혁신점

  1. 통합 다중모달 표현: RGB, 깊이, 마스크를 처음으로 통합 인코딩하여 모달리티 간 정보 손실 방지
  2. 계산 효율성 최적화: 동역학 인코더는 변화 영역에만 집중하여 토큰 수를 대폭 감소
  3. 사전학습 모델 재사용: 기존 VideoGPT 사전학습 가중치와 호환되도록 설계하여 수렴 가속화

실험 설정

데이터셋

  1. BAIR 로봇 푸시 데이터셋: 43K 훈련 비디오, 256개 테스트 비디오, 64×64 해상도
  2. RoboNet 데이터셋: 19K 훈련 비디오 부분집합 사용, 256개 테스트 비디오
  3. 자체 수집 데이터셋: 1K 훈련 비디오, 150개 테스트 비디오, 256×256 고해상도
  4. Meta-World 벤치마크: 강화학습 평가를 위한 6개 로봇 조작 작업

평가 지표

  • 시각적 품질: FVD, PSNR, SSIM, LPIPS
  • 깊이 정확도: AbsRel(절대 상대 오차)
  • 조작 성능: 작업 성공률

비교 방법

  • MaskViT, SVG, GHVAE(비디오 예측 기준선)
  • iVideoGPT(최강 RGB 기준선)
  • GWM(3D 가우시안 분포 방법)

구현 세부사항

  • Video Depth Anything을 사용하여 깊이 맵 생성
  • Grounding DINO + SAM2로 로봇 팔 마스크 추출
  • 사전학습 가중치로 Transformer 초기화
  • 공정한 비교를 위해 4개의 롤아웃 사용

실험 결과

주요 결과

비디오 생성 성능

BAIR 데이터셋에서:

  • FVD: 60.9 (vs iVideoGPT 65.01)
  • PSNR: 23.82 (vs iVideoGPT 23.40)
  • SSIM: 0.896 (vs iVideoGPT 0.882)
  • LPIPS: 0.051 (vs iVideoGPT 0.058)
  • AbsRel: 0.045 (vs iVideoGPT 0.059)

RoboNet 데이터셋에서 모든 기준선을 전반적으로 능가하며, 고해상도 실제 데이터에서 PSNR이 38.33에 도달합니다.

강화학습 성능

Meta-World의 6개 작업 모두에서 iVideoGPT 및 GWM을 능가하며, 평균 수렴 속도가 더 빠르고 최종 성공률이 더 높습니다. 기하학 인식 롤아웃은 RL 성능을 크게 향상시킵니다.

실제 세계 배포

GALAXEA A1 로봇의 컵 쌓기 및 빵 집기 작업에서:

  • 총 성공률: 29/35 (vs iVideoGPT 13/35, GT 27/35)
  • 실제 데이터 성능에 가까우며, 다중모달 롤아웃의 높은 충실도를 검증합니다

절제 실험

  1. MMTokenizer 효과: 원본 토크나이저 대비 추론 시간이 860초에서 10초로 단축되면서 모든 시각적 지표 개선
  2. 모달리티 기여도 분석:
    • RGB+Depth+Mask (완전한 방법): FVD 67.6
    • RGB만: FVD 70.2
    • RGB+Mask: FVD 70.6
    • RGB+Depth: FVD 67.5

각 모달리티는 성능 향상에 기여하며, 깊이 정보가 가장 큰 기여를 합니다.

실험 발견

  1. 해상도 민감성: 고해상도 입력은 더 정확한 깊이 및 마스크 정보를 제공하여 성능을 크게 향상시킵니다
  2. 기하학적 정보의 중요성: 깊이 맵은 마스크보다 더 풍부한 기하학적 제약을 제공합니다
  3. 계산 효율성: MMTokenizer는 성능을 유지하면서 추론 속도를 대폭 향상시킵니다

관련 연구

세계 모델 학습

초기 방법은 VideoGPT에서 영감을 받아 RGB 비디오 토크나이제이션을 수행했으며, 최근 확산 모델은 잠재 공간 예측을 추진했습니다. GWM은 3DGS를 채택하지만 단안 시나리오 품질로 제한됩니다.

4D 비디오 예측

TesserAct 등의 방법은 RGB-D 생성을 탐색하지만 명시적 동작 조건이 부족하여 로봇 응용이 제한됩니다.

로봇 조작 세계 모델

주로 데이터 증강 및 RL 시뮬레이션에 사용되지만, 일반적으로 3D 정보가 부족하여 시뮬레이터 및 데이터 생성기로서의 효과가 제한됩니다.

결론 및 토론

주요 결론

  1. 다중모달 세계 모델은 순수 RGB 방법보다 훨씬 우수합니다
  2. MMTokenizer는 효율성과 성능의 좋은 균형을 달성합니다
  3. 기하학적 정보는 로봇 조작 작업에 필수적입니다
  4. 방법은 시뮬레이션 및 실제 환경 모두에서 우수한 성능을 보입니다

한계

  1. 사전학습 의존성: 다중모달 세계 모델의 일반화 능력을 충분히 발휘하기 위해 여전히 대규모 사전학습이 필요합니다
  2. 계산 리소스: 3DGS 방법에 비해 더 효율적이지만, 순수 RGB 방법보다 여전히 계산량이 많습니다
  3. 깊이 품질 의존성: 성능은 깊이 추정 품질의 영향을 받습니다

향후 방향

  1. 더 큰 규모의 다중모달 사전학습 탐색
  2. 더 효율적인 3D 표현 방법 연구
  3. 더 많은 로봇 플랫폼 및 작업 유형으로 확장

심층 평가

장점

  1. 높은 혁신성: 다중모달 정보를 세계 모델에 체계적으로 도입한 첫 번째 사례로, 기술 경로가 새롭습니다
  2. 공학적 완성도: 이론 설계에서 실제 배포까지 완전한 폐쇄 루프를 형성합니다
  3. 충분한 실험: 시뮬레이션, 벤치마크 테스트, 실제 로봇 검증을 포함합니다
  4. 현저한 성능: 여러 지표에서 명백한 개선을 달성합니다

부족한 점

  1. 이론적 분석 부족: 다중모달 정보가 성능을 향상시키는 이유에 대한 심층적 이론적 분석이 부족합니다
  2. 제한된 일반화 검증: 주로 특정 로봇 플랫폼에서 검증되었으며, 플랫폼 간 일반화 능력은 추가 검증이 필요합니다
  3. 계산 오버헤드 분석 부족: 효율성 향상이 언급되었지만, 상세한 계산 복잡도 분석이 부족합니다

영향력

  1. 학술적 가치: 세계 모델 연구에 새로운 다중모달 방향을 제공합니다
  2. 실용적 가치: 실제 로봇 시스템에 직접 적용되어 실용성이 강합니다
  3. 재현성: 상세한 구현 세부사항과 오픈소스 약속을 제공합니다

적용 시나리오

  1. 정밀한 기하학적 이해가 필요한 로봇 조작 작업
  2. 데이터가 부족한 로봇 학습 시나리오
  3. 고충실도 시뮬레이션이 필요한 강화학습 응용

참고문헌

본 논문은 세계 모델, 비디오 예측, 로봇 학습 등 여러 분야의 중요한 작업을 포함하는 63개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 이것은 로봇 학습 분야의 고품질 논문으로, 다중모달 세계 모델 방향에서 중요한 기여를 했습니다. 기술 혁신점이 명확하고, 실험 검증이 충분하며, 학술적 가치와 실용적 가치가 모두 강합니다.