2025-11-12T16:49:10.216931

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

Zhang, Wu, Lu et al.

Learned world models hold significant potential for robotic manipulation, as they can serve as simulator for real-world interactions. While extensive progress has been made in 2D video-based world models, these approaches often lack geometric and spatial reasoning, which is essential for capturing the physical structure of the 3D world. To address this limitation, we introduce iMoWM, a novel interactive world model designed to generate color images, depth maps, and robot arm masks in an autoregressive manner conditioned on actions. To overcome the high computational cost associated with three-dimensional information, we propose MMTokenizer, which unifies multi-modal inputs into a compact token representation. This design enables iMoWM to leverage large-scale pretrained VideoGPT models while maintaining high efficiency and incorporating richer physical information. With its multi-modal representation, iMoWM not only improves the visual quality of future predictions but also serves as an effective simulator for model-based reinforcement learning (MBRL) and facilitates real-world imitation learning. Extensive experiments demonstrate the superiority of iMoWM across these tasks, showcasing the advantages of multi-modal world modeling for robotic manipulation. Homepage: https://xingyoujun.github.io/imowm/

academic

iMoWM: রোবোটিক ম্যানিপুলেশনের জন্য ইন্টারঅ্যাক্টিভ মাল্টি-মোডাল ওয়ার্ল্ড মডেল

মৌলিক তথ্য

পেপার আইডি: 2510.09036
শিরোনাম: iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation
লেখক: Chuanrui Zhang¹, Zhengxian Wu², Guanxing Lu², Yansong Tang², Ziwei Wang¹
প্রতিষ্ঠান: ¹ন্যানিয়াং টেকনোলজিক্যাল ইউনিভার্সিটি, ²তিংহুয়া বিশ্ববিদ্যালয়
শ্রেণীবিভাগ: cs.RO (রোবোটিক্স)
প্রকাশনার সময়: ২০২৪ সালের ১০ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2510.09036
প্রকল্প হোমপেজ: https://xingyoujun.github.io/imowm/

সারসংক্ষেপ

রোবোটিক ম্যানিপুলেশনে ওয়ার্ল্ড মডেল শেখা বিশাল সম্ভাবনা রাখে এবং এটি বাস্তব-বিশ্ব ইন্টারঅ্যাকশনের সিমুলেটর হিসাবে কাজ করতে পারে। যদিও ২D ভিডিও-ভিত্তিক ওয়ার্ল্ড মডেলগুলি ব্যাপক অগ্রগতি অর্জন করেছে, তবে এই পদ্ধতিগুলি প্রায়শই জ্যামিতিক এবং স্থানিক যুক্তির ক্ষমতার অভাব রাখে, যা ৩D বিশ্বের ভৌত কাঠামো ক্যাপচার করার জন্য অত্যন্ত গুরুত্বপূর্ণ। এই সীমাবদ্ধতা সমাধানের জন্য, লেখকরা iMoWM প্রস্তাব করেছেন, যা একটি উপন্যাস ইন্টারঅ্যাক্টিভ ওয়ার্ল্ড মডেল যা ক্রিয়া-শর্তযুক্ত পদ্ধতিতে রঙিন ছবি, গভীরতা মানচিত্র এবং রোবোটিক বাহু মাস্ক তৈরি করতে পারে। ত্রিমাত্রিক তথ্যের উচ্চ গণনামূলক খরচ অতিক্রম করার জন্য, লেখকরা MMTokenizer প্রস্তাব করেছেন, যা মাল্টি-মোডাল ইনপুটকে সংক্ষিপ্ত টোকেন প্রতিনিধিত্বে একীভূত করে। এই ডিজাইন iMoWM কে বড় আকারের প্রশিক্ষিত VideoGPT মডেল ব্যবহার করতে সক্ষম করে, যখন উচ্চ দক্ষতা বজায় রাখে এবং আরও সমৃদ্ধ ভৌত তথ্য অন্তর্ভুক্ত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

রোবোটিক ম্যানিপুলেশন কাজগুলির জন্য ৩D পরিবেশে ভৌত গতিশীলতার সঠিক পূর্বাভাস প্রয়োজন, কিন্তু বিদ্যমান ওয়ার্ল্ড মডেলগুলি প্রধানত নিম্নলিখিত সমস্যাগুলির সম্মুখীন হয়:

জ্যামিতিক বোঝার অভাব: বেশিরভাগ পদ্ধতি শুধুমাত্র RGB ভিডিও পূর্বাভাসের উপর ভিত্তি করে, ৩D স্থানিক কাঠামোর স্পষ্ট প্রতিনিধিত্বের অভাব রাখে
উচ্চ গণনামূলক খরচ: সরাসরি ৩D তথ্য প্রক্রিয়াকরণ (যেমন ৩D গাউসিয়ান বিতরণ) বিশাল গণনামূলক ওভারহেড রাখে
সীমিত সাধারণীকরণ ক্ষমতা: ক্রিয়া-শর্তযুক্ত সীমাবদ্ধতার অভাব, বৈচিত্র্যময় রোবোটিক ম্যানিপুলেশন দৃশ্যে খাপ খাওয়ানো কঠিন

গবেষণা প্রেরণা

রোবোটিক ম্যানিপুলেশন ত্রিমাত্রিক স্থানে ঘটে, শুধুমাত্র RGB তথ্যের উপর নির্ভর করা ভিজ্যুয়াল পরিবর্তন এবং জটিল বস্তু ইন্টারঅ্যাকশনের অধীনে ত্রুটি সৃষ্টি করতে পারে। GWM এর মতো বিদ্যমান ৩D পদ্ধতিগুলি যদিও ৩D গাউসিয়ান বিতরণ ব্যবহার করে, তবে উচ্চ-মানের ৩DGS পুনর্নির্মাণের উপর নির্ভর করে, একক-দৃষ্টিভঙ্গি দৃশ্যে সীমিত প্রভাব রাখে এবং স্কেল করা কঠিন।

মূল অবদান

iMoWM ফ্রেমওয়ার্ক প্রস্তাব: প্রথম ইন্টারঅ্যাক্টিভ মাল্টি-মোডাল ওয়ার্ল্ড মডেল যা একযোগে রঙিন ছবি, গভীরতা মানচিত্র এবং রোবোটিক বাহু মাস্ক পূর্বাভাস দিতে পারে
MMTokenizer ডিজাইন: উদ্ভাবনী মাল্টি-মোডাল টোকেনাইজার যা বিজাতীয় ইনপুটকে সংক্ষিপ্ত টোকেন প্রতিনিধিত্বে একীভূত করে, গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করে
মাল্টি-টাস্ক অ্যাপ্লিকেশন বাস্তবায়ন: ক্রিয়া-শর্তযুক্ত ভিডিও প্রজন্ম, মডেল-ভিত্তিক শক্তিশালী শিক্ষা (MBRL) এবং বাস্তব-বিশ্ব অনুকরণ শিক্ষা সমর্থন করে
উচ্চতর কর্মক্ষমতা যাচাইকরণ: জনসাধারণের মানদণ্ড এবং বাস্তব-বিশ্ব পরীক্ষায় অত্যাধুনিক কর্মক্ষমতা অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রাথমিক পর্যবেক্ষণ O₁ (রঙিন ছবি, গভীরতা মানচিত্র, রোবোটিক বাহু মাস্ক সহ) এবং ক্রিয়া ক্রম {aₜ}ᵀₜ₌₁ দেওয়া, iMoWM ভবিষ্যতের মাল্টি-মোডাল পর্যবেক্ষণ ক্রম {Oₜ}ᵀₜ₌₂ পূর্বাভাস দিতে হবে।

মডেল আর্কিটেকচার

MMTokenizer ডিজাইন

MMTokenizer হল মূল উদ্ভাবন, যা দ্বৈত এনকোডার-ডিকোডার ফ্রেমওয়ার্ক {(Ec,Dc), (Ed,Dd)} গ্রহণ করে:

প্রসঙ্গ এনকোডিং: প্রাথমিক ফ্রেম প্রক্রিয়াকরণের জন্য প্রসঙ্গ এনকোডার ব্যবহার করে
```
Zᶜₜ = Ec(Oₜ), Ôₜ = Dc(Zᶜₜ) t = 1,...,T₀
```
গতিশীল এনকোডিং: শর্তযুক্ত এনকোডার গতিশীল অঞ্চলে ফোকাস করে
```
Zᵈₜ = Ep(Oₜ|O₁:T₀), Ôₜ = Dc(Zᵈₜ|O₁:T₀) t = T₀+1,...,T
```
মোডাল অভিযোজন: বিভিন্ন মোডালের বৈশিষ্ট্য বিতরণের পার্থক্য পরিচালনা করতে প্রথম এবং শেষ স্তর অনুলিপি করে, মোডাল-নির্দিষ্ট এম্বেডিং প্রবর্তন করে

স্বয়ংক্রিয় রিগ্রেসিভ ট্রান্সফর্মার

LLaMA-শৈলীর ট্রান্সফর্মার আর্কিটেকচার গ্রহণ করে, যা অন্তর্ভুক্ত করে:

RMSNorm নর্মালাইজেশন
SwiGLU সক্রিয়করণ ফাংশন
ঘূর্ণনশীল অবস্থান এনকোডিং
ক্রিয়া-শর্তযুক্ত স্লট টোকেন ইনজেকশন প্রক্রিয়া

ক্রিয়া শর্ত স্লট টোকেনের মাধ্যমে বাস্তবায়িত হয়:

[Sₜ] = [S] + Linear(aₜ)

প্রশিক্ষণ উদ্দেশ্য ক্রস-এন্ট্রপি ক্ষতি:

Ltransformer = -∑ᵀₜ₌T₀₊₁ log(Xₜ|Xₜ₋₁)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

একীভূত মাল্টি-মোডাল প্রতিনিধিত্ব: প্রথমবারের মতো RGB, গভীরতা, মাস্ককে একীভূতভাবে এনকোড করে, মোডাল মধ্যে তথ্য ক্ষতি এড়ায়
গণনামূলক দক্ষতা অপ্টিমাইজেশন: গতিশীল এনকোডার শুধুমাত্র পরিবর্তন অঞ্চলে ফোকাস করে, টোকেন সংখ্যা উল্লেখযোগ্যভাবে হ্রাস করে
প্রশিক্ষিত মডেল পুনঃব্যবহার: বিদ্যমান VideoGPT প্রশিক্ষিত ওজনের সাথে সামঞ্জস্যপূর্ণ ডিজাইন, সংমিশ্রণ ত্বরান্বিত করে

পরীক্ষা সেটআপ

ডেটাসেট

BAIR রোবোট পুশ ডেটাসেট: ৪৩K প্রশিক্ষণ ভিডিও, ২৫৬ পরীক্ষা ভিডিও, ৬৪×৬৪ রেজোলিউশন
RoboNet ডেটাসেট: ১৯K প্রশিক্ষণ ভিডিও সাবসেট ব্যবহার করে, ২৫৬ পরীক্ষা ভিডিও
স্ব-সংগৃহীত ডেটাসেট: ১K প্রশিক্ষণ ভিডিও, ১৫০ পরীক্ষা ভিডিও, ২৫৬×২৫৬ উচ্চ রেজোলিউশন
Meta-World মানদণ্ড: শক্তিশালী শিক্ষা মূল্যায়নের জন্য ৬টি রোবোটিক ম্যানিপুলেশন কাজ

মূল্যায়ন মেট্রিক্স

ভিজ্যুয়াল গুণমান: FVD, PSNR, SSIM, LPIPS
গভীরতা নির্ভুলতা: AbsRel (পরম আপেক্ষিক ত্রুটি)
ম্যানিপুলেশন কর্মক্ষমতা: কাজ সাফল্যের হার

তুলনামূলক পদ্ধতি

MaskViT, SVG, GHVAE (ভিডিও পূর্বাভাস বেসলাইন)
iVideoGPT (শক্তিশালী RGB বেসলাইন)
GWM (৩D গাউসিয়ান বিতরণ পদ্ধতি)

বাস্তবায়ন বিবরণ

Video Depth Anything ব্যবহার করে গভীরতা মানচিত্র তৈরি করে
Grounding DINO + SAM2 রোবোটিক বাহু মাস্ক নিষ্কাশন করে
প্রশিক্ষিত ওজন ট্রান্সফর্মার শুরু করে
ন্যায্য তুলনার জন্য ৪টি রোলআউট

পরীক্ষা ফলাফল

প্রধান ফলাফল

ভিডিও প্রজন্ম কর্মক্ষমতা

BAIR ডেটাসেটে:

FVD: 60.9 (vs iVideoGPT 65.01)
PSNR: 23.82 (vs iVideoGPT 23.40)
SSIM: 0.896 (vs iVideoGPT 0.882)
LPIPS: 0.051 (vs iVideoGPT 0.058)
AbsRel: 0.045 (vs iVideoGPT 0.059)

RoboNet ডেটাসেটে সমস্ত বেসলাইন পদ্ধতিকে ব্যাপকভাবে অতিক্রম করে, উচ্চ-রেজোলিউশন বাস্তব ডেটায় PSNR 38.33 এ পৌঁছায়।

শক্তিশালী শিক্ষা কর্মক্ষমতা

Meta-World ৬টি কাজে iVideoGPT এবং GWM উভয়কে অতিক্রম করে, গড় সংমিশ্রণ গতি দ্রুত, চূড়ান্ত সাফল্যের হার উচ্চতর। জ্যামিতি-সচেতন রোলআউট RL কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।

বাস্তব-বিশ্ব স্থাপনা

GALAXEA A1 রোবটে কাপ স্ট্যাকিং এবং রুটি গ্রহণ কাজে:

মোট সাফল্যের হার: 29/35 (vs iVideoGPT 13/35, GT 27/35)
বাস্তব ডেটা কর্মক্ষমতার কাছাকাছি, মাল্টি-মোডাল রোলআউটের উচ্চ আনুগত্য যাচাই করে

অ্যাবলেশন পরীক্ষা

MMTokenizer প্রভাব: মূল টোকেনাইজারের তুলনায়, অনুমান সময় ৮৬০s থেকে ১০s এ হ্রাস পায়, একই সাথে সমস্ত ভিজ্যুয়াল মেট্রিক্স উন্নত করে
মোডাল অবদান বিশ্লেষণ:
- RGB+Depth+Mask (সম্পূর্ণ পদ্ধতি): FVD 67.6
- শুধুমাত্র RGB: FVD 70.2
- RGB+Mask: FVD 70.6
- RGB+Depth: FVD 67.5

প্রতিটি মোডাল কর্মক্ষমতা উন্নতিতে অবদান রাখে, গভীরতা তথ্য সর্বাধিক অবদান প্রদান করে।

পরীক্ষা অনুসন্ধান

রেজোলিউশন সংবেদনশীলতা: উচ্চ-রেজোলিউশন ইনপুট কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, কারণ এটি আরও নির্ভুল গভীরতা এবং মাস্ক তথ্য প্রদান করে
জ্যামিতিক তথ্যের গুরুত্ব: গভীরতা মানচিত্র মাস্কের চেয়ে আরও সমৃদ্ধ জ্যামিতিক সীমাবদ্ধতা প্রদান করে
গণনামূলক দক্ষতা: MMTokenizer অনুমান গতি উল্লেখযোগ্যভাবে উন্নত করার সময় কর্মক্ষমতা বজায় রাখে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

মাল্টি-মোডাল ওয়ার্ল্ড মডেল বিশুদ্ধ RGB পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত
MMTokenizer দক্ষতা এবং কর্মক্ষমতার মধ্যে ভাল ভারসাম্য অর্জন করে
জ্যামিতিক তথ্য রোবোটিক ম্যানিপুলেশন কাজের জন্য অত্যন্ত গুরুত্বপূর্ণ
পদ্ধতি সিমুলেশন এবং বাস্তব পরিবেশ উভয়ে চমৎকার কর্মক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

প্রশিক্ষিত নির্ভরতা: মাল্টি-মোডাল ওয়ার্ল্ড মডেলের সাধারণীকরণ ক্ষমতা সম্পূর্ণভাবে বিকাশের জন্য এখনও বড় আকারের প্রশিক্ষণ প্রয়োজন
গণনামূলক সম্পদ: যদিও 3DGS পদ্ধতির তুলনায় আরও দক্ষ, তবুও বিশুদ্ধ RGB পদ্ধতির চেয়ে বেশি গণনা প্রয়োজন
গভীরতা গুণমান নির্ভরতা: কর্মক্ষমতা গভীরতা অনুমান গুণমান দ্বারা প্রভাবিত হয়

ভবিষ্যত দিকনির্দেশনা

বৃহত্তর আকারের মাল্টি-মোডাল প্রশিক্ষণ অন্বেষণ করা
আরও দক্ষ ৩D প্রতিনিধিত্ব পদ্ধতি গবেষণা করা
আরও রোবোটিক প্ল্যাটফর্ম এবং কাজের ধরনে সম্প্রসারণ করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সিস্টেমেটিকভাবে মাল্টি-মোডাল তথ্য ওয়ার্ল্ড মডেলে প্রবর্তন করে, প্রযুক্তি রুট নতুন
প্রকৌশল সম্পূর্ণ: তাত্ত্বিক ডিজাইন থেকে বাস্তব স্থাপনা পর্যন্ত সম্পূর্ণ লুপ গঠন করে
পরীক্ষা ব্যাপক: সিমুলেশন, মানদণ্ড পরীক্ষা এবং বাস্তব রোবোট যাচাইকরণ অন্তর্ভুক্ত করে
উল্লেখযোগ্য কর্মক্ষমতা: একাধিক মেট্রিক্সে স্পষ্ট উন্নতি অর্জন করে

অপূর্ণতা

অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: মাল্টি-মোডাল তথ্য কর্মক্ষমতা উন্নত করতে পারে কেন তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব রাখে
সীমিত সাধারণীকরণ যাচাইকরণ: প্রধানত নির্দিষ্ট রোবোট প্ল্যাটফর্মে যাচাই করা হয়, ক্রস-প্ল্যাটফর্ম সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন
গণনামূলক ওভারহেড বিশ্লেষণ: যদিও দক্ষতা উন্নতি উল্লেখ করা হয়, বিস্তারিত গণনামূলক জটিলতা বিশ্লেষণের অভাব রাখে

প্রভাব

একাডেমিক মূল্য: ওয়ার্ল্ড মডেল গবেষণায় নতুন মাল্টি-মোডাল দিকনির্দেশনা প্রদান করে
ব্যবহারিক মূল্য: সরাসরি বাস্তব রোবোট সিস্টেমে প্রয়োগ করা হয়, উচ্চ ব্যবহারিকতা
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন-সোর্স প্রতিশ্রুতি প্রদান করে

প্রযোজ্য দৃশ্য

নির্ভুল জ্যামিতিক বোঝার প্রয়োজনীয় রোবোটিক ম্যানিপুলেশন কাজ
ডেটা-দুর্লভ রোবোটিক শিক্ষা দৃশ্য
উচ্চ-আনুগত্য সিমুলেশন প্রয়োজনীয় শক্তিশালী শিক্ষা অ্যাপ্লিকেশন

রেফারেন্স

এই পেপারটি ৬৩টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা ওয়ার্ল্ড মডেল, ভিডিও পূর্বাভাস, রোবোটিক শিক্ষা এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি রোবোটিক শিক্ষায় একটি উচ্চ-মানের পেপার, মাল্টি-মোডাল ওয়ার্ল্ড মডেল দিকনির্দেশনায় গুরুত্বপূর্ণ অবদান রাখে। প্রযুক্তিগত উদ্ভাবন পয়েন্ট স্পষ্ট, পরীক্ষা যাচাইকরণ ব্যাপক, শক্তিশালী একাডেমিক মূল্য এবং ব্যবহারিক মূল্য রাখে।