এই পেপারটি Phys2Real প্রস্তাব করে, যা ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেল (VLM) ভিত্তিক ভৌত পরামিতি অনুমান এবং ইন্টারঅ্যাক্টিভ অনলাইন অভিযোজনের সাথে রিয়েল-টু-সিম-টু-রিয়েল শক্তিশালী শিক্ষা পাইপলাইন একত্রিত করে, অনিশ্চয়তা-সচেতন সংমিশ্রণের মাধ্যমে রোবোটিক ম্যানিপুলেশনে সিম-টু-রিয়েল স্থানান্তর চ্যালেঞ্জ সমাধান করে। এই পদ্ধতিতে তিনটি মূল উপাদান রয়েছে: (১) ৩D গাউসিয়ান স্প্ল্যাটিং-ভিত্তিক উচ্চ-বিশ্বস্ততা জ্যামিতিক পুনর্নির্মাণ, (२) VLM অনুমান ভৌত পরামিতি পূর্ব বিতরণ, (३) ইন্টারঅ্যাক্টিভ ডেটা-ভিত্তিক অনলাইন ভৌত পরামিতি অনুমান। T-আকৃতির ব্লক এবং হাতুড়ির সমতল ঠেলে দেওয়ার কাজে, Phys2Real ডোমেইন র্যান্ডমাইজেশন বেসলাইনের তুলনায় উল্লেখযোগ্য উন্নতি অর্জন করে: নীচে ওজনযুক্ত T-ব্লক সাফল্যের হার ১০০% বনাম ৭৯%, শীর্ষে ওজনযুক্ত T-ব্লক ৫৭% বনাম ২३%, হাতুড়ি ঠেলে দেওয়ার কাজ গড় সমাপ্তির সময় ১৫% দ্রুত।
রোবোটিক ম্যানিপুলেশন কৌশলের সিমুলেশন থেকে বাস্তব বিশ্বে স্থানান্তর একটি মৌলিক চ্যালেঞ্জ হিসাবে রয়ে গেছে, বিশেষত যে কাজগুলির জন্য সঠিক গতিশীলতা প্রয়োজন। ঐতিহ্যবাহী ডোমেইন র্যান্ডমাইজেশন (Domain Randomization, DR) পদ্ধতি যদিও শক্তিশালীতা প্রদান করতে পারে, তবে প্রায়শই গড়ীকৃত আচরণ অনুমান করে এবং নির্দিষ্ট বস্তুর ভৌত বৈশিষ্ট্যের পরিবর্তনের সাথে খাপ খাইয়ে নিতে পারে না।
মানুষ নতুন বস্তু পরিচালনা করার সময় অসাধারণ অন্বেষণ আচরণ প্রদর্শন করে: প্রথমে ভিজ্যুয়াল উপস্থিতির উপর ভিত্তি করে বস্তুর ভৌত বৈশিষ্ট্য সম্পর্কে প্রাথমিক অনুমান গঠন করে, তারপর ইন্টারঅ্যাকশনের মাধ্যমে এই অনুমানগুলি পরিমার্জন করে। এই অনুপ্রেরণা দ্বারা অনুপ্রাণিত, এই পেপারটি রোবটগুলিকে অনুরূপ ক্ষমতা প্রদান করার লক্ষ্য রাখে, ভিজ্যুয়াল ভৌত যুক্তি এবং ইন্টারঅ্যাক্টিভ শিক্ষা একত্রিত করে বাস্তব পরিবেশে ম্যানিপুলেশন কর্মক্ষমতা উন্নত করতে।
১. ডোমেইন র্যান্ডমাইজেশন: শক্তিশালী কৌশল প্রশিক্ষণ কিন্তু কর্মক্ষমতা ত্যাগ করে, বস্তু-নির্দিষ্ট পরিবর্তনের সাথে খাপ খাইয়ে নিতে পারে না २. সিস্টেম সনাক্তকরণ: ম্যানুয়াল পরামিতি সমন্বয় প্রয়োজন, স্থির মডেল উৎপাদন করে ३. অনলাইন নীতি অভিযোজন: বিরাম যোগাযোগ পরিস্থিতিতে চ্যালেঞ্জের সম্মুখীন, বাহ্যিক পূর্ব তথ্যের অভাব ४. ডিজিটাল টুইন: ভিজ্যুয়াল বিশ্বস্ততায় ফোকাস করে, ভৌত বৈশিষ্ট্য উপেক্ষা করে
१. অনিশ্চয়তা-সচেতন VLM পূর্বজ্ঞান এবং ইন্টারঅ্যাক্টিভ অভিযোজনের সংমিশ্রণ: প্রথমবারের মতো প্রদর্শন করে যে VLM গুলি ভৌত পরামিতি অনুমান (যেমন ভর কেন্দ্র) প্রদান করতে পারে এবং বাস্তব সময়ের নিম্ন-স্তরের বন্ধ-লুপ নিয়ন্ত্রণের জন্য ইন্টারঅ্যাক্টিভ-ভিত্তিক পরামিতি অনুমানের সাথে একত্রিত হতে পারে
२. সমষ্টি-ভিত্তিক অনিশ্চয়তা পরিমাপ: অনিশ্চয়তা জ্ঞানগত অনিশ্চয়তা এবং আকস্মিক অনিশ্চয়তায় বিভক্ত করে, বিপরীত-বৈচিত্র্য ওজনযুক্ত সংমিশ্রণের মাধ্যমে VLM পূর্বজ্ঞান এবং ইন্টারঅ্যাক্টিভ অনুমান
३. ভৌত-তথ্য ডিজিটাল টুইন: ३D গাউসিয়ান স্প্ল্যাটিং পুনর্নির্মাণ এবং অনলাইন ভৌত বৈশিষ্ট্য অনুমান একত্রিত করে, জ্যামিতি এবং ভৌত তথ্য সম্পন্ন ডিজিটাল টুইন তৈরি করে
এই পেপারটি অ-গ্রাসকারী ম্যানিপুলেশন কাজ অধ্যয়ন করে, যেখানে রোবটকে বিভিন্ন ভৌত বৈশিষ্ট্য (যেমন ভর কেন্দ্র, ঘর্ষণ সহগ) সহ বস্তুগুলি ঠেলে দেওয়ার মতো মাধ্যমে লক্ষ্য অবস্থান এবং অভিযোজনে পরিচালনা করতে হবে। ইনপুটে বস্তু অভিযোজন, রোবট এন্ড-এফেক্টর অবস্থান এবং অনুমানিত ভৌত পরামিতি অন্তর্ভুক্ত থাকে, আউটপুট এন্ড-এফেক্টর অবস্থান পরিবর্তন।
তিন-পর্যায়ের প্রশিক্ষণ প্যারাডাইম গ্রহণ করে:
পর্যায় १: নীতি প্রকৃত ভৌত পরামিতির সাথে শর্তসাপেক্ষ প্রশিক্ষিত হয় পর্যায় १.५: শব্দযুক্ত ভৌত পরামিতি ব্যবহার করে নীতি সূক্ষ্ম-সুর করা, নিম্নস্থ শব্দ অনুমানের প্রতি শক্তিশালীতা প্রতিষ্ঠা করে পর্যায় २: পর্যবেক্ষণ-ক্রিয়া ইতিহাস থেকে ভৌত পরামিতি পূর্বাভাস দিতে N=10 অভিযোজন মডেলের সমষ্টি প্রশিক্ষণ
VLM অনুমান (θ_vlm, σ_vlm):
RMA অনুমান (θ_rma, σ_rma):
বিপরীত-বৈচিত্র্য ওজনযুক্ত সংমিশ্রণ:
θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (१/σ²_vlm + १/σ²_rma)
१. ব্যাখ্যাযোগ্য ভৌত পরামিতি: শেখা লুপ্ত ভেরিয়েবলের পরিবর্তে সরাসরি ভৌত পরামিতির সাথে শর্তসাপেক্ষ, VLM অনুমান সরাসরি সংমিশ্রণ সক্ষম করে
२. দ্বি-উৎস অনিশ্চয়তা সংমিশ্রণ: যখন ইন্টারঅ্যাক্টিভ ইতিহাস অনিশ্চয়তা উচ্চ থাকে তখন VLM অনুমানের উপর আরও নির্ভর করে, বিপরীতভাবে
३. সমষ্টি অনিশ্চয়তা বিয়োজন: মডেল অনিশ্চয়তা এবং ডেটা অনিশ্চয়তা বিচ্ছিন্ন করে, আরও নির্ভুল অনিশ্চয়তা অনুমান প্রদান করে
१. T-আকৃতির ব্লক ঠেলে দেওয়া: বিভিন্ন অবস্থানে १४३ গ্রাম ধাতব ওজন স্থাপন করে ভর কেন্দ্র পরিবর্তন করে, দুটি কনফিগারেশন পরীক্ষা করে
२. হাতুড়ি ঠেলে দেওয়া: ভর কেন্দ্র হাতুড়ির মাথার কাছাকাছি, জটিল গতি গতিশীলতা উৎপাদন করে
T-আকৃতির ব্লক ঠেলে দেওয়া (নীচে ওজন):
T-আকৃতির ব্লক ঠেলে দেওয়া (শীর্ষে ওজন, আরও চ্যালেঞ্জিং):
হাতুড়ি ঠেলে দেওয়া:
VLM বনাম RMA একক ব্যবহার:
ফলাফল দেখায় যে VLM এবং ইন্টারঅ্যাক্টিভ তথ্যের সমন্বয় সাফল্যের জন্য গুরুত্বপূর্ণ, একক ব্যবহার ভাল কর্মক্ষমতা অর্জন করতে পারে না।
চিত্র ६ সাধারণ সম্পাদনের সময় পরামিতি অনুমানের বিবর্তন প্রদর্শন করে:
१. ভৌত পরামিতি অনুমানের মূল্য: নির্ভুল ভৌত পরামিতি অনুমান ম্যানিপুলেশন কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে २. সংমিশ্রণের প্রয়োজনীয়তা: VLM এবং ইন্টারঅ্যাক্টিভ তথ্য অপরিহার্য, একক ব্যবহার কর্মক্ষমতা তীব্রভাবে হ্রাস করে ३. অনিশ্চয়তা-সচেতনতার গুরুত্ব: অনিশ্চয়তা ওজনযুক্তকরণের মাধ্যমে কার্যকর তথ্য সংমিশ্রণ অর্জন করা হয়েছে ४. শক্তিশালীতা: অনির্ভুল VLM অনুমানের প্রতি শক্তিশালী কর্মক্ষমতা প্রদর্শন করে
ঐতিহ্যবাহী পদ্ধতি সিমুলেশন গতিশীলতা র্যান্ডমাইজ করে শক্তিশালী কৌশল প্রশিক্ষণ করে, তবে প্রায়শই গড়ীকৃত আচরণ গ্রহণ করে কর্মক্ষমতা ত্যাগ করে। সিস্টেম সনাক্তকরণ পদ্ধতি ম্যানুয়াল প্যারামিটার সমন্বয় প্রয়োজন এবং স্থির মডেল উৎপাদন করে।
RMA এর মতো পদ্ধতি ক্রমাগত যোগাযোগ পরিস্থিতিতে (যেমন লোকোমোশন) ভাল কাজ করে, তবে সাধারণ ম্যানিপুলেশন কাজের বিরাম যোগাযোগে চ্যালেঞ্জের সম্মুখীন হয়। এই পেপারটি VLM পূর্বজ্ঞান এবং অনিশ্চয়তা-সচেতন সংমিশ্রণের মাধ্যমে এই সমস্যা সমাধান করে।
NeRF এবং GSplat উচ্চ-বিশ্বস্ততা ३D দৃশ্য পুনর্নির্মাণ করতে পারে, তবে বিদ্যমান ডিজিটাল টুইন ভিজ্যুয়াল বিশ্বস্ততায় ফোকাস করে, ভৌত বৈশিষ্ট্য উপেক্ষা করে। এই পেপারটি ভৌত তথ্য সম্পন্ন ডিজিটাল টুইন তৈরি করে।
সাম্প্রতিক কাজ VLM এর ভৌত যুক্তি ক্ষমতা প্রদর্শন করে, তবে প্রধানত উচ্চ-স্তরের পরিকল্পনায় ব্যবহৃত হয়। এই পেপারটি প্রথমবারের মতো VLM ভৌত পরামিতি অনুমান সরাসরি নিম্ন-স্তরের নিয়ন্ত্রণ কৌশলে একীভূত করে।
Phys2Real সফলভাবে VLM ভিজ্যুয়াল যুক্তি এবং ইন্টারঅ্যাক্টিভ অভিযোজনের সমন্বয়ের কার্যকারিতা প্রদর্শন করে, একাধিক ম্যানিপুলেশন কাজে ডোমেইন র্যান্ডমাইজেশন বেসলাইনকে উল্লেখযোগ্যভাবে অতিক্রম করে। অনিশ্চয়তা-সচেতন সংমিশ্রণ প্রক্রিয়া সিস্টেমকে প্রতিটি তথ্য উৎসের নির্ভরযোগ্যতার উপর ভিত্তি করে ওজন গতিশীলভাবে সামঞ্জস্য করতে সক্ষম করে।
१. প্রতিসাম্য অনুমান: পুনর্নির্মাণ পাইপলাইন প্রায় প্রতিসাম্যপূর্ণ বস্তুতে সর্বোত্তম কাজ করে, মিরর অ-প্রতিসাম্যপূর্ণ বস্তুর প্রকৃত আকৃতি বিকৃত করতে পারে २. VLM অনুমান পক্ষপাত: VLM জ্যামিতিক কেন্দ্রের দিকে পক্ষপাত করার প্রবণতা, ভৌত অসঙ্গত অনুমান উৎপাদন করতে পারে ३. কাজের জটিলতা: বর্তমান যাচাইকরণ কাজ তুলনামূলকভাবে সহজ, আরও জটিল ম্যানিপুলেশনের সাধারণীকরণ যাচাই করা প্রয়োজন ४. উপলব্ধি নির্ভরতা: গতি ক্যাপচার সিস্টেমের উপর নির্ভর করে, বিশুদ্ধ ভিজ্যুয়াল উপলব্ধিতে স্থানান্তর ভবিষ্যত দিকনির্দেশনা
१. অ-প্রতিসাম্যপূর্ণ বস্তুর পুনর্নির্মাণ কৌশল সম্প্রসারণ २. গতি ক্যাপচার উপলব্ধি-ভিত্তিক ট্র্যাকিং দ্বারা প্রতিস্থাপন ३. আরও জটিল ম্যানিপুলেশন কাজে কর্মক্ষমতা যাচাই ४. অন্যান্য ভৌত পরামিতি (যেমন ঘর্ষণ, কঠোরতা) অনুমান অন্বেষণ
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো VLM ভৌত যুক্তি এবং RMA অভিযোজন জৈবিকভাবে সংমিশ্রণ করে, নতুন গবেষণা দিকনির্দেশনা খোলে २. যুক্তিসঙ্গত প্রযুক্তিগত সমাধান: অনিশ্চয়তা বিয়োজন এবং বিপরীত-বৈচিত্র্য ওজনযুক্ত সংমিশ্রণ তাত্ত্বিক ভিত্তি রয়েছে ३. ব্যাপক পরীক্ষা: বহু-কাজ, বহু-কনফিগারেশন ব্যাপক মূল্যায়ন, বিলোপন পরীক্ষা প্রতিটি উপাদানের অবদান প্রকাশ করে ४. উচ্চ ব্যবহারিক মূল্য: সিম-টু-রিয়েল স্থানান্তরের জন্য নতুন সমাধান চিন্তাভাবনা প্রদান করে
१. সীমিত কাজের পরিসীমা: শুধুমাত্র সমতল ঠেলে দেওয়ার কাজ যাচাই করা হয়েছে, জটিল ম্যানিপুলেশনের সাধারণীকরণ অজানা २. VLM নির্ভরতা: VLM ভৌত যুক্তি ক্ষমতার উপর গুরুতর নির্ভরতা, সম্ভাব্য সিস্টেমেটিক পক্ষপাত ३. গণনা ওভারহেড: সমষ্টি পদ্ধতি এবং VLM অনুসন্ধান অতিরিক্ত গণনা খরচ নিয়ে আসতে পারে ४. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ কৌশলের তাত্ত্বিক সংবেদনশীলতা বিশ্লেষণের অভাব
এই কাজটি রোবোটিক্স শিক্ষা ক্ষেত্রে গুরুত্বপূর্ণ অবদান প্রদান করে, মৌলিক মডেলগুলির নিম্ন-স্তরের নিয়ন্ত্রণে প্রয়োগের সম্ভাবনা প্রদর্শন করে। ভিজ্যুয়াল যুক্তি এবং ইন্টারঅ্যাক্টিভ শিক্ষা একত্রিত করে আরও গবেষণা অনুপ্রাণিত করার প্রত্যাশা করা হয়, সিম-টু-রিয়েল স্থানান্তর প্রযুক্তি উন্নয়ন চালিত করে।
१ Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS २०२१. २ Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR २०२४. ३ Kerbl et al. "३D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG २०२३.
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের রোবোটিক্স শিক্ষা পেপার, যা সৃজনশীলভাবে একাধিক অগ্রগামী প্রযুক্তি একত্রিত করে, সিম-টু-রিয়েল স্থানান্তর সমস্যার জন্য উদ্ভাবনী এবং কার্যকর সমাধান প্রদান করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর প্রযুক্তিগত অবদান এবং পরীক্ষামূলক যাচাইকরণ উচ্চ মান অর্জন করেছে, উল্লেখযোগ্য একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে।