মানব গতি ক্যাপচার অনেক কম্পিউটার ভিশন এবং গ্রাফিক্স কাজের ভিত্তি। যদিও শিল্প-গ্রেড গতি ক্যাপচার সিস্টেম চলচ্চিত্র এবং গেম প্রযোজনায় ব্যাপকভাবে ব্যবহৃত হয়, তবে ভোক্তা-গ্রেড, ব্যবহারকারী-বান্ধব ব্যক্তিগত প্রয়োগ সমাধান এখনও পরিপক্ক নয়। একক ক্যামেরা এবং ন্যূনতম জড়তা পরিমাপ ইউনিট (IMU) ব্যবহার করে নির্ভুল মাল্টি-মোডাল মানব গতি ক্যাপচার অর্জনের জন্য, এই পেপারটি MINIONS ডেটাসেট প্রস্তাব করে—জড়তা এবং দৃষ্টি সেন্সর থেকে সংগৃহীত একটি বৃহৎ-স্কেল গতি ক্যাপচার ডেটাসেট। এই ডেটাসেটের তিনটি বৈশিষ্ট্য রয়েছে: ১) বৃহৎ-স্কেল: ৫ মিলিয়নেরও বেশি ফ্রেম এবং ৪০০ মিনিটের সময়কাল; ২) মাল্টি-মোডাল: IMU সংকেত এবং RGB ভিডিও অন্তর্ভুক্ত করে, যা জয়েন্ট অবস্থান, জয়েন্ট রোটেশন, SMPL প্যারামিটার ইত্যাদি দিয়ে মন্তব্য করা হয়েছে; ৩) বৈচিত্র্য: ১৪৬ ধরনের সূক্ষ্ম-দানাদার একক এবং ইন্টারঅ্যাক্টিভ গতি অন্তর্ভুক্ত করে। MINIONS ডেটাসেটের উপর ভিত্তি করে, SparseNet ফ্রেমওয়ার্ক প্রস্তাব করা হয়েছে, যা IMU এবং ভিডিওর পরিপূরক বৈশিষ্ট্য আবিষ্কার করে মানব গতি ক্যাপচার করে, একক ক্যামেরা এবং ন্যূনতম IMU ব্যবহার করে ভোক্তা-গ্রেড গতি ক্যাপচারের সম্ভাবনা অন্বেষণ করে।
এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: দৈনন্দিন প্রয়োগের চাহিদা পূরণের জন্য ভোক্তা-গ্রেড ডিভাইস (একক ক্যামেরা + কম সংখ্যক IMU) ব্যবহার করে নির্ভুল, স্থিতিশীল মানব গতি ক্যাপচার কীভাবে অর্জন করা যায়।
১. খরচ সমস্যা: শিল্প-গ্রেড সিস্টেমের জন্য দসটি সিঙ্ক্রোনাইজড ক্যামেরা বা ব্যয়বহুল পরিধানযোগ্য সেন্সর প্রয়োজন, যার খরচ হাজার হাজার ডলার २. বহনযোগ্যতা সমস্যা: বর্তমান সিস্টেম জটিল কনফিগারেশন প্রয়োজন, যা ব্যবহারের পরিস্থিতি সীমিত করে ३. প্রয়োগের চাহিদা: XR, মোবাইল ভিডিও প্রযোজনা, লাইভ স্ট্রিমিং ইত্যাদি ভোক্তা-গ্রেড প্রয়োগের জন্য কম খরচের গতি ক্যাপচারের জরুরি চাহিদা রয়েছে
१. চিহ্নিত-ভিত্তিক সিস্টেম: বিশেষ পোশাক বা প্রচুর IMU প্রয়োজন, প্রাকৃতিক গতির জন্য অসুবিধাজনক २. মাল্টি-ক্যামেরা সিস্টেম: জটিল ক্যালিব্রেশন প্রয়োজন, কার্যকলাপের পরিসীমা সীমিত করে ३. একক-ক্যামেরা দৃষ্টি পদ্ধতি: গভীরতা অস্পষ্টতা, অবরোধ এবং দ্রুত গতি দ্বারা প্রভাবিত, সময়গত কম্পন বিদ্যমান ४. IMU পদ্ধতি: বৈশ্বিক অবস্থান বিচ্যুতি সমস্যা বিদ্যমান, দীর্ঘমেয়াদী গতি ক্যাপচার সীমিত করে
বর্তমান ডেটাসেট TotalCapture ছোট স্কেল, একক দৃশ্য, ত্বক-টাইট পোশাক প্রয়োজন, এবং দৈনন্দিন জীবনের সাথে বিতরণ পার্থক্য রয়েছে। এই পেপারটি একটি বৃহৎ-স্কেল, বৈচিত্র্যময় ডেটাসেট নির্মাণ এবং দৃষ্টি-জড়তা সংমিশ্রণের ভোক্তা-গ্রেড গতি ক্যাপচার সমাধান অন্বেষণ করার লক্ষ্য রাখে।
१. MINIONS ডেটাসেট নির্মাণ: ৫.৫ মিলিয়ন ফ্রেম, ৪৪০ মিনিটের মাল্টি-মোডাল গতি ক্যাপচার ডেটা সহ, ১৪৬ ধরনের সূক্ষ্ম-দানাদার গতি অন্তর্ভুক্ত করে, সমৃদ্ধ মন্তব্য তথ্য প্রদান করে २. SparseNet ফ্রেমওয়ার্ক প্রস্তাব: বেয়েসিয়ান তত্ত্বের উপর ভিত্তি করে দ্বি-শাখা স্থাপত্য, দৃষ্টি এবং জড়তা তথ্য কার্যকরভাবে সংমিশ্রণ করে গতি ক্যাপচার করে ३. সিস্টেমেটিক পরীক্ষামূলক বিশ্লেষণ: বিভিন্ন সেন্সর কনফিগারেশনের কর্মক্ষমতা গভীরভাবে অন্বেষণ করে, ৪-৬টি IMU একক ক্যামেরার সাথে কার্যকারিতা প্রমাণ করে ४. মাল্টি-টাস্ক বেঞ্চমার্ক পরীক্ষা: 2D-3D ভঙ্গি অনুমান, সূক্ষ্ম-দানাদার গতি স্বীকৃতি এবং অন্যান্য কাজে বেঞ্চমার্ক ফলাফল প্রদান করে
ইনপুট: একক-মোডাল RGB ভিডিও ক্রম এবং বিরল IMU সংকেত আউটপুট: SMPL প্যারামিটার (আকৃতি , ভঙ্গি , বৈশ্বিক স্থানচ্যুতি ) এবং 3D জয়েন্ট অবস্থান সীমাবদ্ধতা: ভোক্তা-গ্রেড ডিভাইস ব্যবহার করে, ন্যূনতম ৪টি IMU সেন্সর
বেয়েসিয়ান সংমিশ্রণ কৌশলের উপর ভিত্তি করে, জয়েন্ট রোটেশন কে লুপ্ত পরিবর্তনশীল হিসাবে মডেল করা হয়:
যেখানে:
१. দৃষ্টি শাখা (Visual Branch)
२. বিরল IMU শাখা (Sparse IMUs Branch)
३. পোস্ট-প্রসেসিং শাখা (Post-processing Branch)
१. সম্ভাব্যতা সংমিশ্রণ ফ্রেমওয়ার্ক: Matrix Fisher পূর্ব ভিত্তিক বেয়েসিয়ান সংমিশ্রণ, দৃঢ় তাত্ত্বিক ভিত্তি २. দ্বি-শাখা পরিপূরক ডিজাইন: দৃষ্টি শাখা আকৃতি এবং অবস্থান তথ্য প্রদান করে, IMU শাখা রোটেশন এবং উচ্চ-ফ্রিকোয়েন্সি গতি তথ্য প্রদান করে ३. বিরল সেন্সর সমর্থন: ৪-১০টি IMU এর নমনীয় কনফিগারেশন সমর্থন করে ४. এন্ড-টু-এন্ড প্রশিক্ষণ: একীভূত সম্ভাব্যতা ফ্রেমওয়ার্ক যৌথ অপ্টিমাইজেশন সমর্থন করে
MINIONS ডেটাসেট পরিসংখ্যান:
ডেটা বিভাজন:
१. : বৈশ্বিক রোটেশন ত্রুটি গড় (ডিগ্রি) २. : বৈশ্বিক রোটেশন ত্রুটি বৈচিত্র্য (ডিগ্রি) ३. MPJPE: গড় জয়েন্ট অবস্থান ত্রুটি (মিলিমিটার) ४. Jitter: জয়েন্ট গড় ত্বরণ কম্পন () ५. PA-MPJPE: Procrustes সারিবদ্ধতার পরে জয়েন্ট অবস্থান ত্রুটি
মাল্টি-মোডাল গতি ক্যাপচার কর্মক্ষমতা তুলনা:
| পদ্ধতি ধরন | #IMUs | #Cams | ↓ | ↓ | MPJPE↓ | Jitter↓ |
|---|---|---|---|---|---|---|
| IMU-ভিত্তিক | 6 | 0 | 11.67 | 8.65 | 57.93 | 1.17 |
| দৃষ্টি-ভিত্তিক | 0 | 1 | 10.27 | 7.20 | 45.61 | 13.02 |
| মাল্টি-মোডাল | 6 | 1 | 9.20 | 6.19 | 39.99 | 1.57 |
মূল আবিষ্কার: १. ४-६টি IMU কনফিগারেশন সর্বোত্তম: খরচ এবং কর্মক্ষমতার মধ্যে সেরা ভারসাম্য অর্জন করে २. পরিপূরক সুবিধা স্পষ্ট: দৃষ্টি পদ্ধতি বড় কম্পন, IMU পদ্ধতি গুরুতর অবস্থান বিচ্যুতি, সংমিশ্রণের পরে উল্লেখযোগ্য উন্নতি ३. ८টির বেশি IMU হ্রাসমান রিটার্ন: খরচ বৃদ্ধি কিন্তু কর্মক্ষমতা উন্নতি সীমিত
| পদ্ধতি | MPJPE↓ | PA-MPJPE↓ |
|---|---|---|
| DiffCap | 46.2 | 29.9 |
| VIP | - | 26.0 |
| Liu et al. | 45.8 | - |
| আমাদের | 36.7 | 21.6 |
বিভিন্ন IMU সংখ্যার কর্মক্ষমতা বিশ্লেষণ:
ফলাফল ६-८টি IMU সর্বোত্তম কনফিগারেশন নির্দেশ করে।
2D-3D ভঙ্গি অনুমান:
সূক্ষ্ম-দানাদার গতি স্বীকৃতি:
Kinetics400 এর তুলনায়, MINIONS আরও চ্যালেঞ্জিং।
ভিজ্যুয়ালাইজেশন ফলাফল দেখায়: १. IMU পদ্ধতি: সময়ের সাথে সাথে অবস্থান বিচ্যুতি জমা হয়, কিন্তু রোটেশন স্থিতিশীল २. দৃষ্টি পদ্ধতি: অবস্থান নির্ভুল কিন্তু সময়গত কম্পন বিদ্যমান ३. সংমিশ্রণ পদ্ধতি: উভয়ের সুবিধা একত্রিত করে, স্থিতিশীল এবং নির্ভুল উভয়ই
१. প্রযুক্তিগত সম্ভাব্যতা: ४-६টি IMU একক ক্যামেরার সাথে স্থিতিশীল ভোক্তা-গ্রেড গতি ক্যাপচার অর্জন করতে পারে २. পরিপূরক মূল্য: দৃষ্টি এবং জড়তা সেন্সরের স্পষ্ট পরিপূরক সুবিধা রয়েছে ३. ডেটাসেট অবদান: MINIONS এই ক্ষেত্রের জন্য গুরুত্বপূর্ণ ডেটা সম্পদ প্রদান করে ४. ব্যবহারিকতা: পদ্ধতি একাধিক কাজে ভাল সাধারণীকরণ ক্ষমতা প্রদর্শন করে
१. সেন্সর নির্ভরতা: এখনও একাধিক IMU সেন্সর প্রয়োজন, সিস্টেম জটিলতা বৃদ্ধি করে २. রিয়েল-টাইম কর্মক্ষমতা: পেপার রিয়েল-টাইম কর্মক্ষমতা বিস্তারিত আলোচনা করে না ३. পরিবেশগত অভিযোজনযোগ্যতা: প্রধানত ইনডোর পরিবেশে পরীক্ষা করা হয়েছে, বহিরঙ্গন জটিল পরিবেশে দৃঢ়তা অপর্যাপ্তভাবে যাচাই করা হয়েছে ४. পোশাকের প্রভাব: যদিও দৈনন্দিন পোশাক ব্যবহার করা হয়, ঢিলেঢালা পোশাক IMU নির্ভুলতার উপর প্রভাব আরও গবেষণা প্রয়োজন
१. কম সেন্সর: কম IMU ব্যবহারের সম্ভাবনা অন্বেষণ করা २. রিয়েল-টাইম অপ্টিমাইজেশন: সিস্টেমের রিয়েল-টাইম প্রসেসিং ক্ষমতা উন্নত করা ३. পরিবেশগত দৃঢ়তা: জটিল পরিবেশে কর্মক্ষমতা বৃদ্ধি করা ४. প্রয়োগ সম্প্রসারণ: আরও বাস্তব প্রয়োগ পরিস্থিতিতে সম্প্রসারণ করা
१. ডেটাসেট অবদান উল্লেখযোগ্য: MINIONS বর্তমানে বৃহত্তম স্কেল মাল্টি-মোডাল গতি ক্যাপচার ডেটাসেট, এই ক্ষেত্রের গুরুত্বপূর্ণ শূন্যতা পূরণ করে २. তাত্ত্বিক ভিত্তি দৃঢ়: বেয়েসিয়ান তত্ত্বের উপর ভিত্তিক সংমিশ্রণ ফ্রেমওয়ার্ক ভাল গাণিতিক ভিত্তি রয়েছে ३. পরীক্ষামূলক ডিজাইন ব্যাপক: বিভিন্ন সেন্সর কনফিগারেশন থেকে মাল্টি-টাস্ক মূল্যায়ন পর্যন্ত, পরীক্ষা বিস্তৃত কভারেজ রয়েছে ४. ব্যবহারিক মূল্য উচ্চ: ভোক্তা-গ্রেড গতি ক্যাপচারের জন্য সম্ভাব্য প্রযুক্তিগত পথ প্রদান করে ५. প্রযুক্তিগত উদ্ভাবন যুক্তিসঙ্গত: দ্বি-শাখা ডিজাইন বিভিন্ন মোডালিটির সুবিধা সম্পূর্ণভাবে ব্যবহার করে
१. গণনামূলক জটিলতা বিশ্লেষণ অপর্যাপ্ত: বিস্তারিত গণনামূলক খরচ এবং রিয়েল-টাইম কর্মক্ষমতা বিশ্লেষণ অভাব २. ব্যর্থতার কেস বিশ্লেষণ সীমিত: চরম পরিস্থিতিতে পদ্ধতির কর্মক্ষমতা আলোচনা অপর্যাপ্ত ३. ব্যবহারকারী গবেষণা অনুপস্থিত: প্রকৃত ব্যবহারকারী অভিজ্ঞতা মূল্যায়ন অভাব ४. দীর্ঘমেয়াদী স্থিতিশীলতা: দীর্ঘমেয়াদী ব্যবহারের স্থিতিশীলতা যাচাইকরণ অপর্যাপ্ত
१. একাডেমিক মূল্য: মাল্টি-মোডাল গতি ক্যাপচার গবেষণার জন্য গুরুত্বপূর্ণ ডেটা এবং বেঞ্চমার্ক প্রদান করে २. শিল্প মূল্য: ভোক্তা-গ্রেড গতি ক্যাপচার পণ্য উন্নয়নের জন্য প্রযুক্তিগত রেফারেন্স প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, অন্যান্য গবেষকদের দ্বারা পুনরুৎপাদন এবং উন্নতির সম্ভাবনা রয়েছে ४. সম্প্রদায় অবদান: বৃহৎ-স্কেল ডেটাসেট এই ক্ষেত্রের দ্রুত উন্নয়ন প্রচার করবে
१. ব্যক্তিগত সৃজনশীলতা: ভিডিও ব্লগার, বিষয়বস্তু নির্মাতাদের গতি ক্যাপচার চাহিদা २. ফিটনেস পর্যবেক্ষণ: ব্যায়াম ভঙ্গি বিশ্লেষণ এবং সংশোধন ३. গেম বিনোদন: সংবেদনশীল গেম, ভার্চুয়াল বাস্তবতা প্রয়োগ ४. শিক্ষা প্রশিক্ষণ: গতি শিক্ষা, দক্ষতা প্রশিক্ষণ ५. চিকিৎসা পুনর্বাসন: গতি কার্যকারিতা মূল্যায়ন এবং পুনর্বাসন প্রশিক্ষণ
পেপারটি ৭५টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত করে:
সামগ্রিক মূল্যায়ন: এটি কম্পিউটার ভিশন গবেষণায় একটি উচ্চ-মানের পেপার, ডেটাসেট নির্মাণ এবং মাল্টি-মোডাল সংমিশ্রণ পদ্ধতিতে গুরুত্বপূর্ণ অবদান রয়েছে। MINIONS ডেটাসেটের স্কেল এবং গুণমান এই ক্ষেত্রে গুরুত্বপূর্ণ প্রভাব ফেলবে, SparseNet ফ্রেমওয়ার্ক ভোক্তা-গ্রেড গতি ক্যাপচারের জন্য কার্যকর প্রযুক্তিগত সমাধান প্রদান করে। পেপারের পরীক্ষামূলক ডিজাইন ব্যাপক, সিদ্ধান্ত বিশ্বাসযোগ্য, উচ্চ একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।