2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

জড়তা এবং দৃষ্টি সেন্সর থেকে গতি ক্যাপচার

মৌলিক তথ্য

  • পেপার আইডি: 2407.16341
  • শিরোনাম: Motion Capture from Inertial and Vision Sensors
  • লেখক: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
  • প্রকাশনার সময়: ২০২৪ সালের জুলাই (arXiv প্রি-প্রিন্ট, সংস্করণ v3 ২০২৫ সালের অক্টোবর ১১ তারিখে আপডেট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2407.16341

সারসংক্ষেপ

মানব গতি ক্যাপচার অনেক কম্পিউটার ভিশন এবং গ্রাফিক্স কাজের ভিত্তি। যদিও শিল্প-গ্রেড গতি ক্যাপচার সিস্টেম চলচ্চিত্র এবং গেম প্রযোজনায় ব্যাপকভাবে ব্যবহৃত হয়, তবে ভোক্তা-গ্রেড, ব্যবহারকারী-বান্ধব ব্যক্তিগত প্রয়োগ সমাধান এখনও পরিপক্ক নয়। একক ক্যামেরা এবং ন্যূনতম জড়তা পরিমাপ ইউনিট (IMU) ব্যবহার করে নির্ভুল মাল্টি-মোডাল মানব গতি ক্যাপচার অর্জনের জন্য, এই পেপারটি MINIONS ডেটাসেট প্রস্তাব করে—জড়তা এবং দৃষ্টি সেন্সর থেকে সংগৃহীত একটি বৃহৎ-স্কেল গতি ক্যাপচার ডেটাসেট। এই ডেটাসেটের তিনটি বৈশিষ্ট্য রয়েছে: ১) বৃহৎ-স্কেল: ৫ মিলিয়নেরও বেশি ফ্রেম এবং ৪০০ মিনিটের সময়কাল; ২) মাল্টি-মোডাল: IMU সংকেত এবং RGB ভিডিও অন্তর্ভুক্ত করে, যা জয়েন্ট অবস্থান, জয়েন্ট রোটেশন, SMPL প্যারামিটার ইত্যাদি দিয়ে মন্তব্য করা হয়েছে; ৩) বৈচিত্র্য: ১৪৬ ধরনের সূক্ষ্ম-দানাদার একক এবং ইন্টারঅ্যাক্টিভ গতি অন্তর্ভুক্ত করে। MINIONS ডেটাসেটের উপর ভিত্তি করে, SparseNet ফ্রেমওয়ার্ক প্রস্তাব করা হয়েছে, যা IMU এবং ভিডিওর পরিপূরক বৈশিষ্ট্য আবিষ্কার করে মানব গতি ক্যাপচার করে, একক ক্যামেরা এবং ন্যূনতম IMU ব্যবহার করে ভোক্তা-গ্রেড গতি ক্যাপচারের সম্ভাবনা অন্বেষণ করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: দৈনন্দিন প্রয়োগের চাহিদা পূরণের জন্য ভোক্তা-গ্রেড ডিভাইস (একক ক্যামেরা + কম সংখ্যক IMU) ব্যবহার করে নির্ভুল, স্থিতিশীল মানব গতি ক্যাপচার কীভাবে অর্জন করা যায়।

সমস্যার গুরুত্ব

১. খরচ সমস্যা: শিল্প-গ্রেড সিস্টেমের জন্য দসটি সিঙ্ক্রোনাইজড ক্যামেরা বা ব্যয়বহুল পরিধানযোগ্য সেন্সর প্রয়োজন, যার খরচ হাজার হাজার ডলার २. বহনযোগ্যতা সমস্যা: বর্তমান সিস্টেম জটিল কনফিগারেশন প্রয়োজন, যা ব্যবহারের পরিস্থিতি সীমিত করে ३. প্রয়োগের চাহিদা: XR, মোবাইল ভিডিও প্রযোজনা, লাইভ স্ট্রিমিং ইত্যাদি ভোক্তা-গ্রেড প্রয়োগের জন্য কম খরচের গতি ক্যাপচারের জরুরি চাহিদা রয়েছে

বর্তমান পদ্ধতির সীমাবদ্ধতা

१. চিহ্নিত-ভিত্তিক সিস্টেম: বিশেষ পোশাক বা প্রচুর IMU প্রয়োজন, প্রাকৃতিক গতির জন্য অসুবিধাজনক २. মাল্টি-ক্যামেরা সিস্টেম: জটিল ক্যালিব্রেশন প্রয়োজন, কার্যকলাপের পরিসীমা সীমিত করে ३. একক-ক্যামেরা দৃষ্টি পদ্ধতি: গভীরতা অস্পষ্টতা, অবরোধ এবং দ্রুত গতি দ্বারা প্রভাবিত, সময়গত কম্পন বিদ্যমান ४. IMU পদ্ধতি: বৈশ্বিক অবস্থান বিচ্যুতি সমস্যা বিদ্যমান, দীর্ঘমেয়াদী গতি ক্যাপচার সীমিত করে

গবেষণা প্রেরণা

বর্তমান ডেটাসেট TotalCapture ছোট স্কেল, একক দৃশ্য, ত্বক-টাইট পোশাক প্রয়োজন, এবং দৈনন্দিন জীবনের সাথে বিতরণ পার্থক্য রয়েছে। এই পেপারটি একটি বৃহৎ-স্কেল, বৈচিত্র্যময় ডেটাসেট নির্মাণ এবং দৃষ্টি-জড়তা সংমিশ্রণের ভোক্তা-গ্রেড গতি ক্যাপচার সমাধান অন্বেষণ করার লক্ষ্য রাখে।

মূল অবদান

१. MINIONS ডেটাসেট নির্মাণ: ৫.৫ মিলিয়ন ফ্রেম, ৪৪০ মিনিটের মাল্টি-মোডাল গতি ক্যাপচার ডেটা সহ, ১৪৬ ধরনের সূক্ষ্ম-দানাদার গতি অন্তর্ভুক্ত করে, সমৃদ্ধ মন্তব্য তথ্য প্রদান করে २. SparseNet ফ্রেমওয়ার্ক প্রস্তাব: বেয়েসিয়ান তত্ত্বের উপর ভিত্তি করে দ্বি-শাখা স্থাপত্য, দৃষ্টি এবং জড়তা তথ্য কার্যকরভাবে সংমিশ্রণ করে গতি ক্যাপচার করে ३. সিস্টেমেটিক পরীক্ষামূলক বিশ্লেষণ: বিভিন্ন সেন্সর কনফিগারেশনের কর্মক্ষমতা গভীরভাবে অন্বেষণ করে, ৪-৬টি IMU একক ক্যামেরার সাথে কার্যকারিতা প্রমাণ করে ४. মাল্টি-টাস্ক বেঞ্চমার্ক পরীক্ষা: 2D-3D ভঙ্গি অনুমান, সূক্ষ্ম-দানাদার গতি স্বীকৃতি এবং অন্যান্য কাজে বেঞ্চমার্ক ফলাফল প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: একক-মোডাল RGB ভিডিও ক্রম V={Vi}i=1LV = \{V_i\}_{i=1}^L এবং বিরল IMU সংকেত I={Ii}i=0LI = \{I_i\}_{i=0}^Lআউটপুট: SMPL প্যারামিটার (আকৃতি β\beta, ভঙ্গি θ\theta, বৈশ্বিক স্থানচ্যুতি tt) এবং 3D জয়েন্ট অবস্থান সীমাবদ্ধতা: ভোক্তা-গ্রেড ডিভাইস ব্যবহার করে, ন্যূনতম ৪টি IMU সেন্সর

মডেল স্থাপত্য

তাত্ত্বিক ভিত্তি

বেয়েসিয়ান সংমিশ্রণ কৌশলের উপর ভিত্তি করে, জয়েন্ট রোটেশন θ\theta কে লুপ্ত পরিবর্তনশীল হিসাবে মডেল করা হয়:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

যেখানে:

  • p(θ)p(\theta): জয়েন্ট রোটেশনের পূর্ব বিতরণ (Matrix Fisher বিতরণ)
  • p(dvθ)p(d_v|\theta): দৃষ্টি হাড়ের দিক পর্যবেক্ষণের von Mises-Fisher বিতরণ
  • p(DIθ)p(D_I|\theta): IMU রোটেশন পর্যবেক্ষণ বিতরণ

নেটওয়ার্ক কাঠামো

१. দৃষ্টি শাখা (Visual Branch)

  • Vision Mamba এনকোডার ব্যবহার করে দৃষ্টি বৈশিষ্ট্য নিষ্কাশন করে
  • আকৃতি ডিকোডার: SMPL আকৃতি প্যারামিটার β\beta রিগ্রেশন করে
  • ভঙ্গি ডিকোডার: ভঙ্গি পূর্ব বিতরণ p(θ)p(\theta) অনুমান করে
  • হাড়ের ডিকোডার: হাড়ের দিক বিতরণ p(dvθ)p(d_v|\theta) অনুমান করে

२. বিরল IMU শাখা (Sparse IMUs Branch)

  • Joint Mamba এনকোডার: IMU সংকেত থেকে হাড়ের অবস্থান d0:id_{0:i} পূর্বাভাস দেয়
  • IMU Mamba এনকোডার: বিরল জড়তা সংকেত প্রক্রিয়া করে
  • রোটেশন ডিকোডার: রোটেশন বিতরণ p(DIθ)p(D_I|\theta) অনুমান করে
  • অনুবাদ ডিকোডার: বৈশ্বিক অনুবাদ tIt_I অনুমান করে

३. পোস্ট-প্রসেসিং শাখা (Post-processing Branch)

  • পোস্টেরিয়র সংমিশ্রণ মডিউল: দুটি শাখার সম্ভাব্যতা বিতরণ একীভূত করে
  • Smooth Mamba এনকোডার: চূড়ান্ত ভঙ্গি ক্রম মসৃণ করে
  • PNP সমাধানকারী: বৈশ্বিক অনুবাদ গণনা করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. সম্ভাব্যতা সংমিশ্রণ ফ্রেমওয়ার্ক: Matrix Fisher পূর্ব ভিত্তিক বেয়েসিয়ান সংমিশ্রণ, দৃঢ় তাত্ত্বিক ভিত্তি २. দ্বি-শাখা পরিপূরক ডিজাইন: দৃষ্টি শাখা আকৃতি এবং অবস্থান তথ্য প্রদান করে, IMU শাখা রোটেশন এবং উচ্চ-ফ্রিকোয়েন্সি গতি তথ্য প্রদান করে ३. বিরল সেন্সর সমর্থন: ৪-১০টি IMU এর নমনীয় কনফিগারেশন সমর্থন করে ४. এন্ড-টু-এন্ড প্রশিক্ষণ: একীভূত সম্ভাব্যতা ফ্রেমওয়ার্ক যৌথ অপ্টিমাইজেশন সমর্থন করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

MINIONS ডেটাসেট পরিসংখ্যান:

  • স্কেল: ৫.৫ মিলিয়ন ফ্রেম, ৪৪০ মিনিট ভিডিও
  • মোডালিটি: ৮টি 2K ক্যামেরা + ১৭টি নয়-অক্ষ IMU + RGB-D স্ক্যানার
  • গতি: ১৪৬ ধরনের সূক্ষ্ম-দানাদার গতি (१२१ একক-ব্যক্তি + २५ বহু-ব্যক্তি ইন্টারঅ্যাকশন)
  • অংশগ্রহণকারী: ३६ অভিনেতা গ্রুপ (२० একক-ব্যক্তি + १६ বহু-ব্যক্তি গ্রুপ)
  • মন্তব্য: 2D/3D জয়েন্ট, SMPL প্যারামিটার, গতি শ্রেণী, টেক্সচার তথ্য

ডেটা বিভাজন:

  • প্রশিক্ষণ সেট: १२ অভিনেতা, ३.२ মিলিয়ন ফ্রেম
  • যাচাইকরণ সেট: ३ অভিনেতা, ०.९ মিলিয়ন ফ্রেম
  • পরীক্ষা সেট: ५ অভিনেতা, १.४ মিলিয়ন ফ্রেম

মূল্যায়ন মেট্রিক্স

१. μglo\mu_{glo}: বৈশ্বিক রোটেশন ত্রুটি গড় (ডিগ্রি) २. σglo\sigma_{glo}: বৈশ্বিক রোটেশন ত্রুটি বৈচিত্র্য (ডিগ্রি) ३. MPJPE: গড় জয়েন্ট অবস্থান ত্রুটি (মিলিমিটার) ४. Jitter: জয়েন্ট গড় ত্বরণ কম্পন (102m/s310^2 m/s^3) ५. PA-MPJPE: Procrustes সারিবদ্ধতার পরে জয়েন্ট অবস্থান ত্রুটি

তুলনামূলক পদ্ধতি

  • IMU পদ্ধতি: PIP, PNP, IMU-ভিত্তিক বেসলাইন পদ্ধতি
  • দৃষ্টি পদ্ধতি: TokenHMR, PromptHMR
  • মাল্টি-মোডাল পদ্ধতি: DiffCap, VIP, Liu et al.

বাস্তবায়ন বিবরণ

  • প্রশিক্ষণ কৌশল: প্রথমে দৃষ্টি শাখা প্রাক-প্রশিক্ষণ (२० epochs), তারপর IMU এবং পোস্ট-প্রসেসিং শাখা প্রশিক্ষণ (२०० epochs)
  • অপ্টিমাইজার: Adam, শেখার হার ०.००१
  • ব্যাচ আকার: দৃষ্টি শাখা ६४, অন্যান্য ५१२
  • ইনপুট রেজোলিউশন: ५१२×५१२
  • হার্ডওয়্যার: NVIDIA GTX A100

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মাল্টি-মোডাল গতি ক্যাপচার কর্মক্ষমতা তুলনা:

পদ্ধতি ধরন#IMUs#Camsμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
IMU-ভিত্তিক6011.678.6557.931.17
দৃষ্টি-ভিত্তিক0110.277.2045.6113.02
মাল্টি-মোডাল619.206.1939.991.57

মূল আবিষ্কার: १. ४-६টি IMU কনফিগারেশন সর্বোত্তম: খরচ এবং কর্মক্ষমতার মধ্যে সেরা ভারসাম্য অর্জন করে २. পরিপূরক সুবিধা স্পষ্ট: দৃষ্টি পদ্ধতি বড় কম্পন, IMU পদ্ধতি গুরুতর অবস্থান বিচ্যুতি, সংমিশ্রণের পরে উল্লেখযোগ্য উন্নতি ३. ८টির বেশি IMU হ্রাসমান রিটার্ন: খরচ বৃদ্ধি কিন্তু কর্মক্ষমতা উন্নতি সীমিত

TotalCapture ডেটাসেট তুলনা

পদ্ধতিMPJPE↓PA-MPJPE↓
DiffCap46.229.9
VIP-26.0
Liu et al.45.8-
আমাদের36.721.6

বিলোপন পরীক্ষা

বিভিন্ন IMU সংখ্যার কর্মক্ষমতা বিশ্লেষণ:

  • ४টি IMU: μglo=9.75°\mu_{glo}=9.75°, MPJPE=41.53mm
  • ६টি IMU: μglo=9.20°\mu_{glo}=9.20°, MPJPE=39.99mm
  • ८টি IMU: μglo=8.86°\mu_{glo}=8.86°, MPJPE=39.39mm
  • १०টি IMU: μglo=8.81°\mu_{glo}=8.81°, MPJPE=39.43mm

ফলাফল ६-८টি IMU সর্বোত্তম কনফিগারেশন নির্দেশ করে।

অন্যান্য কাজ বেঞ্চমার্ক

2D-3D ভঙ্গি অনুমান:

  • MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
  • Dual-Aug (243 ফ্রেম): MPJPE=19.22mm, PA-MPJPE=13.95mm

সূক্ষ্ম-দানাদার গতি স্বীকৃতি:

  • UniFormerV2: Top-1=75.88%, Top-5=96.87%
  • VideoMAE: Top-1=73.75%, Top-5=96.01%

Kinetics400 এর তুলনায়, MINIONS আরও চ্যালেঞ্জিং।

কেস বিশ্লেষণ

ভিজ্যুয়ালাইজেশন ফলাফল দেখায়: १. IMU পদ্ধতি: সময়ের সাথে সাথে অবস্থান বিচ্যুতি জমা হয়, কিন্তু রোটেশন স্থিতিশীল २. দৃষ্টি পদ্ধতি: অবস্থান নির্ভুল কিন্তু সময়গত কম্পন বিদ্যমান ३. সংমিশ্রণ পদ্ধতি: উভয়ের সুবিধা একত্রিত করে, স্থিতিশীল এবং নির্ভুল উভয়ই

সম্পর্কিত কাজ

IMU গতি ক্যাপচার

  • শিল্প সমাধান: Perception Neuron, Xsens MVN সিস্টেম १७টি IMU ব্যবহার করে
  • বিরল IMU পদ্ধতি: অপ্টিমাইজেশন এবং রিগ্রেশন দুটি প্যারাডাইম
  • সীমাবদ্ধতা: দীর্ঘমেয়াদী অবস্থান বিচ্যুতি সমস্যা

একক-ক্যামেরা দৃষ্টি গতি ক্যাপচার

  • অপ্টিমাইজেশন পদ্ধতি: ভিডিও ফ্রেমে SMPL প্যারামিটার ফিট করা
  • রিগ্রেশন পদ্ধতি: এন্ড-টু-এন্ড SMPL প্যারামিটার শেখা
  • চ্যালেঞ্জ: গভীরতা অস্পষ্টতা, অবরোধ, দ্রুত গতি

মাল্টি-মোডাল সংমিশ্রণ

  • বর্তমান কাজ: TotalCapture ইত্যাদি ছোট-স্কেল ডেটাসেট
  • এই পেপারের সুবিধা: বৃহত্তর স্কেল, আরও বৈচিত্র্যময়, দৈনন্দিন পোশাক

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. প্রযুক্তিগত সম্ভাব্যতা: ४-६টি IMU একক ক্যামেরার সাথে স্থিতিশীল ভোক্তা-গ্রেড গতি ক্যাপচার অর্জন করতে পারে २. পরিপূরক মূল্য: দৃষ্টি এবং জড়তা সেন্সরের স্পষ্ট পরিপূরক সুবিধা রয়েছে ३. ডেটাসেট অবদান: MINIONS এই ক্ষেত্রের জন্য গুরুত্বপূর্ণ ডেটা সম্পদ প্রদান করে ४. ব্যবহারিকতা: পদ্ধতি একাধিক কাজে ভাল সাধারণীকরণ ক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

१. সেন্সর নির্ভরতা: এখনও একাধিক IMU সেন্সর প্রয়োজন, সিস্টেম জটিলতা বৃদ্ধি করে २. রিয়েল-টাইম কর্মক্ষমতা: পেপার রিয়েল-টাইম কর্মক্ষমতা বিস্তারিত আলোচনা করে না ३. পরিবেশগত অভিযোজনযোগ্যতা: প্রধানত ইনডোর পরিবেশে পরীক্ষা করা হয়েছে, বহিরঙ্গন জটিল পরিবেশে দৃঢ়তা অপর্যাপ্তভাবে যাচাই করা হয়েছে ४. পোশাকের প্রভাব: যদিও দৈনন্দিন পোশাক ব্যবহার করা হয়, ঢিলেঢালা পোশাক IMU নির্ভুলতার উপর প্রভাব আরও গবেষণা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. কম সেন্সর: কম IMU ব্যবহারের সম্ভাবনা অন্বেষণ করা २. রিয়েল-টাইম অপ্টিমাইজেশন: সিস্টেমের রিয়েল-টাইম প্রসেসিং ক্ষমতা উন্নত করা ३. পরিবেশগত দৃঢ়তা: জটিল পরিবেশে কর্মক্ষমতা বৃদ্ধি করা ४. প্রয়োগ সম্প্রসারণ: আরও বাস্তব প্রয়োগ পরিস্থিতিতে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

१. ডেটাসেট অবদান উল্লেখযোগ্য: MINIONS বর্তমানে বৃহত্তম স্কেল মাল্টি-মোডাল গতি ক্যাপচার ডেটাসেট, এই ক্ষেত্রের গুরুত্বপূর্ণ শূন্যতা পূরণ করে २. তাত্ত্বিক ভিত্তি দৃঢ়: বেয়েসিয়ান তত্ত্বের উপর ভিত্তিক সংমিশ্রণ ফ্রেমওয়ার্ক ভাল গাণিতিক ভিত্তি রয়েছে ३. পরীক্ষামূলক ডিজাইন ব্যাপক: বিভিন্ন সেন্সর কনফিগারেশন থেকে মাল্টি-টাস্ক মূল্যায়ন পর্যন্ত, পরীক্ষা বিস্তৃত কভারেজ রয়েছে ४. ব্যবহারিক মূল্য উচ্চ: ভোক্তা-গ্রেড গতি ক্যাপচারের জন্য সম্ভাব্য প্রযুক্তিগত পথ প্রদান করে ५. প্রযুক্তিগত উদ্ভাবন যুক্তিসঙ্গত: দ্বি-শাখা ডিজাইন বিভিন্ন মোডালিটির সুবিধা সম্পূর্ণভাবে ব্যবহার করে

অপূর্ণতা

१. গণনামূলক জটিলতা বিশ্লেষণ অপর্যাপ্ত: বিস্তারিত গণনামূলক খরচ এবং রিয়েল-টাইম কর্মক্ষমতা বিশ্লেষণ অভাব २. ব্যর্থতার কেস বিশ্লেষণ সীমিত: চরম পরিস্থিতিতে পদ্ধতির কর্মক্ষমতা আলোচনা অপর্যাপ্ত ३. ব্যবহারকারী গবেষণা অনুপস্থিত: প্রকৃত ব্যবহারকারী অভিজ্ঞতা মূল্যায়ন অভাব ४. দীর্ঘমেয়াদী স্থিতিশীলতা: দীর্ঘমেয়াদী ব্যবহারের স্থিতিশীলতা যাচাইকরণ অপর্যাপ্ত

প্রভাব

१. একাডেমিক মূল্য: মাল্টি-মোডাল গতি ক্যাপচার গবেষণার জন্য গুরুত্বপূর্ণ ডেটা এবং বেঞ্চমার্ক প্রদান করে २. শিল্প মূল্য: ভোক্তা-গ্রেড গতি ক্যাপচার পণ্য উন্নয়নের জন্য প্রযুক্তিগত রেফারেন্স প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, অন্যান্য গবেষকদের দ্বারা পুনরুৎপাদন এবং উন্নতির সম্ভাবনা রয়েছে ४. সম্প্রদায় অবদান: বৃহৎ-স্কেল ডেটাসেট এই ক্ষেত্রের দ্রুত উন্নয়ন প্রচার করবে

প্রযোজ্য পরিস্থিতি

१. ব্যক্তিগত সৃজনশীলতা: ভিডিও ব্লগার, বিষয়বস্তু নির্মাতাদের গতি ক্যাপচার চাহিদা २. ফিটনেস পর্যবেক্ষণ: ব্যায়াম ভঙ্গি বিশ্লেষণ এবং সংশোধন ३. গেম বিনোদন: সংবেদনশীল গেম, ভার্চুয়াল বাস্তবতা প্রয়োগ ४. শিক্ষা প্রশিক্ষণ: গতি শিক্ষা, দক্ষতা প্রশিক্ষণ ५. চিকিৎসা পুনর্বাসন: গতি কার্যকারিতা মূল্যায়ন এবং পুনর্বাসন প্রশিক্ষণ

সংদর্ভ

পেপারটি ৭५টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত করে:

  • ক্লাসিক গতি ক্যাপচার ডেটাসেট: Human3.6M, TotalCapture, 3DPW ইত্যাদি
  • SMPL মানব শরীর মডেল সম্পর্কিত কাজ
  • গভীর শেখার ভঙ্গি অনুমান পদ্ধতি
  • IMU গতি ক্যাপচার প্রযুক্তি
  • মাল্টি-মোডাল সংমিশ্রণ পদ্ধতি

সামগ্রিক মূল্যায়ন: এটি কম্পিউটার ভিশন গবেষণায় একটি উচ্চ-মানের পেপার, ডেটাসেট নির্মাণ এবং মাল্টি-মোডাল সংমিশ্রণ পদ্ধতিতে গুরুত্বপূর্ণ অবদান রয়েছে। MINIONS ডেটাসেটের স্কেল এবং গুণমান এই ক্ষেত্রে গুরুত্বপূর্ণ প্রভাব ফেলবে, SparseNet ফ্রেমওয়ার্ক ভোক্তা-গ্রেড গতি ক্যাপচারের জন্য কার্যকর প্রযুক্তিগত সমাধান প্রদান করে। পেপারের পরীক্ষামূলক ডিজাইন ব্যাপক, সিদ্ধান্ত বিশ্বাসযোগ্য, উচ্চ একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।