2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.

Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.

academic

জড়তা এবং দৃষ্টি সেন্সর থেকে গতি ক্যাপচার

মৌলিক তথ্য

পেপার আইডি: 2407.16341
শিরোনাম: Motion Capture from Inertial and Vision Sensors
লেখক: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
প্রকাশনার সময়: ২০২৪ সালের জুলাই (arXiv প্রি-প্রিন্ট, সংস্করণ v3 ২০২৫ সালের অক্টোবর ১১ তারিখে আপডেট)
পেপার লিঙ্ক: https://arxiv.org/abs/2407.16341

সারসংক্ষেপ

মানব গতি ক্যাপচার অনেক কম্পিউটার ভিশন এবং গ্রাফিক্স কাজের ভিত্তি। যদিও শিল্প-গ্রেড গতি ক্যাপচার সিস্টেম চলচ্চিত্র এবং গেম প্রযোজনায় ব্যাপকভাবে ব্যবহৃত হয়, তবে ভোক্তা-গ্রেড, ব্যবহারকারী-বান্ধব ব্যক্তিগত প্রয়োগ সমাধান এখনও পরিপক্ক নয়। একক ক্যামেরা এবং ন্যূনতম জড়তা পরিমাপ ইউনিট (IMU) ব্যবহার করে নির্ভুল মাল্টি-মোডাল মানব গতি ক্যাপচার অর্জনের জন্য, এই পেপারটি MINIONS ডেটাসেট প্রস্তাব করে—জড়তা এবং দৃষ্টি সেন্সর থেকে সংগৃহীত একটি বৃহৎ-স্কেল গতি ক্যাপচার ডেটাসেট। এই ডেটাসেটের তিনটি বৈশিষ্ট্য রয়েছে: ১) বৃহৎ-স্কেল: ৫ মিলিয়নেরও বেশি ফ্রেম এবং ৪০০ মিনিটের সময়কাল; ২) মাল্টি-মোডাল: IMU সংকেত এবং RGB ভিডিও অন্তর্ভুক্ত করে, যা জয়েন্ট অবস্থান, জয়েন্ট রোটেশন, SMPL প্যারামিটার ইত্যাদি দিয়ে মন্তব্য করা হয়েছে; ৩) বৈচিত্র্য: ১৪৬ ধরনের সূক্ষ্ম-দানাদার একক এবং ইন্টারঅ্যাক্টিভ গতি অন্তর্ভুক্ত করে। MINIONS ডেটাসেটের উপর ভিত্তি করে, SparseNet ফ্রেমওয়ার্ক প্রস্তাব করা হয়েছে, যা IMU এবং ভিডিওর পরিপূরক বৈশিষ্ট্য আবিষ্কার করে মানব গতি ক্যাপচার করে, একক ক্যামেরা এবং ন্যূনতম IMU ব্যবহার করে ভোক্তা-গ্রেড গতি ক্যাপচারের সম্ভাবনা অন্বেষণ করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: দৈনন্দিন প্রয়োগের চাহিদা পূরণের জন্য ভোক্তা-গ্রেড ডিভাইস (একক ক্যামেরা + কম সংখ্যক IMU) ব্যবহার করে নির্ভুল, স্থিতিশীল মানব গতি ক্যাপচার কীভাবে অর্জন করা যায়।

সমস্যার গুরুত্ব

১. খরচ সমস্যা: শিল্প-গ্রেড সিস্টেমের জন্য দসটি সিঙ্ক্রোনাইজড ক্যামেরা বা ব্যয়বহুল পরিধানযোগ্য সেন্সর প্রয়োজন, যার খরচ হাজার হাজার ডলার २. বহনযোগ্যতা সমস্যা: বর্তমান সিস্টেম জটিল কনফিগারেশন প্রয়োজন, যা ব্যবহারের পরিস্থিতি সীমিত করে ३. প্রয়োগের চাহিদা: XR, মোবাইল ভিডিও প্রযোজনা, লাইভ স্ট্রিমিং ইত্যাদি ভোক্তা-গ্রেড প্রয়োগের জন্য কম খরচের গতি ক্যাপচারের জরুরি চাহিদা রয়েছে

বর্তমান পদ্ধতির সীমাবদ্ধতা

१. চিহ্নিত-ভিত্তিক সিস্টেম: বিশেষ পোশাক বা প্রচুর IMU প্রয়োজন, প্রাকৃতিক গতির জন্য অসুবিধাজনক २. মাল্টি-ক্যামেরা সিস্টেম: জটিল ক্যালিব্রেশন প্রয়োজন, কার্যকলাপের পরিসীমা সীমিত করে ३. একক-ক্যামেরা দৃষ্টি পদ্ধতি: গভীরতা অস্পষ্টতা, অবরোধ এবং দ্রুত গতি দ্বারা প্রভাবিত, সময়গত কম্পন বিদ্যমান ४. IMU পদ্ধতি: বৈশ্বিক অবস্থান বিচ্যুতি সমস্যা বিদ্যমান, দীর্ঘমেয়াদী গতি ক্যাপচার সীমিত করে

গবেষণা প্রেরণা

বর্তমান ডেটাসেট TotalCapture ছোট স্কেল, একক দৃশ্য, ত্বক-টাইট পোশাক প্রয়োজন, এবং দৈনন্দিন জীবনের সাথে বিতরণ পার্থক্য রয়েছে। এই পেপারটি একটি বৃহৎ-স্কেল, বৈচিত্র্যময় ডেটাসেট নির্মাণ এবং দৃষ্টি-জড়তা সংমিশ্রণের ভোক্তা-গ্রেড গতি ক্যাপচার সমাধান অন্বেষণ করার লক্ষ্য রাখে।

মূল অবদান

१. MINIONS ডেটাসেট নির্মাণ: ৫.৫ মিলিয়ন ফ্রেম, ৪৪০ মিনিটের মাল্টি-মোডাল গতি ক্যাপচার ডেটা সহ, ১৪৬ ধরনের সূক্ষ্ম-দানাদার গতি অন্তর্ভুক্ত করে, সমৃদ্ধ মন্তব্য তথ্য প্রদান করে २. SparseNet ফ্রেমওয়ার্ক প্রস্তাব: বেয়েসিয়ান তত্ত্বের উপর ভিত্তি করে দ্বি-শাখা স্থাপত্য, দৃষ্টি এবং জড়তা তথ্য কার্যকরভাবে সংমিশ্রণ করে গতি ক্যাপচার করে ३. সিস্টেমেটিক পরীক্ষামূলক বিশ্লেষণ: বিভিন্ন সেন্সর কনফিগারেশনের কর্মক্ষমতা গভীরভাবে অন্বেষণ করে, ৪-৬টি IMU একক ক্যামেরার সাথে কার্যকারিতা প্রমাণ করে ४. মাল্টি-টাস্ক বেঞ্চমার্ক পরীক্ষা: 2D-3D ভঙ্গি অনুমান, সূক্ষ্ম-দানাদার গতি স্বীকৃতি এবং অন্যান্য কাজে বেঞ্চমার্ক ফলাফল প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: একক-মোডাল RGB ভিডিও ক্রম $V = \{V_i\}_{i=1}^L$ এবং বিরল IMU সংকেত $I = \{I_i\}_{i=0}^L$ আউটপুট: SMPL প্যারামিটার (আকৃতি $\beta$ , ভঙ্গি $\theta$ , বৈশ্বিক স্থানচ্যুতি $t$ ) এবং 3D জয়েন্ট অবস্থান সীমাবদ্ধতা: ভোক্তা-গ্রেড ডিভাইস ব্যবহার করে, ন্যূনতম ৪টি IMU সেন্সর

মডেল স্থাপত্য

তাত্ত্বিক ভিত্তি

বেয়েসিয়ান সংমিশ্রণ কৌশলের উপর ভিত্তি করে, জয়েন্ট রোটেশন $\theta$ কে লুপ্ত পরিবর্তনশীল হিসাবে মডেল করা হয়:

$p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)$

যেখানে:

$p(\theta)$ : জয়েন্ট রোটেশনের পূর্ব বিতরণ (Matrix Fisher বিতরণ)
$p(d_v|\theta)$ : দৃষ্টি হাড়ের দিক পর্যবেক্ষণের von Mises-Fisher বিতরণ
$p(D_I|\theta)$ : IMU রোটেশন পর্যবেক্ষণ বিতরণ

নেটওয়ার্ক কাঠামো

१. দৃষ্টি শাখা (Visual Branch)

Vision Mamba এনকোডার ব্যবহার করে দৃষ্টি বৈশিষ্ট্য নিষ্কাশন করে
আকৃতি ডিকোডার: SMPL আকৃতি প্যারামিটার $\beta$ রিগ্রেশন করে
ভঙ্গি ডিকোডার: ভঙ্গি পূর্ব বিতরণ $p(\theta)$ অনুমান করে
হাড়ের ডিকোডার: হাড়ের দিক বিতরণ $p(d_v|\theta)$ অনুমান করে

२. বিরল IMU শাখা (Sparse IMUs Branch)

Joint Mamba এনকোডার: IMU সংকেত থেকে হাড়ের অবস্থান $d_{0:i}$ পূর্বাভাস দেয়
IMU Mamba এনকোডার: বিরল জড়তা সংকেত প্রক্রিয়া করে
রোটেশন ডিকোডার: রোটেশন বিতরণ $p(D_I|\theta)$ অনুমান করে
অনুবাদ ডিকোডার: বৈশ্বিক অনুবাদ $t_I$ অনুমান করে

३. পোস্ট-প্রসেসিং শাখা (Post-processing Branch)

পোস্টেরিয়র সংমিশ্রণ মডিউল: দুটি শাখার সম্ভাব্যতা বিতরণ একীভূত করে
Smooth Mamba এনকোডার: চূড়ান্ত ভঙ্গি ক্রম মসৃণ করে
PNP সমাধানকারী: বৈশ্বিক অনুবাদ গণনা করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. সম্ভাব্যতা সংমিশ্রণ ফ্রেমওয়ার্ক: Matrix Fisher পূর্ব ভিত্তিক বেয়েসিয়ান সংমিশ্রণ, দৃঢ় তাত্ত্বিক ভিত্তি २. দ্বি-শাখা পরিপূরক ডিজাইন: দৃষ্টি শাখা আকৃতি এবং অবস্থান তথ্য প্রদান করে, IMU শাখা রোটেশন এবং উচ্চ-ফ্রিকোয়েন্সি গতি তথ্য প্রদান করে ३. বিরল সেন্সর সমর্থন: ৪-১০টি IMU এর নমনীয় কনফিগারেশন সমর্থন করে ४. এন্ড-টু-এন্ড প্রশিক্ষণ: একীভূত সম্ভাব্যতা ফ্রেমওয়ার্ক যৌথ অপ্টিমাইজেশন সমর্থন করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

MINIONS ডেটাসেট পরিসংখ্যান:

স্কেল: ৫.৫ মিলিয়ন ফ্রেম, ৪৪০ মিনিট ভিডিও
মোডালিটি: ৮টি 2K ক্যামেরা + ১৭টি নয়-অক্ষ IMU + RGB-D স্ক্যানার
গতি: ১৪৬ ধরনের সূক্ষ্ম-দানাদার গতি (१२१ একক-ব্যক্তি + २५ বহু-ব্যক্তি ইন্টারঅ্যাকশন)
অংশগ্রহণকারী: ३६ অভিনেতা গ্রুপ (२० একক-ব্যক্তি + १६ বহু-ব্যক্তি গ্রুপ)
মন্তব্য: 2D/3D জয়েন্ট, SMPL প্যারামিটার, গতি শ্রেণী, টেক্সচার তথ্য

ডেটা বিভাজন:

প্রশিক্ষণ সেট: १२ অভিনেতা, ३.२ মিলিয়ন ফ্রেম
যাচাইকরণ সেট: ३ অভিনেতা, ०.९ মিলিয়ন ফ্রেম
পরীক্ষা সেট: ५ অভিনেতা, १.४ মিলিয়ন ফ্রেম

মূল্যায়ন মেট্রিক্স

१. $\mu_{glo}$ : বৈশ্বিক রোটেশন ত্রুটি গড় (ডিগ্রি) २. $\sigma_{glo}$ : বৈশ্বিক রোটেশন ত্রুটি বৈচিত্র্য (ডিগ্রি) ३. MPJPE: গড় জয়েন্ট অবস্থান ত্রুটি (মিলিমিটার) ४. Jitter: জয়েন্ট গড় ত্বরণ কম্পন ( $10^2 m/s^3$ ) ५. PA-MPJPE: Procrustes সারিবদ্ধতার পরে জয়েন্ট অবস্থান ত্রুটি

তুলনামূলক পদ্ধতি

IMU পদ্ধতি: PIP, PNP, IMU-ভিত্তিক বেসলাইন পদ্ধতি
দৃষ্টি পদ্ধতি: TokenHMR, PromptHMR
মাল্টি-মোডাল পদ্ধতি: DiffCap, VIP, Liu et al.

বাস্তবায়ন বিবরণ

প্রশিক্ষণ কৌশল: প্রথমে দৃষ্টি শাখা প্রাক-প্রশিক্ষণ (२० epochs), তারপর IMU এবং পোস্ট-প্রসেসিং শাখা প্রশিক্ষণ (२०० epochs)
অপ্টিমাইজার: Adam, শেখার হার ०.००१
ব্যাচ আকার: দৃষ্টি শাখা ६४, অন্যান্য ५१२
ইনপুট রেজোলিউশন: ५१२×५१२
হার্ডওয়্যার: NVIDIA GTX A100

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মাল্টি-মোডাল গতি ক্যাপচার কর্মক্ষমতা তুলনা:

পদ্ধতি ধরন	#IMUs	#Cams	$\mu_{glo}$ ↓	$\sigma_{glo}$ ↓	MPJPE↓	Jitter↓
IMU-ভিত্তিক	6	0	11.67	8.65	57.93	1.17
দৃষ্টি-ভিত্তিক	0	1	10.27	7.20	45.61	13.02
মাল্টি-মোডাল	6	1	9.20	6.19	39.99	1.57

মূল আবিষ্কার: १. ४-६টি IMU কনফিগারেশন সর্বোত্তম: খরচ এবং কর্মক্ষমতার মধ্যে সেরা ভারসাম্য অর্জন করে २. পরিপূরক সুবিধা স্পষ্ট: দৃষ্টি পদ্ধতি বড় কম্পন, IMU পদ্ধতি গুরুতর অবস্থান বিচ্যুতি, সংমিশ্রণের পরে উল্লেখযোগ্য উন্নতি ३. ८টির বেশি IMU হ্রাসমান রিটার্ন: খরচ বৃদ্ধি কিন্তু কর্মক্ষমতা উন্নতি সীমিত

TotalCapture ডেটাসেট তুলনা

পদ্ধতি	MPJPE↓	PA-MPJPE↓
DiffCap	46.2	29.9
VIP	-	26.0
Liu et al.	45.8	-
আমাদের	36.7	21.6

বিলোপন পরীক্ষা

বিভিন্ন IMU সংখ্যার কর্মক্ষমতা বিশ্লেষণ:

४টি IMU: $\mu_{glo}=9.75°$ , MPJPE=41.53mm
६টি IMU: $\mu_{glo}=9.20°$ , MPJPE=39.99mm
८টি IMU: $\mu_{glo}=8.86°$ , MPJPE=39.39mm
१०টি IMU: $\mu_{glo}=8.81°$ , MPJPE=39.43mm

ফলাফল ६-८টি IMU সর্বোত্তম কনফিগারেশন নির্দেশ করে।

অন্যান্য কাজ বেঞ্চমার্ক

2D-3D ভঙ্গি অনুমান:

MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
Dual-Aug (243 ফ্রেম): MPJPE=19.22mm, PA-MPJPE=13.95mm

সূক্ষ্ম-দানাদার গতি স্বীকৃতি:

UniFormerV2: Top-1=75.88%, Top-5=96.87%
VideoMAE: Top-1=73.75%, Top-5=96.01%

Kinetics400 এর তুলনায়, MINIONS আরও চ্যালেঞ্জিং।

কেস বিশ্লেষণ

ভিজ্যুয়ালাইজেশন ফলাফল দেখায়: १. IMU পদ্ধতি: সময়ের সাথে সাথে অবস্থান বিচ্যুতি জমা হয়, কিন্তু রোটেশন স্থিতিশীল २. দৃষ্টি পদ্ধতি: অবস্থান নির্ভুল কিন্তু সময়গত কম্পন বিদ্যমান ३. সংমিশ্রণ পদ্ধতি: উভয়ের সুবিধা একত্রিত করে, স্থিতিশীল এবং নির্ভুল উভয়ই

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. প্রযুক্তিগত সম্ভাব্যতা: ४-६টি IMU একক ক্যামেরার সাথে স্থিতিশীল ভোক্তা-গ্রেড গতি ক্যাপচার অর্জন করতে পারে २. পরিপূরক মূল্য: দৃষ্টি এবং জড়তা সেন্সরের স্পষ্ট পরিপূরক সুবিধা রয়েছে ३. ডেটাসেট অবদান: MINIONS এই ক্ষেত্রের জন্য গুরুত্বপূর্ণ ডেটা সম্পদ প্রদান করে ४. ব্যবহারিকতা: পদ্ধতি একাধিক কাজে ভাল সাধারণীকরণ ক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

१. সেন্সর নির্ভরতা: এখনও একাধিক IMU সেন্সর প্রয়োজন, সিস্টেম জটিলতা বৃদ্ধি করে २. রিয়েল-টাইম কর্মক্ষমতা: পেপার রিয়েল-টাইম কর্মক্ষমতা বিস্তারিত আলোচনা করে না ३. পরিবেশগত অভিযোজনযোগ্যতা: প্রধানত ইনডোর পরিবেশে পরীক্ষা করা হয়েছে, বহিরঙ্গন জটিল পরিবেশে দৃঢ়তা অপর্যাপ্তভাবে যাচাই করা হয়েছে ४. পোশাকের প্রভাব: যদিও দৈনন্দিন পোশাক ব্যবহার করা হয়, ঢিলেঢালা পোশাক IMU নির্ভুলতার উপর প্রভাব আরও গবেষণা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. কম সেন্সর: কম IMU ব্যবহারের সম্ভাবনা অন্বেষণ করা २. রিয়েল-টাইম অপ্টিমাইজেশন: সিস্টেমের রিয়েল-টাইম প্রসেসিং ক্ষমতা উন্নত করা ३. পরিবেশগত দৃঢ়তা: জটিল পরিবেশে কর্মক্ষমতা বৃদ্ধি করা ४. প্রয়োগ সম্প্রসারণ: আরও বাস্তব প্রয়োগ পরিস্থিতিতে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

१. ডেটাসেট অবদান উল্লেখযোগ্য: MINIONS বর্তমানে বৃহত্তম স্কেল মাল্টি-মোডাল গতি ক্যাপচার ডেটাসেট, এই ক্ষেত্রের গুরুত্বপূর্ণ শূন্যতা পূরণ করে २. তাত্ত্বিক ভিত্তি দৃঢ়: বেয়েসিয়ান তত্ত্বের উপর ভিত্তিক সংমিশ্রণ ফ্রেমওয়ার্ক ভাল গাণিতিক ভিত্তি রয়েছে ३. পরীক্ষামূলক ডিজাইন ব্যাপক: বিভিন্ন সেন্সর কনফিগারেশন থেকে মাল্টি-টাস্ক মূল্যায়ন পর্যন্ত, পরীক্ষা বিস্তৃত কভারেজ রয়েছে ४. ব্যবহারিক মূল্য উচ্চ: ভোক্তা-গ্রেড গতি ক্যাপচারের জন্য সম্ভাব্য প্রযুক্তিগত পথ প্রদান করে ५. প্রযুক্তিগত উদ্ভাবন যুক্তিসঙ্গত: দ্বি-শাখা ডিজাইন বিভিন্ন মোডালিটির সুবিধা সম্পূর্ণভাবে ব্যবহার করে

অপূর্ণতা

१. গণনামূলক জটিলতা বিশ্লেষণ অপর্যাপ্ত: বিস্তারিত গণনামূলক খরচ এবং রিয়েল-টাইম কর্মক্ষমতা বিশ্লেষণ অভাব २. ব্যর্থতার কেস বিশ্লেষণ সীমিত: চরম পরিস্থিতিতে পদ্ধতির কর্মক্ষমতা আলোচনা অপর্যাপ্ত ३. ব্যবহারকারী গবেষণা অনুপস্থিত: প্রকৃত ব্যবহারকারী অভিজ্ঞতা মূল্যায়ন অভাব ४. দীর্ঘমেয়াদী স্থিতিশীলতা: দীর্ঘমেয়াদী ব্যবহারের স্থিতিশীলতা যাচাইকরণ অপর্যাপ্ত

প্রভাব

१. একাডেমিক মূল্য: মাল্টি-মোডাল গতি ক্যাপচার গবেষণার জন্য গুরুত্বপূর্ণ ডেটা এবং বেঞ্চমার্ক প্রদান করে २. শিল্প মূল্য: ভোক্তা-গ্রেড গতি ক্যাপচার পণ্য উন্নয়নের জন্য প্রযুক্তিগত রেফারেন্স প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, অন্যান্য গবেষকদের দ্বারা পুনরুৎপাদন এবং উন্নতির সম্ভাবনা রয়েছে ४. সম্প্রদায় অবদান: বৃহৎ-স্কেল ডেটাসেট এই ক্ষেত্রের দ্রুত উন্নয়ন প্রচার করবে

প্রযোজ্য পরিস্থিতি

१. ব্যক্তিগত সৃজনশীলতা: ভিডিও ব্লগার, বিষয়বস্তু নির্মাতাদের গতি ক্যাপচার চাহিদা २. ফিটনেস পর্যবেক্ষণ: ব্যায়াম ভঙ্গি বিশ্লেষণ এবং সংশোধন ३. গেম বিনোদন: সংবেদনশীল গেম, ভার্চুয়াল বাস্তবতা প্রয়োগ ४. শিক্ষা প্রশিক্ষণ: গতি শিক্ষা, দক্ষতা প্রশিক্ষণ ५. চিকিৎসা পুনর্বাসন: গতি কার্যকারিতা মূল্যায়ন এবং পুনর্বাসন প্রশিক্ষণ

সংদর্ভ

পেপারটি ৭५টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত করে:

ক্লাসিক গতি ক্যাপচার ডেটাসেট: Human3.6M, TotalCapture, 3DPW ইত্যাদি
SMPL মানব শরীর মডেল সম্পর্কিত কাজ
গভীর শেখার ভঙ্গি অনুমান পদ্ধতি
IMU গতি ক্যাপচার প্রযুক্তি
মাল্টি-মোডাল সংমিশ্রণ পদ্ধতি

সামগ্রিক মূল্যায়ন: এটি কম্পিউটার ভিশন গবেষণায় একটি উচ্চ-মানের পেপার, ডেটাসেট নির্মাণ এবং মাল্টি-মোডাল সংমিশ্রণ পদ্ধতিতে গুরুত্বপূর্ণ অবদান রয়েছে। MINIONS ডেটাসেটের স্কেল এবং গুণমান এই ক্ষেত্রে গুরুত্বপূর্ণ প্রভাব ফেলবে, SparseNet ফ্রেমওয়ার্ক ভোক্তা-গ্রেড গতি ক্যাপচারের জন্য কার্যকর প্রযুক্তিগত সমাধান প্রদান করে। পেপারের পরীক্ষামূলক ডিজাইন ব্যাপক, সিদ্ধান্ত বিশ্বাসযোগ্য, উচ্চ একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।