2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

التقاط الحركة من أجهزة استشعار القصور الذاتي والرؤية

المعلومات الأساسية

  • معرّف الورقة: 2407.16341
  • العنوان: التقاط الحركة من أجهزة استشعار القصور الذاتي والرؤية
  • المؤلفون: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • التصنيف: cs.CV (رؤية الحاسوب)
  • وقت النشر: يوليو 2024 (نسخة أولية على arXiv، محدثة إلى 11 أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2407.16341

الملخص

التقاط حركة الجسم البشري هو أساس العديد من مهام رؤية الحاسوب والرسوميات. على الرغم من أن أنظمة التقاط الحركة على مستوى الصناعة تُستخدم على نطاق واسع في إنتاج الأفلام والألعاب، إلا أن حلول التطبيقات الشخصية الاستهلاكية وسهلة الاستخدام لا تزال غير ناضجة. لتحقيق التقاط حركة بشرية متعددة الأنماط دقيقة باستخدام كاميرا أحادية وعدد قليل جداً من وحدات القياس بالقصور الذاتي (IMUs)، نقترح مجموعة بيانات MINIONS - مجموعة بيانات كبيرة الحجم لالتقاط الحركة تم جمعها من أجهزة استشعار القصور الذاتي والرؤية. تتميز مجموعة البيانات بثلاث خصائص: 1) كبيرة الحجم: تتجاوز 5.5 مليون إطار و440 دقيقة من المدة الزمنية؛ 2) متعددة الأنماط: تحتوي على إشارات IMU وفيديو RGB مع تعليقات توضيحية لمواضع المفاصل والدورانات والمعاملات SMPL؛ 3) متنوعة: تشمل 146 حركة دقيقة الحبيبات للأفراد والتفاعلات. بناءً على مجموعة بيانات MINIONS، نقترح إطار عمل SparseNet الذي يلتقط حركة الجسم البشري من خلال اكتشاف الميزات المتكاملة لـ IMU والفيديو، واستكشاف إمكانية استخدام كاميرا أحادية وعدد قليل من أجهزة IMU للتقاط حركة استهلاكي.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي يحاول هذا البحث حلها هي: كيفية استخدام الأجهزة الاستهلاكية (كاميرا أحادية + عدد قليل من أجهزة IMU) لتحقيق التقاط حركة بشرية دقيقة واستقرار لتلبية احتياجات التطبيقات اليومية.

أهمية المشكلة

  1. مشكلة التكلفة: تتطلب الأنظمة الصناعية عشرات الكاميرات المتزامنة أو أجهزة استشعار قابلة للارتداء مكلفة، بتكاليف تصل إلى آلاف الدولارات
  2. مشكلة النقل: الأنظمة الحالية معقدة في الإعداد، مما يحد من حالات الاستخدام
  3. احتياجات التطبيقات: تطبيقات استهلاكية مثل XR وإنتاج الفيديو المحمول والبث المباشر لديها احتياج ملح لالتقاط حركة منخفض التكلفة

قيود الطرق الموجودة

  1. الأنظمة القائمة على العلامات: تتطلب ملابس خاصة أو عدداً كبيراً من أجهزة IMU، غير مريحة للحركة الطبيعية
  2. أنظمة متعددة الكاميرات: تتطلب معايرة معقدة، مما يحد من نطاق النشاط
  3. طرق الرؤية الأحادية: تتأثر بغموض العمق والانسداد والحركة السريعة، مع وجود رجفة زمنية
  4. طرق IMU: تعاني من مشاكل الانجراف في الموضع العام، مما يحد من التقاط الحركة طويل الأمد

الدافع البحثي

مجموعات البيانات الموجودة مثل TotalCapture صغيرة الحجم وأحادية المشهد وتتطلب ملابس ضيقة، مع وجود اختلاف توزيع عن الحياة اليومية. تهدف هذه الورقة إلى بناء مجموعة بيانات كبيرة الحجم ومتنوعة، واستكشاف حل التقاط حركة استهلاكي متكامل بين الرؤية والقصور الذاتي.

المساهمات الأساسية

  1. بناء مجموعة بيانات MINIONS: تحتوي على 5.5 مليون إطار و440 دقيقة من بيانات التقاط الحركة متعددة الأنماط، تغطي 146 حركة دقيقة الحبيبات مع معلومات تعليقية غنية
  2. اقتراح إطار عمل SparseNet: بنية ثنائية الفرع قائمة على نظرية بايز، تدمج بشكل فعال معلومات الرؤية والقصور الذاتي لالتقاط الحركة
  3. تحليل تجريبي منهجي: استكشاف عميق لأداء تكوينات المستشعرات المختلفة، مما يثبت فعالية 4-6 أجهزة IMU مع كاميرا أحادية
  4. اختبارات معايير متعددة المهام: توفير نتائج معايير في تقدير الوضعية ثنائية الأبعاد والثلاثية الأبعاد والتعرف على الحركات الدقيقة الحبيبات

شرح الطريقة

تعريف المهمة

الإدخال: تسلسل فيديو RGB أحادي V={Vi}i=1LV = \{V_i\}_{i=1}^L وإشارات IMU متفرقة I={Ii}i=0LI = \{I_i\}_{i=0}^Lالإخراج: معاملات SMPL (الشكل β\beta، الوضعية θ\theta، الإزاحة العامة tt) ومواضع المفاصل ثلاثية الأبعاد القيود: استخدام الأجهزة الاستهلاكية، بحد أدنى 4 أجهزة استشعار IMU

معمارية النموذج

الأساس النظري

بناءً على استراتيجية الدمج البايزي، يتم نمذجة دوران المفصل θ\theta كمتغير كامن:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

حيث:

  • p(θ)p(\theta): التوزيع السابق لدوران المفصل (توزيع Matrix Fisher)
  • p(dvθ)p(d_v|\theta): توزيع von Mises-Fisher لملاحظات اتجاه الهيكل العظمي البصري
  • p(DIθ)p(D_I|\theta): توزيع ملاحظات دوران IMU

بنية الشبكة

1. فرع الرؤية (Visual Branch)

  • استخدام مشفر Vision Mamba لاستخراج ميزات الرؤية
  • فك تشفير الشكل: الرجوع إلى معاملات شكل SMPL β\beta
  • فك تشفير الوضعية: تقدير توزيع الوضعية السابق p(θ)p(\theta)
  • فك تشفير الهيكل العظمي: تقدير توزيع اتجاه الهيكل العظمي p(dvθ)p(d_v|\theta)

2. فرع IMU المتفرق (Sparse IMUs Branch)

  • مشفر Joint Mamba: التنبؤ بموضع الهيكل العظمي من إشارات IMU d0:id_{0:i}
  • مشفر IMU Mamba: معالجة إشارات القصور الذاتي المتفرقة
  • فك تشفير الدوران: تقدير توزيع الدوران p(DIθ)p(D_I|\theta)
  • فك تشفير الترجمة: تقدير الترجمة العامة tIt_I

3. فرع المعالجة اللاحقة (Post-processing Branch)

  • وحدة الدمج اللاحق: دمج التوزيعات الاحتمالية من الفرعين
  • مشفر Smooth Mamba: تنعيم تسلسل الوضعية النهائي
  • حل PNP: حساب الترجمة العامة

نقاط الابتكار التقني

  1. إطار عمل الدمج الاحتمالي: دمج بايزي قائم على السابق Matrix Fisher بأساس نظري متين
  2. تصميم ثنائي الفرع المتكامل: يوفر فرع الرؤية معلومات الشكل والموضع، بينما يوفر فرع IMU معلومات الدوران والحركة عالية التردد
  3. دعم المستشعرات المتفرقة: يدعم تكوينات مرنة من 4-10 أجهزة IMU
  4. التدريب من طرف إلى طرف: إطار عمل احتمالي موحد يدعم التحسين المشترك

إعداد التجارب

مجموعة البيانات

إحصائيات مجموعة بيانات MINIONS:

  • الحجم: 5.5 مليون إطار، 440 دقيقة فيديو
  • الأنماط: 8 كاميرات 2K + 17 جهاز IMU تسعة محاور + ماسح RGB-D
  • الحركات: 146 حركة دقيقة الحبيبات (121 حركة فردية + 25 تفاعل متعدد الأشخاص)
  • المشاركون: 36 مجموعة ممثلين (20 فرداً + 16 مجموعة متعددة الأشخاص)
  • التعليقات التوضيحية: مفاصل ثنائية/ثلاثية الأبعاد، معاملات SMPL، فئات الحركة، معلومات النسيج

تقسيم البيانات:

  • مجموعة التدريب: 12 ممثل، 3.2 مليون إطار
  • مجموعة التحقق: 3 ممثلين، 0.9 مليون إطار
  • مجموعة الاختبار: 5 ممثلين، 1.4 مليون إطار

مؤشرات التقييم

  1. μglo\mu_{glo}: متوسط خطأ الدوران العام (بالدرجات)
  2. σglo\sigma_{glo}: تباين خطأ الدوران العام (بالدرجات)
  3. MPJPE: متوسط خطأ موضع المفصل (بالملليمتر)
  4. Jitter: متوسط رجفة تسارع المفصل (102m/s310^2 m/s^3)
  5. PA-MPJPE: خطأ موضع المفصل بعد محاذاة Procrustes

طرق المقارنة

  • طرق IMU: PIP، PNP، طرق أساسية قائمة على IMU
  • طرق الرؤية: TokenHMR، PromptHMR
  • طرق متعددة الأنماط: DiffCap، VIP، Liu et al.

تفاصيل التنفيذ

  • استراتيجية التدريب: تدريب مسبق لفرع الرؤية أولاً (20 حقبة)، ثم تدريب فروع IMU والمعالجة اللاحقة (200 حقبة)
  • المحسّن: Adam، معدل التعلم 0.001
  • حجم الدفعة: فرع الرؤية 64، الآخرون 512
  • دقة الإدخال: 512×512
  • الأجهزة: NVIDIA GTX A100

نتائج التجارب

النتائج الرئيسية

مقارنة أداء التقاط الحركة متعددة الأنماط:

نوع الطريقة#IMUs#Camsμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
قائمة على IMU6011.678.6557.931.17
قائمة على الرؤية0110.277.2045.6113.02
متعددة الأنماط619.206.1939.991.57

الاكتشافات الرئيسية:

  1. تكوين 4-6 أجهزة IMU الأمثل: يحقق أفضل توازن بين التكلفة والأداء
  2. المزايا المتكاملة واضحة: طرق الرؤية لديها رجفة كبيرة، طرق IMU لديها انجراف موضع شديد، الدمج يحسن بشكل كبير
  3. تناقص العائد فوق 8 أجهزة IMU: زيادة التكلفة لكن تحسن الأداء محدود

مقارنة مجموعة بيانات TotalCapture

الطريقةMPJPE↓PA-MPJPE↓
DiffCap46.229.9
VIP-26.0
Liu et al.45.8-
طريقتنا36.721.6

تجارب الاستئصال

تحليل الأداء لعدد مختلف من أجهزة IMU:

  • 4 أجهزة IMU: μglo=9.75°\mu_{glo}=9.75°، MPJPE=41.53mm
  • 6 أجهزة IMU: μglo=9.20°\mu_{glo}=9.20°، MPJPE=39.99mm
  • 8 أجهزة IMU: μglo=8.86°\mu_{glo}=8.86°، MPJPE=39.39mm
  • 10 أجهزة IMU: μglo=8.81°\mu_{glo}=8.81°، MPJPE=39.43mm

تشير النتائج إلى أن 6-8 أجهزة IMU هي التكوين الأمثل.

معايير المهام الأخرى

تقدير الوضعية ثنائية الأبعاد والثلاثية الأبعاد:

  • MotionBERT: MPJPE=18.75mm، PA-MPJPE=13.44mm
  • Dual-Aug (243 إطار): MPJPE=19.22mm، PA-MPJPE=13.95mm

التعرف على الحركات الدقيقة الحبيبات:

  • UniFormerV2: Top-1=75.88%، Top-5=96.87%
  • VideoMAE: Top-1=73.75%، Top-5=96.01%

بالمقارنة مع Kinetics400، MINIONS أكثر تحدياً.

تحليل الحالات

تظهر النتائج المرئية:

  1. طريقة IMU: تراكم انجراف الموضع بمرور الوقت، لكن الدوران مستقر
  2. طريقة الرؤية: الموضع دقيق لكن مع رجفة زمنية
  3. طريقة الدمج: تجمع مزايا كلا الطريقتين، مستقرة وفي نفس الوقت دقيقة

الأعمال ذات الصلة

التقاط الحركة بـ IMU

  • الحلول الصناعية: نظام Perception Neuron و Xsens MVN يستخدمان 17 جهاز IMU
  • طرق IMU المتفرقة: نماذج التحسين والانحدار
  • القيود: مشكلة انجراف الموضع طويل الأمد

التقاط الحركة بالرؤية الأحادية

  • طرق التحسين: ملاءمة معاملات SMPL لإطارات الفيديو
  • طرق الانحدار: التعلم من طرف إلى طرف لمعاملات SMPL
  • التحديات: غموض العمق والانسداد والحركة السريعة

الدمج متعدد الأنماط

  • الأعمال الموجودة: مجموعات بيانات صغيرة الحجم مثل TotalCapture
  • مزايا هذه الورقة: حجم أكبر وتنوع أكثر وملابس يومية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. الجدوى التقنية: يمكن لـ 4-6 أجهزة IMU مع كاميرا أحادية تحقيق التقاط حركة استهلاكي مستقر
  2. القيمة المتكاملة: أجهزة استشعار الرؤية والقصور الذاتي لديها مزايا متكاملة واضحة
  3. مساهمة مجموعة البيانات: توفر MINIONS موارد بيانات مهمة لهذا المجال
  4. الجدوى العملية: تظهر الطريقة قدرة تعميم جيدة على عدة مهام

القيود

  1. اعتماد المستشعر: لا تزال تتطلب عدة أجهزة IMU، مما يزيد من تعقيد النظام
  2. الوقت الفعلي: لم تناقش الورقة بالتفصيل أداء الوقت الفعلي
  3. التكيف البيئي: تم الاختبار بشكل أساسي في بيئات داخلية، لم يتم التحقق الكافي من الثبات في البيئات الخارجية المعقدة
  4. تأثير الملابس: على الرغم من استخدام ملابس يومية، يحتاج تأثير الملابس الفضفاضة على دقة IMU إلى مزيد من البحث

الاتجاهات المستقبلية

  1. أجهزة استشعار أقل: استكشاف إمكانية استخدام عدد أقل من أجهزة IMU
  2. تحسين الوقت الفعلي: تحسين قدرة النظام على المعالجة في الوقت الفعلي
  3. الثبات البيئي: تعزيز الأداء في البيئات المعقدة
  4. توسيع التطبيقات: التوسع إلى المزيد من حالات التطبيق الفعلية

التقييم المتعمق

المزايا

  1. مساهمة مجموعة البيانات كبيرة: MINIONS هي أكبر مجموعة بيانات التقاط حركة متعددة الأنماط حالياً، وتملأ فجوة مهمة في المجال
  2. أساس نظري متين: إطار عمل الدمج القائم على نظرية بايز له أساس رياضي جيد
  3. تصميم تجريبي شامل: من تكوينات المستشعرات المختلفة إلى التقييم متعدد المهام، التجارب تغطي نطاقاً واسعاً
  4. قيمة عملية عالية: توفر مسار تقني قابل للتطبيق لالتقاط الحركة الاستهلاكي
  5. ابتكار تقني معقول: التصميم ثنائي الفرع يستفيد بشكل كامل من مزايا الأنماط المختلفة

أوجه القصور

  1. تحليل التعقيد الحسابي غير كافٍ: نقص تحليل تفصيلي للتكاليف الحسابية وأداء الوقت الفعلي
  2. تحليل حالات الفشل محدود: النقاش حول أداء الطريقة في الحالات القصوى غير كافٍ
  3. نقص البحث عن المستخدم: نقص تقييم تجربة المستخدم الفعلية
  4. الاستقرار طويل الأمد: التحقق من الاستقرار للاستخدام طويل الأمد غير كافٍ

التأثير

  1. القيمة الأكاديمية: توفير بيانات ومعايير مهمة لبحث التقاط الحركة متعدد الأنماط
  2. القيمة الصناعية: توفير مرجع تقني لتطوير منتجات التقاط الحركة الاستهلاكية
  3. إمكانية التكرار: وصف الطريقة واضح، من المتوقع أن يتم تكراره وتحسينه من قبل باحثين آخرين
  4. مساهمة المجتمع: ستعزز مجموعة البيانات الكبيرة التطور السريع للمجال

حالات التطبيق

  1. الإبداع الشخصي: احتياجات التقاط الحركة لمنشئي الفيديو ومنشئي المحتوى
  2. مراقبة اللياقة البدنية: تحليل وتصحيح وضعية الحركة
  3. الألعاب والترفيه: الألعاب الحسية والتطبيقات الواقعية الافتراضية
  4. التعليم والتدريب: تعليم الحركة وتدريب المهارات
  5. الطب والتأهيل: تقييم الوظائف الحركية وتدريب إعادة التأهيل

المراجع

تستشهد الورقة بـ 75 مرجعاً ذا صلة، تشمل بشكل أساسي:

  • مجموعات بيانات التقاط الحركة الكلاسيكية: Human3.6M و TotalCapture و 3DPW وغيرها
  • الأعمال المتعلقة بنموذج الجسم البشري SMPL
  • طرق تقدير الوضعية بالتعلم العميق
  • تقنية التقاط الحركة بـ IMU
  • طرق الدمج متعدد الأنماط

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال رؤية الحاسوب، مع مساهمات مهمة في بناء مجموعات البيانات وطرق الدمج متعدد الأنماط. ستؤدي جودة وحجم مجموعة بيانات MINIONS إلى دفع مهم للمجال، وتوفر إطار عمل SparseNet حلاً تقنياً فعالاً لالتقاط الحركة الاستهلاكي. يتمتع تصميم التجارب الشامل والاستنتاجات الموثوقة بقيمة أكاديمية وعملية عالية.