Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
- पेपर ID: 2407.16341
- शीर्षक: Motion Capture from Inertial and Vision Sensors
- लेखक: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
- वर्गीकरण: cs.CV (कंप्यूटर विजन)
- प्रकाशन समय: जुलाई 2024 (arXiv प्रीप्रिंट, संस्करण v3 अक्टूबर 11, 2025 तक अपडेट)
- पेपर लिंक: https://arxiv.org/abs/2407.16341
मानव गति कैप्चर कई कंप्यूटर विजन और ग्राफिक्स कार्यों की नींव है। हालांकि औद्योगिक-स्तरीय गति कैप्चर प्रणालियां फिल्म और गेम निर्माण में व्यापक रूप से उपयोग की जाती हैं, उपभोक्ता-स्तरीय, उपयोग में आसान व्यक्तिगत अनुप्रयोग समाधान अभी भी परिपक्व नहीं हैं। एकल कैमरा और न्यूनतम जड़त्व माप इकाइयों (IMU) का उपयोग करके सटीक बहु-मोडल मानव गति कैप्चर को सक्षम करने के लिए, यह पेपर MINIONS डेटासेट प्रस्तुत करता है—जड़त्व और दृष्टि संवेदकों से एकत्र किया गया एक बड़े पैमाने पर गति कैप्चर डेटासेट। डेटासेट की तीन विशेषताएं हैं: 1) बड़े पैमाने पर: 5.5 मिलियन से अधिक फ्रेम और 440 मिनट की अवधि; 2) बहु-मोडल: IMU संकेत और RGB वीडियो शामिल हैं, जिसमें संयुक्त स्थिति, संयुक्त घूर्णन, SMPL पैरामीटर आदि के साथ टिप्पणी की गई है; 3) विविधता: 146 सूक्ष्म-दानेदार एकल-व्यक्ति और इंटरैक्टिव क्रियाएं शामिल हैं। MINIONS डेटासेट के आधार पर, SparseNet फ्रेमवर्क प्रस्तावित किया गया है, जो IMU और वीडियो की पूरक विशेषताओं की खोज करके मानव गति को कैप्चर करता है, एकल कैमरा और न्यूनतम IMU का उपयोग करके उपभोक्ता-स्तरीय गति कैप्चर की संभावना की खोज करता है।
यह अनुसंधान जो मुख्य समस्या को हल करना चाहता है: उपभोक्ता-स्तरीय उपकरणों (एकल कैमरा + कम IMU) का उपयोग करके सटीक, स्थिर मानव गति कैप्चर कैसे प्राप्त किया जाए, दैनिक अनुप्रयोग आवश्यकताओं को पूरा करने के लिए।
- लागत समस्या: औद्योगिक-स्तरीय प्रणालियों को दर्जनों सिंक्रोनाइज़्ड कैमरे या महंगे पहनने योग्य संवेदक की आवश्यकता होती है, जिसकी लागत हजारों डॉलर तक होती है
- पोर्टेबिलिटी समस्या: मौजूदा प्रणालियां जटिल कॉन्फ़िगरेशन वाली हैं, जो उपयोग के मामलों को सीमित करती हैं
- अनुप्रयोग आवश्यकता: XR, मोबाइल वीडियो निर्माण, लाइव स्ट्रीमिंग आदि उपभोक्ता-स्तरीय अनुप्रयोगों को कम लागत वाली गति कैप्चर की तत्काल आवश्यकता है
- मार्कर-आधारित प्रणालियां: विशेष कपड़ों या बड़ी संख्या में IMU की आवश्यकता होती है, जो प्राकृतिक गति के लिए असुविधाजनक है
- बहु-कैमरा प्रणालियां: जटिल कैलिब्रेशन की आवश्यकता होती है, गतिविधि की सीमा को सीमित करता है
- एकल-कैमरा दृष्टि विधियां: गहराई की अस्पष्टता, अवरोध और तेजी से गति से प्रभावित, समय में कंपन की समस्या है
- IMU विधियां: वैश्विक स्थिति बहाव की समस्या है, लंबे समय की गति कैप्चर को सीमित करता है
मौजूदा डेटासेट TotalCapture छोटे पैमाने पर है, दृश्य एकल हैं, तंग कपड़ों की आवश्यकता है, और दैनिक जीवन से वितरण में भिन्न है। यह पेपर एक बड़े पैमाने पर, विविध डेटासेट बनाने और दृष्टि-जड़त्व संलयन के उपभोक्ता-स्तरीय गति कैप्चर समाधान की खोज करने का लक्ष्य रखता है।
- MINIONS डेटासेट का निर्माण: 5.5 मिलियन फ्रेम, 440 मिनट की बहु-मोडल गति कैप्चर डेटा युक्त, 146 सूक्ष्म-दानेदार क्रियाओं को कवर करते हुए, समृद्ध टिप्पणी जानकारी प्रदान करता है
- SparseNet फ्रेमवर्क का प्रस्ताव: बेयस सिद्धांत पर आधारित दोहरी-शाखा आर्किटेक्चर, दृष्टि और जड़त्व जानकारी को प्रभावी ढंग से संलयित करके गति कैप्चर करता है
- व्यवस्थित प्रयोगात्मक विश्लेषण: विभिन्न संवेदक कॉन्फ़िगरेशन के प्रदर्शन की गहन खोज, 4-6 IMU के साथ एकल कैमरे की प्रभावशीलता को साबित करता है
- बहु-कार्य बेंचमार्क परीक्षण: 2D-3D मुद्रा अनुमान, सूक्ष्म-दानेदार क्रिया मान्यता आदि कार्यों पर बेंचमार्क परिणाम प्रदान करता है
इनपुट: एकल RGB वीडियो अनुक्रम V={Vi}i=1L और विरल IMU संकेत I={Ii}i=0Lआउटपुट: SMPL पैरामीटर (आकार β, मुद्रा θ, वैश्विक विस्थापन t) और 3D संयुक्त स्थिति
बाधा: उपभोक्ता-स्तरीय उपकरणों का उपयोग, न्यूनतम 4 IMU संवेदक
बेयस संलयन रणनीति के आधार पर, संयुक्त घूर्णन θ को एक अव्यक्त चर के रूप में मॉडल किया गया है:
p(θ∣dv,DI)∝p(θ)⋅p(dv∣θ)⋅p(DI∣θ)
जहां:
- p(θ): संयुक्त घूर्णन का पूर्व वितरण (Matrix Fisher वितरण)
- p(dv∣θ): दृष्टि हड्डी दिशा अवलोकन का von Mises-Fisher वितरण
- p(DI∣θ): IMU घूर्णन अवलोकन वितरण
1. दृष्टि शाखा (Visual Branch)
- दृष्टि विशेषताओं को निकालने के लिए Vision Mamba एनकोडर का उपयोग
- आकार डिकोडर: SMPL आकार पैरामीटर β को वापस करता है
- मुद्रा डिकोडर: मुद्रा पूर्व वितरण p(θ) का अनुमान लगाता है
- हड्डी डिकोडर: हड्डी दिशा वितरण p(dv∣θ) का अनुमान लगाता है
2. विरल IMU शाखा (Sparse IMUs Branch)
- Joint Mamba एनकोडर: IMU संकेत से हड्डी स्थिति d0:i की भविष्यवाणी करता है
- IMU Mamba एनकोडर: विरल जड़त्व संकेतों को संसाधित करता है
- घूर्णन डिकोडर: घूर्णन वितरण p(DI∣θ) का अनुमान लगाता है
- अनुवाद डिकोडर: वैश्विक अनुवाद tI का अनुमान लगाता है
3. पश्च-प्रसंस्करण शाखा (Post-processing Branch)
- पश्च संलयन मॉड्यूल: दोनों शाखाओं के संभाव्यता वितरण को एकीकृत करता है
- Smooth Mamba एनकोडर: अंतिम मुद्रा अनुक्रम को सुचारू करता है
- PNP समाधानकर्ता: वैश्विक अनुवाद की गणना करता है
- संभाव्यता संलयन फ्रेमवर्क: Matrix Fisher पूर्व के आधार पर बेयस संलयन, ठोस सैद्धांतिक आधार
- दोहरी-शाखा पूरक डिजाइन: दृष्टि शाखा आकार और स्थिति जानकारी प्रदान करती है, IMU शाखा घूर्णन और उच्च-आवृत्ति गति जानकारी प्रदान करती है
- विरल संवेदक समर्थन: 4-10 IMU के लचीले कॉन्फ़िगरेशन का समर्थन करता है
- अंत-से-अंत प्रशिक्षण: एकीकृत संभाव्यता फ्रेमवर्क संयुक्त अनुकूलन का समर्थन करता है
MINIONS डेटासेट आंकड़े:
- पैमाना: 5.5 मिलियन फ्रेम, 440 मिनट वीडियो
- मोडल: 8 2K कैमरे + 17 नौ-अक्ष IMU + RGB-D स्कैनर
- क्रियाएं: 146 सूक्ष्म-दानेदार क्रियाएं (121 एकल-व्यक्ति + 25 बहु-व्यक्ति इंटरैक्शन)
- प्रतिभागी: 36 अभिनेता समूह (20 एकल-व्यक्ति + 16 बहु-व्यक्ति)
- टिप्पणी: 2D/3D संयुक्त, SMPL पैरामीटर, क्रिया श्रेणी, बनावट जानकारी
डेटा विभाजन:
- प्रशिक्षण सेट: 12 अभिनेता, 3.2 मिलियन फ्रेम
- सत्यापन सेट: 3 अभिनेता, 0.9 मिलियन फ्रेम
- परीक्षण सेट: 5 अभिनेता, 1.4 मिलियन फ्रेम
- μglo: वैश्विक घूर्णन त्रुटि माध्य (डिग्री)
- σglo: वैश्विक घूर्णन त्रुटि विचरण (डिग्री)
- MPJPE: औसत संयुक्त स्थिति त्रुटि (मिलीमीटर)
- Jitter: संयुक्त औसत त्वरण कंपन (102m/s3)
- PA-MPJPE: Procrustes संरेखण के बाद संयुक्त स्थिति त्रुटि
- IMU विधियां: PIP, PNP, IMU-आधारित आधार विधियां
- दृष्टि विधियां: TokenHMR, PromptHMR
- बहु-मोडल विधियां: DiffCap, VIP, Liu et al.
- प्रशिक्षण रणनीति: पहले दृष्टि शाखा को प्रशिक्षित करें (20 epochs), फिर IMU और पश्च-प्रसंस्करण शाखा को प्रशिक्षित करें (200 epochs)
- अनुकूलक: Adam, सीखने की दर 0.001
- बैच आकार: दृष्टि शाखा 64, अन्य 512
- इनपुट रिज़ॉल्यूशन: 512×512
- हार्डवेयर: NVIDIA GTX A100
बहु-मोडल गति कैप्चर प्रदर्शन तुलना:
| विधि प्रकार | #IMUs | #Cams | μglo↓ | σglo↓ | MPJPE↓ | Jitter↓ |
|---|
| IMU-आधारित | 6 | 0 | 11.67 | 8.65 | 57.93 | 1.17 |
| दृष्टि-आधारित | 0 | 1 | 10.27 | 7.20 | 45.61 | 13.02 |
| बहु-मोडल | 6 | 1 | 9.20 | 6.19 | 39.99 | 1.57 |
मुख्य निष्कर्ष:
- 4-6 IMU कॉन्फ़िगरेशन सर्वोत्तम है: लागत और प्रदर्शन के बीच सर्वोत्तम संतुलन प्राप्त करता है
- पूरक लाभ स्पष्ट है: दृष्टि विधि में कंपन अधिक है, IMU विधि में स्थिति बहाव गंभीर है, संलयन के बाद महत्वपूर्ण सुधार होता है
- 8 से अधिक IMU में लाभ घटता है: लागत बढ़ता है लेकिन प्रदर्शन सुधार सीमित है
| विधि | MPJPE↓ | PA-MPJPE↓ |
|---|
| DiffCap | 46.2 | 29.9 |
| VIP | - | 26.0 |
| Liu et al. | 45.8 | - |
| हमारी | 36.7 | 21.6 |
विभिन्न IMU संख्या का प्रदर्शन विश्लेषण:
- 4 IMU: μglo=9.75°, MPJPE=41.53mm
- 6 IMU: μglo=9.20°, MPJPE=39.99mm
- 8 IMU: μglo=8.86°, MPJPE=39.39mm
- 10 IMU: μglo=8.81°, MPJPE=39.43mm
परिणाम दर्शाते हैं कि 6-8 IMU सर्वोत्तम कॉन्फ़िगरेशन है।
2D-3D मुद्रा अनुमान:
- MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
- Dual-Aug (243 फ्रेम): MPJPE=19.22mm, PA-MPJPE=13.95mm
सूक्ष्म-दानेदार क्रिया मान्यता:
- UniFormerV2: Top-1=75.88%, Top-5=96.87%
- VideoMAE: Top-1=73.75%, Top-5=96.01%
Kinetics400 की तुलना में, MINIONS अधिक चुनौतीपूर्ण है।
दृश्य परिणाम दिखाते हैं:
- IMU विधि: समय के साथ स्थिति बहाव जमा होता है, लेकिन घूर्णन स्थिर है
- दृष्टि विधि: स्थिति सटीक है लेकिन समय में कंपन है
- संलयन विधि: दोनों के लाभों को जोड़ता है, स्थिर और सटीक दोनों है
- औद्योगिक समाधान: Perception Neuron, Xsens MVN प्रणाली 17 IMU का उपयोग करती है
- विरल IMU विधियां: अनुकूलन और प्रतिगमन दो प्रकार की प्रणाली
- सीमाएं: लंबे समय की स्थिति बहाव समस्या
- अनुकूलन विधियां: SMPL पैरामीटर को वीडियो फ्रेम में फिट करता है
- प्रतिगमन विधियां: अंत-से-अंत SMPL पैरामीटर सीखना
- चुनौतियां: गहराई की अस्पष्टता, अवरोध, तेजी से गति
- मौजूदा कार्य: TotalCapture आदि छोटे पैमाने पर डेटासेट
- इस पेपर का लाभ: बड़े पैमाने पर, अधिक विविध, दैनिक कपड़े
- तकनीकी व्यवहार्यता: 4-6 IMU के साथ एकल कैमरा स्थिर उपभोक्ता-स्तरीय गति कैप्चर को प्राप्त कर सकता है
- पूरक मूल्य: दृष्टि और जड़त्व संवेदकों में स्पष्ट पूरक लाभ हैं
- डेटासेट योगदान: MINIONS इस क्षेत्र के लिए महत्वपूर्ण डेटा संसाधन प्रदान करता है
- व्यावहारिकता: विधि कई कार्यों पर अच्छी सामान्यीकरण क्षमता प्रदर्शित करती है
- संवेदक निर्भरता: अभी भी कई IMU संवेदकों की आवश्यकता है, जो प्रणाली जटिलता बढ़ाता है
- वास्तविक समय: पेपर वास्तविक समय प्रदर्शन पर विस्तार से चर्चा नहीं करता है
- पर्यावरण अनुकूलन: मुख्य रूप से इनडोर वातावरण में परीक्षण किया गया है, बाहरी जटिल वातावरण में मजबूती पूरी तरह से सत्यापित नहीं है
- कपड़ों का प्रभाव: हालांकि दैनिक कपड़ों का उपयोग किया जाता है, ढीले कपड़ों का IMU सटीकता पर प्रभाव आगे के अनुसंधान की आवश्यकता है
- कम संवेदक: कम IMU का उपयोग करने की संभावना की खोज करना
- वास्तविक समय अनुकूलन: प्रणाली की वास्तविक समय प्रसंस्करण क्षमता में सुधार
- पर्यावरण मजबूती: जटिल वातावरण में प्रदर्शन को बढ़ाना
- अनुप्रयोग विस्तार: अधिक व्यावहारिक अनुप्रयोग परिदृश्यों में विस्तार करना
- डेटासेट योगदान महत्वपूर्ण है: MINIONS वर्तमान में सबसे बड़े पैमाने पर बहु-मोडल गति कैप्चर डेटासेट है, इस क्षेत्र में महत्वपूर्ण रिक्ति को भरता है
- सैद्धांतिक आधार ठोस है: बेयस सिद्धांत पर आधारित संलयन फ्रेमवर्क में अच्छा गणितीय आधार है
- प्रयोगात्मक डिजाइन व्यापक है: विभिन्न संवेदक कॉन्फ़िगरेशन से बहु-कार्य मूल्यांकन तक, प्रयोग व्यापक कवरेज है
- व्यावहारिक मूल्य अधिक है: उपभोक्ता-स्तरीय गति कैप्चर के लिए व्यवहार्य तकनीकी पथ प्रदान करता है
- तकनीकी नवाचार उचित है: दोहरी-शाखा डिजाइन विभिन्न मोडल के लाभों का पूरी तरह से उपयोग करता है
- कम्प्यूटेशनल जटिलता विश्लेषण अपर्याप्त है: विस्तृत कम्प्यूटेशनल ओवरहेड और वास्तविक समय विश्लेषण की कमी है
- विफलता केस विश्लेषण सीमित है: चरम परिस्थितियों में विधि के प्रदर्शन पर चर्चा पर्याप्त नहीं है
- उपयोगकर्ता अनुसंधान अनुपस्थित है: वास्तविक उपयोगकर्ता अनुभव मूल्यांकन की कमी है
- दीर्घकालीन स्थिरता: लंबे समय के उपयोग की स्थिरता सत्यापन अपर्याप्त है
- शैक्षणिक मूल्य: बहु-मोडल गति कैप्चर अनुसंधान के लिए महत्वपूर्ण डेटा और बेंचमार्क प्रदान करता है
- औद्योगिक मूल्य: उपभोक्ता-स्तरीय गति कैप्चर उत्पाद विकास के लिए तकनीकी संदर्भ प्रदान करता है
- पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, अन्य शोधकर्ताओं द्वारा पुनरुत्पादन और सुधार की संभावना है
- समुदाय योगदान: बड़े पैमाने पर डेटासेट इस क्षेत्र के तेजी से विकास को बढ़ावा देगा
- व्यक्तिगत निर्माण: वीडियो ब्लॉगर, सामग्री निर्माता की गति कैप्चर आवश्यकता
- फिटनेस निगरानी: व्यायाम मुद्रा विश्लेषण और सुधार
- गेम मनोरंजन: गति-संवेदनशील गेम, आभासी वास्तविकता अनुप्रयोग
- शिक्षा प्रशिक्षण: क्रिया शिक्षण, कौशल प्रशिक्षण
- चिकित्सा पुनर्वास: गति कार्य मूल्यांकन और पुनर्वास प्रशिक्षण
पेपर 75 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
- क्लासिक गति कैप्चर डेटासेट: Human3.6M, TotalCapture, 3DPW आदि
- SMPL मानव शरीर मॉडल संबंधित कार्य
- गहन शिक्षण मुद्रा अनुमान विधियां
- IMU गति कैप्चर तकनीक
- बहु-मोडल संलयन विधियां
समग्र मूल्यांकन: यह कंप्यूटर विजन अनुसंधान का एक उच्च-गुणवत्ता वाला पेपर है, जिसमें डेटासेट निर्माण और बहु-मोडल संलयन विधि दोनों में महत्वपूर्ण योगदान है। MINIONS डेटासेट का पैमाना और गुणवत्ता इस क्षेत्र पर महत्वपूर्ण प्रभाव डालेगा, SparseNet फ्रेमवर्क उपभोक्ता-स्तरीय गति कैप्चर के लिए एक प्रभावी तकनीकी समाधान प्रदान करता है। पेपर का प्रयोगात्मक डिजाइन व्यापक है, निष्कर्ष विश्वसनीय हैं, और इसमें उच्च शैक्षणिक और व्यावहारिक मूल्य है।