Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
- Identifiant de l'article : 2407.16341
- Titre : Motion Capture from Inertial and Vision Sensors
- Auteurs : Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
- Classification : cs.CV (Vision par Ordinateur)
- Date de Publication : Juillet 2024 (prépublication arXiv, version v3 mise à jour le 11 octobre 2025)
- Lien de l'article : https://arxiv.org/abs/2407.16341
La capture de mouvement du corps humain constitue une base fondamentale pour de nombreuses tâches de vision par ordinateur et d'infographie. Bien que les systèmes de capture de mouvement de niveau industriel soient largement utilisés dans la production cinématographique et vidéoludique, les solutions d'application personnelle de niveau grand public et faciles à utiliser restent immatures. Afin de réaliser une capture de mouvement multimodale précise du corps humain en utilisant une caméra monoculaire et un nombre minimal d'unités de mesure inertielle (IMU), cet article propose l'ensemble de données MINIONS — un ensemble de données volumineux de capture de mouvement collecté à partir de capteurs inertiels et visuels. Cet ensemble de données possède trois caractéristiques distinctives : 1) grande échelle : plus de 5,5 millions de trames et 440 minutes de durée ; 2) multimodalité : contient des signaux IMU et des vidéos RGB, annotés avec des positions articulaires, des rotations articulaires, des paramètres SMPL, etc. ; 3) diversité : comprend 146 mouvements granulaires fins à une personne et en interaction. Sur la base de l'ensemble de données MINIONS, le cadre SparseNet est proposé, qui capture le mouvement humain en découvrant les caractéristiques complémentaires des IMU et de la vidéo, explorant la possibilité d'utiliser une caméra monoculaire et un nombre minimal d'IMU pour la capture de mouvement de niveau grand public.
Le problème fondamental que cette recherche vise à résoudre est : comment utiliser des appareils grand public (caméra monoculaire + nombre minimal d'IMU) pour réaliser une capture de mouvement humain précise et stable, afin de satisfaire les besoins des applications quotidiennes.
- Problème de coût : Les systèmes de niveau industriel nécessitent des dizaines de caméras synchronisées ou des capteurs portables coûteux, avec un coût atteignant plusieurs milliers de dollars
- Problème de portabilité : Les systèmes existants ont une configuration complexe, limitant les scénarios d'utilisation
- Demande d'applications : Les applications grand public telles que la réalité étendue (XR), la production vidéo mobile et la diffusion en direct ont un besoin urgent de capture de mouvement à faible coût
- Systèmes basés sur des marqueurs : Nécessitent des vêtements spécialisés ou de nombreux IMU, peu pratiques pour les mouvements naturels
- Systèmes multicaméras : Nécessitent un étalonnage complexe, limitant la plage d'activité
- Méthodes de vision monoculaire : Affectées par l'ambiguïté de profondeur, l'occlusion et les mouvements rapides, présentant un scintillement temporel
- Méthodes basées sur IMU : Souffrent de dérive de position globale, limitant la capture de mouvement à long terme
Les ensembles de données existants comme TotalCapture sont de petite échelle, avec des scènes uniques et nécessitant des vêtements moulants, présentant une distribution différente de la vie quotidienne. Cet article vise à construire un ensemble de données volumineux et diversifié, et à explorer une solution de capture de mouvement grand public basée sur la fusion vision-inertielle.
- Construction de l'ensemble de données MINIONS : Contient 5,5 millions de trames, 440 minutes de données de capture de mouvement multimodales, couvrant 146 mouvements granulaires fins, fournissant des informations d'annotation riches
- Proposition du cadre SparseNet : Architecture à double branche basée sur la théorie bayésienne, fusionnant efficacement les informations visuelles et inertielles pour la capture de mouvement
- Analyse expérimentale systématique : Exploration approfondie des performances de différentes configurations de capteurs, démontrant l'efficacité de 4 à 6 IMU associés à une caméra monoculaire
- Évaluation comparative multitâche : Fournit des résultats de référence sur l'estimation de pose 2D-3D, la reconnaissance d'action granulaire fine et d'autres tâches
Entrée : Séquence vidéo RGB monoculaire V={Vi}i=1L et signaux IMU clairsemés I={Ii}i=0LSortie : Paramètres SMPL (forme β, pose θ, déplacement global t) et positions articulaires 3D
Contrainte : Utilisation d'appareils grand public, minimum 4 capteurs IMU
Basé sur une stratégie de fusion bayésienne, la rotation articulaire θ est modélisée comme une variable latente :
p(θ∣dv,DI)∝p(θ)⋅p(dv∣θ)⋅p(DI∣θ)
Où :
- p(θ) : Distribution a priori de la rotation articulaire (distribution Matrix Fisher)
- p(dv∣θ) : Distribution von Mises-Fisher de l'observation de direction osseuse visuelle
- p(DI∣θ) : Distribution d'observation de rotation IMU
1. Branche Visuelle (Visual Branch)
- Utilise un encodeur Vision Mamba pour extraire les caractéristiques visuelles
- Décodeur de forme : Régression des paramètres de forme SMPL β
- Décodeur de pose : Estimation de la distribution a priori de pose p(θ)
- Décodeur d'os : Estimation de la distribution de direction osseuse p(dv∣θ)
2. Branche IMU Clairsemée (Sparse IMUs Branch)
- Encodeur Joint Mamba : Prédiction de la position osseuse d0:i à partir des signaux IMU
- Encodeur IMU Mamba : Traitement des signaux inertiels clairsemés
- Décodeur de rotation : Estimation de la distribution de rotation p(DI∣θ)
- Décodeur de translation : Estimation de la translation globale tI
3. Branche de Post-traitement (Post-processing Branch)
- Module de fusion a posteriori : Intégration des distributions de probabilité des deux branches
- Encodeur Smooth Mamba : Lissage de la séquence de pose finale
- Solveur PNP : Calcul de la translation globale
- Cadre de fusion probabiliste : Fusion bayésienne basée sur un a priori Matrix Fisher, avec des fondements théoriques solides
- Conception à double branche complémentaire : La branche visuelle fournit les informations de forme et de position, la branche IMU fournit les informations de rotation et de mouvement haute fréquence
- Support de capteurs clairsemés : Configuration flexible supportant 4 à 10 IMU
- Entraînement bout en bout : Le cadre probabiliste unifié supporte l'optimisation conjointe
Statistiques de l'ensemble de données MINIONS :
- Échelle : 5,5 millions de trames, 440 minutes de vidéo
- Modalités : 8 caméras 2K + 17 IMU neuf axes + scanner RGB-D
- Mouvements : 146 mouvements granulaires fins (121 à une personne + 25 interactions multipersonne)
- Participants : 36 groupes d'acteurs (20 individuels + 16 groupes multipersonne)
- Annotations : Articulations 2D/3D, paramètres SMPL, catégories d'action, informations de texture
Division des données :
- Ensemble d'entraînement : 12 acteurs, 3,2 millions de trames
- Ensemble de validation : 3 acteurs, 0,9 million de trames
- Ensemble de test : 5 acteurs, 1,4 million de trames
- μglo : Erreur moyenne de rotation globale (degrés)
- σglo : Variance d'erreur de rotation globale (degrés)
- MPJPE : Erreur moyenne de position articulaire (millimètres)
- Jitter : Scintillement d'accélération articulaire moyenne (102m/s3)
- PA-MPJPE : Erreur de position articulaire après alignement Procrustes
- Méthodes basées sur IMU : PIP, PNP, méthodes de base basées sur IMU
- Méthodes visuelles : TokenHMR, PromptHMR
- Méthodes multimodales : DiffCap, VIP, Liu et al.
- Stratégie d'entraînement : Préentraînement de la branche visuelle (20 epochs), puis entraînement des branches IMU et post-traitement (200 epochs)
- Optimiseur : Adam, taux d'apprentissage 0,001
- Taille de lot : Branche visuelle 64, autres 512
- Résolution d'entrée : 512×512
- Matériel : NVIDIA GTX A100
Comparaison des performances de capture de mouvement multimodale :
| Type de Méthode | #IMUs | #Caméras | μglo↓ | σglo↓ | MPJPE↓ | Jitter↓ |
|---|
| Basée sur IMU | 6 | 0 | 11,67 | 8,65 | 57,93 | 1,17 |
| Basée sur vision | 0 | 1 | 10,27 | 7,20 | 45,61 | 13,02 |
| Multimodale | 6 | 1 | 9,20 | 6,19 | 39,99 | 1,57 |
Découvertes clés :
- Configuration optimale de 4 à 6 IMU : Atteint le meilleur équilibre entre coût et performance
- Avantages complémentaires évidents : Les méthodes visuelles présentent un grand scintillement, les méthodes IMU souffrent d'une dérive de position grave, la fusion améliore significativement les deux
- Rendements décroissants au-delà de 8 IMU : L'augmentation des coûts avec des améliorations de performance limitées
| Méthode | MPJPE↓ | PA-MPJPE↓ |
|---|
| DiffCap | 46,2 | 29,9 |
| VIP | - | 26,0 |
| Liu et al. | 45,8 | - |
| Nôtre | 36,7 | 21,6 |
Analyse des performances selon le nombre d'IMU :
- 4 IMU : μglo=9,75°, MPJPE=41,53 mm
- 6 IMU : μglo=9,20°, MPJPE=39,99 mm
- 8 IMU : μglo=8,86°, MPJPE=39,39 mm
- 10 IMU : μglo=8,81°, MPJPE=39,43 mm
Les résultats indiquent que 6 à 8 IMU constituent la configuration optimale.
Estimation de pose 2D-3D :
- MotionBERT : MPJPE=18,75 mm, PA-MPJPE=13,44 mm
- Dual-Aug (243 trames) : MPJPE=19,22 mm, PA-MPJPE=13,95 mm
Reconnaissance d'action granulaire fine :
- UniFormerV2 : Top-1=75,88%, Top-5=96,87%
- VideoMAE : Top-1=73,75%, Top-5=96,01%
Par rapport à Kinetics400, MINIONS est plus difficile.
Les résultats de visualisation montrent :
- Méthode IMU : Accumulation de dérive de position au fil du temps, mais rotation stable
- Méthode visuelle : Position précise mais scintillement temporel
- Méthode de fusion : Combine les avantages des deux, stable et précis
- Solutions industrielles : Systèmes Perception Neuron, Xsens MVN utilisant 17 IMU
- Méthodes IMU clairsemées : Deux paradigmes d'optimisation et de régression
- Limitations : Problème de dérive de position à long terme
- Méthodes d'optimisation : Ajustement des paramètres SMPL aux trames vidéo
- Méthodes de régression : Apprentissage bout en bout des paramètres SMPL
- Défis : Ambiguïté de profondeur, occlusion, mouvements rapides
- Travaux existants : Ensembles de données de petite échelle comme TotalCapture
- Avantages de cet article : Échelle plus grande, plus diversifiée, vêtements quotidiens
- Faisabilité technique : 4 à 6 IMU associés à une caméra monoculaire peuvent réaliser une capture de mouvement stable de niveau grand public
- Valeur complémentaire : Les capteurs visuels et inertiels présentent des avantages complémentaires évidents
- Contribution de l'ensemble de données : MINIONS fournit une ressource de données importante pour ce domaine
- Praticité : La méthode démontre une bonne capacité de généralisation sur plusieurs tâches
- Dépendance aux capteurs : Nécessite toujours plusieurs capteurs IMU, augmentant la complexité du système
- Temps réel : L'article ne discute pas en détail des performances en temps réel
- Adaptabilité environnementale : Principalement testé en environnement intérieur, la robustesse en environnement extérieur complexe n'est pas suffisamment validée
- Influence des vêtements : Bien que des vêtements quotidiens soient utilisés, l'impact des vêtements amples sur la précision des IMU nécessite une étude plus approfondie
- Moins de capteurs : Exploration de la possibilité d'utiliser moins d'IMU
- Optimisation en temps réel : Amélioration de la capacité de traitement en temps réel du système
- Robustesse environnementale : Amélioration des performances dans les environnements complexes
- Extension d'applications : Expansion vers plus de scénarios d'application pratiques
- Contribution significative de l'ensemble de données : MINIONS est actuellement le plus grand ensemble de données de capture de mouvement multimodale, comblant une lacune importante dans ce domaine
- Fondements théoriques solides : Le cadre de fusion basé sur la théorie bayésienne possède une base mathématique solide
- Conception expérimentale complète : Des configurations de capteurs différentes à l'évaluation multitâche, la couverture expérimentale est large
- Valeur pratique élevée : Fournit un chemin technologique viable pour la capture de mouvement grand public
- Innovation technique raisonnable : La conception à double branche exploite pleinement les avantages des différentes modalités
- Analyse de complexité de calcul insuffisante : Manque d'analyse détaillée des frais généraux de calcul et des performances en temps réel
- Analyse limitée des cas d'échec : Discussion insuffisante sur les performances de la méthode dans les cas extrêmes
- Absence d'étude utilisateur : Manque d'évaluation de l'expérience utilisateur réelle
- Stabilité à long terme : Validation insuffisante de la stabilité pour une utilisation prolongée
- Valeur académique : Fournit des données et des références importantes pour la recherche en capture de mouvement multimodale
- Valeur industrielle : Fournit une référence technologique pour le développement de produits de capture de mouvement grand public
- Reproductibilité : Description claire de la méthode, susceptible d'être reproduite et améliorée par d'autres chercheurs
- Contribution communautaire : L'ensemble de données volumineux favorisera le développement rapide de ce domaine
- Création personnelle : Besoins de capture de mouvement pour les vidéastes, créateurs de contenu
- Surveillance du fitness : Analyse et correction de la posture d'exercice
- Jeux et divertissement : Jeux de capteurs de mouvement, applications de réalité virtuelle
- Éducation et formation : Enseignement des mouvements, entraînement aux compétences
- Médecine et réadaptation : Évaluation de la fonction motrice et entraînement de réadaptation
L'article cite 75 articles connexes, comprenant principalement :
- Ensembles de données classiques de capture de mouvement : Human3.6M, TotalCapture, 3DPW, etc.
- Travaux connexes du modèle de corps humain SMPL
- Méthodes d'estimation de pose d'apprentissage profond
- Technologie de capture de mouvement par IMU
- Méthodes de fusion multimodale
Évaluation Générale : Ceci est un article de recherche de haute qualité en vision par ordinateur, avec des contributions importantes à la fois dans la construction d'ensembles de données et dans les méthodes de fusion multimodale. L'ensemble de données MINIONS, par son échelle et sa qualité, aura un impact important sur ce domaine. Le cadre SparseNet fournit une solution technologique efficace pour la capture de mouvement grand public. La conception expérimentale de l'article est complète, les conclusions sont fiables, et il possède une valeur académique et pratique élevée.