Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
- ID del Artículo: 2407.16341
- Título: Motion Capture from Inertial and Vision Sensors
- Autores: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: Julio de 2024 (preimpresión en arXiv, versión v3 actualizada al 11 de octubre de 2025)
- Enlace del Artículo: https://arxiv.org/abs/2407.16341
La captura de movimiento del cuerpo humano es fundamental para muchas tareas de visión por computadora y gráficos. Aunque los sistemas de captura de movimiento de nivel industrial se utilizan ampliamente en la producción de películas y videojuegos, las soluciones de aplicación personal de nivel consumidor y fáciles de usar aún no están maduras. Para lograr una captura de movimiento humano multimodal precisa utilizando una cámara monocular y un número mínimo de unidades de medición inercial (IMUs), este artículo propone el conjunto de datos MINIONS, un conjunto de datos de captura de movimiento a gran escala recopilado desde sensores inerciales y de visión. El conjunto de datos tiene tres características distintivas: 1) Gran escala: más de 5.5 millones de fotogramas y 440 minutos de duración; 2) Multimodal: contiene señales de IMU y video RGB, anotados con posiciones articulares, rotaciones articulares, parámetros SMPL, etc.; 3) Diversidad: incluye 146 acciones de grano fino de una sola persona e interactivas. Basándose en el conjunto de datos MINIONS, se propone el marco SparseNet, que captura el movimiento humano descubriendo características complementarias de IMU y video, explorando la posibilidad de captura de movimiento de nivel consumidor utilizando una cámara monocular y un número mínimo de IMUs.
El problema central que esta investigación aborda es: ¿Cómo utilizar dispositivos de nivel consumidor (cámara monocular + pocos IMUs) para lograr una captura de movimiento humano precisa y estable que satisfaga las necesidades de aplicaciones cotidianas?
- Problema de Costo: Los sistemas de nivel industrial requieren decenas de cámaras sincronizadas o sensores portátiles costosos, con un costo que alcanza miles de dólares
- Problema de Portabilidad: Los sistemas existentes tienen una configuración compleja, lo que limita los escenarios de uso
- Demanda de Aplicaciones: Las aplicaciones de nivel consumidor como XR, producción de video móvil y transmisión en vivo tienen una necesidad urgente de captura de movimiento de bajo costo
- Sistemas Basados en Marcadores: Requieren ropa especial o muchos IMUs, lo que no es conveniente para el movimiento natural
- Sistemas Multicámara: Requieren calibración compleja, limitando el rango de actividad
- Métodos de Visión Monocular: Se ven afectados por ambigüedad de profundidad, oclusión y movimiento rápido, con temblor temporal
- Métodos Basados en IMU: Sufren de problemas de deriva de posición global, limitando la captura de movimiento a largo plazo
Los conjuntos de datos existentes como TotalCapture tienen escala pequeña, escenas únicas y requieren ropa ajustada, con distribución diferente a la vida cotidiana. Este artículo tiene como objetivo construir un conjunto de datos a gran escala y diversificado, y explorar una solución de captura de movimiento de nivel consumidor basada en la fusión visión-inercial.
- Construcción del Conjunto de Datos MINIONS: Contiene 5.5 millones de fotogramas y 440 minutos de datos de captura de movimiento multimodal, cubriendo 146 acciones de grano fino con información de anotación enriquecida
- Propuesta del Marco SparseNet: Arquitectura de dos ramas basada en teoría bayesiana que fusiona efectivamente información visual e inercial para captura de movimiento
- Análisis Experimental Sistemático: Exploración profunda del desempeño de diferentes configuraciones de sensores, demostrando la efectividad de 4-6 IMUs combinados con cámara monocular
- Pruebas de Referencia Multitarea: Proporciona resultados de referencia en tareas como estimación de pose 2D-3D y reconocimiento de acciones de grano fino
Entrada: Secuencia de video RGB monocular V={Vi}i=1L y señales IMU dispersas I={Ii}i=0LSalida: Parámetros SMPL (forma β, pose θ, desplazamiento global t) y posiciones articulares 3D
Restricción: Uso de dispositivos de nivel consumidor, mínimo 4 sensores IMU
Basado en estrategia de fusión bayesiana, modelando la rotación articular θ como variable latente:
p(θ∣dv,DI)∝p(θ)⋅p(dv∣θ)⋅p(DI∣θ)
Donde:
- p(θ): Distribución previa de rotación articular (distribución Matrix Fisher)
- p(dv∣θ): Distribución von Mises-Fisher de observación de dirección ósea visual
- p(DI∣θ): Distribución de observación de rotación IMU
1. Rama Visual (Visual Branch)
- Codificador Vision Mamba para extracción de características visuales
- Decodificador de forma: Regresión de parámetros de forma SMPL β
- Decodificador de pose: Estimación de distribución previa de pose p(θ)
- Decodificador óseo: Estimación de distribución de dirección ósea p(dv∣θ)
2. Rama IMU Dispersa (Sparse IMUs Branch)
- Codificador Joint Mamba: Predicción de posición ósea desde señales IMU d0:i
- Codificador IMU Mamba: Procesamiento de señales inerciales dispersas
- Decodificador de rotación: Estimación de distribución de rotación p(DI∣θ)
- Decodificador de traslación: Estimación de traslación global tI
3. Rama de Postprocesamiento (Post-processing Branch)
- Módulo de fusión posterior: Integración de distribuciones de probabilidad de ambas ramas
- Codificador Smooth Mamba: Suavizado de secuencia de pose final
- Solucionador PNP: Cálculo de traslación global
- Marco de Fusión Probabilística: Fusión bayesiana basada en previa Matrix Fisher con fundamento teórico sólido
- Diseño de Dos Ramas Complementarias: La rama visual proporciona información de forma y posición, la rama IMU proporciona información de rotación y movimiento de alta frecuencia
- Soporte de Sensores Dispersos: Configuración flexible que soporta 4-10 IMUs
- Entrenamiento Extremo a Extremo: Marco probabilístico unificado que soporta optimización conjunta
Estadísticas del Conjunto de Datos MINIONS:
- Escala: 5.5 millones de fotogramas, 440 minutos de video
- Modalidades: 8 cámaras 2K + 17 IMUs de nueve ejes + escáner RGB-D
- Acciones: 146 acciones de grano fino (121 de una sola persona + 25 de interacción multipersona)
- Participantes: 36 conjuntos de actores (20 de una sola persona + 16 grupos multipersona)
- Anotaciones: Articulaciones 2D/3D, parámetros SMPL, categoría de acción, información de textura
División de Datos:
- Conjunto de entrenamiento: 12 actores, 3.2 millones de fotogramas
- Conjunto de validación: 3 actores, 0.9 millones de fotogramas
- Conjunto de prueba: 5 actores, 1.4 millones de fotogramas
- μglo: Error de rotación global promedio (grados)
- σglo: Varianza de error de rotación global (grados)
- MPJPE: Error de posición articular promedio (milímetros)
- Jitter: Temblor de aceleración articular promedio (102m/s3)
- PA-MPJPE: Error de posición articular después de alineación Procrustes
- Métodos Basados en IMU: PIP, PNP, métodos de referencia basados en IMU
- Métodos Visuales: TokenHMR, PromptHMR
- Métodos Multimodales: DiffCap, VIP, Liu et al.
- Estrategia de Entrenamiento: Preentrenamiento de rama visual primero (20 épocas), luego entrenamiento de rama IMU y postprocesamiento (200 épocas)
- Optimizador: Adam, tasa de aprendizaje 0.001
- Tamaño de Lote: Rama visual 64, otros 512
- Resolución de Entrada: 512×512
- Hardware: NVIDIA GTX A100
Comparación de Desempeño de Captura de Movimiento Multimodal:
| Tipo de Método | #IMUs | #Cámaras | μglo↓ | σglo↓ | MPJPE↓ | Jitter↓ |
|---|
| Basado en IMU | 6 | 0 | 11.67 | 8.65 | 57.93 | 1.17 |
| Basado en Visión | 0 | 1 | 10.27 | 7.20 | 45.61 | 13.02 |
| Multimodal | 6 | 1 | 9.20 | 6.19 | 39.99 | 1.57 |
Hallazgos Clave:
- Configuración Óptima de 4-6 IMUs: Logra el mejor equilibrio entre costo y desempeño
- Ventajas Complementarias Evidentes: El método visual tiene gran temblor, el método IMU tiene seria deriva de posición, la fusión mejora significativamente ambos
- Rendimientos Decrecientes Después de 8 IMUs: Aumenta el costo pero la mejora de desempeño es limitada
| Método | MPJPE↓ | PA-MPJPE↓ |
|---|
| DiffCap | 46.2 | 29.9 |
| VIP | - | 26.0 |
| Liu et al. | 45.8 | - |
| Nuestro | 36.7 | 21.6 |
Análisis de Desempeño con Diferentes Números de IMUs:
- 4 IMUs: μglo=9.75°, MPJPE=41.53mm
- 6 IMUs: μglo=9.20°, MPJPE=39.99mm
- 8 IMUs: μglo=8.86°, MPJPE=39.39mm
- 10 IMUs: μglo=8.81°, MPJPE=39.43mm
Los resultados indican que 6-8 IMUs es la configuración óptima.
Estimación de Pose 2D-3D:
- MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
- Dual-Aug (243 fotogramas): MPJPE=19.22mm, PA-MPJPE=13.95mm
Reconocimiento de Acciones de Grano Fino:
- UniFormerV2: Top-1=75.88%, Top-5=96.87%
- VideoMAE: Top-1=73.75%, Top-5=96.01%
En comparación con Kinetics400, MINIONS es más desafiante.
Los resultados de visualización muestran:
- Método IMU: Acumula deriva de posición con el tiempo, pero rotación estable
- Método Visual: Posición precisa pero con temblor temporal
- Método de Fusión: Combina ventajas de ambos, tanto estable como preciso
- Soluciones Industriales: Perception Neuron, sistemas Xsens MVN utilizan 17 IMUs
- Métodos IMU Dispersos: Dos paradigmas de optimización y regresión
- Limitaciones: Problema de deriva de posición a largo plazo
- Métodos de Optimización: Ajuste de parámetros SMPL a fotogramas de video
- Métodos de Regresión: Aprendizaje extremo a extremo de parámetros SMPL
- Desafíos: Ambigüedad de profundidad, oclusión, movimiento rápido
- Trabajos Existentes: Conjuntos de datos pequeños como TotalCapture
- Ventajas de Este Artículo: Mayor escala, más diversidad, ropa cotidiana
- Viabilidad Técnica: 4-6 IMUs combinados con cámara monocular pueden lograr captura de movimiento estable de nivel consumidor
- Valor Complementario: Los sensores visuales e inerciales tienen ventajas complementarias evidentes
- Contribución del Conjunto de Datos: MINIONS proporciona un recurso de datos importante para este campo
- Practicidad: El método demuestra buena capacidad de generalización en múltiples tareas
- Dependencia de Sensores: Aún requiere múltiples sensores IMU, aumentando la complejidad del sistema
- Tiempo Real: El artículo no discute en detalle el desempeño en tiempo real
- Adaptabilidad Ambiental: Principalmente probado en entornos interiores, la robustez en ambientes exteriores complejos no ha sido suficientemente verificada
- Influencia de la Ropa: Aunque utiliza ropa cotidiana, el impacto de ropa suelta en la precisión del IMU requiere investigación adicional
- Menos Sensores: Explorar la posibilidad de usar menos IMUs
- Optimización en Tiempo Real: Mejorar la capacidad de procesamiento en tiempo real del sistema
- Robustez Ambiental: Mejorar el desempeño en entornos complejos
- Expansión de Aplicaciones: Extender a más escenarios de aplicación práctica
- Contribución Significativa del Conjunto de Datos: MINIONS es el conjunto de datos de captura de movimiento multimodal más grande hasta la fecha, llenando un vacío importante en el campo
- Fundamento Teórico Sólido: El marco de fusión basado en teoría bayesiana tiene una base matemática sólida
- Diseño Experimental Integral: Desde diferentes configuraciones de sensores hasta evaluación multitarea, la cobertura experimental es amplia
- Alto Valor Práctico: Proporciona una ruta técnica viable para captura de movimiento de nivel consumidor
- Innovación Técnica Razonable: El diseño de dos ramas aprovecha plenamente las ventajas de diferentes modalidades
- Análisis de Complejidad Computacional Insuficiente: Falta análisis detallado de costo computacional y desempeño en tiempo real
- Análisis Limitado de Casos de Fallo: La discusión sobre el desempeño del método en situaciones extremas es insuficiente
- Falta de Investigación de Usuarios: Carece de evaluación de experiencia de usuario real
- Estabilidad a Largo Plazo: La verificación de estabilidad para uso a largo plazo es insuficiente
- Valor Académico: Proporciona datos importantes y puntos de referencia para investigación en captura de movimiento multimodal
- Valor Industrial: Proporciona referencia técnica para desarrollo de productos de captura de movimiento de nivel consumidor
- Reproducibilidad: La descripción del método es clara, con potencial para ser reproducida y mejorada por otros investigadores
- Contribución Comunitaria: El conjunto de datos a gran escala promoverá el desarrollo rápido del campo
- Creación Personal: Necesidades de captura de movimiento de videobloggers y creadores de contenido
- Monitoreo de Fitness: Análisis y corrección de postura de ejercicio
- Entretenimiento de Juegos: Aplicaciones de juegos de movimiento y realidad virtual
- Educación y Capacitación: Enseñanza de movimiento y capacitación de habilidades
- Rehabilitación Médica: Evaluación de función motora y capacitación de rehabilitación
El artículo cita 75 referencias relacionadas, incluyendo principalmente:
- Conjuntos de datos clásicos de captura de movimiento: Human3.6M, TotalCapture, 3DPW, etc.
- Trabajos relacionados con el modelo de cuerpo humano SMPL
- Métodos de estimación de pose de aprendizaje profundo
- Tecnología de captura de movimiento basada en IMU
- Métodos de fusión multimodal
Evaluación General: Este es un artículo de investigación de alta calidad en visión por computadora con contribuciones importantes tanto en construcción de conjuntos de datos como en métodos de fusión multimodal. La escala y calidad del conjunto de datos MINIONS tendrán un impacto importante en el campo, y el marco SparseNet proporciona una solución técnica efectiva para captura de movimiento de nivel consumidor. El diseño experimental es integral, las conclusiones son confiables, y posee alto valor académico y práctico.