2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.

Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.

academic

Captura de Movimiento desde Sensores Inerciales y de Visión

Información Básica

ID del Artículo: 2407.16341
Título: Motion Capture from Inertial and Vision Sensors
Autores: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: Julio de 2024 (preimpresión en arXiv, versión v3 actualizada al 11 de octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2407.16341

Resumen

La captura de movimiento del cuerpo humano es fundamental para muchas tareas de visión por computadora y gráficos. Aunque los sistemas de captura de movimiento de nivel industrial se utilizan ampliamente en la producción de películas y videojuegos, las soluciones de aplicación personal de nivel consumidor y fáciles de usar aún no están maduras. Para lograr una captura de movimiento humano multimodal precisa utilizando una cámara monocular y un número mínimo de unidades de medición inercial (IMUs), este artículo propone el conjunto de datos MINIONS, un conjunto de datos de captura de movimiento a gran escala recopilado desde sensores inerciales y de visión. El conjunto de datos tiene tres características distintivas: 1) Gran escala: más de 5.5 millones de fotogramas y 440 minutos de duración; 2) Multimodal: contiene señales de IMU y video RGB, anotados con posiciones articulares, rotaciones articulares, parámetros SMPL, etc.; 3) Diversidad: incluye 146 acciones de grano fino de una sola persona e interactivas. Basándose en el conjunto de datos MINIONS, se propone el marco SparseNet, que captura el movimiento humano descubriendo características complementarias de IMU y video, explorando la posibilidad de captura de movimiento de nivel consumidor utilizando una cámara monocular y un número mínimo de IMUs.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es: ¿Cómo utilizar dispositivos de nivel consumidor (cámara monocular + pocos IMUs) para lograr una captura de movimiento humano precisa y estable que satisfaga las necesidades de aplicaciones cotidianas?

Importancia del Problema

Problema de Costo: Los sistemas de nivel industrial requieren decenas de cámaras sincronizadas o sensores portátiles costosos, con un costo que alcanza miles de dólares
Problema de Portabilidad: Los sistemas existentes tienen una configuración compleja, lo que limita los escenarios de uso
Demanda de Aplicaciones: Las aplicaciones de nivel consumidor como XR, producción de video móvil y transmisión en vivo tienen una necesidad urgente de captura de movimiento de bajo costo

Limitaciones de Métodos Existentes

Sistemas Basados en Marcadores: Requieren ropa especial o muchos IMUs, lo que no es conveniente para el movimiento natural
Sistemas Multicámara: Requieren calibración compleja, limitando el rango de actividad
Métodos de Visión Monocular: Se ven afectados por ambigüedad de profundidad, oclusión y movimiento rápido, con temblor temporal
Métodos Basados en IMU: Sufren de problemas de deriva de posición global, limitando la captura de movimiento a largo plazo

Motivación de la Investigación

Los conjuntos de datos existentes como TotalCapture tienen escala pequeña, escenas únicas y requieren ropa ajustada, con distribución diferente a la vida cotidiana. Este artículo tiene como objetivo construir un conjunto de datos a gran escala y diversificado, y explorar una solución de captura de movimiento de nivel consumidor basada en la fusión visión-inercial.

Contribuciones Principales

Construcción del Conjunto de Datos MINIONS: Contiene 5.5 millones de fotogramas y 440 minutos de datos de captura de movimiento multimodal, cubriendo 146 acciones de grano fino con información de anotación enriquecida
Propuesta del Marco SparseNet: Arquitectura de dos ramas basada en teoría bayesiana que fusiona efectivamente información visual e inercial para captura de movimiento
Análisis Experimental Sistemático: Exploración profunda del desempeño de diferentes configuraciones de sensores, demostrando la efectividad de 4-6 IMUs combinados con cámara monocular
Pruebas de Referencia Multitarea: Proporciona resultados de referencia en tareas como estimación de pose 2D-3D y reconocimiento de acciones de grano fino

Explicación Detallada del Método

Definición de Tareas

Entrada: Secuencia de video RGB monocular $V = \{V_i\}_{i=1}^L$ y señales IMU dispersas $I = \{I_i\}_{i=0}^L$ Salida: Parámetros SMPL (forma $\beta$ , pose $\theta$ , desplazamiento global $t$ ) y posiciones articulares 3D Restricción: Uso de dispositivos de nivel consumidor, mínimo 4 sensores IMU

Arquitectura del Modelo

Fundamento Teórico

Basado en estrategia de fusión bayesiana, modelando la rotación articular $\theta$ como variable latente:

$p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)$

Donde:

$p(\theta)$ : Distribución previa de rotación articular (distribución Matrix Fisher)
$p(d_v|\theta)$ : Distribución von Mises-Fisher de observación de dirección ósea visual
$p(D_I|\theta)$ : Distribución de observación de rotación IMU

Estructura de Red

1. Rama Visual (Visual Branch)

Codificador Vision Mamba para extracción de características visuales
Decodificador de forma: Regresión de parámetros de forma SMPL $\beta$
Decodificador de pose: Estimación de distribución previa de pose $p(\theta)$
Decodificador óseo: Estimación de distribución de dirección ósea $p(d_v|\theta)$

2. Rama IMU Dispersa (Sparse IMUs Branch)

Codificador Joint Mamba: Predicción de posición ósea desde señales IMU $d_{0:i}$
Codificador IMU Mamba: Procesamiento de señales inerciales dispersas
Decodificador de rotación: Estimación de distribución de rotación $p(D_I|\theta)$
Decodificador de traslación: Estimación de traslación global $t_I$

3. Rama de Postprocesamiento (Post-processing Branch)

Módulo de fusión posterior: Integración de distribuciones de probabilidad de ambas ramas
Codificador Smooth Mamba: Suavizado de secuencia de pose final
Solucionador PNP: Cálculo de traslación global

Puntos de Innovación Técnica

Marco de Fusión Probabilística: Fusión bayesiana basada en previa Matrix Fisher con fundamento teórico sólido
Diseño de Dos Ramas Complementarias: La rama visual proporciona información de forma y posición, la rama IMU proporciona información de rotación y movimiento de alta frecuencia
Soporte de Sensores Dispersos: Configuración flexible que soporta 4-10 IMUs
Entrenamiento Extremo a Extremo: Marco probabilístico unificado que soporta optimización conjunta

Configuración Experimental

Conjunto de Datos

Estadísticas del Conjunto de Datos MINIONS:

Escala: 5.5 millones de fotogramas, 440 minutos de video
Modalidades: 8 cámaras 2K + 17 IMUs de nueve ejes + escáner RGB-D
Acciones: 146 acciones de grano fino (121 de una sola persona + 25 de interacción multipersona)
Participantes: 36 conjuntos de actores (20 de una sola persona + 16 grupos multipersona)
Anotaciones: Articulaciones 2D/3D, parámetros SMPL, categoría de acción, información de textura

División de Datos:

Conjunto de entrenamiento: 12 actores, 3.2 millones de fotogramas
Conjunto de validación: 3 actores, 0.9 millones de fotogramas
Conjunto de prueba: 5 actores, 1.4 millones de fotogramas

Métricas de Evaluación

$\mu_{glo}$ : Error de rotación global promedio (grados)
$\sigma_{glo}$ : Varianza de error de rotación global (grados)
MPJPE: Error de posición articular promedio (milímetros)
Jitter: Temblor de aceleración articular promedio ( $10^2 m/s^3$ )
PA-MPJPE: Error de posición articular después de alineación Procrustes

Métodos de Comparación

Métodos Basados en IMU: PIP, PNP, métodos de referencia basados en IMU
Métodos Visuales: TokenHMR, PromptHMR
Métodos Multimodales: DiffCap, VIP, Liu et al.

Detalles de Implementación

Estrategia de Entrenamiento: Preentrenamiento de rama visual primero (20 épocas), luego entrenamiento de rama IMU y postprocesamiento (200 épocas)
Optimizador: Adam, tasa de aprendizaje 0.001
Tamaño de Lote: Rama visual 64, otros 512
Resolución de Entrada: 512×512
Hardware: NVIDIA GTX A100

Resultados Experimentales

Resultados Principales

Comparación de Desempeño de Captura de Movimiento Multimodal:

Tipo de Método	#IMUs	#Cámaras	$\mu_{glo}$ ↓	$\sigma_{glo}$ ↓	MPJPE↓	Jitter↓
Basado en IMU	6	0	11.67	8.65	57.93	1.17
Basado en Visión	0	1	10.27	7.20	45.61	13.02
Multimodal	6	1	9.20	6.19	39.99	1.57

Hallazgos Clave:

Configuración Óptima de 4-6 IMUs: Logra el mejor equilibrio entre costo y desempeño
Ventajas Complementarias Evidentes: El método visual tiene gran temblor, el método IMU tiene seria deriva de posición, la fusión mejora significativamente ambos
Rendimientos Decrecientes Después de 8 IMUs: Aumenta el costo pero la mejora de desempeño es limitada

Comparación en Conjunto de Datos TotalCapture

Método	MPJPE↓	PA-MPJPE↓
DiffCap	46.2	29.9
VIP	-	26.0
Liu et al.	45.8	-
Nuestro	36.7	21.6

Experimentos de Ablación

Análisis de Desempeño con Diferentes Números de IMUs:

4 IMUs: $\mu_{glo}=9.75°$ , MPJPE=41.53mm
6 IMUs: $\mu_{glo}=9.20°$ , MPJPE=39.99mm
8 IMUs: $\mu_{glo}=8.86°$ , MPJPE=39.39mm
10 IMUs: $\mu_{glo}=8.81°$ , MPJPE=39.43mm

Los resultados indican que 6-8 IMUs es la configuración óptima.

Puntos de Referencia de Otras Tareas

Estimación de Pose 2D-3D:

MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
Dual-Aug (243 fotogramas): MPJPE=19.22mm, PA-MPJPE=13.95mm

Reconocimiento de Acciones de Grano Fino:

UniFormerV2: Top-1=75.88%, Top-5=96.87%
VideoMAE: Top-1=73.75%, Top-5=96.01%

En comparación con Kinetics400, MINIONS es más desafiante.

Análisis de Casos

Los resultados de visualización muestran:

Método IMU: Acumula deriva de posición con el tiempo, pero rotación estable
Método Visual: Posición precisa pero con temblor temporal
Método de Fusión: Combina ventajas de ambos, tanto estable como preciso

Trabajo Relacionado

Captura de Movimiento Basada en IMU

Soluciones Industriales: Perception Neuron, sistemas Xsens MVN utilizan 17 IMUs
Métodos IMU Dispersos: Dos paradigmas de optimización y regresión
Limitaciones: Problema de deriva de posición a largo plazo

Captura de Movimiento Visual Monocular

Métodos de Optimización: Ajuste de parámetros SMPL a fotogramas de video
Métodos de Regresión: Aprendizaje extremo a extremo de parámetros SMPL
Desafíos: Ambigüedad de profundidad, oclusión, movimiento rápido

Fusión Multimodal

Trabajos Existentes: Conjuntos de datos pequeños como TotalCapture
Ventajas de Este Artículo: Mayor escala, más diversidad, ropa cotidiana

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: 4-6 IMUs combinados con cámara monocular pueden lograr captura de movimiento estable de nivel consumidor
Valor Complementario: Los sensores visuales e inerciales tienen ventajas complementarias evidentes
Contribución del Conjunto de Datos: MINIONS proporciona un recurso de datos importante para este campo
Practicidad: El método demuestra buena capacidad de generalización en múltiples tareas

Limitaciones

Dependencia de Sensores: Aún requiere múltiples sensores IMU, aumentando la complejidad del sistema
Tiempo Real: El artículo no discute en detalle el desempeño en tiempo real
Adaptabilidad Ambiental: Principalmente probado en entornos interiores, la robustez en ambientes exteriores complejos no ha sido suficientemente verificada
Influencia de la Ropa: Aunque utiliza ropa cotidiana, el impacto de ropa suelta en la precisión del IMU requiere investigación adicional

Direcciones Futuras

Menos Sensores: Explorar la posibilidad de usar menos IMUs
Optimización en Tiempo Real: Mejorar la capacidad de procesamiento en tiempo real del sistema
Robustez Ambiental: Mejorar el desempeño en entornos complejos
Expansión de Aplicaciones: Extender a más escenarios de aplicación práctica

Evaluación Profunda

Fortalezas

Contribución Significativa del Conjunto de Datos: MINIONS es el conjunto de datos de captura de movimiento multimodal más grande hasta la fecha, llenando un vacío importante en el campo
Fundamento Teórico Sólido: El marco de fusión basado en teoría bayesiana tiene una base matemática sólida
Diseño Experimental Integral: Desde diferentes configuraciones de sensores hasta evaluación multitarea, la cobertura experimental es amplia
Alto Valor Práctico: Proporciona una ruta técnica viable para captura de movimiento de nivel consumidor
Innovación Técnica Razonable: El diseño de dos ramas aprovecha plenamente las ventajas de diferentes modalidades

Insuficiencias

Análisis de Complejidad Computacional Insuficiente: Falta análisis detallado de costo computacional y desempeño en tiempo real
Análisis Limitado de Casos de Fallo: La discusión sobre el desempeño del método en situaciones extremas es insuficiente
Falta de Investigación de Usuarios: Carece de evaluación de experiencia de usuario real
Estabilidad a Largo Plazo: La verificación de estabilidad para uso a largo plazo es insuficiente

Impacto

Valor Académico: Proporciona datos importantes y puntos de referencia para investigación en captura de movimiento multimodal
Valor Industrial: Proporciona referencia técnica para desarrollo de productos de captura de movimiento de nivel consumidor
Reproducibilidad: La descripción del método es clara, con potencial para ser reproducida y mejorada por otros investigadores
Contribución Comunitaria: El conjunto de datos a gran escala promoverá el desarrollo rápido del campo

Escenarios Aplicables

Creación Personal: Necesidades de captura de movimiento de videobloggers y creadores de contenido
Monitoreo de Fitness: Análisis y corrección de postura de ejercicio
Entretenimiento de Juegos: Aplicaciones de juegos de movimiento y realidad virtual
Educación y Capacitación: Enseñanza de movimiento y capacitación de habilidades
Rehabilitación Médica: Evaluación de función motora y capacitación de rehabilitación

Referencias

El artículo cita 75 referencias relacionadas, incluyendo principalmente:

Conjuntos de datos clásicos de captura de movimiento: Human3.6M, TotalCapture, 3DPW, etc.
Trabajos relacionados con el modelo de cuerpo humano SMPL
Métodos de estimación de pose de aprendizaje profundo
Tecnología de captura de movimiento basada en IMU
Métodos de fusión multimodal

Evaluación General: Este es un artículo de investigación de alta calidad en visión por computadora con contribuciones importantes tanto en construcción de conjuntos de datos como en métodos de fusión multimodal. La escala y calidad del conjunto de datos MINIONS tendrán un impacto importante en el campo, y el marco SparseNet proporciona una solución técnica efectiva para captura de movimiento de nivel consumidor. El diseño experimental es integral, las conclusiones son confiables, y posee alto valor académico y práctico.