2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

Captura de Movimiento desde Sensores Inerciales y de Visión

Información Básica

  • ID del Artículo: 2407.16341
  • Título: Motion Capture from Inertial and Vision Sensors
  • Autores: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: Julio de 2024 (preimpresión en arXiv, versión v3 actualizada al 11 de octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2407.16341

Resumen

La captura de movimiento del cuerpo humano es fundamental para muchas tareas de visión por computadora y gráficos. Aunque los sistemas de captura de movimiento de nivel industrial se utilizan ampliamente en la producción de películas y videojuegos, las soluciones de aplicación personal de nivel consumidor y fáciles de usar aún no están maduras. Para lograr una captura de movimiento humano multimodal precisa utilizando una cámara monocular y un número mínimo de unidades de medición inercial (IMUs), este artículo propone el conjunto de datos MINIONS, un conjunto de datos de captura de movimiento a gran escala recopilado desde sensores inerciales y de visión. El conjunto de datos tiene tres características distintivas: 1) Gran escala: más de 5.5 millones de fotogramas y 440 minutos de duración; 2) Multimodal: contiene señales de IMU y video RGB, anotados con posiciones articulares, rotaciones articulares, parámetros SMPL, etc.; 3) Diversidad: incluye 146 acciones de grano fino de una sola persona e interactivas. Basándose en el conjunto de datos MINIONS, se propone el marco SparseNet, que captura el movimiento humano descubriendo características complementarias de IMU y video, explorando la posibilidad de captura de movimiento de nivel consumidor utilizando una cámara monocular y un número mínimo de IMUs.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es: ¿Cómo utilizar dispositivos de nivel consumidor (cámara monocular + pocos IMUs) para lograr una captura de movimiento humano precisa y estable que satisfaga las necesidades de aplicaciones cotidianas?

Importancia del Problema

  1. Problema de Costo: Los sistemas de nivel industrial requieren decenas de cámaras sincronizadas o sensores portátiles costosos, con un costo que alcanza miles de dólares
  2. Problema de Portabilidad: Los sistemas existentes tienen una configuración compleja, lo que limita los escenarios de uso
  3. Demanda de Aplicaciones: Las aplicaciones de nivel consumidor como XR, producción de video móvil y transmisión en vivo tienen una necesidad urgente de captura de movimiento de bajo costo

Limitaciones de Métodos Existentes

  1. Sistemas Basados en Marcadores: Requieren ropa especial o muchos IMUs, lo que no es conveniente para el movimiento natural
  2. Sistemas Multicámara: Requieren calibración compleja, limitando el rango de actividad
  3. Métodos de Visión Monocular: Se ven afectados por ambigüedad de profundidad, oclusión y movimiento rápido, con temblor temporal
  4. Métodos Basados en IMU: Sufren de problemas de deriva de posición global, limitando la captura de movimiento a largo plazo

Motivación de la Investigación

Los conjuntos de datos existentes como TotalCapture tienen escala pequeña, escenas únicas y requieren ropa ajustada, con distribución diferente a la vida cotidiana. Este artículo tiene como objetivo construir un conjunto de datos a gran escala y diversificado, y explorar una solución de captura de movimiento de nivel consumidor basada en la fusión visión-inercial.

Contribuciones Principales

  1. Construcción del Conjunto de Datos MINIONS: Contiene 5.5 millones de fotogramas y 440 minutos de datos de captura de movimiento multimodal, cubriendo 146 acciones de grano fino con información de anotación enriquecida
  2. Propuesta del Marco SparseNet: Arquitectura de dos ramas basada en teoría bayesiana que fusiona efectivamente información visual e inercial para captura de movimiento
  3. Análisis Experimental Sistemático: Exploración profunda del desempeño de diferentes configuraciones de sensores, demostrando la efectividad de 4-6 IMUs combinados con cámara monocular
  4. Pruebas de Referencia Multitarea: Proporciona resultados de referencia en tareas como estimación de pose 2D-3D y reconocimiento de acciones de grano fino

Explicación Detallada del Método

Definición de Tareas

Entrada: Secuencia de video RGB monocular V={Vi}i=1LV = \{V_i\}_{i=1}^L y señales IMU dispersas I={Ii}i=0LI = \{I_i\}_{i=0}^LSalida: Parámetros SMPL (forma β\beta, pose θ\theta, desplazamiento global tt) y posiciones articulares 3D Restricción: Uso de dispositivos de nivel consumidor, mínimo 4 sensores IMU

Arquitectura del Modelo

Fundamento Teórico

Basado en estrategia de fusión bayesiana, modelando la rotación articular θ\theta como variable latente:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

Donde:

  • p(θ)p(\theta): Distribución previa de rotación articular (distribución Matrix Fisher)
  • p(dvθ)p(d_v|\theta): Distribución von Mises-Fisher de observación de dirección ósea visual
  • p(DIθ)p(D_I|\theta): Distribución de observación de rotación IMU

Estructura de Red

1. Rama Visual (Visual Branch)

  • Codificador Vision Mamba para extracción de características visuales
  • Decodificador de forma: Regresión de parámetros de forma SMPL β\beta
  • Decodificador de pose: Estimación de distribución previa de pose p(θ)p(\theta)
  • Decodificador óseo: Estimación de distribución de dirección ósea p(dvθ)p(d_v|\theta)

2. Rama IMU Dispersa (Sparse IMUs Branch)

  • Codificador Joint Mamba: Predicción de posición ósea desde señales IMU d0:id_{0:i}
  • Codificador IMU Mamba: Procesamiento de señales inerciales dispersas
  • Decodificador de rotación: Estimación de distribución de rotación p(DIθ)p(D_I|\theta)
  • Decodificador de traslación: Estimación de traslación global tIt_I

3. Rama de Postprocesamiento (Post-processing Branch)

  • Módulo de fusión posterior: Integración de distribuciones de probabilidad de ambas ramas
  • Codificador Smooth Mamba: Suavizado de secuencia de pose final
  • Solucionador PNP: Cálculo de traslación global

Puntos de Innovación Técnica

  1. Marco de Fusión Probabilística: Fusión bayesiana basada en previa Matrix Fisher con fundamento teórico sólido
  2. Diseño de Dos Ramas Complementarias: La rama visual proporciona información de forma y posición, la rama IMU proporciona información de rotación y movimiento de alta frecuencia
  3. Soporte de Sensores Dispersos: Configuración flexible que soporta 4-10 IMUs
  4. Entrenamiento Extremo a Extremo: Marco probabilístico unificado que soporta optimización conjunta

Configuración Experimental

Conjunto de Datos

Estadísticas del Conjunto de Datos MINIONS:

  • Escala: 5.5 millones de fotogramas, 440 minutos de video
  • Modalidades: 8 cámaras 2K + 17 IMUs de nueve ejes + escáner RGB-D
  • Acciones: 146 acciones de grano fino (121 de una sola persona + 25 de interacción multipersona)
  • Participantes: 36 conjuntos de actores (20 de una sola persona + 16 grupos multipersona)
  • Anotaciones: Articulaciones 2D/3D, parámetros SMPL, categoría de acción, información de textura

División de Datos:

  • Conjunto de entrenamiento: 12 actores, 3.2 millones de fotogramas
  • Conjunto de validación: 3 actores, 0.9 millones de fotogramas
  • Conjunto de prueba: 5 actores, 1.4 millones de fotogramas

Métricas de Evaluación

  1. μglo\mu_{glo}: Error de rotación global promedio (grados)
  2. σglo\sigma_{glo}: Varianza de error de rotación global (grados)
  3. MPJPE: Error de posición articular promedio (milímetros)
  4. Jitter: Temblor de aceleración articular promedio (102m/s310^2 m/s^3)
  5. PA-MPJPE: Error de posición articular después de alineación Procrustes

Métodos de Comparación

  • Métodos Basados en IMU: PIP, PNP, métodos de referencia basados en IMU
  • Métodos Visuales: TokenHMR, PromptHMR
  • Métodos Multimodales: DiffCap, VIP, Liu et al.

Detalles de Implementación

  • Estrategia de Entrenamiento: Preentrenamiento de rama visual primero (20 épocas), luego entrenamiento de rama IMU y postprocesamiento (200 épocas)
  • Optimizador: Adam, tasa de aprendizaje 0.001
  • Tamaño de Lote: Rama visual 64, otros 512
  • Resolución de Entrada: 512×512
  • Hardware: NVIDIA GTX A100

Resultados Experimentales

Resultados Principales

Comparación de Desempeño de Captura de Movimiento Multimodal:

Tipo de Método#IMUs#Cámarasμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
Basado en IMU6011.678.6557.931.17
Basado en Visión0110.277.2045.6113.02
Multimodal619.206.1939.991.57

Hallazgos Clave:

  1. Configuración Óptima de 4-6 IMUs: Logra el mejor equilibrio entre costo y desempeño
  2. Ventajas Complementarias Evidentes: El método visual tiene gran temblor, el método IMU tiene seria deriva de posición, la fusión mejora significativamente ambos
  3. Rendimientos Decrecientes Después de 8 IMUs: Aumenta el costo pero la mejora de desempeño es limitada

Comparación en Conjunto de Datos TotalCapture

MétodoMPJPE↓PA-MPJPE↓
DiffCap46.229.9
VIP-26.0
Liu et al.45.8-
Nuestro36.721.6

Experimentos de Ablación

Análisis de Desempeño con Diferentes Números de IMUs:

  • 4 IMUs: μglo=9.75°\mu_{glo}=9.75°, MPJPE=41.53mm
  • 6 IMUs: μglo=9.20°\mu_{glo}=9.20°, MPJPE=39.99mm
  • 8 IMUs: μglo=8.86°\mu_{glo}=8.86°, MPJPE=39.39mm
  • 10 IMUs: μglo=8.81°\mu_{glo}=8.81°, MPJPE=39.43mm

Los resultados indican que 6-8 IMUs es la configuración óptima.

Puntos de Referencia de Otras Tareas

Estimación de Pose 2D-3D:

  • MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
  • Dual-Aug (243 fotogramas): MPJPE=19.22mm, PA-MPJPE=13.95mm

Reconocimiento de Acciones de Grano Fino:

  • UniFormerV2: Top-1=75.88%, Top-5=96.87%
  • VideoMAE: Top-1=73.75%, Top-5=96.01%

En comparación con Kinetics400, MINIONS es más desafiante.

Análisis de Casos

Los resultados de visualización muestran:

  1. Método IMU: Acumula deriva de posición con el tiempo, pero rotación estable
  2. Método Visual: Posición precisa pero con temblor temporal
  3. Método de Fusión: Combina ventajas de ambos, tanto estable como preciso

Trabajo Relacionado

Captura de Movimiento Basada en IMU

  • Soluciones Industriales: Perception Neuron, sistemas Xsens MVN utilizan 17 IMUs
  • Métodos IMU Dispersos: Dos paradigmas de optimización y regresión
  • Limitaciones: Problema de deriva de posición a largo plazo

Captura de Movimiento Visual Monocular

  • Métodos de Optimización: Ajuste de parámetros SMPL a fotogramas de video
  • Métodos de Regresión: Aprendizaje extremo a extremo de parámetros SMPL
  • Desafíos: Ambigüedad de profundidad, oclusión, movimiento rápido

Fusión Multimodal

  • Trabajos Existentes: Conjuntos de datos pequeños como TotalCapture
  • Ventajas de Este Artículo: Mayor escala, más diversidad, ropa cotidiana

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: 4-6 IMUs combinados con cámara monocular pueden lograr captura de movimiento estable de nivel consumidor
  2. Valor Complementario: Los sensores visuales e inerciales tienen ventajas complementarias evidentes
  3. Contribución del Conjunto de Datos: MINIONS proporciona un recurso de datos importante para este campo
  4. Practicidad: El método demuestra buena capacidad de generalización en múltiples tareas

Limitaciones

  1. Dependencia de Sensores: Aún requiere múltiples sensores IMU, aumentando la complejidad del sistema
  2. Tiempo Real: El artículo no discute en detalle el desempeño en tiempo real
  3. Adaptabilidad Ambiental: Principalmente probado en entornos interiores, la robustez en ambientes exteriores complejos no ha sido suficientemente verificada
  4. Influencia de la Ropa: Aunque utiliza ropa cotidiana, el impacto de ropa suelta en la precisión del IMU requiere investigación adicional

Direcciones Futuras

  1. Menos Sensores: Explorar la posibilidad de usar menos IMUs
  2. Optimización en Tiempo Real: Mejorar la capacidad de procesamiento en tiempo real del sistema
  3. Robustez Ambiental: Mejorar el desempeño en entornos complejos
  4. Expansión de Aplicaciones: Extender a más escenarios de aplicación práctica

Evaluación Profunda

Fortalezas

  1. Contribución Significativa del Conjunto de Datos: MINIONS es el conjunto de datos de captura de movimiento multimodal más grande hasta la fecha, llenando un vacío importante en el campo
  2. Fundamento Teórico Sólido: El marco de fusión basado en teoría bayesiana tiene una base matemática sólida
  3. Diseño Experimental Integral: Desde diferentes configuraciones de sensores hasta evaluación multitarea, la cobertura experimental es amplia
  4. Alto Valor Práctico: Proporciona una ruta técnica viable para captura de movimiento de nivel consumidor
  5. Innovación Técnica Razonable: El diseño de dos ramas aprovecha plenamente las ventajas de diferentes modalidades

Insuficiencias

  1. Análisis de Complejidad Computacional Insuficiente: Falta análisis detallado de costo computacional y desempeño en tiempo real
  2. Análisis Limitado de Casos de Fallo: La discusión sobre el desempeño del método en situaciones extremas es insuficiente
  3. Falta de Investigación de Usuarios: Carece de evaluación de experiencia de usuario real
  4. Estabilidad a Largo Plazo: La verificación de estabilidad para uso a largo plazo es insuficiente

Impacto

  1. Valor Académico: Proporciona datos importantes y puntos de referencia para investigación en captura de movimiento multimodal
  2. Valor Industrial: Proporciona referencia técnica para desarrollo de productos de captura de movimiento de nivel consumidor
  3. Reproducibilidad: La descripción del método es clara, con potencial para ser reproducida y mejorada por otros investigadores
  4. Contribución Comunitaria: El conjunto de datos a gran escala promoverá el desarrollo rápido del campo

Escenarios Aplicables

  1. Creación Personal: Necesidades de captura de movimiento de videobloggers y creadores de contenido
  2. Monitoreo de Fitness: Análisis y corrección de postura de ejercicio
  3. Entretenimiento de Juegos: Aplicaciones de juegos de movimiento y realidad virtual
  4. Educación y Capacitación: Enseñanza de movimiento y capacitación de habilidades
  5. Rehabilitación Médica: Evaluación de función motora y capacitación de rehabilitación

Referencias

El artículo cita 75 referencias relacionadas, incluyendo principalmente:

  • Conjuntos de datos clásicos de captura de movimiento: Human3.6M, TotalCapture, 3DPW, etc.
  • Trabajos relacionados con el modelo de cuerpo humano SMPL
  • Métodos de estimación de pose de aprendizaje profundo
  • Tecnología de captura de movimiento basada en IMU
  • Métodos de fusión multimodal

Evaluación General: Este es un artículo de investigación de alta calidad en visión por computadora con contribuciones importantes tanto en construcción de conjuntos de datos como en métodos de fusión multimodal. La escala y calidad del conjunto de datos MINIONS tendrán un impacto importante en el campo, y el marco SparseNet proporciona una solución técnica efectiva para captura de movimiento de nivel consumidor. El diseño experimental es integral, las conclusiones son confiables, y posee alto valor académico y práctico.