2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

Cattura del Movimento da Sensori Inerziali e Visivi

Informazioni Fondamentali

  • ID Articolo: 2407.16341
  • Titolo: Motion Capture from Inertial and Vision Sensors
  • Autori: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: Luglio 2024 (preprint arXiv, versione v3 aggiornata al 11 ottobre 2025)
  • Link dell'Articolo: https://arxiv.org/abs/2407.16341

Riassunto

La cattura del movimento umano rappresenta una base fondamentale per numerosi compiti di computer vision e grafica. Sebbene i sistemi di cattura del movimento di livello industriale trovino ampia applicazione nella produzione cinematografica e videoludica, le soluzioni consumer-grade e facili da usare per applicazioni personali rimangono ancora immature. Al fine di realizzare una cattura accurata e multimodale del movimento umano utilizzando una singola fotocamera monoculare e un numero minimo di unità di misurazione inerziale (IMU), questo articolo propone il dataset MINIONS, un ampio dataset di cattura del movimento raccolto da sensori inerziali e visivi. Il dataset presenta tre caratteristiche distintive: 1) grande scala: oltre 5,5 milioni di fotogrammi e 440 minuti di durata; 2) multimodalità: contiene segnali IMU e video RGB, annotati con posizioni articolari, rotazioni articolari, parametri SMPL e altro; 3) diversità: include 146 azioni finemente granulari sia singole che interattive. Basandosi sul dataset MINIONS, viene proposto il framework SparseNet, che cattura il movimento umano scoprendo caratteristiche complementari di IMU e video, esplorando la possibilità di cattura del movimento consumer-grade utilizzando una fotocamera monoculare e un numero minimo di IMU.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale che questa ricerca affronta è: come implementare una cattura accurata e stabile del movimento umano utilizzando dispositivi consumer-grade (fotocamera monoculare + pochi IMU) per soddisfare le esigenze di applicazioni quotidiane.

Importanza del Problema

  1. Questione dei Costi: I sistemi di livello industriale richiedono decine di fotocamere sincronizzate o sensori indossabili costosi, con costi che raggiungono migliaia di dollari
  2. Questione della Portabilità: I sistemi esistenti hanno configurazioni complesse, limitando gli scenari di utilizzo
  3. Esigenze Applicative: Applicazioni consumer-grade come XR, produzione video mobile e streaming live hanno un'esigenza urgente di cattura del movimento a basso costo

Limitazioni dei Metodi Esistenti

  1. Sistemi Basati su Marcatori: Richiedono abbigliamento speciale o numerosi IMU, scomodi per il movimento naturale
  2. Sistemi Multi-Fotocamera: Richiedono calibrazione complessa, limitando l'intervallo di attività
  3. Metodi di Visione Monoculare: Affetti da ambiguità di profondità, occlusione e movimento rapido, con tremolii temporali
  4. Metodi Basati su IMU: Presentano problemi di deriva della posizione globale, limitando la cattura del movimento a lungo termine

Motivazione della Ricerca

I dataset esistenti come TotalCapture hanno scala ridotta, scenari singolari e richiedono abbigliamento aderente, presentando una distribuzione diversa dalla vita quotidiana. Questo articolo mira a costruire un dataset su larga scala e diversificato, esplorando una soluzione consumer-grade di fusione visione-inerziale per la cattura del movimento.

Contributi Fondamentali

  1. Costruzione del Dataset MINIONS: Contiene 5,5 milioni di fotogrammi e 440 minuti di dati di cattura del movimento multimodale, coprendo 146 azioni finemente granulari con informazioni di annotazione ricche
  2. Proposta del Framework SparseNet: Architettura a doppio ramo basata sulla teoria bayesiana, che fonde efficacemente informazioni visive e inerziali per la cattura del movimento
  3. Analisi Sperimentale Sistematica: Esplora in profondità le prestazioni di diverse configurazioni di sensori, dimostrando l'efficacia di 4-6 IMU abbinati a una fotocamera monoculare
  4. Benchmark Multi-Task: Fornisce risultati di benchmark su compiti come stima della posa 2D-3D e riconoscimento di azioni finemente granulari

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Sequenza video RGB monoculare V={Vi}i=1LV = \{V_i\}_{i=1}^L e segnali IMU sparsi I={Ii}i=0LI = \{I_i\}_{i=0}^LOutput: Parametri SMPL (forma β\beta, posa θ\theta, spostamento globale tt) e posizioni articolari 3D Vincoli: Utilizzo di dispositivi consumer-grade, minimo 4 sensori IMU

Architettura del Modello

Fondamenti Teorici

Basato su una strategia di fusione bayesiana, la rotazione articolare θ\theta è modellata come variabile latente:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

Dove:

  • p(θ)p(\theta): distribuzione a priori della rotazione articolare (distribuzione Matrix Fisher)
  • p(dvθ)p(d_v|\theta): distribuzione von Mises-Fisher dell'osservazione della direzione dello scheletro visivo
  • p(DIθ)p(D_I|\theta): distribuzione dell'osservazione di rotazione IMU

Struttura della Rete

1. Ramo Visivo (Visual Branch)

  • Utilizza un encoder Vision Mamba per estrarre caratteristiche visive
  • Decoder di forma: regressione dei parametri di forma SMPL β\beta
  • Decoder di posa: stima della distribuzione a priori della posa p(θ)p(\theta)
  • Decoder dello scheletro: stima della distribuzione della direzione dello scheletro p(dvθ)p(d_v|\theta)

2. Ramo IMU Sparso (Sparse IMUs Branch)

  • Encoder Joint Mamba: predice la posizione dello scheletro d0:id_{0:i} dai segnali IMU
  • Encoder IMU Mamba: elabora i segnali inerziali sparsi
  • Decoder di rotazione: stima della distribuzione di rotazione p(DIθ)p(D_I|\theta)
  • Decoder di traslazione: stima della traslazione globale tIt_I

3. Ramo di Post-Elaborazione (Post-processing Branch)

  • Modulo di fusione posteriore: integra le distribuzioni di probabilità di entrambi i rami
  • Encoder Smooth Mamba: leviga la sequenza di posa finale
  • Risolutore PNP: calcola la traslazione globale

Punti di Innovazione Tecnica

  1. Framework di Fusione Probabilistica: Fusione bayesiana basata su priori Matrix Fisher con fondamenti teorici solidi
  2. Design Complementare a Doppio Ramo: Il ramo visivo fornisce informazioni di forma e posizione, il ramo IMU fornisce informazioni di rotazione e movimento ad alta frequenza
  3. Supporto per Sensori Sparsi: Supporta configurazioni flessibili di 4-10 IMU
  4. Addestramento End-to-End: Il framework probabilistico unificato supporta l'ottimizzazione congiunta

Configurazione Sperimentale

Dataset

Statistiche del Dataset MINIONS:

  • Scala: 5,5 milioni di fotogrammi, 440 minuti di video
  • Modalità: 8 fotocamere 2K + 17 IMU a nove assi + scanner RGB-D
  • Azioni: 146 azioni finemente granulari (121 singole + 25 interattive multi-persona)
  • Partecipanti: 36 gruppi di attori (20 singoli + 16 gruppi multi-persona)
  • Annotazioni: Articolazioni 2D/3D, parametri SMPL, categorie di azioni, informazioni di texture

Divisione dei Dati:

  • Set di addestramento: 12 attori, 3,2 milioni di fotogrammi
  • Set di validazione: 3 attori, 900.000 fotogrammi
  • Set di test: 5 attori, 1,4 milioni di fotogrammi

Metriche di Valutazione

  1. μglo\mu_{glo}: Media dell'errore di rotazione globale (gradi)
  2. σglo\sigma_{glo}: Varianza dell'errore di rotazione globale (gradi)
  3. MPJPE: Errore medio della posizione articolare (millimetri)
  4. Jitter: Tremolo medio dell'accelerazione articolare (102m/s310^2 m/s^3)
  5. PA-MPJPE: Errore della posizione articolare dopo allineamento Procrustes

Metodi di Confronto

  • Metodi Basati su IMU: PIP, PNP, metodi baseline basati su IMU
  • Metodi Visivi: TokenHMR, PromptHMR
  • Metodi Multimodali: DiffCap, VIP, Liu et al.

Dettagli di Implementazione

  • Strategia di Addestramento: Pre-addestramento del ramo visivo (20 epoche), quindi addestramento dei rami IMU e post-elaborazione (200 epoche)
  • Ottimizzatore: Adam, tasso di apprendimento 0.001
  • Dimensione del Batch: 64 per il ramo visivo, 512 per gli altri
  • Risoluzione di Input: 512×512
  • Hardware: NVIDIA GTX A100

Risultati Sperimentali

Risultati Principali

Confronto delle Prestazioni di Cattura del Movimento Multimodale:

Tipo di Metodo#IMUs#Camsμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
Basato su IMU6011.678.6557.931.17
Basato su Visione0110.277.2045.6113.02
Multimodale619.206.1939.991.57

Scoperte Chiave:

  1. Configurazione Ottimale di 4-6 IMU: Raggiunge il miglior equilibrio tra costo e prestazioni
  2. Vantaggi Complementari Evidenti: I metodi visivi hanno grande tremolo, i metodi IMU hanno grave deriva di posizione, la fusione migliora significativamente
  3. Rendimenti Decrescenti oltre 8 IMU: L'aumento dei costi con miglioramenti di prestazioni limitati

Confronto sul Dataset TotalCapture

MetodoMPJPE↓PA-MPJPE↓
DiffCap46.229.9
VIP-26.0
Liu et al.45.8-
Nostro36.721.6

Esperimenti di Ablazione

Analisi delle Prestazioni con Diverso Numero di IMU:

  • 4 IMU: μglo=9.75°\mu_{glo}=9.75°, MPJPE=41.53mm
  • 6 IMU: μglo=9.20°\mu_{glo}=9.20°, MPJPE=39.99mm
  • 8 IMU: μglo=8.86°\mu_{glo}=8.86°, MPJPE=39.39mm
  • 10 IMU: μglo=8.81°\mu_{glo}=8.81°, MPJPE=39.43mm

I risultati indicano che 6-8 IMU rappresentano la configurazione ottimale.

Benchmark di Altri Compiti

Stima della Posa 2D-3D:

  • MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
  • Dual-Aug (243 fotogrammi): MPJPE=19.22mm, PA-MPJPE=13.95mm

Riconoscimento di Azioni Finemente Granulari:

  • UniFormerV2: Top-1=75.88%, Top-5=96.87%
  • VideoMAE: Top-1=73.75%, Top-5=96.01%

Rispetto a Kinetics400, MINIONS è più impegnativo.

Analisi di Casi

I risultati visualizzati mostrano:

  1. Metodo IMU: Accumula deriva di posizione nel tempo, ma rotazione stabile
  2. Metodo Visivo: Posizione accurata ma con tremolo temporale
  3. Metodo di Fusione: Combina i vantaggi di entrambi, sia stabile che accurato

Lavori Correlati

Cattura del Movimento da IMU

  • Soluzioni Industriali: Perception Neuron, sistemi Xsens MVN utilizzano 17 IMU
  • Metodi IMU Sparsi: Due paradigmi di ottimizzazione e regressione
  • Limitazioni: Problema di deriva di posizione a lungo termine

Cattura del Movimento da Visione Monoculare

  • Metodi di Ottimizzazione: Adattamento dei parametri SMPL ai fotogrammi video
  • Metodi di Regressione: Apprendimento end-to-end dei parametri SMPL
  • Sfide: Ambiguità di profondità, occlusione, movimento rapido

Fusione Multimodale

  • Lavori Esistenti: Dataset su piccola scala come TotalCapture
  • Vantaggi di questo Articolo: Scala più grande, maggiore diversità, abbigliamento quotidiano

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: 4-6 IMU abbinati a una fotocamera monoculare possono realizzare una cattura del movimento consumer-grade stabile
  2. Valore Complementare: I sensori visivi e inerziali presentano chiari vantaggi complementari
  3. Contributo del Dataset: MINIONS fornisce una risorsa dati importante per questo campo
  4. Praticità: Il metodo dimostra buone capacità di generalizzazione su più compiti

Limitazioni

  1. Dipendenza dai Sensori: Richiede ancora più sensori IMU, aumentando la complessità del sistema
  2. Tempo Reale: L'articolo non discute in dettaglio le prestazioni in tempo reale
  3. Adattabilità Ambientale: Principalmente testato in ambienti interni, la robustezza in ambienti esterni complessi non è sufficientemente verificata
  4. Effetto dell'Abbigliamento: Sebbene utilizzi abbigliamento quotidiano, l'effetto dell'abbigliamento largo sulla precisione dell'IMU richiede ulteriori ricerche

Direzioni Future

  1. Meno Sensori: Esplorare la possibilità di utilizzare meno IMU
  2. Ottimizzazione in Tempo Reale: Migliorare la capacità di elaborazione in tempo reale del sistema
  3. Robustezza Ambientale: Migliorare le prestazioni in ambienti complessi
  4. Estensione Applicativa: Espandere a più scenari di applicazione pratica

Valutazione Approfondita

Punti di Forza

  1. Contributo Significativo del Dataset: MINIONS è attualmente il dataset di cattura del movimento multimodale su scala più grande, colmando un importante vuoto nel campo
  2. Fondamenti Teorici Solidi: Il framework di fusione basato sulla teoria bayesiana ha una buona base matematica
  3. Design Sperimentale Completo: Dalle diverse configurazioni di sensori alla valutazione multi-task, la copertura sperimentale è ampia
  4. Alto Valore Pratico: Fornisce un percorso tecnologico praticabile per la cattura del movimento consumer-grade
  5. Innovazione Tecnica Ragionevole: Il design a doppio ramo sfrutta pienamente i vantaggi di diverse modalità

Insufficienze

  1. Analisi della Complessità Computazionale Insufficiente: Manca un'analisi dettagliata dei costi computazionali e delle prestazioni in tempo reale
  2. Analisi Limitata dei Casi di Fallimento: La discussione sulle prestazioni del metodo in situazioni estreme è insufficiente
  3. Mancanza di Ricerca Utente: Manca la valutazione dell'esperienza utente reale
  4. Stabilità a Lungo Termine: La verifica della stabilità per un uso prolungato non è sufficiente

Impatto

  1. Valore Accademico: Fornisce dati importanti e benchmark per la ricerca sulla cattura del movimento multimodale
  2. Valore Industriale: Fornisce riferimenti tecnologici per lo sviluppo di prodotti di cattura del movimento consumer-grade
  3. Riproducibilità: La descrizione del metodo è chiara, con buone prospettive di riproduzione e miglioramento da parte di altri ricercatori
  4. Contributo alla Comunità: Il dataset su larga scala promuoverà lo sviluppo rapido di questo campo

Scenari Applicabili

  1. Creazione Personale: Esigenze di cattura del movimento di vlogger e creatori di contenuti
  2. Monitoraggio del Fitness: Analisi e correzione della postura dell'esercizio
  3. Intrattenimento Ludico: Applicazioni di giochi sensoriali e realtà virtuale
  4. Educazione e Formazione: Insegnamento di movimenti e allenamento di abilità
  5. Medicina e Riabilitazione: Valutazione della funzione motoria e allenamento riabilitativo

Riferimenti Bibliografici

L'articolo cita 75 riferimenti correlati, principalmente includenti:

  • Dataset classici di cattura del movimento: Human3.6M, TotalCapture, 3DPW, ecc.
  • Lavori correlati al modello del corpo umano SMPL
  • Metodi di stima della posa basati su deep learning
  • Tecnologie di cattura del movimento da IMU
  • Metodi di fusione multimodale

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo della computer vision, con importanti contributi sia nella costruzione del dataset che nei metodi di fusione multimodale. La scala e la qualità del dataset MINIONS avranno un impatto importante su questo campo, mentre il framework SparseNet fornisce una soluzione tecnica efficace per la cattura del movimento consumer-grade. Il design sperimentale dell'articolo è completo, le conclusioni sono affidabili e possiede sia valore accademico che pratico significativo.