Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
- Papier-ID: 2407.16341
- Titel: Motion Capture from Inertial and Vision Sensors
- Autoren: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
- Klassifizierung: cs.CV (Computervision)
- Veröffentlichungsdatum: Juli 2024 (arXiv-Preprint, Version v3 aktualisiert am 11. Oktober 2025)
- Papierlink: https://arxiv.org/abs/2407.16341
Die Erfassung menschlicher Bewegungen ist grundlegend für viele Aufgaben in der Computervision und Computergrafik. Während industrielle Bewegungserfassungssysteme in Film- und Spielproduktion weit verbreitet sind, sind verbraucherfreundliche und benutzerfreundliche Lösungen für den persönlichen Gebrauch noch nicht ausgereift. Um genaue multimodale Bewegungserfassung mit einer einzelnen Kamera und einer minimalen Anzahl von Trägheitsmesseinheiten (IMUs) zu erreichen, wird in diesem Papier der MINIONS-Datensatz vorgestellt – ein großflächiger Bewegungserfassungsdatensatz, der von Trägheits- und Visionsensoren erfasst wurde. Der Datensatz hat drei Besonderheiten: 1) Großflächig: über 5,5 Millionen Frames und 440 Minuten Dauer; 2) Multimodal: enthält IMU-Signale und RGB-Videos mit Annotationen von Gelenkpositionen, Gelenkrotationen, SMPL-Parametern usw.; 3) Vielfältig: enthält 146 feinkörnige Ein- und Mehrpersonen-Aktionen. Basierend auf dem MINIONS-Datensatz wird das SparseNet-Framework vorgestellt, das menschliche Bewegungen durch die Entdeckung komplementärer Merkmale von IMU und Video erfasst und die Möglichkeit der verbraucherfreundlichen Bewegungserfassung mit einer einzelnen Kamera und minimalen IMUs erforscht.
Das Kernproblem dieser Forschung ist: Wie kann man mit verbraucherfreundlichen Geräten (einzelne Kamera + wenige IMUs) genaue und stabile menschliche Bewegungserfassung für alltägliche Anwendungen erreichen?
- Kostenproblem: Industrielle Systeme erfordern Dutzende synchronisierter Kameras oder teure tragbare Sensoren mit Kosten von Tausenden von Dollar
- Portabilitätsproblem: Bestehende Systeme sind komplex konfiguriert und begrenzen Anwendungsszenarien
- Anwendungsbedarf: XR, mobile Videoproduktion, Live-Streaming und andere verbraucherfreundliche Anwendungen haben dringenden Bedarf an kostengünstiger Bewegungserfassung
- Markierungsbasierte Systeme: Erfordern spezielle Kleidung oder viele IMUs, unbequem für natürliche Bewegungen
- Multi-Kamera-Systeme: Erfordern komplexe Kalibrierung und begrenzen Bewegungsbereich
- Monokulare Visionsmethoden: Beeinträchtigt durch Tiefenambiguität, Verdeckung und schnelle Bewegungen mit zeitlichem Jitter
- IMU-Methoden: Leiden unter globaler Positionsabweichung und begrenzen lange Bewegungserfassung
Bestehende Datensätze wie TotalCapture sind klein, szenenspezifisch und erfordern Ganzkörperanzüge mit Verteilungsunterschieden zum alltäglichen Leben. Dieses Papier zielt darauf ab, einen großflächigen, vielfältigen Datensatz zu konstruieren und eine verbraucherfreundliche Lösung zur Fusion von Vision und Trägheit zu erforschen.
- Konstruktion des MINIONS-Datensatzes: Enthält 5,5 Millionen Frames und 440 Minuten multimodale Bewegungserfassungsdaten mit 146 feinkörnigen Aktionen und umfangreichen Annotationen
- Vorstellung des SparseNet-Frameworks: Eine auf Bayes-Theorie basierende Dual-Branch-Architektur, die Vision- und Trägheitsinformationen effektiv für Bewegungserfassung fusioniert
- Systematische experimentelle Analyse: Tiefe Erforschung der Leistung verschiedener Sensorkonfigurationen mit Nachweis der Wirksamkeit von 4-6 IMUs mit monokularer Kamera
- Multi-Task-Benchmark-Tests: Bereitstellung von Benchmark-Ergebnissen für 2D-3D-Posenschätzung, feinkörnige Aktionserkennung und andere Aufgaben
Eingabe: Monokulare RGB-Videosequenz V={Vi}i=1L und spärliche IMU-Signale I={Ii}i=0LAusgabe: SMPL-Parameter (Form β, Pose θ, globale Verschiebung t) und 3D-Gelenkpositionen
Einschränkung: Verwendung verbraucherfreundlicher Geräte mit mindestens 4 IMU-Sensoren
Basierend auf einer Bayes-Fusionsstrategie wird die Gelenkrotation θ als latente Variable modelliert:
p(θ∣dv,DI)∝p(θ)⋅p(dv∣θ)⋅p(DI∣θ)
Wobei:
- p(θ): Vorverteilung der Gelenkrotation (Matrix-Fisher-Verteilung)
- p(dv∣θ): Von-Mises-Fisher-Verteilung der visuellen Skelettrichtungsbeobachtung
- p(DI∣θ): IMU-Rotationsbeobachtungsverteilung
1. Visueller Branch (Visual Branch)
- Vision-Mamba-Encoder zur Extraktion visueller Merkmale
- Form-Decoder: Regression von SMPL-Formparametern β
- Pose-Decoder: Schätzung der Pose-Vorverteilung p(θ)
- Skelett-Decoder: Schätzung der Skelettrichtungsverteilung p(dv∣θ)
2. Spärlicher IMU-Branch (Sparse IMUs Branch)
- Joint-Mamba-Encoder: Vorhersage von Skelettposition d0:i aus IMU-Signalen
- IMU-Mamba-Encoder: Verarbeitung spärlicher Trägheitssignale
- Rotations-Decoder: Schätzung der Rotationsverteilung p(DI∣θ)
- Translations-Decoder: Schätzung der globalen Translation tI
3. Nachbearbeitungs-Branch (Post-processing Branch)
- Posteriore Fusionsmodul: Integration der Wahrscheinlichkeitsverteilungen beider Branches
- Smooth-Mamba-Encoder: Glättung der endgültigen Posesequenz
- PNP-Solver: Berechnung der globalen Translation
- Probabilistische Fusionsframework: Bayes-Fusion basierend auf Matrix-Fisher-Vorverteilung mit solider theoretischer Grundlage
- Dual-Branch-Komplementärdesign: Visueller Branch liefert Form- und Positionsinformationen, IMU-Branch liefert Rotations- und hochfrequente Bewegungsinformationen
- Unterstützung spärlicher Sensoren: Flexible Konfiguration mit 4-10 IMUs
- End-to-End-Training: Einheitliches probabilistisches Framework unterstützt gemeinsame Optimierung
MINIONS-Datensatz-Statistiken:
- Umfang: 5,5 Millionen Frames, 440 Minuten Video
- Modalitäten: 8 2K-Kameras + 17 neunachsige IMUs + RGB-D-Scanner
- Aktionen: 146 feinkörnige Aktionen (121 Einzelperson + 25 Mehrperson-Interaktionen)
- Teilnehmer: 36 Schauspielergruppen (20 Einzelperson + 16 Mehrperson-Gruppen)
- Annotationen: 2D/3D-Gelenke, SMPL-Parameter, Aktionskategorien, Texturinformationen
Datenteilung:
- Trainingssatz: 12 Schauspieler, 3,2 Millionen Frames
- Validierungssatz: 3 Schauspieler, 0,9 Millionen Frames
- Testsatz: 5 Schauspieler, 1,4 Millionen Frames
- μglo: Durchschnittlicher globaler Rotationsfehler (Grad)
- σglo: Varianz des globalen Rotationsfehlers (Grad)
- MPJPE: Durchschnittlicher Gelenkpositionsfehler (Millimeter)
- Jitter: Durchschnittliche Gelenkbeschleunigungszittern (102m/s3)
- PA-MPJPE: Gelenkpositionsfehler nach Procrustes-Ausrichtung
- IMU-Methoden: PIP, PNP, IMU-basierte Baseline-Methoden
- Visionsmethoden: TokenHMR, PromptHMR
- Multimodale Methoden: DiffCap, VIP, Liu et al.
- Trainingsstrategie: Vortraining des visuellen Branches (20 Epochen), dann Training von IMU- und Nachbearbeitungs-Branches (200 Epochen)
- Optimierer: Adam, Lernrate 0,001
- Batch-Größe: Visueller Branch 64, andere 512
- Eingabeauflösung: 512×512
- Hardware: NVIDIA GTX A100
Vergleich der multimodalen Bewegungserfassungsleistung:
| Methodentyp | #IMUs | #Kameras | μglo↓ | σglo↓ | MPJPE↓ | Jitter↓ |
|---|
| IMU-basiert | 6 | 0 | 11,67 | 8,65 | 57,93 | 1,17 |
| Visionsbasiert | 0 | 1 | 10,27 | 7,20 | 45,61 | 13,02 |
| Multimodal | 6 | 1 | 9,20 | 6,19 | 39,99 | 1,57 |
Wichtigste Erkenntnisse:
- 4-6 IMU-Konfiguration optimal: Erreicht beste Balance zwischen Kosten und Leistung
- Komplementäre Vorteile deutlich: Visionsmethode hat großes Jitter, IMU-Methode hat ernsthafte Positionsabweichung, Fusion verbessert beide erheblich
- Abnehmender Nutzen über 8 IMUs: Erhöhte Kosten mit begrenzter Leistungsverbesserung
| Methode | MPJPE↓ | PA-MPJPE↓ |
|---|
| DiffCap | 46,2 | 29,9 |
| VIP | - | 26,0 |
| Liu et al. | 45,8 | - |
| Unsere | 36,7 | 21,6 |
Leistungsanalyse mit unterschiedlicher IMU-Anzahl:
- 4 IMUs: μglo=9,75°, MPJPE=41,53mm
- 6 IMUs: μglo=9,20°, MPJPE=39,99mm
- 8 IMUs: μglo=8,86°, MPJPE=39,39mm
- 10 IMUs: μglo=8,81°, MPJPE=39,43mm
Ergebnisse zeigen 6-8 IMUs als optimale Konfiguration.
2D-3D-Posenschätzung:
- MotionBERT: MPJPE=18,75mm, PA-MPJPE=13,44mm
- Dual-Aug (243 Frames): MPJPE=19,22mm, PA-MPJPE=13,95mm
Feinkörnige Aktionserkennung:
- UniFormerV2: Top-1=75,88%, Top-5=96,87%
- VideoMAE: Top-1=73,75%, Top-5=96,01%
MINIONS ist im Vergleich zu Kinetics400 anspruchsvoller.
Visualisierungsergebnisse zeigen:
- IMU-Methode: Akkumuliert Positionsabweichung über Zeit, aber stabile Rotation
- Visionsmethode: Genaue Position aber zeitliches Jitter
- Fusionsmethode: Kombiniert Vorteile beider, stabil und genau
- Industrielle Lösungen: Perception Neuron, Xsens MVN-Systeme verwenden 17 IMUs
- Spärliche IMU-Methoden: Optimierungs- und Regressions-Paradigmen
- Einschränkungen: Langfristige Positionsabweichungsprobleme
- Optimierungsmethoden: SMPL-Parameter an Videoframes anpassen
- Regressionsmethoden: End-to-End-Lernen von SMPL-Parametern
- Herausforderungen: Tiefenambiguität, Verdeckung, schnelle Bewegungen
- Bestehende Arbeiten: Kleine Datensätze wie TotalCapture
- Vorteile dieses Papiers: Größerer Umfang, mehr Vielfalt, alltägliche Kleidung
- Technische Machbarkeit: 4-6 IMUs mit monokularer Kamera können stabile verbraucherfreundliche Bewegungserfassung erreichen
- Komplementärer Wert: Vision- und Trägheitssensoren haben offensichtliche komplementäre Vorteile
- Datensatz-Beitrag: MINIONS bietet wichtige Datenressourcen für das Feld
- Praktikabilität: Methode zeigt gute Generalisierungsfähigkeit über mehrere Aufgaben
- Sensorabhängigkeit: Erfordert immer noch mehrere IMU-Sensoren, erhöht Systemkomplexität
- Echtzeit-Leistung: Papier diskutiert Echtzeit-Leistung nicht ausführlich
- Umgebungsadaptivität: Hauptsächlich in Innenräumen getestet, Robustheit in komplexen Außenumgebungen nicht vollständig validiert
- Kleidungseinfluss: Obwohl alltägliche Kleidung verwendet, Auswirkungen lockerer Kleidung auf IMU-Genauigkeit bedarf weiterer Forschung
- Weniger Sensoren: Erforschung der Möglichkeit, weniger IMUs zu verwenden
- Echtzeit-Optimierung: Verbesserung der Echtzeit-Verarbeitungsfähigkeit des Systems
- Umgebungsrobustheit: Verbesserung der Leistung in komplexen Umgebungen
- Anwendungserweiterung: Erweiterung auf mehr praktische Anwendungsszenarien
- Signifikanter Datensatz-Beitrag: MINIONS ist derzeit der größte multimodale Bewegungserfassungsdatensatz und füllt eine wichtige Lücke im Feld
- Solide theoretische Grundlage: Das auf Bayes-Theorie basierende Fusionsframework hat gute mathematische Grundlagen
- Umfassendes Experimentdesign: Von verschiedenen Sensorkonfigurationen bis zu Multi-Task-Bewertung, breite experimentelle Abdeckung
- Hoher praktischer Wert: Bietet einen praktikablen technischen Weg für verbraucherfreundliche Bewegungserfassung
- Angemessene technische Innovation: Dual-Branch-Design nutzt Vorteile verschiedener Modalitäten vollständig
- Unzureichende Komplexitätsanalyse: Mangel an detaillierter Analyse von Rechenaufwand und Echtzeit-Leistung
- Begrenzte Fehlerfall-Analyse: Unzureichende Diskussion der Methodenleistung in extremen Situationen
- Fehlende Benutzerstudien: Mangel an Bewertung der echten Benutzererfahrung
- Langzeitstabilität: Unzureichende Validierung der Stabilität bei längerer Verwendung
- Akademischer Wert: Bietet wichtige Daten und Benchmarks für multimodale Bewegungserfassungsforschung
- Industrieller Wert: Bietet technische Referenzen für die Entwicklung verbraucherfreundlicher Bewegungserfassungsprodukte
- Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht Reproduktion und Verbesserung durch andere Forscher
- Gemeinschaftsbeitrag: Großflächiger Datensatz wird schnelle Entwicklung des Feldes fördern
- Persönliche Kreation: Bewegungserfassungsbedarf von Videobloggern und Content-Erstellern
- Fitness-Überwachung: Bewegungshaltungsanalyse und -korrektur
- Spiele und Unterhaltung: Motion-Sensing-Spiele, Virtual-Reality-Anwendungen
- Bildung und Training: Bewegungsunterricht, Fertigkeitstraining
- Medizinische Rehabilitation: Bewegungsfunktionsbewertung und Rehabilitationstraining
Das Papier zitiert 75 verwandte Literaturquellen, hauptsächlich einschließlich:
- Klassische Bewegungserfassungsdatensätze: Human3.6M, TotalCapture, 3DPW usw.
- SMPL-Menschenmodell-verwandte Arbeiten
- Deep-Learning-Posenschätzungsmethoden
- IMU-Bewegungserfassungstechnologie
- Multimodale Fusionsmethoden
Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Forschungspapier mit wichtigen Beiträgen sowohl in der Datensatzkonstruktion als auch in der multimodalen Fusionsmethode. Die Qualität und der Umfang des MINIONS-Datensatzes werden wichtige Auswirkungen auf das Feld haben, und das SparseNet-Framework bietet eine effektive technische Lösung für verbraucherfreundliche Bewegungserfassung. Das Experimentdesign des Papiers ist umfassend, die Schlussfolgerungen sind zuverlässig und es hat hohen akademischen und praktischen Wert.