2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.

Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.

academic

Bewegungserfassung aus Trägheits- und Visionsensoren

Grundinformationen

Papier-ID: 2407.16341
Titel: Motion Capture from Inertial and Vision Sensors
Autoren: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
Klassifizierung: cs.CV (Computervision)
Veröffentlichungsdatum: Juli 2024 (arXiv-Preprint, Version v3 aktualisiert am 11. Oktober 2025)
Papierlink: https://arxiv.org/abs/2407.16341

Zusammenfassung

Die Erfassung menschlicher Bewegungen ist grundlegend für viele Aufgaben in der Computervision und Computergrafik. Während industrielle Bewegungserfassungssysteme in Film- und Spielproduktion weit verbreitet sind, sind verbraucherfreundliche und benutzerfreundliche Lösungen für den persönlichen Gebrauch noch nicht ausgereift. Um genaue multimodale Bewegungserfassung mit einer einzelnen Kamera und einer minimalen Anzahl von Trägheitsmesseinheiten (IMUs) zu erreichen, wird in diesem Papier der MINIONS-Datensatz vorgestellt – ein großflächiger Bewegungserfassungsdatensatz, der von Trägheits- und Visionsensoren erfasst wurde. Der Datensatz hat drei Besonderheiten: 1) Großflächig: über 5,5 Millionen Frames und 440 Minuten Dauer; 2) Multimodal: enthält IMU-Signale und RGB-Videos mit Annotationen von Gelenkpositionen, Gelenkrotationen, SMPL-Parametern usw.; 3) Vielfältig: enthält 146 feinkörnige Ein- und Mehrpersonen-Aktionen. Basierend auf dem MINIONS-Datensatz wird das SparseNet-Framework vorgestellt, das menschliche Bewegungen durch die Entdeckung komplementärer Merkmale von IMU und Video erfasst und die Möglichkeit der verbraucherfreundlichen Bewegungserfassung mit einer einzelnen Kamera und minimalen IMUs erforscht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie kann man mit verbraucherfreundlichen Geräten (einzelne Kamera + wenige IMUs) genaue und stabile menschliche Bewegungserfassung für alltägliche Anwendungen erreichen?

Bedeutung des Problems

Kostenproblem: Industrielle Systeme erfordern Dutzende synchronisierter Kameras oder teure tragbare Sensoren mit Kosten von Tausenden von Dollar
Portabilitätsproblem: Bestehende Systeme sind komplex konfiguriert und begrenzen Anwendungsszenarien
Anwendungsbedarf: XR, mobile Videoproduktion, Live-Streaming und andere verbraucherfreundliche Anwendungen haben dringenden Bedarf an kostengünstiger Bewegungserfassung

Einschränkungen bestehender Methoden

Markierungsbasierte Systeme: Erfordern spezielle Kleidung oder viele IMUs, unbequem für natürliche Bewegungen
Multi-Kamera-Systeme: Erfordern komplexe Kalibrierung und begrenzen Bewegungsbereich
Monokulare Visionsmethoden: Beeinträchtigt durch Tiefenambiguität, Verdeckung und schnelle Bewegungen mit zeitlichem Jitter
IMU-Methoden: Leiden unter globaler Positionsabweichung und begrenzen lange Bewegungserfassung

Forschungsmotivation

Bestehende Datensätze wie TotalCapture sind klein, szenenspezifisch und erfordern Ganzkörperanzüge mit Verteilungsunterschieden zum alltäglichen Leben. Dieses Papier zielt darauf ab, einen großflächigen, vielfältigen Datensatz zu konstruieren und eine verbraucherfreundliche Lösung zur Fusion von Vision und Trägheit zu erforschen.

Kernbeiträge

Konstruktion des MINIONS-Datensatzes: Enthält 5,5 Millionen Frames und 440 Minuten multimodale Bewegungserfassungsdaten mit 146 feinkörnigen Aktionen und umfangreichen Annotationen
Vorstellung des SparseNet-Frameworks: Eine auf Bayes-Theorie basierende Dual-Branch-Architektur, die Vision- und Trägheitsinformationen effektiv für Bewegungserfassung fusioniert
Systematische experimentelle Analyse: Tiefe Erforschung der Leistung verschiedener Sensorkonfigurationen mit Nachweis der Wirksamkeit von 4-6 IMUs mit monokularer Kamera
Multi-Task-Benchmark-Tests: Bereitstellung von Benchmark-Ergebnissen für 2D-3D-Posenschätzung, feinkörnige Aktionserkennung und andere Aufgaben

Methodenerklärung

Aufgabendefinition

Eingabe: Monokulare RGB-Videosequenz $V = \{V_i\}_{i=1}^L$ und spärliche IMU-Signale $I = \{I_i\}_{i=0}^L$ Ausgabe: SMPL-Parameter (Form $\beta$ , Pose $\theta$ , globale Verschiebung $t$ ) und 3D-Gelenkpositionen Einschränkung: Verwendung verbraucherfreundlicher Geräte mit mindestens 4 IMU-Sensoren

Modellarchitektur

Theoretische Grundlagen

Basierend auf einer Bayes-Fusionsstrategie wird die Gelenkrotation $\theta$ als latente Variable modelliert:

$p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)$

Wobei:

$p(\theta)$ : Vorverteilung der Gelenkrotation (Matrix-Fisher-Verteilung)
$p(d_v|\theta)$ : Von-Mises-Fisher-Verteilung der visuellen Skelettrichtungsbeobachtung
$p(D_I|\theta)$ : IMU-Rotationsbeobachtungsverteilung

Netzwerkstruktur

1. Visueller Branch (Visual Branch)

Vision-Mamba-Encoder zur Extraktion visueller Merkmale
Form-Decoder: Regression von SMPL-Formparametern $\beta$
Pose-Decoder: Schätzung der Pose-Vorverteilung $p(\theta)$
Skelett-Decoder: Schätzung der Skelettrichtungsverteilung $p(d_v|\theta)$

2. Spärlicher IMU-Branch (Sparse IMUs Branch)

Joint-Mamba-Encoder: Vorhersage von Skelettposition $d_{0:i}$ aus IMU-Signalen
IMU-Mamba-Encoder: Verarbeitung spärlicher Trägheitssignale
Rotations-Decoder: Schätzung der Rotationsverteilung $p(D_I|\theta)$
Translations-Decoder: Schätzung der globalen Translation $t_I$

3. Nachbearbeitungs-Branch (Post-processing Branch)

Posteriore Fusionsmodul: Integration der Wahrscheinlichkeitsverteilungen beider Branches
Smooth-Mamba-Encoder: Glättung der endgültigen Posesequenz
PNP-Solver: Berechnung der globalen Translation

Technische Innovationspunkte

Probabilistische Fusionsframework: Bayes-Fusion basierend auf Matrix-Fisher-Vorverteilung mit solider theoretischer Grundlage
Dual-Branch-Komplementärdesign: Visueller Branch liefert Form- und Positionsinformationen, IMU-Branch liefert Rotations- und hochfrequente Bewegungsinformationen
Unterstützung spärlicher Sensoren: Flexible Konfiguration mit 4-10 IMUs
End-to-End-Training: Einheitliches probabilistisches Framework unterstützt gemeinsame Optimierung

Experimentelle Einrichtung

Datensatz

MINIONS-Datensatz-Statistiken:

Umfang: 5,5 Millionen Frames, 440 Minuten Video
Modalitäten: 8 2K-Kameras + 17 neunachsige IMUs + RGB-D-Scanner
Aktionen: 146 feinkörnige Aktionen (121 Einzelperson + 25 Mehrperson-Interaktionen)
Teilnehmer: 36 Schauspielergruppen (20 Einzelperson + 16 Mehrperson-Gruppen)
Annotationen: 2D/3D-Gelenke, SMPL-Parameter, Aktionskategorien, Texturinformationen

Datenteilung:

Trainingssatz: 12 Schauspieler, 3,2 Millionen Frames
Validierungssatz: 3 Schauspieler, 0,9 Millionen Frames
Testsatz: 5 Schauspieler, 1,4 Millionen Frames

Bewertungsmetriken

$\mu_{glo}$ : Durchschnittlicher globaler Rotationsfehler (Grad)
$\sigma_{glo}$ : Varianz des globalen Rotationsfehlers (Grad)
MPJPE: Durchschnittlicher Gelenkpositionsfehler (Millimeter)
Jitter: Durchschnittliche Gelenkbeschleunigungszittern ( $10^2 m/s^3$ )
PA-MPJPE: Gelenkpositionsfehler nach Procrustes-Ausrichtung

Vergleichsmethoden

IMU-Methoden: PIP, PNP, IMU-basierte Baseline-Methoden
Visionsmethoden: TokenHMR, PromptHMR
Multimodale Methoden: DiffCap, VIP, Liu et al.

Implementierungsdetails

Trainingsstrategie: Vortraining des visuellen Branches (20 Epochen), dann Training von IMU- und Nachbearbeitungs-Branches (200 Epochen)
Optimierer: Adam, Lernrate 0,001
Batch-Größe: Visueller Branch 64, andere 512
Eingabeauflösung: 512×512
Hardware: NVIDIA GTX A100

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der multimodalen Bewegungserfassungsleistung:

Methodentyp	#IMUs	#Kameras	$\mu_{glo}$ ↓	$\sigma_{glo}$ ↓	MPJPE↓	Jitter↓
IMU-basiert	6	0	11,67	8,65	57,93	1,17
Visionsbasiert	0	1	10,27	7,20	45,61	13,02
Multimodal	6	1	9,20	6,19	39,99	1,57

Wichtigste Erkenntnisse:

4-6 IMU-Konfiguration optimal: Erreicht beste Balance zwischen Kosten und Leistung
Komplementäre Vorteile deutlich: Visionsmethode hat großes Jitter, IMU-Methode hat ernsthafte Positionsabweichung, Fusion verbessert beide erheblich
Abnehmender Nutzen über 8 IMUs: Erhöhte Kosten mit begrenzter Leistungsverbesserung

Vergleich mit TotalCapture-Datensatz

Methode	MPJPE↓	PA-MPJPE↓
DiffCap	46,2	29,9
VIP	-	26,0
Liu et al.	45,8	-
Unsere	36,7	21,6

Ablationsstudien

Leistungsanalyse mit unterschiedlicher IMU-Anzahl:

4 IMUs: $\mu_{glo}=9,75°$ , MPJPE=41,53mm
6 IMUs: $\mu_{glo}=9,20°$ , MPJPE=39,99mm
8 IMUs: $\mu_{glo}=8,86°$ , MPJPE=39,39mm
10 IMUs: $\mu_{glo}=8,81°$ , MPJPE=39,43mm

Ergebnisse zeigen 6-8 IMUs als optimale Konfiguration.

Weitere Task-Benchmarks

2D-3D-Posenschätzung:

MotionBERT: MPJPE=18,75mm, PA-MPJPE=13,44mm
Dual-Aug (243 Frames): MPJPE=19,22mm, PA-MPJPE=13,95mm

Feinkörnige Aktionserkennung:

UniFormerV2: Top-1=75,88%, Top-5=96,87%
VideoMAE: Top-1=73,75%, Top-5=96,01%

MINIONS ist im Vergleich zu Kinetics400 anspruchsvoller.

Fallstudien

Visualisierungsergebnisse zeigen:

IMU-Methode: Akkumuliert Positionsabweichung über Zeit, aber stabile Rotation
Visionsmethode: Genaue Position aber zeitliches Jitter
Fusionsmethode: Kombiniert Vorteile beider, stabil und genau

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Technische Machbarkeit: 4-6 IMUs mit monokularer Kamera können stabile verbraucherfreundliche Bewegungserfassung erreichen
Komplementärer Wert: Vision- und Trägheitssensoren haben offensichtliche komplementäre Vorteile
Datensatz-Beitrag: MINIONS bietet wichtige Datenressourcen für das Feld
Praktikabilität: Methode zeigt gute Generalisierungsfähigkeit über mehrere Aufgaben

Einschränkungen

Sensorabhängigkeit: Erfordert immer noch mehrere IMU-Sensoren, erhöht Systemkomplexität
Echtzeit-Leistung: Papier diskutiert Echtzeit-Leistung nicht ausführlich
Umgebungsadaptivität: Hauptsächlich in Innenräumen getestet, Robustheit in komplexen Außenumgebungen nicht vollständig validiert
Kleidungseinfluss: Obwohl alltägliche Kleidung verwendet, Auswirkungen lockerer Kleidung auf IMU-Genauigkeit bedarf weiterer Forschung

Zukünftige Richtungen

Weniger Sensoren: Erforschung der Möglichkeit, weniger IMUs zu verwenden
Echtzeit-Optimierung: Verbesserung der Echtzeit-Verarbeitungsfähigkeit des Systems
Umgebungsrobustheit: Verbesserung der Leistung in komplexen Umgebungen
Anwendungserweiterung: Erweiterung auf mehr praktische Anwendungsszenarien

Tiefenbewertung

Stärken

Signifikanter Datensatz-Beitrag: MINIONS ist derzeit der größte multimodale Bewegungserfassungsdatensatz und füllt eine wichtige Lücke im Feld
Solide theoretische Grundlage: Das auf Bayes-Theorie basierende Fusionsframework hat gute mathematische Grundlagen
Umfassendes Experimentdesign: Von verschiedenen Sensorkonfigurationen bis zu Multi-Task-Bewertung, breite experimentelle Abdeckung
Hoher praktischer Wert: Bietet einen praktikablen technischen Weg für verbraucherfreundliche Bewegungserfassung
Angemessene technische Innovation: Dual-Branch-Design nutzt Vorteile verschiedener Modalitäten vollständig

Mängel

Unzureichende Komplexitätsanalyse: Mangel an detaillierter Analyse von Rechenaufwand und Echtzeit-Leistung
Begrenzte Fehlerfall-Analyse: Unzureichende Diskussion der Methodenleistung in extremen Situationen
Fehlende Benutzerstudien: Mangel an Bewertung der echten Benutzererfahrung
Langzeitstabilität: Unzureichende Validierung der Stabilität bei längerer Verwendung

Einfluss

Akademischer Wert: Bietet wichtige Daten und Benchmarks für multimodale Bewegungserfassungsforschung
Industrieller Wert: Bietet technische Referenzen für die Entwicklung verbraucherfreundlicher Bewegungserfassungsprodukte
Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht Reproduktion und Verbesserung durch andere Forscher
Gemeinschaftsbeitrag: Großflächiger Datensatz wird schnelle Entwicklung des Feldes fördern

Anwendungsszenarien

Persönliche Kreation: Bewegungserfassungsbedarf von Videobloggern und Content-Erstellern
Fitness-Überwachung: Bewegungshaltungsanalyse und -korrektur
Spiele und Unterhaltung: Motion-Sensing-Spiele, Virtual-Reality-Anwendungen
Bildung und Training: Bewegungsunterricht, Fertigkeitstraining
Medizinische Rehabilitation: Bewegungsfunktionsbewertung und Rehabilitationstraining

Referenzen

Das Papier zitiert 75 verwandte Literaturquellen, hauptsächlich einschließlich:

Klassische Bewegungserfassungsdatensätze: Human3.6M, TotalCapture, 3DPW usw.
SMPL-Menschenmodell-verwandte Arbeiten
Deep-Learning-Posenschätzungsmethoden
IMU-Bewegungserfassungstechnologie
Multimodale Fusionsmethoden

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Forschungspapier mit wichtigen Beiträgen sowohl in der Datensatzkonstruktion als auch in der multimodalen Fusionsmethode. Die Qualität und der Umfang des MINIONS-Datensatzes werden wichtige Auswirkungen auf das Feld haben, und das SparseNet-Framework bietet eine effektive technische Lösung für verbraucherfreundliche Bewegungserfassung. Das Experimentdesign des Papiers ist umfassend, die Schlussfolgerungen sind zuverlässig und es hat hohen akademischen und praktischen Wert.