2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

Bewegungserfassung aus Trägheits- und Visionsensoren

Grundinformationen

  • Papier-ID: 2407.16341
  • Titel: Motion Capture from Inertial and Vision Sensors
  • Autoren: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: Juli 2024 (arXiv-Preprint, Version v3 aktualisiert am 11. Oktober 2025)
  • Papierlink: https://arxiv.org/abs/2407.16341

Zusammenfassung

Die Erfassung menschlicher Bewegungen ist grundlegend für viele Aufgaben in der Computervision und Computergrafik. Während industrielle Bewegungserfassungssysteme in Film- und Spielproduktion weit verbreitet sind, sind verbraucherfreundliche und benutzerfreundliche Lösungen für den persönlichen Gebrauch noch nicht ausgereift. Um genaue multimodale Bewegungserfassung mit einer einzelnen Kamera und einer minimalen Anzahl von Trägheitsmesseinheiten (IMUs) zu erreichen, wird in diesem Papier der MINIONS-Datensatz vorgestellt – ein großflächiger Bewegungserfassungsdatensatz, der von Trägheits- und Visionsensoren erfasst wurde. Der Datensatz hat drei Besonderheiten: 1) Großflächig: über 5,5 Millionen Frames und 440 Minuten Dauer; 2) Multimodal: enthält IMU-Signale und RGB-Videos mit Annotationen von Gelenkpositionen, Gelenkrotationen, SMPL-Parametern usw.; 3) Vielfältig: enthält 146 feinkörnige Ein- und Mehrpersonen-Aktionen. Basierend auf dem MINIONS-Datensatz wird das SparseNet-Framework vorgestellt, das menschliche Bewegungen durch die Entdeckung komplementärer Merkmale von IMU und Video erfasst und die Möglichkeit der verbraucherfreundlichen Bewegungserfassung mit einer einzelnen Kamera und minimalen IMUs erforscht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie kann man mit verbraucherfreundlichen Geräten (einzelne Kamera + wenige IMUs) genaue und stabile menschliche Bewegungserfassung für alltägliche Anwendungen erreichen?

Bedeutung des Problems

  1. Kostenproblem: Industrielle Systeme erfordern Dutzende synchronisierter Kameras oder teure tragbare Sensoren mit Kosten von Tausenden von Dollar
  2. Portabilitätsproblem: Bestehende Systeme sind komplex konfiguriert und begrenzen Anwendungsszenarien
  3. Anwendungsbedarf: XR, mobile Videoproduktion, Live-Streaming und andere verbraucherfreundliche Anwendungen haben dringenden Bedarf an kostengünstiger Bewegungserfassung

Einschränkungen bestehender Methoden

  1. Markierungsbasierte Systeme: Erfordern spezielle Kleidung oder viele IMUs, unbequem für natürliche Bewegungen
  2. Multi-Kamera-Systeme: Erfordern komplexe Kalibrierung und begrenzen Bewegungsbereich
  3. Monokulare Visionsmethoden: Beeinträchtigt durch Tiefenambiguität, Verdeckung und schnelle Bewegungen mit zeitlichem Jitter
  4. IMU-Methoden: Leiden unter globaler Positionsabweichung und begrenzen lange Bewegungserfassung

Forschungsmotivation

Bestehende Datensätze wie TotalCapture sind klein, szenenspezifisch und erfordern Ganzkörperanzüge mit Verteilungsunterschieden zum alltäglichen Leben. Dieses Papier zielt darauf ab, einen großflächigen, vielfältigen Datensatz zu konstruieren und eine verbraucherfreundliche Lösung zur Fusion von Vision und Trägheit zu erforschen.

Kernbeiträge

  1. Konstruktion des MINIONS-Datensatzes: Enthält 5,5 Millionen Frames und 440 Minuten multimodale Bewegungserfassungsdaten mit 146 feinkörnigen Aktionen und umfangreichen Annotationen
  2. Vorstellung des SparseNet-Frameworks: Eine auf Bayes-Theorie basierende Dual-Branch-Architektur, die Vision- und Trägheitsinformationen effektiv für Bewegungserfassung fusioniert
  3. Systematische experimentelle Analyse: Tiefe Erforschung der Leistung verschiedener Sensorkonfigurationen mit Nachweis der Wirksamkeit von 4-6 IMUs mit monokularer Kamera
  4. Multi-Task-Benchmark-Tests: Bereitstellung von Benchmark-Ergebnissen für 2D-3D-Posenschätzung, feinkörnige Aktionserkennung und andere Aufgaben

Methodenerklärung

Aufgabendefinition

Eingabe: Monokulare RGB-Videosequenz V={Vi}i=1LV = \{V_i\}_{i=1}^L und spärliche IMU-Signale I={Ii}i=0LI = \{I_i\}_{i=0}^LAusgabe: SMPL-Parameter (Form β\beta, Pose θ\theta, globale Verschiebung tt) und 3D-Gelenkpositionen Einschränkung: Verwendung verbraucherfreundlicher Geräte mit mindestens 4 IMU-Sensoren

Modellarchitektur

Theoretische Grundlagen

Basierend auf einer Bayes-Fusionsstrategie wird die Gelenkrotation θ\theta als latente Variable modelliert:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

Wobei:

  • p(θ)p(\theta): Vorverteilung der Gelenkrotation (Matrix-Fisher-Verteilung)
  • p(dvθ)p(d_v|\theta): Von-Mises-Fisher-Verteilung der visuellen Skelettrichtungsbeobachtung
  • p(DIθ)p(D_I|\theta): IMU-Rotationsbeobachtungsverteilung

Netzwerkstruktur

1. Visueller Branch (Visual Branch)

  • Vision-Mamba-Encoder zur Extraktion visueller Merkmale
  • Form-Decoder: Regression von SMPL-Formparametern β\beta
  • Pose-Decoder: Schätzung der Pose-Vorverteilung p(θ)p(\theta)
  • Skelett-Decoder: Schätzung der Skelettrichtungsverteilung p(dvθ)p(d_v|\theta)

2. Spärlicher IMU-Branch (Sparse IMUs Branch)

  • Joint-Mamba-Encoder: Vorhersage von Skelettposition d0:id_{0:i} aus IMU-Signalen
  • IMU-Mamba-Encoder: Verarbeitung spärlicher Trägheitssignale
  • Rotations-Decoder: Schätzung der Rotationsverteilung p(DIθ)p(D_I|\theta)
  • Translations-Decoder: Schätzung der globalen Translation tIt_I

3. Nachbearbeitungs-Branch (Post-processing Branch)

  • Posteriore Fusionsmodul: Integration der Wahrscheinlichkeitsverteilungen beider Branches
  • Smooth-Mamba-Encoder: Glättung der endgültigen Posesequenz
  • PNP-Solver: Berechnung der globalen Translation

Technische Innovationspunkte

  1. Probabilistische Fusionsframework: Bayes-Fusion basierend auf Matrix-Fisher-Vorverteilung mit solider theoretischer Grundlage
  2. Dual-Branch-Komplementärdesign: Visueller Branch liefert Form- und Positionsinformationen, IMU-Branch liefert Rotations- und hochfrequente Bewegungsinformationen
  3. Unterstützung spärlicher Sensoren: Flexible Konfiguration mit 4-10 IMUs
  4. End-to-End-Training: Einheitliches probabilistisches Framework unterstützt gemeinsame Optimierung

Experimentelle Einrichtung

Datensatz

MINIONS-Datensatz-Statistiken:

  • Umfang: 5,5 Millionen Frames, 440 Minuten Video
  • Modalitäten: 8 2K-Kameras + 17 neunachsige IMUs + RGB-D-Scanner
  • Aktionen: 146 feinkörnige Aktionen (121 Einzelperson + 25 Mehrperson-Interaktionen)
  • Teilnehmer: 36 Schauspielergruppen (20 Einzelperson + 16 Mehrperson-Gruppen)
  • Annotationen: 2D/3D-Gelenke, SMPL-Parameter, Aktionskategorien, Texturinformationen

Datenteilung:

  • Trainingssatz: 12 Schauspieler, 3,2 Millionen Frames
  • Validierungssatz: 3 Schauspieler, 0,9 Millionen Frames
  • Testsatz: 5 Schauspieler, 1,4 Millionen Frames

Bewertungsmetriken

  1. μglo\mu_{glo}: Durchschnittlicher globaler Rotationsfehler (Grad)
  2. σglo\sigma_{glo}: Varianz des globalen Rotationsfehlers (Grad)
  3. MPJPE: Durchschnittlicher Gelenkpositionsfehler (Millimeter)
  4. Jitter: Durchschnittliche Gelenkbeschleunigungszittern (102m/s310^2 m/s^3)
  5. PA-MPJPE: Gelenkpositionsfehler nach Procrustes-Ausrichtung

Vergleichsmethoden

  • IMU-Methoden: PIP, PNP, IMU-basierte Baseline-Methoden
  • Visionsmethoden: TokenHMR, PromptHMR
  • Multimodale Methoden: DiffCap, VIP, Liu et al.

Implementierungsdetails

  • Trainingsstrategie: Vortraining des visuellen Branches (20 Epochen), dann Training von IMU- und Nachbearbeitungs-Branches (200 Epochen)
  • Optimierer: Adam, Lernrate 0,001
  • Batch-Größe: Visueller Branch 64, andere 512
  • Eingabeauflösung: 512×512
  • Hardware: NVIDIA GTX A100

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der multimodalen Bewegungserfassungsleistung:

Methodentyp#IMUs#Kamerasμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
IMU-basiert6011,678,6557,931,17
Visionsbasiert0110,277,2045,6113,02
Multimodal619,206,1939,991,57

Wichtigste Erkenntnisse:

  1. 4-6 IMU-Konfiguration optimal: Erreicht beste Balance zwischen Kosten und Leistung
  2. Komplementäre Vorteile deutlich: Visionsmethode hat großes Jitter, IMU-Methode hat ernsthafte Positionsabweichung, Fusion verbessert beide erheblich
  3. Abnehmender Nutzen über 8 IMUs: Erhöhte Kosten mit begrenzter Leistungsverbesserung

Vergleich mit TotalCapture-Datensatz

MethodeMPJPE↓PA-MPJPE↓
DiffCap46,229,9
VIP-26,0
Liu et al.45,8-
Unsere36,721,6

Ablationsstudien

Leistungsanalyse mit unterschiedlicher IMU-Anzahl:

  • 4 IMUs: μglo=9,75°\mu_{glo}=9,75°, MPJPE=41,53mm
  • 6 IMUs: μglo=9,20°\mu_{glo}=9,20°, MPJPE=39,99mm
  • 8 IMUs: μglo=8,86°\mu_{glo}=8,86°, MPJPE=39,39mm
  • 10 IMUs: μglo=8,81°\mu_{glo}=8,81°, MPJPE=39,43mm

Ergebnisse zeigen 6-8 IMUs als optimale Konfiguration.

Weitere Task-Benchmarks

2D-3D-Posenschätzung:

  • MotionBERT: MPJPE=18,75mm, PA-MPJPE=13,44mm
  • Dual-Aug (243 Frames): MPJPE=19,22mm, PA-MPJPE=13,95mm

Feinkörnige Aktionserkennung:

  • UniFormerV2: Top-1=75,88%, Top-5=96,87%
  • VideoMAE: Top-1=73,75%, Top-5=96,01%

MINIONS ist im Vergleich zu Kinetics400 anspruchsvoller.

Fallstudien

Visualisierungsergebnisse zeigen:

  1. IMU-Methode: Akkumuliert Positionsabweichung über Zeit, aber stabile Rotation
  2. Visionsmethode: Genaue Position aber zeitliches Jitter
  3. Fusionsmethode: Kombiniert Vorteile beider, stabil und genau

Verwandte Arbeiten

IMU-Bewegungserfassung

  • Industrielle Lösungen: Perception Neuron, Xsens MVN-Systeme verwenden 17 IMUs
  • Spärliche IMU-Methoden: Optimierungs- und Regressions-Paradigmen
  • Einschränkungen: Langfristige Positionsabweichungsprobleme

Monokulare visuelle Bewegungserfassung

  • Optimierungsmethoden: SMPL-Parameter an Videoframes anpassen
  • Regressionsmethoden: End-to-End-Lernen von SMPL-Parametern
  • Herausforderungen: Tiefenambiguität, Verdeckung, schnelle Bewegungen

Multimodale Fusion

  • Bestehende Arbeiten: Kleine Datensätze wie TotalCapture
  • Vorteile dieses Papiers: Größerer Umfang, mehr Vielfalt, alltägliche Kleidung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: 4-6 IMUs mit monokularer Kamera können stabile verbraucherfreundliche Bewegungserfassung erreichen
  2. Komplementärer Wert: Vision- und Trägheitssensoren haben offensichtliche komplementäre Vorteile
  3. Datensatz-Beitrag: MINIONS bietet wichtige Datenressourcen für das Feld
  4. Praktikabilität: Methode zeigt gute Generalisierungsfähigkeit über mehrere Aufgaben

Einschränkungen

  1. Sensorabhängigkeit: Erfordert immer noch mehrere IMU-Sensoren, erhöht Systemkomplexität
  2. Echtzeit-Leistung: Papier diskutiert Echtzeit-Leistung nicht ausführlich
  3. Umgebungsadaptivität: Hauptsächlich in Innenräumen getestet, Robustheit in komplexen Außenumgebungen nicht vollständig validiert
  4. Kleidungseinfluss: Obwohl alltägliche Kleidung verwendet, Auswirkungen lockerer Kleidung auf IMU-Genauigkeit bedarf weiterer Forschung

Zukünftige Richtungen

  1. Weniger Sensoren: Erforschung der Möglichkeit, weniger IMUs zu verwenden
  2. Echtzeit-Optimierung: Verbesserung der Echtzeit-Verarbeitungsfähigkeit des Systems
  3. Umgebungsrobustheit: Verbesserung der Leistung in komplexen Umgebungen
  4. Anwendungserweiterung: Erweiterung auf mehr praktische Anwendungsszenarien

Tiefenbewertung

Stärken

  1. Signifikanter Datensatz-Beitrag: MINIONS ist derzeit der größte multimodale Bewegungserfassungsdatensatz und füllt eine wichtige Lücke im Feld
  2. Solide theoretische Grundlage: Das auf Bayes-Theorie basierende Fusionsframework hat gute mathematische Grundlagen
  3. Umfassendes Experimentdesign: Von verschiedenen Sensorkonfigurationen bis zu Multi-Task-Bewertung, breite experimentelle Abdeckung
  4. Hoher praktischer Wert: Bietet einen praktikablen technischen Weg für verbraucherfreundliche Bewegungserfassung
  5. Angemessene technische Innovation: Dual-Branch-Design nutzt Vorteile verschiedener Modalitäten vollständig

Mängel

  1. Unzureichende Komplexitätsanalyse: Mangel an detaillierter Analyse von Rechenaufwand und Echtzeit-Leistung
  2. Begrenzte Fehlerfall-Analyse: Unzureichende Diskussion der Methodenleistung in extremen Situationen
  3. Fehlende Benutzerstudien: Mangel an Bewertung der echten Benutzererfahrung
  4. Langzeitstabilität: Unzureichende Validierung der Stabilität bei längerer Verwendung

Einfluss

  1. Akademischer Wert: Bietet wichtige Daten und Benchmarks für multimodale Bewegungserfassungsforschung
  2. Industrieller Wert: Bietet technische Referenzen für die Entwicklung verbraucherfreundlicher Bewegungserfassungsprodukte
  3. Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht Reproduktion und Verbesserung durch andere Forscher
  4. Gemeinschaftsbeitrag: Großflächiger Datensatz wird schnelle Entwicklung des Feldes fördern

Anwendungsszenarien

  1. Persönliche Kreation: Bewegungserfassungsbedarf von Videobloggern und Content-Erstellern
  2. Fitness-Überwachung: Bewegungshaltungsanalyse und -korrektur
  3. Spiele und Unterhaltung: Motion-Sensing-Spiele, Virtual-Reality-Anwendungen
  4. Bildung und Training: Bewegungsunterricht, Fertigkeitstraining
  5. Medizinische Rehabilitation: Bewegungsfunktionsbewertung und Rehabilitationstraining

Referenzen

Das Papier zitiert 75 verwandte Literaturquellen, hauptsächlich einschließlich:

  • Klassische Bewegungserfassungsdatensätze: Human3.6M, TotalCapture, 3DPW usw.
  • SMPL-Menschenmodell-verwandte Arbeiten
  • Deep-Learning-Posenschätzungsmethoden
  • IMU-Bewegungserfassungstechnologie
  • Multimodale Fusionsmethoden

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Forschungspapier mit wichtigen Beiträgen sowohl in der Datensatzkonstruktion als auch in der multimodalen Fusionsmethode. Die Qualität und der Umfang des MINIONS-Datensatzes werden wichtige Auswirkungen auf das Feld haben, und das SparseNet-Framework bietet eine effektive technische Lösung für verbraucherfreundliche Bewegungserfassung. Das Experimentdesign des Papiers ist umfassend, die Schlussfolgerungen sind zuverlässig und es hat hohen akademischen und praktischen Wert.