2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

Motion Capture from Inertial and Vision Sensors

基本信息

  • 论文ID: 2407.16341
  • 标题: Motion Capture from Inertial and Vision Sensors
  • 作者: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2024年7月 (arXiv预印本,版本v3更新至2025年10月11日)
  • 论文链接: https://arxiv.org/abs/2407.16341

摘要

人体运动捕捉是许多计算机视觉和图形学任务的基础。虽然工业级运动捕捉系统在电影和游戏制作中得到广泛应用,但消费级、易用的个人应用解决方案仍不成熟。为了利用单目相机和极少数惯性测量单元(IMUs)实现准确的多模态人体运动捕捉,本文提出了MINIONS数据集——一个从惯性和视觉传感器收集的大规模运动捕捉数据集。该数据集具有三个特色:1)大规模:超过500万帧和400分钟时长;2)多模态:包含IMU信号和RGB视频,标注了关节位置、关节旋转、SMPL参数等;3)多样性:包含146种细粒度的单人和交互动作。基于MINIONS数据集,提出了SparseNet框架,通过发现IMU和视频的互补特征来捕捉人体运动,探索使用单目相机和极少IMU进行消费级运动捕捉的可能性。

研究背景与动机

问题定义

该研究要解决的核心问题是:如何使用消费级设备(单目相机+少量IMU)实现准确、稳定的人体运动捕捉,以满足日常应用需求。

问题重要性

  1. 成本问题:工业级系统需要数十个同步相机或昂贵的可穿戴传感器,成本高达数千美元
  2. 便携性问题:现有系统配置复杂,限制了使用场景
  3. 应用需求:XR、移动视频制作、直播等消费级应用对低成本运动捕捉有迫切需求

现有方法局限性

  1. 基于标记的系统:需要特殊服装或大量IMU,不便于自然运动
  2. 多相机系统:需要复杂校准,限制活动范围
  3. 单目视觉方法:受深度歧义、遮挡和快速运动影响,存在时间抖动
  4. IMU方法:存在全局位置漂移问题,限制长时间运动捕捉

研究动机

现有数据集TotalCapture规模小、场景单一、需要紧身衣,与日常生活存在分布差异。本文旨在构建大规模、多样化的数据集,并探索视觉-惯性融合的消费级运动捕捉方案。

核心贡献

  1. 构建了MINIONS数据集:包含550万帧、440分钟的多模态运动捕捉数据,涵盖146种细粒度动作,提供丰富的标注信息
  2. 提出了SparseNet框架:基于贝叶斯理论的双分支架构,有效融合视觉和惯性信息进行运动捕捉
  3. 系统性实验分析:深入探索了不同传感器配置的性能,证明了4-6个IMU配合单目相机的有效性
  4. 多任务基准测试:在2D-3D姿态估计、细粒度动作识别等任务上提供了基准结果

方法详解

任务定义

输入:单目RGB视频序列 V={Vi}i=1LV = \{V_i\}_{i=1}^L 和稀疏IMU信号 I={Ii}i=0LI = \{I_i\}_{i=0}^L输出:SMPL参数(形状β\beta、姿态θ\theta、全局位移tt)和3D关节位置 约束:使用消费级设备,最少4个IMU传感器

模型架构

理论基础

基于贝叶斯融合策略,将关节旋转θ\theta建模为潜在变量:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

其中:

  • p(θ)p(\theta):关节旋转的先验分布(Matrix Fisher分布)
  • p(dvθ)p(d_v|\theta):视觉骨骼方向观测的von Mises-Fisher分布
  • p(DIθ)p(D_I|\theta):IMU旋转观测分布

网络结构

1. 视觉分支(Visual Branch)

  • 使用Vision Mamba编码器提取视觉特征
  • 形状解码器:回归SMPL形状参数β\beta
  • 姿态解码器:估计姿态先验分布p(θ)p(\theta)
  • 骨骼解码器:估计骨骼方向分布p(dvθ)p(d_v|\theta)

2. 稀疏IMU分支(Sparse IMUs Branch)

  • Joint Mamba编码器:从IMU信号预测骨骼位置d0:id_{0:i}
  • IMU Mamba编码器:处理稀疏惯性信号
  • 旋转解码器:估计旋转分布p(DIθ)p(D_I|\theta)
  • 平移解码器:估计全局平移tIt_I

3. 后处理分支(Post-processing Branch)

  • 后验融合模块:整合两个分支的概率分布
  • Smooth Mamba编码器:平滑最终姿态序列
  • PNP求解器:计算全局平移

技术创新点

  1. 概率融合框架:基于Matrix Fisher先验的贝叶斯融合,理论基础扎实
  2. 双分支互补设计:视觉分支提供形状和位置信息,IMU分支提供旋转和高频运动信息
  3. 稀疏传感器支持:支持4-10个IMU的灵活配置
  4. 端到端训练:统一的概率框架支持联合优化

实验设置

数据集

MINIONS数据集统计

  • 规模:550万帧,440分钟视频
  • 模态:8个2K相机 + 17个九轴IMU + RGB-D扫描仪
  • 动作:146种细粒度动作(121种单人 + 25种多人交互)
  • 参与者:36组演员(20个单人 + 16组多人)
  • 标注:2D/3D关节、SMPL参数、动作类别、纹理信息

数据划分

  • 训练集:12个演员,320万帧
  • 验证集:3个演员,90万帧
  • 测试集:5个演员,140万帧

评价指标

  1. μglo\mu_{glo}:全局旋转误差均值(度)
  2. σglo\sigma_{glo}:全局旋转误差方差(度)
  3. MPJPE:平均关节位置误差(毫米)
  4. Jitter:关节平均加速度抖动(102m/s310^2 m/s^3
  5. PA-MPJPE:Procrustes对齐后的关节位置误差

对比方法

  • IMU方法:PIP、PNP、基于IMU的基线方法
  • 视觉方法:TokenHMR、PromptHMR
  • 多模态方法:DiffCap、VIP、Liu et al.

实现细节

  • 训练策略:先预训练视觉分支(20 epochs),再训练IMU和后处理分支(200 epochs)
  • 优化器:Adam,学习率0.001
  • 批量大小:视觉分支64,其他512
  • 输入分辨率:512×512
  • 硬件:NVIDIA GTX A100

实验结果

主要结果

多模态运动捕捉性能对比

方法类型#IMUs#Camsμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
IMU-based6011.678.6557.931.17
Vision-based0110.277.2045.6113.02
Multi-modal619.206.1939.991.57

关键发现

  1. 4-6个IMU配置最优:在成本和性能间达到最佳平衡
  2. 互补优势明显:视觉方法抖动大,IMU方法位置漂移严重,融合后显著改善
  3. 超过8个IMU收益递减:增加成本但性能提升有限

TotalCapture数据集对比

方法MPJPE↓PA-MPJPE↓
DiffCap46.229.9
VIP-26.0
Liu et al.45.8-
Ours36.721.6

消融实验

不同IMU数量的性能分析

  • 4个IMU:μglo=9.75°\mu_{glo}=9.75°,MPJPE=41.53mm
  • 6个IMU:μglo=9.20°\mu_{glo}=9.20°,MPJPE=39.99mm
  • 8个IMU:μglo=8.86°\mu_{glo}=8.86°,MPJPE=39.39mm
  • 10个IMU:μglo=8.81°\mu_{glo}=8.81°,MPJPE=39.43mm

结果表明6-8个IMU为最佳配置。

其他任务基准

2D-3D姿态估计

  • MotionBERT:MPJPE=18.75mm,PA-MPJPE=13.44mm
  • Dual-Aug (243帧):MPJPE=19.22mm,PA-MPJPE=13.95mm

细粒度动作识别

  • UniFormerV2:Top-1=75.88%,Top-5=96.87%
  • VideoMAE:Top-1=73.75%,Top-5=96.01%

相比Kinetics400,MINIONS更具挑战性。

案例分析

可视化结果显示:

  1. IMU方法:随时间累积位置漂移,但旋转稳定
  2. 视觉方法:位置准确但存在时间抖动
  3. 融合方法:结合两者优势,既稳定又准确

相关工作

IMU运动捕捉

  • 工业方案:Perception Neuron、Xsens MVN系统使用17个IMU
  • 稀疏IMU方法:优化和回归两类范式
  • 局限性:长时间位置漂移问题

单目视觉运动捕捉

  • 优化方法:拟合SMPL参数到视频帧
  • 回归方法:端到端学习SMPL参数
  • 挑战:深度歧义、遮挡、快速运动

多模态融合

  • 现有工作:TotalCapture等小规模数据集
  • 本文优势:更大规模、更多样化、日常服装

结论与讨论

主要结论

  1. 技术可行性:4-6个IMU配合单目相机可实现稳定的消费级运动捕捉
  2. 互补价值:视觉和惯性传感器具有明显的互补优势
  3. 数据集贡献:MINIONS为该领域提供了重要的数据资源
  4. 实用性:方法在多个任务上展现了良好的泛化能力

局限性

  1. 传感器依赖:仍需要多个IMU传感器,增加了系统复杂度
  2. 实时性:论文未详细讨论实时性能表现
  3. 环境适应性:主要在室内环境测试,户外复杂环境的鲁棒性未充分验证
  4. 服装影响:虽然使用日常服装,但宽松服装对IMU精度的影响需进一步研究

未来方向

  1. 更少传感器:探索使用更少IMU的可能性
  2. 实时优化:提高系统的实时处理能力
  3. 环境鲁棒性:增强在复杂环境下的表现
  4. 应用扩展:拓展到更多实际应用场景

深度评价

优点

  1. 数据集贡献显著:MINIONS是目前最大规模的多模态运动捕捉数据集,填补了该领域的重要空白
  2. 理论基础扎实:基于贝叶斯理论的融合框架具有良好的数学基础
  3. 实验设计全面:从不同传感器配置到多任务评估,实验覆盖面广
  4. 实用价值高:为消费级运动捕捉提供了可行的技术路径
  5. 技术创新合理:双分支设计充分利用了不同模态的优势

不足

  1. 计算复杂度分析不足:缺乏详细的计算开销和实时性分析
  2. 失效案例分析有限:对方法在极端情况下的表现讨论不够
  3. 用户研究缺失:缺乏真实用户使用体验的评估
  4. 长期稳定性:对于长时间使用的稳定性验证不充分

影响力

  1. 学术价值:为多模态运动捕捉研究提供了重要的数据和基准
  2. 产业价值:为消费级运动捕捉产品开发提供了技术参考
  3. 可复现性:方法描述清晰,有望被其他研究者复现和改进
  4. 社区贡献:大规模数据集将促进该领域的快速发展

适用场景

  1. 个人创作:视频博主、内容创作者的动作捕捉需求
  2. 健身监测:运动姿态分析和纠正
  3. 游戏娱乐:体感游戏、虚拟现实应用
  4. 教育培训:动作教学、技能训练
  5. 医疗康复:运动功能评估和康复训练

参考文献

论文引用了75篇相关文献,主要包括:

  • 经典运动捕捉数据集:Human3.6M、TotalCapture、3DPW等
  • SMPL人体模型相关工作
  • 深度学习姿态估计方法
  • IMU运动捕捉技术
  • 多模态融合方法

总体评价:这是一篇高质量的计算机视觉研究论文,在数据集构建和多模态融合方法上都有重要贡献。MINIONS数据集的规模和质量将对该领域产生重要推动作用,SparseNet框架为消费级运动捕捉提供了有效的技术方案。论文的实验设计全面,结论可信,具有较高的学术价值和实用价值。