Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
- 논문 ID: 2407.16341
- 제목: Motion Capture from Inertial and Vision Sensors
- 저자: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
- 분류: cs.CV (컴퓨터 비전)
- 발표 시간: 2024년 7월 (arXiv 프리프린트, v3 버전 2025년 10월 11일 업데이트)
- 논문 링크: https://arxiv.org/abs/2407.16341
인체 모션 캡처는 많은 컴퓨터 비전 및 그래픽 작업의 기초입니다. 산업용 모션 캡처 시스템이 영화 및 게임 제작에 널리 적용되고 있지만, 소비자급의 사용하기 쉬운 개인용 애플리케이션 솔루션은 아직 미성숙합니다. 단일 카메라와 극소수의 관성 측정 장치(IMU)를 이용하여 정확한 다중 모달 인체 모션 캡처를 구현하기 위해, 본 논문은 관성 및 비전 센서에서 수집한 대규모 모션 캡처 데이터셋인 MINIONS 데이터셋을 제안합니다. 이 데이터셋은 세 가지 특징을 가지고 있습니다: 1) 대규모: 500만 프레임 이상 및 400분 길이; 2) 다중 모달: IMU 신호 및 RGB 비디오 포함, 관절 위치, 관절 회전, SMPL 파라미터 등으로 주석 처리됨; 3) 다양성: 146가지 세밀한 단인 및 상호작용 동작 포함. MINIONS 데이터셋을 기반으로, IMU와 비디오의 상호보완적 특징을 발견하여 인체 모션을 캡처하는 SparseNet 프레임워크를 제안하며, 단일 카메라와 극소수 IMU를 사용한 소비자급 모션 캡처의 가능성을 탐색합니다.
본 연구가 해결하고자 하는 핵심 문제는: 소비자급 장치(단일 카메라 + 소수 IMU)를 사용하여 일상적 응용 요구를 충족하는 정확하고 안정적인 인체 모션 캡처를 어떻게 구현할 것인가입니다.
- 비용 문제: 산업용 시스템은 수십 개의 동기화된 카메라 또는 비싼 착용형 센서가 필요하며, 비용이 수천 달러에 달합니다
- 휴대성 문제: 기존 시스템은 설정이 복잡하여 사용 시나리오를 제한합니다
- 응용 수요: XR, 모바일 비디오 제작, 라이브 스트리밍 등 소비자급 애플리케이션은 저비용 모션 캡처에 대한 긴급한 수요가 있습니다
- 마커 기반 시스템: 특수 의류 또는 많은 IMU가 필요하여 자연스러운 움직임에 불편합니다
- 다중 카메라 시스템: 복잡한 보정이 필요하고 활동 범위를 제한합니다
- 단일 카메라 비전 방법: 깊이 모호성, 폐색 및 빠른 움직임의 영향을 받으며 시간적 떨림이 존재합니다
- IMU 방법: 전역 위치 드리프트 문제가 있어 장시간 모션 캡처를 제한합니다
기존 데이터셋인 TotalCapture는 규모가 작고, 장면이 단순하며, 타이트한 의류가 필요하여 일상생활과 분포 차이가 있습니다. 본 논문은 대규모의 다양한 데이터셋을 구축하고 비전-관성 융합 소비자급 모션 캡처 방안을 탐색하는 것을 목표로 합니다.
- MINIONS 데이터셋 구축: 550만 프레임, 440분의 다중 모달 모션 캡처 데이터 포함, 146가지 세밀한 동작 포함, 풍부한 주석 정보 제공
- SparseNet 프레임워크 제안: 베이즈 이론 기반의 이중 분기 구조로 비전 및 관성 정보를 효과적으로 융합하여 모션 캡처 수행
- 체계적 실험 분석: 다양한 센서 구성의 성능을 심층 탐색하여 4-6개 IMU와 단일 카메라의 효과성 증명
- 다중 작업 벤치마크 테스트: 2D-3D 자세 추정, 세밀한 동작 인식 등 작업에서 벤치마크 결과 제공
입력: 단일 RGB 비디오 시퀀스 V={Vi}i=1L 및 희소 IMU 신호 I={Ii}i=0L출력: SMPL 파라미터(형태 β, 자세 θ, 전역 변위 t) 및 3D 관절 위치
제약: 소비자급 장치 사용, 최소 4개 IMU 센서
베이즈 융합 전략을 기반으로 관절 회전 θ를 잠재 변수로 모델링합니다:
p(θ∣dv,DI)∝p(θ)⋅p(dv∣θ)⋅p(DI∣θ)
여기서:
- p(θ): 관절 회전의 사전 분포(Matrix Fisher 분포)
- p(dv∣θ): 비전 뼈 방향 관측의 von Mises-Fisher 분포
- p(DI∣θ): IMU 회전 관측 분포
1. 비전 분기(Visual Branch)
- Vision Mamba 인코더를 사용하여 비전 특징 추출
- 형태 디코더: SMPL 형태 파라미터 β 회귀
- 자세 디코더: 자세 사전 분포 p(θ) 추정
- 뼈 디코더: 뼈 방향 분포 p(dv∣θ) 추정
2. 희소 IMU 분기(Sparse IMUs Branch)
- Joint Mamba 인코더: IMU 신호에서 뼈 위치 d0:i 예측
- IMU Mamba 인코더: 희소 관성 신호 처리
- 회전 디코더: 회전 분포 p(DI∣θ) 추정
- 평행이동 디코더: 전역 평행이동 tI 추정
3. 후처리 분기(Post-processing Branch)
- 사후 융합 모듈: 두 분기의 확률 분포 통합
- Smooth Mamba 인코더: 최종 자세 시퀀스 평활화
- PNP 솔버: 전역 평행이동 계산
- 확률 융합 프레임워크: Matrix Fisher 사전 기반의 베이즈 융합으로 견고한 이론적 기초
- 이중 분기 상호보완 설계: 비전 분기는 형태 및 위치 정보 제공, IMU 분기는 회전 및 고주파 움직임 정보 제공
- 희소 센서 지원: 4-10개 IMU의 유연한 구성 지원
- 엔드-투-엔드 학습: 통합된 확률 프레임워크로 공동 최적화 지원
MINIONS 데이터셋 통계:
- 규모: 550만 프레임, 440분 비디오
- 모달: 8개 2K 카메라 + 17개 9축 IMU + RGB-D 스캐너
- 동작: 146가지 세밀한 동작(121가지 단인 + 25가지 다인 상호작용)
- 참여자: 36개 배우 그룹(20명 단인 + 16개 다인 그룹)
- 주석: 2D/3D 관절, SMPL 파라미터, 동작 카테고리, 텍스처 정보
데이터 분할:
- 훈련 세트: 12명 배우, 320만 프레임
- 검증 세트: 3명 배우, 90만 프레임
- 테스트 세트: 5명 배우, 140만 프레임
- μglo: 전역 회전 오차 평균(도)
- σglo: 전역 회전 오차 분산(도)
- MPJPE: 평균 관절 위치 오차(밀리미터)
- Jitter: 관절 평균 가속도 떨림(102m/s3)
- PA-MPJPE: Procrustes 정렬 후 관절 위치 오차
- IMU 방법: PIP, PNP, IMU 기반 기준 방법
- 비전 방법: TokenHMR, PromptHMR
- 다중 모달 방법: DiffCap, VIP, Liu et al.
- 훈련 전략: 먼저 비전 분기 사전 훈련(20 에포크), 이후 IMU 및 후처리 분기 훈련(200 에포크)
- 최적화기: Adam, 학습률 0.001
- 배치 크기: 비전 분기 64, 기타 512
- 입력 해상도: 512×512
- 하드웨어: NVIDIA GTX A100
다중 모달 모션 캡처 성능 비교:
| 방법 유형 | #IMUs | #Cams | μglo↓ | σglo↓ | MPJPE↓ | Jitter↓ |
|---|
| IMU 기반 | 6 | 0 | 11.67 | 8.65 | 57.93 | 1.17 |
| 비전 기반 | 0 | 1 | 10.27 | 7.20 | 45.61 | 13.02 |
| 다중 모달 | 6 | 1 | 9.20 | 6.19 | 39.99 | 1.57 |
주요 발견:
- 4-6개 IMU 구성이 최적: 비용과 성능 간 최적의 균형 달성
- 상호보완 장점이 명확: 비전 방법은 떨림이 크고, IMU 방법은 위치 드리프트가 심하며, 융합 후 현저히 개선됨
- 8개 이상 IMU는 수익 감소: 비용 증가하지만 성능 향상은 제한적
| 방법 | MPJPE↓ | PA-MPJPE↓ |
|---|
| DiffCap | 46.2 | 29.9 |
| VIP | - | 26.0 |
| Liu et al. | 45.8 | - |
| 본 논문 | 36.7 | 21.6 |
다양한 IMU 수량의 성능 분석:
- 4개 IMU: μglo=9.75°, MPJPE=41.53mm
- 6개 IMU: μglo=9.20°, MPJPE=39.99mm
- 8개 IMU: μglo=8.86°, MPJPE=39.39mm
- 10개 IMU: μglo=8.81°, MPJPE=39.43mm
결과는 6-8개 IMU가 최적 구성임을 나타냅니다.
2D-3D 자세 추정:
- MotionBERT: MPJPE=18.75mm, PA-MPJPE=13.44mm
- Dual-Aug (243프레임): MPJPE=19.22mm, PA-MPJPE=13.95mm
세밀한 동작 인식:
- UniFormerV2: Top-1=75.88%, Top-5=96.87%
- VideoMAE: Top-1=73.75%, Top-5=96.01%
Kinetics400과 비교하여 MINIONS이 더 도전적입니다.
시각화 결과는 다음을 보여줍니다:
- IMU 방법: 시간에 따라 위치 드리프트 누적, 하지만 회전은 안정적
- 비전 방법: 위치는 정확하지만 시간적 떨림 존재
- 융합 방법: 두 방법의 장점을 결합하여 안정적이면서도 정확함
- 산업 솔루션: Perception Neuron, Xsens MVN 시스템은 17개 IMU 사용
- 희소 IMU 방법: 최적화 및 회귀 두 가지 패러다임
- 한계: 장시간 위치 드리프트 문제
- 최적화 방법: SMPL 파라미터를 비디오 프레임에 맞춤
- 회귀 방법: 엔드-투-엔드 SMPL 파라미터 학습
- 도전 과제: 깊이 모호성, 폐색, 빠른 움직임
- 기존 연구: TotalCapture 등 소규모 데이터셋
- 본 논문의 장점: 더 큰 규모, 더 다양함, 일상 의류
- 기술 가능성: 4-6개 IMU와 단일 카메라로 안정적인 소비자급 모션 캡처 구현 가능
- 상호보완 가치: 비전 및 관성 센서는 명확한 상호보완 장점 보유
- 데이터셋 기여: MINIONS은 해당 분야에 중요한 데이터 자원 제공
- 실용성: 방법은 여러 작업에서 우수한 일반화 능력 시연
- 센서 의존성: 여전히 여러 IMU 센서 필요로 하여 시스템 복잡도 증가
- 실시간성: 논문에서 실시간 성능 표현에 대해 자세히 논의하지 않음
- 환경 적응성: 주로 실내 환경에서 테스트되었으며, 야외 복잡 환경의 견고성 미검증
- 의류 영향: 일상 의류를 사용하지만, 헐거운 의류가 IMU 정확도에 미치는 영향 추가 연구 필요
- 더 적은 센서: 더 적은 IMU 사용 가능성 탐색
- 실시간 최적화: 시스템의 실시간 처리 능력 향상
- 환경 견고성: 복잡한 환경에서의 성능 강화
- 응용 확대: 더 많은 실제 응용 시나리오로 확대
- 데이터셋 기여 현저: MINIONS은 현재 최대 규모의 다중 모달 모션 캡처 데이터셋으로 해당 분야의 중요한 공백 메움
- 이론적 기초 견고: 베이즈 이론 기반 융합 프레임워크는 우수한 수학적 기초 보유
- 실험 설계 포괄적: 다양한 센서 구성부터 다중 작업 평가까지 실험 범위 광범위
- 실용 가치 높음: 소비자급 모션 캡처를 위한 가능한 기술 경로 제공
- 기술 혁신 합리적: 이중 분기 설계는 다양한 모달의 장점을 충분히 활용
- 계산 복잡도 분석 부족: 계산 오버헤드 및 실시간성에 대한 자세한 분석 부재
- 실패 사례 분석 제한적: 극단적 상황에서 방법의 성능에 대한 논의 부족
- 사용자 연구 부재: 실제 사용자 경험 평가 부족
- 장기 안정성: 장시간 사용의 안정성 검증 불충분
- 학술 가치: 다중 모달 모션 캡처 연구에 중요한 데이터 및 벤치마크 제공
- 산업 가치: 소비자급 모션 캡처 제품 개발을 위한 기술 참고 제공
- 재현성: 방법 설명이 명확하여 다른 연구자의 재현 및 개선 가능
- 커뮤니티 기여: 대규모 데이터셋은 해당 분야의 빠른 발전 촉진
- 개인 창작: 비디오 블로거, 콘텐츠 크리에이터의 동작 캡처 수요
- 피트니스 모니터링: 운동 자세 분석 및 교정
- 게임 엔터테인먼트: 체감 게임, 가상 현실 애플리케이션
- 교육 훈련: 동작 교수, 기술 훈련
- 의료 재활: 운동 기능 평가 및 재활 훈련
논문은 75편의 관련 문헌을 인용하며, 주요 내용은 다음을 포함합니다:
- 고전 모션 캡처 데이터셋: Human3.6M, TotalCapture, 3DPW 등
- SMPL 인체 모델 관련 연구
- 심층 학습 자세 추정 방법
- IMU 모션 캡처 기술
- 다중 모달 융합 방법
종합 평가: 이는 데이터셋 구축 및 다중 모달 융합 방법 모두에서 중요한 기여를 한 고품질의 컴퓨터 비전 연구 논문입니다. MINIONS 데이터셋의 규모와 품질은 해당 분야에 중요한 추진력을 미칠 것이며, SparseNet 프레임워크는 소비자급 모션 캡처를 위한 효과적인 기술 솔루션을 제공합니다. 논문의 실험 설계는 포괄적이고 결론은 신뢰할 수 있으며, 학술 가치와 실용 가치가 높습니다.