Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
- ID статьи: 2407.16341
- Название: Motion Capture from Inertial and Vision Sensors
- Авторы: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
- Категория: cs.CV (Компьютерное зрение)
- Дата публикации: июль 2024 г. (препринт arXiv, версия v3 обновлена 11 октября 2025 г.)
- Ссылка на статью: https://arxiv.org/abs/2407.16341
Захват движения человека является основой для многих задач компьютерного зрения и компьютерной графики. Хотя промышленные системы захвата движения широко используются в кинематографии и производстве видеоигр, потребительские, удобные в использовании решения для личных приложений остаются незрелыми. Для реализации точного многомодального захвата движения человека с использованием монокулярной камеры и минимального количества инерциальных измерительных блоков (IMU), в данной работе предложен набор данных MINIONS — крупномасштабный набор данных захвата движения, собранный с инерциальных и визуальных датчиков. Набор данных имеет три характерные особенности: 1) крупномасштабность: более 5,5 млн кадров и 440 минут видео; 2) мультимодальность: содержит сигналы IMU и видео RGB с аннотациями положения суставов, ротации суставов, параметров SMPL и т.д.; 3) разнообразие: включает 146 типов детализированных одиночных и интерактивных движений. На основе набора данных MINIONS предложена структура SparseNet, которая захватывает движение человека путем выявления дополняющих характеристик IMU и видео, исследуя возможность потребительского захвата движения с использованием монокулярной камеры и минимального количества IMU.
Основная проблема, которую решает данное исследование: как использовать потребительские устройства (монокулярная камера + небольшое количество IMU) для реализации точного и стабильного захвата движения человека, отвечающего повседневным потребностям приложений.
- Проблема стоимости: промышленные системы требуют десятков синхронизированных камер или дорогостоящих носимых датчиков, стоимость которых достигает тысяч долларов
- Проблема портативности: существующие системы имеют сложную конфигурацию, что ограничивает сценарии использования
- Потребности приложений: потребительские приложения, такие как XR, мобильное видеопроизводство и прямые трансляции, требуют недорогого захвата движения
- Системы на основе маркеров: требуют специальной одежды или большого количества IMU, неудобны для естественного движения
- Многокамерные системы: требуют сложной калибровки, ограничивают диапазон движений
- Методы монокулярного зрения: подвержены влиянию неоднозначности глубины, окклюзии и быстрых движений, страдают от временного дрожания
- Методы на основе IMU: имеют проблему глобального дрейфа положения, ограничивают длительный захват движения
Существующие наборы данных, такие как TotalCapture, имеют небольшой масштаб, ограниченные сценарии, требуют облегающей одежды и отличаются от распределения в повседневной жизни. Данная работа направлена на создание крупномасштабного и разнообразного набора данных и исследование потребительского решения для захвата движения с визуально-инерциальным слиянием.
- Построение набора данных MINIONS: содержит 5,5 млн кадров, 440 минут многомодального захвата движения, охватывает 146 типов детализированных движений с богатой информацией аннотаций
- Предложение структуры SparseNet: двухветвевая архитектура на основе теории Байеса, эффективно интегрирующая визуальную и инерциальную информацию для захвата движения
- Систематический экспериментальный анализ: глубокое исследование производительности различных конфигураций датчиков, доказывающее эффективность 4-6 IMU в сочетании с монокулярной камерой
- Многозадачное тестирование: предоставление эталонных результатов для оценки 2D-3D позы, детализированного распознавания действий и других задач
Входные данные: последовательность монокулярного видео RGB V={Vi}i=1L и разреженные сигналы IMU I={Ii}i=0LВыходные данные: параметры SMPL (форма β, поза θ, глобальное смещение t) и 3D положения суставов
Ограничения: использование потребительских устройств, минимум 4 датчика IMU
На основе стратегии байесовского слияния ротация сустава θ моделируется как скрытая переменная:
p(θ∣dv,DI)∝p(θ)⋅p(dv∣θ)⋅p(DI∣θ)
где:
- p(θ): априорное распределение ротации сустава (распределение Matrix Fisher)
- p(dv∣θ): распределение von Mises-Fisher визуального наблюдения направления костей
- p(DI∣θ): распределение наблюдения ротации IMU
1. Визуальная ветвь (Visual Branch)
- Использует кодировщик Vision Mamba для извлечения визуальных признаков
- Декодер формы: регрессия параметров формы SMPL β
- Декодер позы: оценка априорного распределения позы p(θ)
- Декодер костей: оценка распределения направления костей p(dv∣θ)
2. Ветвь разреженных IMU (Sparse IMUs Branch)
- Кодировщик Joint Mamba: предсказание положения костей d0:i из сигналов IMU
- Кодировщик IMU Mamba: обработка разреженных инерциальных сигналов
- Декодер ротации: оценка распределения ротации p(DI∣θ)
- Декодер трансляции: оценка глобальной трансляции tI
3. Ветвь постобработки (Post-processing Branch)
- Модуль апостериорного слияния: интеграция вероятностных распределений обеих ветвей
- Кодировщик Smooth Mamba: сглаживание финальной последовательности позы
- Решатель PNP: вычисление глобальной трансляции
- Вероятностная структура слияния: байесовское слияние на основе априора Matrix Fisher с прочной теоретической основой
- Двухветвевой дополняющий дизайн: визуальная ветвь предоставляет информацию о форме и положении, ветвь IMU предоставляет информацию о ротации и высокочастотном движении
- Поддержка разреженных датчиков: гибкая конфигурация с поддержкой 4-10 IMU
- Сквозное обучение: единая вероятностная структура поддерживает совместную оптимизацию
Статистика набора данных MINIONS:
- Масштаб: 5,5 млн кадров, 440 минут видео
- Модальности: 8 камер 2K + 17 девятиосевых IMU + сканер RGB-D
- Движения: 146 типов детализированных движений (121 одиночное + 25 многопользовательских интерактивных)
- Участники: 36 групп актеров (20 одиночных + 16 групп многопользовательских)
- Аннотации: 2D/3D суставы, параметры SMPL, категории действий, информация о текстуре
Разделение данных:
- Обучающий набор: 12 актеров, 3,2 млн кадров
- Набор валидации: 3 актера, 0,9 млн кадров
- Тестовый набор: 5 актеров, 1,4 млн кадров
- μglo: среднее значение ошибки глобальной ротации (градусы)
- σglo: дисперсия ошибки глобальной ротации (градусы)
- MPJPE: средняя ошибка положения сустава (миллиметры)
- Jitter: среднее дрожание ускорения сустава (102м/с3)
- PA-MPJPE: ошибка положения сустава после выравнивания Прокруста
- Методы на основе IMU: PIP, PNP, базовые методы на основе IMU
- Методы визуального зрения: TokenHMR, PromptHMR
- Мультимодальные методы: DiffCap, VIP, Liu et al.
- Стратегия обучения: предварительное обучение визуальной ветви (20 эпох), затем обучение ветвей IMU и постобработки (200 эпох)
- Оптимизатор: Adam, скорость обучения 0,001
- Размер пакета: визуальная ветвь 64, остальные 512
- Разрешение входа: 512×512
- Оборудование: NVIDIA GTX A100
Сравнение производительности многомодального захвата движения:
| Тип метода | #IMUs | #Cams | μglo↓ | σglo↓ | MPJPE↓ | Jitter↓ |
|---|
| На основе IMU | 6 | 0 | 11,67 | 8,65 | 57,93 | 1,17 |
| На основе зрения | 0 | 1 | 10,27 | 7,20 | 45,61 | 13,02 |
| Мультимодальный | 6 | 1 | 9,20 | 6,19 | 39,99 | 1,57 |
Ключевые выводы:
- Оптимальная конфигурация 4-6 IMU: достигает лучшего баланса между стоимостью и производительностью
- Явные дополняющие преимущества: методы зрения имеют большое дрожание, методы IMU имеют серьезный дрейф положения, слияние значительно улучшает результаты
- Убывающая отдача при более чем 8 IMU: увеличение стоимости, но ограниченное улучшение производительности
| Метод | MPJPE↓ | PA-MPJPE↓ |
|---|
| DiffCap | 46,2 | 29,9 |
| VIP | - | 26,0 |
| Liu et al. | 45,8 | - |
| Наш метод | 36,7 | 21,6 |
Анализ производительности при различном количестве IMU:
- 4 IMU: μglo=9,75°, MPJPE=41,53 мм
- 6 IMU: μglo=9,20°, MPJPE=39,99 мм
- 8 IMU: μglo=8,86°, MPJPE=39,39 мм
- 10 IMU: μglo=8,81°, MPJPE=39,43 мм
Результаты показывают, что 6-8 IMU — оптимальная конфигурация.
Оценка 2D-3D позы:
- MotionBERT: MPJPE=18,75 мм, PA-MPJPE=13,44 мм
- Dual-Aug (243 кадра): MPJPE=19,22 мм, PA-MPJPE=13,95 мм
Детализированное распознавание действий:
- UniFormerV2: Top-1=75,88%, Top-5=96,87%
- VideoMAE: Top-1=73,75%, Top-5=96,01%
По сравнению с Kinetics400, MINIONS более сложный.
Визуализированные результаты показывают:
- Метод IMU: накопление дрейфа положения во времени, но стабильная ротация
- Метод зрения: точное положение, но временное дрожание
- Метод слияния: объединяет преимущества обоих, одновременно стабильный и точный
- Промышленные решения: системы Perception Neuron, Xsens MVN используют 17 IMU
- Методы разреженных IMU: два типа парадигм — оптимизация и регрессия
- Ограничения: проблема дрейфа положения в течение длительного времени
- Методы оптимизации: подгонка параметров SMPL к кадрам видео
- Методы регрессии: сквозное обучение параметрам SMPL
- Вызовы: неоднозначность глубины, окклюзия, быстрые движения
- Существующие работы: небольшие наборы данных, такие как TotalCapture
- Преимущества данной работы: больший масштаб, большее разнообразие, повседневная одежда
- Техническая осуществимость: 4-6 IMU в сочетании с монокулярной камерой могут реализовать стабильный потребительский захват движения
- Дополняющая ценность: визуальные и инерциальные датчики имеют явные дополняющие преимущества
- Вклад набора данных: MINIONS предоставляет важный ресурс данных для этой области
- Практичность: метод демонстрирует хорошую способность обобщения на нескольких задачах
- Зависимость от датчиков: все еще требуется несколько датчиков IMU, что увеличивает сложность системы
- Реальная производительность: статья не обсуждает подробно производительность в реальном времени
- Адаптивность к окружающей среде: в основном тестировалась в помещении, надежность в сложных уличных условиях не полностью проверена
- Влияние одежды: хотя используется повседневная одежда, влияние свободной одежды на точность IMU требует дальнейшего исследования
- Меньше датчиков: исследование возможности использования меньшего количества IMU
- Оптимизация реального времени: повышение способности системы к обработке в реальном времени
- Надежность окружающей среды: улучшение производительности в сложных условиях
- Расширение приложений: расширение на более широкий спектр практических сценариев использования
- Значительный вклад набора данных: MINIONS — крупнейший на сегодняшний день мультимодальный набор данных захвата движения, заполняющий важный пробел в этой области
- Прочная теоретическая основа: структура слияния на основе теории Байеса имеет хорошую математическую основу
- Комплексный дизайн экспериментов: от различных конфигураций датчиков до многозадачной оценки, эксперименты имеют широкий охват
- Высокая практическая ценность: предоставляет осуществимый технический путь для потребительского захвата движения
- Разумные технические инновации: двухветвевой дизайн полностью использует преимущества различных модальностей
- Недостаточный анализ вычислительной сложности: отсутствует подробный анализ вычислительных затрат и производительности в реальном времени
- Ограниченный анализ случаев отказа: недостаточное обсуждение производительности метода в экстремальных ситуациях
- Отсутствие пользовательских исследований: отсутствует оценка опыта реальных пользователей
- Долгосрочная стабильность: проверка стабильности при длительном использовании недостаточна
- Академическая ценность: предоставляет важные данные и эталоны для исследований многомодального захвата движения
- Промышленная ценность: предоставляет технические рекомендации для разработки потребительских продуктов захвата движения
- Воспроизводимость: описание методов ясно, вероятно, будет воспроизведено и улучшено другими исследователями
- Вклад в сообщество: крупномасштабный набор данных будет способствовать быстрому развитию этой области
- Личное творчество: потребности в захвате движения видеоблогеров и создателей контента
- Мониторинг фитнеса: анализ и коррекция позы при физических упражнениях
- Игры и развлечения: приложения для сенсорных игр и виртуальной реальности
- Образование и обучение: обучение движениям и обучение навыкам
- Медицинская реабилитация: оценка функции движения и тренировка реабилитации
Статья цитирует 75 связанных работ, включая в основном:
- Классические наборы данных захвата движения: Human3.6M, TotalCapture, 3DPW и т.д.
- Работы, связанные с моделью человеческого тела SMPL
- Методы оценки позы на основе глубокого обучения
- Технология захвата движения на основе IMU
- Методы мультимодального слияния
Общая оценка: это высококачественная научная статья в области компьютерного зрения с важными вкладами как в построение набора данных, так и в методы мультимодального слияния. Масштаб и качество набора данных MINIONS окажут важное влияние на развитие этой области, а структура SparseNet предоставляет эффективное техническое решение для потребительского захвата движения. Дизайн экспериментов статьи комплексен, выводы надежны, обладает высокой академической и практической ценностью.