2025-11-25T04:52:17.849949

Motion Capture from Inertial and Vision Sensors

Chen, Liu, Bao et al.
Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
academic

Захват движения с использованием инерциальных и визуальных датчиков

Основная информация

  • ID статьи: 2407.16341
  • Название: Motion Capture from Inertial and Vision Sensors
  • Авторы: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei
  • Категория: cs.CV (Компьютерное зрение)
  • Дата публикации: июль 2024 г. (препринт arXiv, версия v3 обновлена 11 октября 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2407.16341

Аннотация

Захват движения человека является основой для многих задач компьютерного зрения и компьютерной графики. Хотя промышленные системы захвата движения широко используются в кинематографии и производстве видеоигр, потребительские, удобные в использовании решения для личных приложений остаются незрелыми. Для реализации точного многомодального захвата движения человека с использованием монокулярной камеры и минимального количества инерциальных измерительных блоков (IMU), в данной работе предложен набор данных MINIONS — крупномасштабный набор данных захвата движения, собранный с инерциальных и визуальных датчиков. Набор данных имеет три характерные особенности: 1) крупномасштабность: более 5,5 млн кадров и 440 минут видео; 2) мультимодальность: содержит сигналы IMU и видео RGB с аннотациями положения суставов, ротации суставов, параметров SMPL и т.д.; 3) разнообразие: включает 146 типов детализированных одиночных и интерактивных движений. На основе набора данных MINIONS предложена структура SparseNet, которая захватывает движение человека путем выявления дополняющих характеристик IMU и видео, исследуя возможность потребительского захвата движения с использованием монокулярной камеры и минимального количества IMU.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как использовать потребительские устройства (монокулярная камера + небольшое количество IMU) для реализации точного и стабильного захвата движения человека, отвечающего повседневным потребностям приложений.

Важность проблемы

  1. Проблема стоимости: промышленные системы требуют десятков синхронизированных камер или дорогостоящих носимых датчиков, стоимость которых достигает тысяч долларов
  2. Проблема портативности: существующие системы имеют сложную конфигурацию, что ограничивает сценарии использования
  3. Потребности приложений: потребительские приложения, такие как XR, мобильное видеопроизводство и прямые трансляции, требуют недорогого захвата движения

Ограничения существующих методов

  1. Системы на основе маркеров: требуют специальной одежды или большого количества IMU, неудобны для естественного движения
  2. Многокамерные системы: требуют сложной калибровки, ограничивают диапазон движений
  3. Методы монокулярного зрения: подвержены влиянию неоднозначности глубины, окклюзии и быстрых движений, страдают от временного дрожания
  4. Методы на основе IMU: имеют проблему глобального дрейфа положения, ограничивают длительный захват движения

Исследовательская мотивация

Существующие наборы данных, такие как TotalCapture, имеют небольшой масштаб, ограниченные сценарии, требуют облегающей одежды и отличаются от распределения в повседневной жизни. Данная работа направлена на создание крупномасштабного и разнообразного набора данных и исследование потребительского решения для захвата движения с визуально-инерциальным слиянием.

Основные вклады

  1. Построение набора данных MINIONS: содержит 5,5 млн кадров, 440 минут многомодального захвата движения, охватывает 146 типов детализированных движений с богатой информацией аннотаций
  2. Предложение структуры SparseNet: двухветвевая архитектура на основе теории Байеса, эффективно интегрирующая визуальную и инерциальную информацию для захвата движения
  3. Систематический экспериментальный анализ: глубокое исследование производительности различных конфигураций датчиков, доказывающее эффективность 4-6 IMU в сочетании с монокулярной камерой
  4. Многозадачное тестирование: предоставление эталонных результатов для оценки 2D-3D позы, детализированного распознавания действий и других задач

Подробное описание методов

Определение задачи

Входные данные: последовательность монокулярного видео RGB V={Vi}i=1LV = \{V_i\}_{i=1}^L и разреженные сигналы IMU I={Ii}i=0LI = \{I_i\}_{i=0}^LВыходные данные: параметры SMPL (форма β\beta, поза θ\theta, глобальное смещение tt) и 3D положения суставов Ограничения: использование потребительских устройств, минимум 4 датчика IMU

Архитектура модели

Теоретическая основа

На основе стратегии байесовского слияния ротация сустава θ\theta моделируется как скрытая переменная:

p(θdv,DI)p(θ)p(dvθ)p(DIθ)p(\theta|d_v, D_I) \propto p(\theta) \cdot p(d_v|\theta) \cdot p(D_I|\theta)

где:

  • p(θ)p(\theta): априорное распределение ротации сустава (распределение Matrix Fisher)
  • p(dvθ)p(d_v|\theta): распределение von Mises-Fisher визуального наблюдения направления костей
  • p(DIθ)p(D_I|\theta): распределение наблюдения ротации IMU

Структура сети

1. Визуальная ветвь (Visual Branch)

  • Использует кодировщик Vision Mamba для извлечения визуальных признаков
  • Декодер формы: регрессия параметров формы SMPL β\beta
  • Декодер позы: оценка априорного распределения позы p(θ)p(\theta)
  • Декодер костей: оценка распределения направления костей p(dvθ)p(d_v|\theta)

2. Ветвь разреженных IMU (Sparse IMUs Branch)

  • Кодировщик Joint Mamba: предсказание положения костей d0:id_{0:i} из сигналов IMU
  • Кодировщик IMU Mamba: обработка разреженных инерциальных сигналов
  • Декодер ротации: оценка распределения ротации p(DIθ)p(D_I|\theta)
  • Декодер трансляции: оценка глобальной трансляции tIt_I

3. Ветвь постобработки (Post-processing Branch)

  • Модуль апостериорного слияния: интеграция вероятностных распределений обеих ветвей
  • Кодировщик Smooth Mamba: сглаживание финальной последовательности позы
  • Решатель PNP: вычисление глобальной трансляции

Технические инновации

  1. Вероятностная структура слияния: байесовское слияние на основе априора Matrix Fisher с прочной теоретической основой
  2. Двухветвевой дополняющий дизайн: визуальная ветвь предоставляет информацию о форме и положении, ветвь IMU предоставляет информацию о ротации и высокочастотном движении
  3. Поддержка разреженных датчиков: гибкая конфигурация с поддержкой 4-10 IMU
  4. Сквозное обучение: единая вероятностная структура поддерживает совместную оптимизацию

Экспериментальная установка

Набор данных

Статистика набора данных MINIONS:

  • Масштаб: 5,5 млн кадров, 440 минут видео
  • Модальности: 8 камер 2K + 17 девятиосевых IMU + сканер RGB-D
  • Движения: 146 типов детализированных движений (121 одиночное + 25 многопользовательских интерактивных)
  • Участники: 36 групп актеров (20 одиночных + 16 групп многопользовательских)
  • Аннотации: 2D/3D суставы, параметры SMPL, категории действий, информация о текстуре

Разделение данных:

  • Обучающий набор: 12 актеров, 3,2 млн кадров
  • Набор валидации: 3 актера, 0,9 млн кадров
  • Тестовый набор: 5 актеров, 1,4 млн кадров

Метрики оценки

  1. μglo\mu_{glo}: среднее значение ошибки глобальной ротации (градусы)
  2. σglo\sigma_{glo}: дисперсия ошибки глобальной ротации (градусы)
  3. MPJPE: средняя ошибка положения сустава (миллиметры)
  4. Jitter: среднее дрожание ускорения сустава (102м/с310^2 м/с^3)
  5. PA-MPJPE: ошибка положения сустава после выравнивания Прокруста

Методы сравнения

  • Методы на основе IMU: PIP, PNP, базовые методы на основе IMU
  • Методы визуального зрения: TokenHMR, PromptHMR
  • Мультимодальные методы: DiffCap, VIP, Liu et al.

Детали реализации

  • Стратегия обучения: предварительное обучение визуальной ветви (20 эпох), затем обучение ветвей IMU и постобработки (200 эпох)
  • Оптимизатор: Adam, скорость обучения 0,001
  • Размер пакета: визуальная ветвь 64, остальные 512
  • Разрешение входа: 512×512
  • Оборудование: NVIDIA GTX A100

Результаты экспериментов

Основные результаты

Сравнение производительности многомодального захвата движения:

Тип метода#IMUs#Camsμglo\mu_{glo}σglo\sigma_{glo}MPJPE↓Jitter↓
На основе IMU6011,678,6557,931,17
На основе зрения0110,277,2045,6113,02
Мультимодальный619,206,1939,991,57

Ключевые выводы:

  1. Оптимальная конфигурация 4-6 IMU: достигает лучшего баланса между стоимостью и производительностью
  2. Явные дополняющие преимущества: методы зрения имеют большое дрожание, методы IMU имеют серьезный дрейф положения, слияние значительно улучшает результаты
  3. Убывающая отдача при более чем 8 IMU: увеличение стоимости, но ограниченное улучшение производительности

Сравнение на наборе данных TotalCapture

МетодMPJPE↓PA-MPJPE↓
DiffCap46,229,9
VIP-26,0
Liu et al.45,8-
Наш метод36,721,6

Абляционные исследования

Анализ производительности при различном количестве IMU:

  • 4 IMU: μglo=9,75°\mu_{glo}=9,75°, MPJPE=41,53 мм
  • 6 IMU: μglo=9,20°\mu_{glo}=9,20°, MPJPE=39,99 мм
  • 8 IMU: μglo=8,86°\mu_{glo}=8,86°, MPJPE=39,39 мм
  • 10 IMU: μglo=8,81°\mu_{glo}=8,81°, MPJPE=39,43 мм

Результаты показывают, что 6-8 IMU — оптимальная конфигурация.

Эталоны других задач

Оценка 2D-3D позы:

  • MotionBERT: MPJPE=18,75 мм, PA-MPJPE=13,44 мм
  • Dual-Aug (243 кадра): MPJPE=19,22 мм, PA-MPJPE=13,95 мм

Детализированное распознавание действий:

  • UniFormerV2: Top-1=75,88%, Top-5=96,87%
  • VideoMAE: Top-1=73,75%, Top-5=96,01%

По сравнению с Kinetics400, MINIONS более сложный.

Анализ примеров

Визуализированные результаты показывают:

  1. Метод IMU: накопление дрейфа положения во времени, но стабильная ротация
  2. Метод зрения: точное положение, но временное дрожание
  3. Метод слияния: объединяет преимущества обоих, одновременно стабильный и точный

Связанные работы

Захват движения на основе IMU

  • Промышленные решения: системы Perception Neuron, Xsens MVN используют 17 IMU
  • Методы разреженных IMU: два типа парадигм — оптимизация и регрессия
  • Ограничения: проблема дрейфа положения в течение длительного времени

Захват движения монокулярным зрением

  • Методы оптимизации: подгонка параметров SMPL к кадрам видео
  • Методы регрессии: сквозное обучение параметрам SMPL
  • Вызовы: неоднозначность глубины, окклюзия, быстрые движения

Мультимодальное слияние

  • Существующие работы: небольшие наборы данных, такие как TotalCapture
  • Преимущества данной работы: больший масштаб, большее разнообразие, повседневная одежда

Выводы и обсуждение

Основные выводы

  1. Техническая осуществимость: 4-6 IMU в сочетании с монокулярной камерой могут реализовать стабильный потребительский захват движения
  2. Дополняющая ценность: визуальные и инерциальные датчики имеют явные дополняющие преимущества
  3. Вклад набора данных: MINIONS предоставляет важный ресурс данных для этой области
  4. Практичность: метод демонстрирует хорошую способность обобщения на нескольких задачах

Ограничения

  1. Зависимость от датчиков: все еще требуется несколько датчиков IMU, что увеличивает сложность системы
  2. Реальная производительность: статья не обсуждает подробно производительность в реальном времени
  3. Адаптивность к окружающей среде: в основном тестировалась в помещении, надежность в сложных уличных условиях не полностью проверена
  4. Влияние одежды: хотя используется повседневная одежда, влияние свободной одежды на точность IMU требует дальнейшего исследования

Направления будущих исследований

  1. Меньше датчиков: исследование возможности использования меньшего количества IMU
  2. Оптимизация реального времени: повышение способности системы к обработке в реальном времени
  3. Надежность окружающей среды: улучшение производительности в сложных условиях
  4. Расширение приложений: расширение на более широкий спектр практических сценариев использования

Глубокая оценка

Преимущества

  1. Значительный вклад набора данных: MINIONS — крупнейший на сегодняшний день мультимодальный набор данных захвата движения, заполняющий важный пробел в этой области
  2. Прочная теоретическая основа: структура слияния на основе теории Байеса имеет хорошую математическую основу
  3. Комплексный дизайн экспериментов: от различных конфигураций датчиков до многозадачной оценки, эксперименты имеют широкий охват
  4. Высокая практическая ценность: предоставляет осуществимый технический путь для потребительского захвата движения
  5. Разумные технические инновации: двухветвевой дизайн полностью использует преимущества различных модальностей

Недостатки

  1. Недостаточный анализ вычислительной сложности: отсутствует подробный анализ вычислительных затрат и производительности в реальном времени
  2. Ограниченный анализ случаев отказа: недостаточное обсуждение производительности метода в экстремальных ситуациях
  3. Отсутствие пользовательских исследований: отсутствует оценка опыта реальных пользователей
  4. Долгосрочная стабильность: проверка стабильности при длительном использовании недостаточна

Влияние

  1. Академическая ценность: предоставляет важные данные и эталоны для исследований многомодального захвата движения
  2. Промышленная ценность: предоставляет технические рекомендации для разработки потребительских продуктов захвата движения
  3. Воспроизводимость: описание методов ясно, вероятно, будет воспроизведено и улучшено другими исследователями
  4. Вклад в сообщество: крупномасштабный набор данных будет способствовать быстрому развитию этой области

Применимые сценарии

  1. Личное творчество: потребности в захвате движения видеоблогеров и создателей контента
  2. Мониторинг фитнеса: анализ и коррекция позы при физических упражнениях
  3. Игры и развлечения: приложения для сенсорных игр и виртуальной реальности
  4. Образование и обучение: обучение движениям и обучение навыкам
  5. Медицинская реабилитация: оценка функции движения и тренировка реабилитации

Библиография

Статья цитирует 75 связанных работ, включая в основном:

  • Классические наборы данных захвата движения: Human3.6M, TotalCapture, 3DPW и т.д.
  • Работы, связанные с моделью человеческого тела SMPL
  • Методы оценки позы на основе глубокого обучения
  • Технология захвата движения на основе IMU
  • Методы мультимодального слияния

Общая оценка: это высококачественная научная статья в области компьютерного зрения с важными вкладами как в построение набора данных, так и в методы мультимодального слияния. Масштаб и качество набора данных MINIONS окажут важное влияние на развитие этой области, а структура SparseNet предоставляет эффективное техническое решение для потребительского захвата движения. Дизайн экспериментов статьи комплексен, выводы надежны, обладает высокой академической и практической ценностью.