2025-11-16T06:07:12.262321

Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction

Wang, Guo, Su

Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.

academic

Пространственно-временная многоподграфовая GCN для предсказания трёхмерного движения человека

Основная информация

ID статьи: 2501.00317
Название: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
Авторы: Jiexin Wang, Yiju Guo, Bing Su (Школа искусственного интеллекта Китайского народного университета)
Классификация: cs.CV (компьютерное зрение), cs.LG (машинное обучение)
Дата публикации: 31 декабря 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00317

Аннотация

Предсказание движения человека (HMP) включает прогнозирование будущего движения человека на основе исторических данных. Графовые сверточные сети (GCN) получили широкое внимание в этой области благодаря своей способности захватывать отношения между суставами в движении человека. Однако существующие методы на основе GCN часто сосредоточены только на временных или пространственных признаках либо не полностью используют дополнительность и перекрёстные зависимости при объединении пространственно-временных признаков. В данной работе предлагается пространственно-временная многоподграфовая графовая сверточная сеть (STMS-GCN) для захвата сложных пространственно-временных зависимостей в движении человека. В частности, мы разделяем моделирование временных и пространственных зависимостей и реализуем передачу знаний между доменами в многомасштабном режиме посредством механизма ограничения согласованности пространственно-временной информации. Кроме того, мы используем несколько подграфов для извлечения более богатой информации о движении и усиливаем ассоциативное обучение различных подграфов посредством механизма ограничения гомогенной информации. Обширные эксперименты на стандартных тестовых наборах HMP демонстрируют превосходство нашего метода.

Исследовательский контекст и мотивация

Определение задачи

Предсказание трёхмерного движения человека на основе скелета направлено на прогнозирование будущей последовательности движений на основе заданной исторической последовательности движений. Это исследование имеет решающее значение для понимания поведения движения человека и имеет широкое применение в робототехнике, автономном вождении, распознавании действий и других областях.

Ограничения существующих методов

Ограничения однодоменного моделирования: Большинство методов GCN сосредоточены только на моделировании временных или пространственных признаков, игнорируя дополнительность между пространственно-временными признаками
Недостаточное слияние признаков: Некоторые методы интегрируют пространственно-временные отношения путём смешивания ядер свёртки, но испытывают трудности при извлечении уникальной временной и пространственной информации
Недостаточное использование перекрёстных доменных зависимостей: Существующие методы разделённого моделирования в основном сосредоточены на проектировании сложных структур, игнорируя перекрёстные зависимости, скрытые в пространственно-временных отношениях

Исследовательская мотивация

Для решения вышеуказанных проблем в данной работе предлагается моделирование временной и пространственной информации посредством ортогональных пространственно-временных ветвей, полное использование уникальности пространственно-временной информации и содействие переплетению пространственно-временной информации и передаче знаний между доменами посредством ограничений согласованности.

Основные вклады

Предложение архитектуры STMS-GCN: Учитывает независимость и дополнительность пространственно-временной информации, использует разнообразные обучаемые подграфы для захвата более богатых моделей движения
Механизм контрастивного анализа информации между доменами: Механизм контрастивного анализа информации между доменами, усиливающий взаимодействие многомасштабной пространственной и временной информации
Механизм ограничения гомогенной информации: Механизм ограничения гомогенной информации для точной регулировки обучения подграфов
Экспериментальная проверка: Проведение обширных экспериментов на стандартных тестовых наборах HMP, демонстрирующих эффективность и превосходство метода при точном предсказании движения человека в различных сценариях

Подробное описание метода

Определение задачи

Пусть $X = [X_1, \cdots, X_{T_p}] \in \mathbb{R}^{T_p \times J \times D}$ обозначает заданную историческую позу, а $Y = [X_{T_p+1}, \cdots, X_{T_p+T_f}] \in \mathbb{R}^{T_f \times J \times D}$ обозначает прогнозируемую последовательность движений для $T_f$ будущих временных шагов. Каждая поза $X_t \in \mathbb{R}^{J \times D}$ описывает $D$ -мерную позу человека с $J$ суставами в момент времени $t$ .

Архитектура модели

Пространственно-временной многоподграфовый блок (STMSB)

STMSB состоит из двух ключевых модулей:

Пространственно-временная двойная ветвь: Моделирование временной и пространственной областей отдельно
Обучение многоподграфов: Использование нескольких подграфов для извлечения более богатой информации о движении

Проектирование пространственно-временной двойной ветви

Моделирование временной области:

Преобразование входных данных $X$ в $X^T = \{X^{T,i}\}_{i=1}^{T_p+T_f} \in \mathbb{R}^{(T_p+T_f) \times J \cdot D}$
Проецирование $X^T$ в пространство признаков размерности $C$ посредством встраивания кадров: $\hat{X}^{T,i} = W_2 \cdot (\sigma(W_1 \cdot X^{T,i} + b_1)) + b_2$
Использование GCN для захвата временных зависимостей между кадрами

Моделирование пространственной области:

Преобразование $X$ в пространственную форму $X^S = \{X^{S,n}\}_{n=1}^{J \times D} \in \mathbb{R}^{(J \times D) \times (T_p+T_f)}$
Применение дискретного косинусного преобразования и встраивания суставов для получения представления суставов
Использование GCN для захвата пространственных зависимостей

Взаимодействие пространственно-временной информации

Содействие передаче знаний между доменами посредством среднеквадратичной ошибки положения каждого сустава (MPJPE) в качестве ограничения: $L_{ST} = \sum_{l=1}^L \frac{1}{(T_p + T_f) \cdot J} \sum_{t=1}^{T_p+T_f} \sum_{j=1}^J \|Y_{T,t,j}^l - Y_{S,t,j}^l\|_2$

Обучение многоподграфов

Использование $K$ ядер графовой свёртки $\Upsilon_T^l = \{\Upsilon_{T}^{l,1}, \Upsilon_{T}^{l,2}, \cdots, \Upsilon_{T}^{l,K}\}$ для обучения признаков: $M_T^l = \text{Ave}(H_T^{l,1}, H_T^{l,2}, \cdots, H_T^{l,K})$

Для предотвращения чрезмерной дифференциации между ядрами предлагается стратегия усиления обучения гомогенной информации: $L_{con}^T = \sum_{l=1}^L \sum_{k=1}^K \sum_{u=k+1}^K \|A_T^{l,k} - A_T^{l,u}\|_2^2$

Технические инновации

Разделённое моделирование: Моделирование пространственно-временных зависимостей посредством ортогональных ветвей отдельно, избегая смешивания признаков
Перекрёстные доменные ограничения: Многомасштабные ограничения согласованности реализуют эффективную передачу знаний между доменами
Механизм многоподграфов: Вдохновлённый моделью смеси экспертов, использует несколько обучаемых подграфов для захвата различных моделей движения
Ограничение гомогенности: Обеспечивает согласованное распространение информации между подграфами посредством ограничения сходства матриц смежности

Экспериментальная установка

Наборы данных

Human3.6M (H3.6M): Стандартный набор данных движения человека
CMU Motion Capture (CMU Mocap): Набор данных захвата движения CMU

Метрики оценки

Использование среднеквадратичной ошибки положения каждого сустава (MPJPE) для оценки производительности; более низкие значения указывают на лучшую производительность предсказания.

Методы сравнения

Включают текущие основные методы GCN: Traj-GCN, DMGNN, STS-GCN, MSR-GCN, SPGSN, PGBIG, STBMP и другие.

Детали реализации

Количество слоёв сети: $L = 4$
Количество ядер графовой свёртки: $K = 4$
Гиперпараметр: $\lambda = 0.1$

Результаты экспериментов

Основные результаты

Результаты на наборе данных H3.6M:

При предсказании на 80 мс MPJPE составляет 9,61, что на 3,71% лучше лучшего базового метода (STBMP с 9,98)
При предсказании на 160 мс MPJPE составляет 21,63, что на 3,13% лучше лучшего базового метода
Достигает лучшей производительности на нескольких временных шагах

Результаты на наборе данных CMU Mocap:

Среднее MPJPE составляет 32,43, значительно превосходя все методы сравнения
Достигает лучшей производительности на всех временных шагах предсказания

Абляционные исследования

Анализ вклада модулей:
- Пространственно-временная двойная ветвь: обе ветви способствуют повышению производительности
- Механизмы ограничения: $L_{con}$ и $L_{ST}$ оба улучшают производительность
- Полная модель достигает лучшей производительности (33,80)
Влияние гиперпараметров:
- Производительность оптимальна при $\lambda = 0.1$
- Слишком большие значения $\lambda$ (1,0) ограничивают уникальность информации ветвей
Влияние структуры сети:
- Увеличение количества слоёв $L$ и ядер $K$ обычно улучшает производительность
- Оптимальная конфигурация: $L=4, K=4$

Экспериментальные выводы

Эффективность механизма ограничения: Ограничение матрицы смежности более эффективно, чем ограничение параметров веса
Согласованность против разнообразия: Принудительное сходство конструкции графа более эффективно, чем ограничение разнообразия
Выбор ветви: Выход пространственной ветви как окончательного предсказания показывает лучший результат

Связанные работы

Основные направления исследований

Методы CNN/RNN: Ранние подходы с использованием сверточных и рекуррентных сетей, но с проблемами зависимости фильтров и накопления ошибок
Методы GCN: Текущий основной подход, хорошо подходит для моделирования кинематических зависимостей между суставами
Методы Transformer: Недавно возникший подход, показывающий отличные результаты в моделировании последовательностей

Преимущества данной работы

По сравнению с существующими методами GCN, данная работа лучше использует дополнительность и перекрёстные зависимости пространственно-временных признаков посредством разделённого моделирования пространства и времени, перекрёстных доменных ограничений и обучения многоподграфов.

Заключение и обсуждение

Основные выводы

Разделённое пространственно-временное моделирование лучше захватывает уникальную информацию каждой области
Ограничения согласованности между доменами эффективно содействуют передаче знаний
Обучение многоподграфов усиливает способность захвата моделей движения
Достигнута производительность SOTA на стандартных тестовых наборах

Ограничения

Относительно высокая сложность модели требует баланса между производительностью и вычислительной эффективностью
Гиперпараметр $\lambda$ требует настройки для различных наборов данных
Эффективность долгосрочного предсказания требует дальнейшей проверки

Будущие направления

Исследование более эффективных механизмов слияния пространственно-временных признаков
Разработка стратегий адаптивного выбора количества подграфов
Расширение на более разнообразные сценарии движения человека

Глубокая оценка

Преимущества

Высокая инновационность: Идея разделённого пространственно-временного моделирования является новой, механизм перекрёстных доменных ограничений тщательно спроектирован
Прочная теоретическая база: Пространственное моделирование на основе GCN и временное моделирование имеют достаточную теоретическую поддержку
Обширные эксперименты: Включают подробные абляционные исследования и анализ параметров
Отличная производительность: Достигнута производительность SOTA на нескольких эталонных наборах данных
Ясное изложение: Логичная структура статьи, точное техническое описание

Недостатки

Вычислительная сложность: Проектирование с несколькими ветвями и многоподграфами увеличивает сложность модели
Чувствительность параметров: Гиперпараметр $\lambda$ значительно влияет на производительность, требует тщательной настройки
Анализ обобщаемости: Отсутствует анализ способности обобщения на различные типы движений (танец, гимнастика и т.д.)
Рассмотрение реального времени: Не обсуждается скорость вывода модели и потенциал приложений реального времени

Влияние

Академический вклад: Предоставляет новый подход разделённого моделирования для пространственно-временного моделирования признаков
Практическая ценность: Имеет перспективы применения в робототехнике, играх, взаимодействии с жестами
Воспроизводимость: Предоставляет подробные детали реализации и параметры

Применимые сценарии

Высокие требования к точности: Подходит для сценариев приложений с высокими требованиями к точности предсказания
Предсказание стандартных движений: Показывает хорошие результаты при предсказании повседневной деятельности, спортивных движений и других стандартизированных действий
Краткосрочное и среднесрочное предсказание: Показывает отличную производительность в задачах предсказания в пределах 1000 мс

Список литературы

Статья цитирует более 60 соответствующих источников, охватывающих основные методы предсказания движения человека, включая методы CNN, RNN, LSTM, Transformer и GCN, предоставляя читателям полный справочный материал.

Общая оценка: Это высококачественная статья в области компьютерного зрения, предлагающая инновационное решение важной задачи предсказания движения человека. Основная идея разделённого пространственно-временного моделирования обладает определённой универсальностью, результаты экспериментов убедительны. Хотя существуют некоторые вызовы в отношении сложности модели и настройки параметров, общий вклад значителен и заслуживает внимания и дальнейших исследований.