2025-11-16T06:07:12.262321

Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction

Wang, Guo, Su

Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.

academic

Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction

基本信息

论文ID: 2501.00317
标题: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
作者: Jiexin Wang, Yiju Guo, Bing Su (中国人民大学人工智能学院)
分类: cs.CV (计算机视觉), cs.LG (机器学习)
发表时间: 2024年12月31日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.00317

摘要

人体运动预测(HMP)涉及基于历史数据预测未来人体运动。图卷积网络(GCNs)因其在捕获人体运动中关节间关系的能力而在该领域获得广泛关注。然而，现有基于GCN的方法往往只关注时域或空域特征，或者在组合时空特征时未能充分利用这两种特征的互补性和交叉依赖性。本文提出了时空多子图图卷积网络(STMS-GCN)来捕获人体运动中复杂的时空依赖关系。具体而言，我们解耦了时间和空间依赖关系的建模，通过时空信息一致性约束机制实现多尺度的跨域知识转移。此外，我们利用多个子图提取更丰富的运动信息，并通过同质信息约束机制增强不同子图的学习关联。在标准HMP基准测试上的大量实验证明了我们方法的优越性。

研究背景与动机

问题定义

3D骨架基于的人体运动预测旨在根据给定的历史运动序列预测未来的运动序列。这项研究对于理解人体运动行为至关重要，在机器人协作、自动驾驶、动作识别等多个领域有广泛应用。

现有方法的局限性

单域建模局限：大多数GCN方法仅关注时域或空域特征建模，忽略了时空特征间的互补性
特征融合不充分：一些方法通过混合卷积核整合时空关系，但难以提取独特的时间和空间信息
跨域依赖未充分利用：现有分离建模方法主要关注复杂结构设计，忽略了时空关系中隐藏的交叉依赖性

研究动机

针对上述问题，本文提出通过正交的时空分支分别建模时域和空域信息，充分利用时空信息的独特性，并通过一致性约束促进时空信息交织和跨域知识转移。

核心贡献

提出STMS-GCN架构：考虑时空信息的独立性和互补性，利用多样化可学习子图捕获更丰富的运动模式
跨域信息对比机制：增强多尺度空间和时间信息交互的跨域信息对比机制
同质信息约束机制：精细调节子图学习的同质信息约束机制
实验验证：在标准HMP基准测试上进行广泛实验，证明方法在多种场景下准确预测人体运动的有效性和优越性

方法详解

任务定义

设 $X = [X_1, \cdots, X_{T_p}] \in \mathbb{R}^{T_p \times J \times D}$ 表示给定的历史姿态， $Y = [X_{T_p+1}, \cdots, X_{T_p+T_f}] \in \mathbb{R}^{T_f \times J \times D}$ 表示未来 $T_f$ 个时间步的预测运动序列。每个姿态 $X_t \in \mathbb{R}^{J \times D}$ 描述了时刻 $t$ 具有 $J$ 个关节的 $D$ 维人体姿态。

模型架构

时空多子图块(STMSB)

STMSB由两个关键模块组成：

时空双分支：分别对时域和空域进行建模
多子图学习：利用多个子图提取更丰富的运动信息

时空双分支设计

时域建模：

将输入 $X$ 重塑为 $X^T = \{X^{T,i}\}_{i=1}^{T_p+T_f} \in \mathbb{R}^{(T_p+T_f) \times J \cdot D}$
通过帧嵌入将 $X^T$ 投影到 $C$ 维特征空间： $\hat{X}^{T,i} = W_2 \cdot (\sigma(W_1 \cdot X^{T,i} + b_1)) + b_2$
使用GCN捕获帧间时间依赖关系

空域建模：

将 $X$ 重塑为空域形式 $X^S = \{X^{S,n}\}_{n=1}^{J \times D} \in \mathbb{R}^{(J \times D) \times (T_p+T_f)}$
应用离散余弦变换和关节嵌入获得关节表示
使用GCN捕获空间依赖关系

时空信息交互

通过平均每关节位置误差(MPJPE)作为约束促进域间知识转移： $L_{ST} = \sum_{l=1}^L \frac{1}{(T_p + T_f) \cdot J} \sum_{t=1}^{T_p+T_f} \sum_{j=1}^J \|Y_{T,t,j}^l - Y_{S,t,j}^l\|_2$

多子图学习

使用 $K$ 个图卷积核 $\Upsilon_T^l = \{\Upsilon_{T}^{l,1}, \Upsilon_{T}^{l,2}, \cdots, \Upsilon_{T}^{l,K}\}$ 进行特征学习： $M_T^l = \text{Ave}(H_T^{l,1}, H_T^{l,2}, \cdots, H_T^{l,K})$

为防止核间过度分化，提出同质信息学习增强策略： $L_{con}^T = \sum_{l=1}^L \sum_{k=1}^K \sum_{u=k+1}^K \|A_T^{l,k} - A_T^{l,u}\|_2^2$

技术创新点

解耦建模：通过正交分支分别建模时空依赖，避免特征混淆
跨域约束：多尺度一致性约束实现有效的跨域知识转移
多子图机制：受专家混合模型启发，使用多个可训练子图捕获不同运动模式
同质约束：通过邻接矩阵相似性约束确保子图间一致的信息传播

实验设置

数据集

Human3.6M (H3.6M)：标准人体运动数据集
CMU Motion Capture (CMU Mocap)：CMU运动捕获数据集

评价指标

使用平均每关节位置误差(MPJPE)评估性能，数值越低表示预测性能越好。

对比方法

包括Traj-GCN、DMGNN、STS-GCN、MSR-GCN、SPGSN、PGBIG、STBMP等当前主流GCN方法。

实现细节

网络层数： $L = 4$
图卷积核数： $K = 4$
超参数： $\lambda = 0.1$

实验结果

主要结果

H3.6M数据集结果：

在80ms预测时，MPJPE为9.61，相比最佳baseline(STBMP的9.98)提升3.71%
在160ms预测时，MPJPE为21.63，相比最佳baseline提升3.13%
在多个时间步长上均取得最佳性能

CMU Mocap数据集结果：

平均MPJPE为32.43，显著优于所有对比方法
在所有预测时间步长上均取得最佳表现

消融实验

模块贡献分析：
- 时空双分支：两个分支都对性能有贡献
- 约束机制： $L_{con}$ 和 $L_{ST}$ 都能提升性能
- 完整模型取得最佳性能(33.80)
超参数影响：
- $\lambda = 0.1$ 时性能最佳
- 过大的 $\lambda$ 值(1.0)会限制分支信息独特性
网络结构影响：
- 增加层数 $L$ 和核数 $K$ 通常能提升性能
- $L=4, K=4$ 为最佳配置