Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.
- 论文ID: 2501.00317
- 标题: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
- 作者: Jiexin Wang, Yiju Guo, Bing Su (中国人民大学人工智能学院)
- 分类: cs.CV (计算机视觉), cs.LG (机器学习)
- 发表时间: 2024年12月31日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2501.00317
人体运动预测(HMP)涉及基于历史数据预测未来人体运动。图卷积网络(GCNs)因其在捕获人体运动中关节间关系的能力而在该领域获得广泛关注。然而,现有基于GCN的方法往往只关注时域或空域特征,或者在组合时空特征时未能充分利用这两种特征的互补性和交叉依赖性。本文提出了时空多子图图卷积网络(STMS-GCN)来捕获人体运动中复杂的时空依赖关系。具体而言,我们解耦了时间和空间依赖关系的建模,通过时空信息一致性约束机制实现多尺度的跨域知识转移。此外,我们利用多个子图提取更丰富的运动信息,并通过同质信息约束机制增强不同子图的学习关联。在标准HMP基准测试上的大量实验证明了我们方法的优越性。
3D骨架基于的人体运动预测旨在根据给定的历史运动序列预测未来的运动序列。这项研究对于理解人体运动行为至关重要,在机器人协作、自动驾驶、动作识别等多个领域有广泛应用。
- 单域建模局限:大多数GCN方法仅关注时域或空域特征建模,忽略了时空特征间的互补性
- 特征融合不充分:一些方法通过混合卷积核整合时空关系,但难以提取独特的时间和空间信息
- 跨域依赖未充分利用:现有分离建模方法主要关注复杂结构设计,忽略了时空关系中隐藏的交叉依赖性
针对上述问题,本文提出通过正交的时空分支分别建模时域和空域信息,充分利用时空信息的独特性,并通过一致性约束促进时空信息交织和跨域知识转移。
- 提出STMS-GCN架构:考虑时空信息的独立性和互补性,利用多样化可学习子图捕获更丰富的运动模式
- 跨域信息对比机制:增强多尺度空间和时间信息交互的跨域信息对比机制
- 同质信息约束机制:精细调节子图学习的同质信息约束机制
- 实验验证:在标准HMP基准测试上进行广泛实验,证明方法在多种场景下准确预测人体运动的有效性和优越性
设 X=[X1,⋯,XTp]∈RTp×J×D 表示给定的历史姿态,Y=[XTp+1,⋯,XTp+Tf]∈RTf×J×D 表示未来Tf个时间步的预测运动序列。每个姿态Xt∈RJ×D描述了时刻t具有J个关节的D维人体姿态。
STMSB由两个关键模块组成:
- 时空双分支:分别对时域和空域进行建模
- 多子图学习:利用多个子图提取更丰富的运动信息
时域建模:
- 将输入X重塑为XT={XT,i}i=1Tp+Tf∈R(Tp+Tf)×J⋅D
- 通过帧嵌入将XT投影到C维特征空间:
X^T,i=W2⋅(σ(W1⋅XT,i+b1))+b2
- 使用GCN捕获帧间时间依赖关系
空域建模:
- 将X重塑为空域形式XS={XS,n}n=1J×D∈R(J×D)×(Tp+Tf)
- 应用离散余弦变换和关节嵌入获得关节表示
- 使用GCN捕获空间依赖关系
通过平均每关节位置误差(MPJPE)作为约束促进域间知识转移:
LST=∑l=1L(Tp+Tf)⋅J1∑t=1Tp+Tf∑j=1J∥YT,t,jl−YS,t,jl∥2
使用K个图卷积核ΥTl={ΥTl,1,ΥTl,2,⋯,ΥTl,K}进行特征学习:
MTl=Ave(HTl,1,HTl,2,⋯,HTl,K)
为防止核间过度分化,提出同质信息学习增强策略:
LconT=∑l=1L∑k=1K∑u=k+1K∥ATl,k−ATl,u∥22
- 解耦建模:通过正交分支分别建模时空依赖,避免特征混淆
- 跨域约束:多尺度一致性约束实现有效的跨域知识转移
- 多子图机制:受专家混合模型启发,使用多个可训练子图捕获不同运动模式
- 同质约束:通过邻接矩阵相似性约束确保子图间一致的信息传播
- Human3.6M (H3.6M):标准人体运动数据集
- CMU Motion Capture (CMU Mocap):CMU运动捕获数据集
使用平均每关节位置误差(MPJPE)评估性能,数值越低表示预测性能越好。
包括Traj-GCN、DMGNN、STS-GCN、MSR-GCN、SPGSN、PGBIG、STBMP等当前主流GCN方法。
- 网络层数:L=4
- 图卷积核数:K=4
- 超参数:λ=0.1
H3.6M数据集结果:
- 在80ms预测时,MPJPE为9.61,相比最佳baseline(STBMP的9.98)提升3.71%
- 在160ms预测时,MPJPE为21.63,相比最佳baseline提升3.13%
- 在多个时间步长上均取得最佳性能
CMU Mocap数据集结果:
- 平均MPJPE为32.43,显著优于所有对比方法
- 在所有预测时间步长上均取得最佳表现
- 模块贡献分析:
- 时空双分支:两个分支都对性能有贡献
- 约束机制:Lcon和LST都能提升性能
- 完整模型取得最佳性能(33.80)
- 超参数影响:
- λ=0.1时性能最佳
- 过大的λ值(1.0)会限制分支信息独特性
- 网络结构影响:
- 增加层数L和核数K通常能提升性能
- L=4,K=4为最佳配置
- 约束机制有效性:邻接矩阵约束比权重参数约束更有效
- 一致性vs多样性:强制图构建相似性比多样性约束效果更好
- 分支选择:空域分支输出作为最终预测效果最佳
- CNN/RNN方法:早期使用卷积和循环网络,但存在滤波器依赖和误差累积问题
- GCN方法:当前主流,擅长建模关节间运动学依赖关系
- Transformer方法:近期兴起,在序列建模方面表现优异
相比现有GCN方法,本文通过解耦时空建模、跨域约束和多子图学习,更好地利用了时空特征的互补性和交叉依赖性。
- 解耦的时空建模能更好地捕获各域独特信息
- 跨域一致性约束有效促进知识转移
- 多子图学习增强了运动模式捕获能力
- 在标准基准测试上取得了SOTA性能
- 模型复杂度相对较高,需要平衡性能和计算效率
- 超参数λ需要针对不同数据集进行调优
- 对于极长期预测的效果需要进一步验证
- 探索更高效的时空特征融合机制
- 研究自适应的子图数量选择策略
- 扩展到更多样化的人体运动场景
- 创新性强:解耦时空建模的思路新颖,跨域约束机制设计巧妙
- 理论基础扎实:基于GCN的空间建模和时序建模有充分的理论支撑
- 实验充分:包含详尽的消融实验和参数分析
- 性能优异:在多个基准数据集上取得SOTA结果
- 写作清晰:论文结构合理,技术描述准确
- 计算复杂度:多分支和多子图设计增加了模型复杂度
- 参数敏感性:超参数λ对性能影响较大,需要仔细调优
- 泛化性分析:缺乏对不同类型运动(如舞蹈、体操等)的泛化能力分析
- 实时性考虑:未讨论模型的推理速度和实时应用潜力
- 学术贡献:为时空特征建模提供了新的解耦思路
- 实用价值:在机器人、游戏、体感交互等领域有应用前景
- 可复现性:提供了详细的实现细节和参数设置
- 高精度要求:适用于对预测精度要求较高的应用场景
- 标准动作预测:在日常活动、体育运动等标准化动作预测中效果良好
- 短中期预测:在1000ms以内的预测任务中表现优异
论文引用了60余篇相关文献,涵盖了人体运动预测的主要方法,包括CNN、RNN、LSTM、Transformer和GCN等各类方法,为读者提供了全面的背景知识。
总体评价:这是一篇高质量的计算机视觉论文,在人体运动预测这一重要任务上提出了创新性的解决方案。解耦时空建模的核心思想具有一定的普适性,实验结果令人信服。虽然在模型复杂度和参数调优方面存在一些挑战,但整体贡献显著,值得关注和进一步研究。