In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
academicOn the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- 论文ID: 2510.12660
- 标题: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- 作者: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
- 分类: cs.CV
- 发表时间: 2025年10月14日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.12660
本研究旨在开发简单高效的人体网格恢复(HMR)和人体姿态估计(HPE)模型。当前最先进的HMR方法(如HMR2.0及其后续版本)依赖大型非层次化视觉Transformer作为编码器,这些编码器继承自相应的HPE模型(如ViTPose)。为了在不同计算预算下建立基线,作者首先通过适配相应的ViTPose模型构建了三个轻量级HMR2.0变体。此外,提出利用层次化视觉基础模型(VFMs)的早期阶段作为编码器,包括Swin Transformer、GroupMixFormer和VMamba。该设计基于一个观察:层次化VFMs的中间阶段产生的特征图分辨率与非层次化模型相当或更高。作者对27个基于层次化VFM的HMR和HPE模型进行了全面评估,证明仅使用前两或三个阶段就能达到与完整阶段模型相当的性能,且截断模型在准确性和计算效率之间表现出更好的权衡。
人体网格恢复(HMR)是计算机视觉中的重要任务,在动画制作、虚拟试衣、体育分析和人机交互等领域有广泛应用。该任务旨在从单张图像中预测SMPL参数,重建完整的3D人体模型。
- 计算资源需求高:当前最先进的方法如HMR2.0使用大型ViT-H作为编码器,需要大量计算资源
- 部署困难:大型模型难以在移动设备或边缘计算环境中实时部署
- 效率-性能权衡不佳:现有轻量化方法往往以显著的性能损失换取计算效率
- 实际部署需求:在资源受限环境中部署HMR和HPE模型的迫切需要
- 架构简化:保持HMR2.0架构简单性的同时提高效率
- 层次化VFMs的潜力:探索层次化视觉基础模型在该任务中的应用潜力
- 构建轻量级基线:通过继承ViTPose-{L,B,S}编码器,实例化了三个轻量级HMR2.0变体
- 提出截断策略:系统性地探索使用层次化VFMs的前几个阶段作为编码器的可行性
- 全面实验评估:对27个基于层次化VFM的HMR和HPE模型进行了comprehensive评估
- 性能-效率权衡优化:证明截断的层次化VFM模型在准确性和计算效率之间实现了更好的权衡
- HPE任务:从输入图像(H×W,通常256×192)预测2D关键点位置
- HMR任务:从输入图像预测SMPL参数(姿态α、形状β、相机θ)
- 编码器:ViT生成H/16×W/16分辨率特征图
- 解码器:反卷积层+预测层输出关键点热图
- 编码器:ViT-based编码器产生特征图
- 解码器:Transformer-based解码器预测SMPL参数
- 使用查询token机制进行特征聚合
- 保持架构简单性:避免复杂或高度专业化的模块
- 架构一致性:与HMR2.0和ViTPose基线保持一致
层次化VFMs包含四个阶段,输出分辨率分别为相对于非层次化VFMs的2×2、1×1、1/2×1/2:
- 使用全四阶段(S4):添加2×2反卷积层对齐输出分辨率
- 使用前三阶段(S3):直接将阶段3输出送入解码器
- 使用前两阶段(S2):添加stride=2的卷积层下采样特征图
- Swin Transformer:基于shifted window的层次化Transformer
- GroupMixFormer (GMF):采用group-mix attention的高效Transformer
- VMamba (VM):基于状态空间模型的视觉架构
- 截断策略:首次系统性探索仅使用层次化VFMs前几个阶段的可行性
- 最小化修改:通过简单的卷积/反卷积层实现分辨率匹配,保持架构简洁
- 多架构验证:在Transformer和SSM等不同架构类型上验证方法的通用性
HPE:
HMR:
- 训练:混合数据集(Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
- 2D姿态评估:LSP-Extended, COCO-val, PoseTrack-val
- 3D姿态评估:3DPW-test, Human3.6M-val
HPE:
- Average Precision (AP)和Average Recall (AR)
- 综合指标:ΦP,2D = 1/2(AP + AR)
HMR:
- 2D:PCK@0.05和PCK@0.1阈值下的正确关键点百分比
- 3D:MPJPE和PA-MPJPE误差指标
- 综合指标:ΦM,2D和ΦM,3D
- 现有轻量化方法:METRO系列、FastMETRO、TORE等
- ViT基线:HMR2.0-{L,B,S}、ViTPose-{H,L,B,S}
- CNN方法:MEMe、SimCC-HRNet等
- 硬件:8×A100 GPU训练,单A100 GPU推理测试
- 初始化:层次化VFM编码器使用ImageNet-1K预训练权重
- 训练协议:遵循HMR2.0和ViTPose的标准训练设置
实验结果显示,使用前2-3个阶段的截断模型能够达到与全4阶段模型相当甚至更好的性能:
HPE模型(COCO数据集):
- SwinPose-S-S3: AP=74.6 vs S4的74.5 (+0.1)
- GMFPose-T-S3: AP=75.7 vs S4的75.8 (-0.1)
- VMPose-T-S3: AP=75.3 vs S4的75.2 (+0.1)
HMR模型性能:
- 3D姿态估计中,多数S3模型略优于S4模型
- SwinHMR2.0-S-S3相比S4在参数量减少31.6%的同时保持相近性能
截断策略显著降低了计算复杂度:
- 参数量减少:S3模型相比S4平均减少30-50%参数
- FLOPs降低:S2模型相比S4降低70-90%计算量
- 推理加速:S2模型FPS提升2-3倍
在Human3.6M数据集上的3D姿态估计结果显示,提出的层次化VFM模型在相同计算预算下性能优于现有轻量化方法:
- GMFHMR2.0-S-S3: 19.3M参数,PA-MPJPE=35.4
- 相比ViT-based方法在效率-性能权衡上更优
系统性评估了S2、S3、S4配置的性能:
- S3配置:在大多数情况下为最佳选择,平衡了性能和效率
- S2配置:虽然效率最高,但在某些任务上性能下降明显
- S4配置:计算开销最大,性能提升有限
- Swin Transformer:在大部分配置下性能稳定
- GroupMixFormer:在S2配置下保持较好性能
- VMamba:展现出良好的效率-性能权衡
定性结果显示,截断模型在视觉质量上与完整模型相当,能够准确估计人体姿态和形状,验证了方法的有效性。
- 早期CNN方法:基于ResNet、HRNet等传统CNN架构
- Transformer方法:METRO、Mesh Graphormer等混合CNN-Transformer架构
- 纯Transformer:HMR2.0、SMPLer-X等完全基于Transformer的方法
- CNN优化:MEMe、Lite-HRNet、LitePose等轻量化CNN方法
- 架构搜索:CNF、ViPNAS等神经架构搜索方法
- Transformer应用:ViTPose等基于ViT的方法
- 非层次化:ViT、DeiT等保持固定分辨率的模型
- 层次化:Swin Transformer、PVT等多尺度特征提取模型
- 截断策略有效:层次化VFMs的前2-3个阶段包含足够的语义信息用于HMR和HPE任务
- 效率显著提升:截断模型在保持性能的同时大幅降低计算开销
- 通用性良好:该策略在不同VFM架构上均表现出一致的有效性
- 架构限制:主要针对层次化VFMs,对非层次化模型不适用
- 任务特异性:主要在HMR和HPE任务上验证,其他视觉任务的适用性有待探索
- 预训练依赖:效果依赖于高质量的预训练权重
- 扩展到更多VFMs:探索更多层次化视觉基础模型
- 全身和多人场景:验证在更复杂HMR任务中的效果
- 架构优化:进一步优化截断后的架构设计
- 实用价值高:解决了实际部署中的效率问题,具有重要的应用价值
- 方法简洁:保持了原有架构的简单性,易于实现和部署
- 实验充分:27个模型的comprehensive评估提供了充分的实验证据
- 洞察深刻:揭示了层次化VFMs中间表示的丰富性
- 理论分析不足:缺乏对为什么前几个阶段足够的深入理论分析
- 创新性有限:主要是工程优化,算法创新性相对有限
- 评估范围:主要在标准数据集上评估,实际应用场景的鲁棒性有待验证
- 学术贡献:为高效HMR/HPE模型设计提供了新思路
- 实用价值:对移动端和边缘计算部署具有重要意义
- 可复现性:方法简单,易于复现和应用
- 资源受限环境:移动设备、边缘计算设备
- 实时应用:需要快速响应的交互式应用
- 大规模部署:需要在多个设备上同时运行的场景
论文引用了118篇相关文献,涵盖了HMR、HPE和视觉基础模型等相关领域的重要工作,为研究提供了充分的背景支撑。
总体评价:这是一篇实用性很强的工程优化论文,通过简单而有效的截断策略显著提升了HMR和HPE模型的效率。虽然算法创新性有限,但解决了实际部署中的重要问题,具有较高的应用价值。实验设计充分,结论可信,为相关领域的实际应用提供了有价值的参考。