2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa

In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.

academic

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

基本信息

论文ID: 2510.12660
标题: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
作者: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
分类: cs.CV
发表时间: 2025年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12660

摘要

本研究旨在开发简单高效的人体网格恢复(HMR)和人体姿态估计(HPE)模型。当前最先进的HMR方法(如HMR2.0及其后续版本)依赖大型非层次化视觉Transformer作为编码器，这些编码器继承自相应的HPE模型(如ViTPose)。为了在不同计算预算下建立基线，作者首先通过适配相应的ViTPose模型构建了三个轻量级HMR2.0变体。此外，提出利用层次化视觉基础模型(VFMs)的早期阶段作为编码器，包括Swin Transformer、GroupMixFormer和VMamba。该设计基于一个观察：层次化VFMs的中间阶段产生的特征图分辨率与非层次化模型相当或更高。作者对27个基于层次化VFM的HMR和HPE模型进行了全面评估，证明仅使用前两或三个阶段就能达到与完整阶段模型相当的性能，且截断模型在准确性和计算效率之间表现出更好的权衡。

研究背景与动机

问题定义

人体网格恢复(HMR)是计算机视觉中的重要任务，在动画制作、虚拟试衣、体育分析和人机交互等领域有广泛应用。该任务旨在从单张图像中预测SMPL参数，重建完整的3D人体模型。

现有方法的局限性

计算资源需求高：当前最先进的方法如HMR2.0使用大型ViT-H作为编码器，需要大量计算资源
部署困难：大型模型难以在移动设备或边缘计算环境中实时部署
效率-性能权衡不佳：现有轻量化方法往往以显著的性能损失换取计算效率

研究动机

实际部署需求：在资源受限环境中部署HMR和HPE模型的迫切需要
架构简化：保持HMR2.0架构简单性的同时提高效率
层次化VFMs的潜力：探索层次化视觉基础模型在该任务中的应用潜力

核心贡献

构建轻量级基线：通过继承ViTPose-{L,B,S}编码器，实例化了三个轻量级HMR2.0变体
提出截断策略：系统性地探索使用层次化VFMs的前几个阶段作为编码器的可行性
全面实验评估：对27个基于层次化VFM的HMR和HPE模型进行了comprehensive评估
性能-效率权衡优化：证明截断的层次化VFM模型在准确性和计算效率之间实现了更好的权衡

方法详解

任务定义

HPE任务：从输入图像(H×W，通常256×192)预测2D关键点位置
HMR任务：从输入图像预测SMPL参数(姿态α、形状β、相机θ)

基线架构

ViTPose架构

编码器：ViT生成H/16×W/16分辨率特征图
解码器：反卷积层+预测层输出关键点热图

HMR2.0架构

编码器：ViT-based编码器产生特征图
解码器：Transformer-based解码器预测SMPL参数
使用查询token机制进行特征聚合

层次化VFM编码器设计

设计原则

保持架构简单性：避免复杂或高度专业化的模块
架构一致性：与HMR2.0和ViTPose基线保持一致

分辨率匹配策略

层次化VFMs包含四个阶段，输出分辨率分别为相对于非层次化VFMs的2×2、1×1、1/2×1/2：

使用全四阶段(S4)：添加2×2反卷积层对齐输出分辨率
使用前三阶段(S3)：直接将阶段3输出送入解码器
使用前两阶段(S2)：添加stride=2的卷积层下采样特征图

支持的VFM架构

Swin Transformer：基于shifted window的层次化Transformer
GroupMixFormer (GMF)：采用group-mix attention的高效Transformer
VMamba (VM)：基于状态空间模型的视觉架构

技术创新点

截断策略：首次系统性探索仅使用层次化VFMs前几个阶段的可行性
最小化修改：通过简单的卷积/反卷积层实现分辨率匹配，保持架构简洁
多架构验证：在Transformer和SSM等不同架构类型上验证方法的通用性

实验设置

数据集

HPE：

训练：COCO数据集
评估：COCO-val数据集

HMR：

训练：混合数据集(Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
2D姿态评估：LSP-Extended, COCO-val, PoseTrack-val
3D姿态评估：3DPW-test, Human3.6M-val

评价指标

HPE：

Average Precision (AP)和Average Recall (AR)
综合指标：ΦP,2D = 1/2(AP + AR)

HMR：

2D：PCK@0.05和PCK@0.1阈值下的正确关键点百分比
3D：MPJPE和PA-MPJPE误差指标
综合指标：ΦM,2D和ΦM,3D

对比方法

现有轻量化方法：METRO系列、FastMETRO、TORE等
ViT基线：HMR2.0-{L,B,S}、ViTPose-{H,L,B,S}
CNN方法：MEMe、SimCC-HRNet等

实现细节

硬件：8×A100 GPU训练，单A100 GPU推理测试
初始化：层次化VFM编码器使用ImageNet-1K预训练权重
训练协议：遵循HMR2.0和ViTPose的标准训练设置

实验结果

主要结果

截断效果验证

实验结果显示，使用前2-3个阶段的截断模型能够达到与全4阶段模型相当甚至更好的性能：

HPE模型(COCO数据集)：

SwinPose-S-S3: AP=74.6 vs S4的74.5 (+0.1)
GMFPose-T-S3: AP=75.7 vs S4的75.8 (-0.1)
VMPose-T-S3: AP=75.3 vs S4的75.2 (+0.1)

HMR模型性能：

3D姿态估计中，多数S3模型略优于S4模型
SwinHMR2.0-S-S3相比S4在参数量减少31.6%的同时保持相近性能

计算效率提升

截断策略显著降低了计算复杂度：

参数量减少：S3模型相比S4平均减少30-50%参数
FLOPs降低：S2模型相比S4降低70-90%计算量
推理加速：S2模型FPS提升2-3倍

与现有方法对比

在Human3.6M数据集上的3D姿态估计结果显示，提出的层次化VFM模型在相同计算预算下性能优于现有轻量化方法：

GMFHMR2.0-S-S3: 19.3M参数，PA-MPJPE=35.4
相比ViT-based方法在效率-性能权衡上更优

消融实验

不同阶段数量的影响

系统性评估了S2、S3、S4配置的性能：

S3配置：在大多数情况下为最佳选择，平衡了性能和效率
S2配置：虽然效率最高，但在某些任务上性能下降明显
S4配置：计算开销最大，性能提升有限

不同VFM架构对比

Swin Transformer：在大部分配置下性能稳定
GroupMixFormer：在S2配置下保持较好性能
VMamba：展现出良好的效率-性能权衡

案例分析

定性结果显示，截断模型在视觉质量上与完整模型相当，能够准确估计人体姿态和形状，验证了方法的有效性。

相关工作

人体网格恢复

早期CNN方法：基于ResNet、HRNet等传统CNN架构
Transformer方法：METRO、Mesh Graphormer等混合CNN-Transformer架构
纯Transformer：HMR2.0、SMPLer-X等完全基于Transformer的方法

人体姿态估计

CNN优化：MEMe、Lite-HRNet、LitePose等轻量化CNN方法
架构搜索：CNF、ViPNAS等神经架构搜索方法
Transformer应用：ViTPose等基于ViT的方法

视觉基础模型

非层次化：ViT、DeiT等保持固定分辨率的模型
层次化：Swin Transformer、PVT等多尺度特征提取模型

结论与讨论

主要结论

截断策略有效：层次化VFMs的前2-3个阶段包含足够的语义信息用于HMR和HPE任务
效率显著提升：截断模型在保持性能的同时大幅降低计算开销
通用性良好：该策略在不同VFM架构上均表现出一致的有效性

局限性

架构限制：主要针对层次化VFMs，对非层次化模型不适用
任务特异性：主要在HMR和HPE任务上验证，其他视觉任务的适用性有待探索
预训练依赖：效果依赖于高质量的预训练权重

未来方向

扩展到更多VFMs：探索更多层次化视觉基础模型
全身和多人场景：验证在更复杂HMR任务中的效果
架构优化：进一步优化截断后的架构设计

深度评价

优点

实用价值高：解决了实际部署中的效率问题，具有重要的应用价值
方法简洁：保持了原有架构的简单性，易于实现和部署
实验充分：27个模型的comprehensive评估提供了充分的实验证据
洞察深刻：揭示了层次化VFMs中间表示的丰富性

不足

理论分析不足：缺乏对为什么前几个阶段足够的深入理论分析
创新性有限：主要是工程优化，算法创新性相对有限
评估范围：主要在标准数据集上评估，实际应用场景的鲁棒性有待验证

影响力

学术贡献：为高效HMR/HPE模型设计提供了新思路
实用价值：对移动端和边缘计算部署具有重要意义
可复现性：方法简单，易于复现和应用

适用场景

资源受限环境：移动设备、边缘计算设备
实时应用：需要快速响应的交互式应用
大规模部署：需要在多个设备上同时运行的场景

参考文献

论文引用了118篇相关文献，涵盖了HMR、HPE和视觉基础模型等相关领域的重要工作，为研究提供了充分的背景支撑。

总体评价：这是一篇实用性很强的工程优化论文，通过简单而有效的截断策略显著提升了HMR和HPE模型的效率。虽然算法创新性有限，但解决了实际部署中的重要问题，具有较高的应用价值。实验设计充分，结论可信，为相关领域的实际应用提供了有价值的参考。