In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
- 논문 ID: 2510.12660
- 제목: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- 저자: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
- 분류: cs.CV
- 발표 시간: 2025년 10월 14일 (arXiv 사전 인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.12660
본 연구는 간단하고 효율적인 인체 메시 복원(HMR) 및 인체 자세 추정(HPE) 모델 개발을 목표로 합니다. 현재 최첨단 HMR 방법(예: HMR2.0 및 후속 버전)은 대규모 비계층적 비전 Transformer를 인코더로 사용하며, 이는 해당 HPE 모델(예: ViTPose)에서 상속됩니다. 다양한 계산 예산에서 기준선을 설정하기 위해 저자들은 먼저 해당 ViTPose 모델을 적응시켜 세 가지 경량 HMR2.0 변형을 구축했습니다. 또한 Swin Transformer, GroupMixFormer, VMamba를 포함한 계층적 비전 기초 모델(VFMs)의 초기 단계를 인코더로 활용할 것을 제안합니다. 이 설계는 계층적 VFMs의 중간 단계에서 생성된 특성 맵 해상도가 비계층적 모델과 동등하거나 더 높다는 관찰에 기반합니다. 저자들은 계층적 VFM 기반의 27개 HMR 및 HPE 모델을 포괄적으로 평가하여, 처음 두 개 또는 세 개 단계만 사용해도 전체 단계 모델과 동등한 성능을 달성할 수 있으며, 절단된 모델이 정확성과 계산 효율성 간의 더 나은 균형을 제공함을 입증합니다.
인체 메시 복원(HMR)은 컴퓨터 비전의 중요한 작업으로, 애니메이션 제작, 가상 피팅, 스포츠 분석 및 인간-컴퓨터 상호작용 등 다양한 분야에서 광범위한 응용이 있습니다. 이 작업은 단일 이미지에서 SMPL 매개변수를 예측하여 완전한 3D 인체 모델을 재구성하는 것을 목표로 합니다.
- 높은 계산 자원 요구: 현재 최첨단 방법(예: HMR2.0)은 대규모 ViT-H를 인코더로 사용하여 많은 계산 자원이 필요합니다.
- 배포의 어려움: 대규모 모델은 모바일 장치나 엣지 컴퓨팅 환경에서 실시간 배포가 어렵습니다.
- 효율성-성능 균형 부족: 기존 경량화 방법은 종종 상당한 성능 손실로 계산 효율성을 교환합니다.
- 실제 배포 필요성: 자원이 제한된 환경에서 HMR 및 HPE 모델 배포의 긴급한 필요성
- 아키텍처 단순화: HMR2.0 아키텍처의 단순성을 유지하면서 효율성 향상
- 계층적 VFMs의 잠재력: 이 작업에서 계층적 비전 기초 모델의 응용 잠재력 탐색
- 경량 기준선 구축: ViTPose-{L,B,S} 인코더를 상속하여 세 가지 경량 HMR2.0 변형을 인스턴스화
- 절단 전략 제안: 계층적 VFMs의 처음 몇 단계를 인코더로 사용하는 가능성을 체계적으로 탐색
- 포괄적 실험 평가: 계층적 VFM 기반의 27개 HMR 및 HPE 모델에 대한 포괄적 평가 수행
- 성능-효율성 균형 최적화: 절단된 계층적 VFM 모델이 정확성과 계산 효율성 간의 더 나은 균형을 달성함을 입증
- HPE 작업: 입력 이미지(H×W, 일반적으로 256×192)에서 2D 키포인트 위치 예측
- HMR 작업: 입력 이미지에서 SMPL 매개변수(자세 α, 형태 β, 카메라 θ) 예측
- 인코더: ViT는 H/16×W/16 해상도 특성 맵 생성
- 디코더: 역합성곱 계층 + 예측 계층이 키포인트 히트맵 출력
- 인코더: ViT 기반 인코더가 특성 맵 생성
- 디코더: Transformer 기반 디코더가 SMPL 매개변수 예측
- 특성 집계를 위해 쿼리 토큰 메커니즘 사용
- 아키텍처 단순성 유지: 복잡하거나 고도로 특화된 모듈 회피
- 아키텍처 일관성: HMR2.0 및 ViTPose 기준선과의 일관성 유지
계층적 VFMs는 비계층적 VFMs에 상대적으로 2×2, 1×1, 1/2×1/2의 해상도를 출력하는 네 개의 단계를 포함합니다:
- 전체 4단계 사용(S4): 출력 해상도 정렬을 위해 2×2 역합성곱 계층 추가
- 처음 3단계 사용(S3): 단계 3 출력을 디코더에 직접 공급
- 처음 2단계 사용(S2): stride=2 합성곱 계층으로 특성 맵 다운샘플링 추가
- Swin Transformer: shifted window 기반 계층적 Transformer
- GroupMixFormer (GMF): group-mix attention을 채택한 효율적 Transformer
- VMamba (VM): 상태 공간 모델 기반 비전 아키텍처
- 절단 전략: 계층적 VFMs의 처음 몇 단계만 사용하는 가능성을 처음으로 체계적으로 탐색
- 최소 수정: 간단한 합성곱/역합성곱 계층을 통해 해상도 매칭을 구현하여 아키텍처 단순성 유지
- 다중 아키텍처 검증: Transformer 및 SSM 등 다양한 아키텍처 유형에서 방법의 일반성 검증
HPE:
- 훈련: COCO 데이터셋
- 평가: COCO-val 데이터셋
HMR:
- 훈련: 혼합 데이터셋(Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
- 2D 자세 평가: LSP-Extended, COCO-val, PoseTrack-val
- 3D 자세 평가: 3DPW-test, Human3.6M-val
HPE:
- Average Precision (AP) 및 Average Recall (AR)
- 종합 지표: ΦP,2D = 1/2(AP + AR)
HMR:
- 2D: PCK@0.05 및 PCK@0.1 임계값에서의 정확 키포인트 백분율
- 3D: MPJPE 및 PA-MPJPE 오류 지표
- 종합 지표: ΦM,2D 및 ΦM,3D
- 기존 경량화 방법: METRO 시리즈, FastMETRO, TORE 등
- ViT 기준선: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
- CNN 방법: MEMe, SimCC-HRNet 등
- 하드웨어: 8×A100 GPU 훈련, 단일 A100 GPU 추론 테스트
- 초기화: 계층적 VFM 인코더는 ImageNet-1K 사전 훈련 가중치 사용
- 훈련 프로토콜: HMR2.0 및 ViTPose의 표준 훈련 설정 준수
실험 결과는 처음 2-3개 단계의 절단된 모델이 전체 4단계 모델과 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다:
HPE 모델(COCO 데이터셋):
- SwinPose-S-S3: AP=74.6 vs S4의 74.5 (+0.1)
- GMFPose-T-S3: AP=75.7 vs S4의 75.8 (-0.1)
- VMPose-T-S3: AP=75.3 vs S4의 75.2 (+0.1)
HMR 모델 성능:
- 3D 자세 추정에서 대부분의 S3 모델이 S4 모델보다 약간 우수
- SwinHMR2.0-S-S3은 S4 대비 매개변수 31.6% 감소하면서 유사한 성능 유지
절단 전략은 계산 복잡도를 크게 감소시킵니다:
- 매개변수 감소: S3 모델은 S4 대비 평균 30-50% 매개변수 감소
- FLOPs 감소: S2 모델은 S4 대비 70-90% 계산량 감소
- 추론 가속: S2 모델 FPS 2-3배 향상
Human3.6M 데이터셋의 3D 자세 추정 결과는 제안된 계층적 VFM 모델이 동일한 계산 예산에서 기존 경량화 방법보다 성능이 우수함을 보여줍니다:
- GMFHMR2.0-S-S3: 19.3M 매개변수, PA-MPJPE=35.4
- ViT 기반 방법 대비 효율성-성능 균형에서 더 우수
S2, S3, S4 구성의 성능을 체계적으로 평가:
- S3 구성: 대부분의 경우 최적 선택으로, 성능과 효율성의 균형
- S2 구성: 효율성이 가장 높지만 일부 작업에서 성능 저하 명확
- S4 구성: 계산 오버헤드가 가장 크고 성능 향상 제한적
- Swin Transformer: 대부분의 구성에서 안정적인 성능
- GroupMixFormer: S2 구성에서 양호한 성능 유지
- VMamba: 우수한 효율성-성능 균형 제시
정성적 결과는 절단된 모델이 시각적 품질에서 완전한 모델과 동등하며 인체 자세 및 형태를 정확하게 추정할 수 있음을 보여주어 방법의 유효성을 검증합니다.
- 초기 CNN 방법: ResNet, HRNet 등 전통적 CNN 아키텍처 기반
- Transformer 방법: METRO, Mesh Graphormer 등 하이브리드 CNN-Transformer 아키텍처
- 순수 Transformer: HMR2.0, SMPLer-X 등 완전 Transformer 기반 방법
- CNN 최적화: MEMe, Lite-HRNet, LitePose 등 경량화 CNN 방법
- 아키텍처 검색: CNF, ViPNAS 등 신경 아키텍처 검색 방법
- Transformer 응용: ViTPose 등 ViT 기반 방법
- 비계층적: ViT, DeiT 등 고정 해상도 유지 모델
- 계층적: Swin Transformer, PVT 등 다중 스케일 특성 추출 모델
- 절단 전략 유효성: 계층적 VFMs의 처음 2-3개 단계는 HMR 및 HPE 작업을 위한 충분한 의미론적 정보 포함
- 효율성 현저한 향상: 절단된 모델은 성능 유지하면서 계산 오버헤드 대폭 감소
- 우수한 일반성: 이 전략은 다양한 VFM 아키텍처에서 일관된 유효성 제시
- 아키텍처 제한: 주로 계층적 VFMs 대상이며 비계층적 모델에는 적용 불가
- 작업 특이성: 주로 HMR 및 HPE 작업에서 검증되었으며 다른 비전 작업의 적용 가능성 미확인
- 사전 훈련 의존성: 효과는 고품질 사전 훈련 가중치에 의존
- 더 많은 VFMs 확장: 더 많은 계층적 비전 기초 모델 탐색
- 전신 및 다중 인물 장면: 더 복잡한 HMR 작업에서의 효과 검증
- 아키텍처 최적화: 절단 후 아키텍처 설계 추가 최적화
- 높은 실용 가치: 실제 배포의 효율성 문제 해결로 중요한 응용 가치 보유
- 간단한 방법: 원래 아키텍처의 단순성 유지로 구현 및 배포 용이
- 충분한 실험: 27개 모델의 포괄적 평가로 충분한 실험 증거 제공
- 깊은 통찰력: 계층적 VFMs 중간 표현의 풍부성 규명
- 이론 분석 부족: 처음 몇 단계가 충분한 이유에 대한 심층 이론 분석 부재
- 제한된 혁신성: 주로 공학적 최적화로 알고리즘 혁신성 상대적으로 제한적
- 평가 범위: 주로 표준 데이터셋에서 평가되어 실제 응용 장면의 견고성 미확인
- 학술 기여: 효율적 HMR/HPE 모델 설계에 새로운 사고 제공
- 실용 가치: 모바일 및 엣지 컴퓨팅 배포에 중요한 의미
- 재현성: 간단한 방법으로 재현 및 응용 용이
- 자원 제한 환경: 모바일 장치, 엣지 컴퓨팅 장치
- 실시간 응용: 빠른 응답이 필요한 대화형 응용
- 대규모 배포: 여러 장치에서 동시 실행이 필요한 장면
논문은 HMR, HPE 및 비전 기초 모델 등 관련 분야의 중요 연구를 포함한 118개의 관련 문헌을 인용하여 연구에 충분한 배경 지원을 제공합니다.
종합 평가: 이는 실용성이 매우 높은 공학적 최적화 논문으로, 간단하면서도 효과적인 절단 전략을 통해 HMR 및 HPE 모델의 효율성을 현저히 향상시킵니다. 알고리즘 혁신성은 제한적이지만 실제 배포의 중요한 문제를 해결하여 높은 응용 가치를 보유합니다. 실험 설계가 충분하고 결론이 신뢰할 수 있으며 관련 분야의 실제 응용에 가치 있는 참고를 제공합니다.