In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
academic- 論文ID: 2510.12660
- タイトル: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- 著者: 寺島修平(NTT DOCOMO Business & 東京都立大学)、王宇山(東京都立大学)、田川紀朗(東京都立大学)
- 分類: cs.CV
- 発表日: 2025年10月14日(arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.12660
本研究は、シンプルで効率的な人体メッシュ復元(HMR)および人体ポーズ推定(HPE)モデルの開発を目指しています。現在の最先端HMR手法(HMR2.0およびその後続版)は、大規模な非階層的ビジョンTransformerをエンコーダとして採用しており、これらは対応するHPEモデル(ViTPoseなど)から継承されています。異なる計算予算下でのベースラインを確立するため、著者らは最初に対応するViTPoseモデルを適応させることで、3つの軽量HMR2.0バリアントを構築しました。さらに、Swin Transformer、GroupMixFormer、VManbaを含む階層的ビジョン基礎モデル(VFMs)の初期段階をエンコーダとして利用することを提案しています。この設計は、階層的VFMsの中間段階で生成される特徴マップの解像度が、非階層的モデルと同等またはそれ以上であるという観察に基づいています。著者らは、階層的VFMベースの27個のHMRおよびHPEモデルを包括的に評価し、最初の2~3段階のみを使用することで、完全な段階モデルと同等の性能を達成でき、かつ切断されたモデルが精度と計算効率の間でより良いトレードオフを示すことを実証しました。
人体メッシュ復元(HMR)はコンピュータビジョンにおける重要なタスクであり、アニメーション制作、バーチャル試着、スポーツ分析、ヒューマンコンピュータインタラクションなど、多くの分野で広く応用されています。このタスクは、単一画像からSMPLパラメータを予測し、完全な3D人体モデルを再構成することを目指しています。
- 計算リソース要件が高い:HMR2.0などの現在の最先端手法は、大規模なViT-Hをエンコーダとして使用し、膨大な計算リソースを必要とします
- デプロイの困難さ:大規模モデルはモバイルデバイスやエッジコンピューティング環境でのリアルタイムデプロイが困難です
- 効率と性能のトレードオフが不十分:既存の軽量化手法は、計算効率を得るために著しい性能低下を招くことが多いです
- 実際のデプロイメント需要:リソース制約環境でのHMRおよびHPEモデルのデプロイメントの緊急の必要性
- アーキテクチャの簡素化:HMR2.0アーキテクチャの単純性を維持しながら効率を向上させる
- 階層的VFMsの可能性:このタスクにおける階層的ビジョン基礎モデルの応用可能性の探索
- 軽量ベースラインの構築:ViTPose-{L,B,S}エンコーダを継承することで、3つの軽量HMR2.0バリアントをインスタンス化しました
- 切断戦略の提案:階層的VFMsの最初の数段階をエンコーダとして使用する可行性を体系的に探索しました
- 包括的な実験評価:階層的VFMベースの27個のHMRおよびHPEモデルに対して包括的な評価を実施しました
- 性能効率トレードオフの最適化:切断された階層的VFMモデルが精度と計算効率の間でより良いトレードオフを実現することを実証しました
- HPEタスク:入力画像(H×W、通常256×192)から2D関節点位置を予測
- HMRタスク:入力画像からSMPLパラメータ(ポーズα、形状β、カメラθ)を予測
- エンコーダ:ViTがH/16×W/16解像度の特徴マップを生成
- デコーダ:逆畳み込み層+予測層が関節点ヒートマップを出力
- エンコーダ:ViTベースのエンコーダが特徴マップを生成
- デコーダ:TransformerベースのデコーダがSMPLパラメータを予測
- クエリトークンメカニズムを使用して特徴を集約
- アーキテクチャの単純性を維持:複雑または高度に専門化されたモジュールを回避
- アーキテクチャの一貫性:HMR2.0およびViTPoseベースラインとの一貫性を維持
階層的VFMsは4つの段階を含み、非階層的VFMsに対して相対的に2×2、1×1、1/2×1/2の解像度を出力します:
- 全4段階を使用(S4):出力解像度を調整するために2×2逆畳み込み層を追加
- 最初の3段階を使用(S3):段階3の出力をデコーダに直接送信
- 最初の2段階を使用(S2):stride=2の畳み込み層で特徴マップをダウンサンプリング
- Swin Transformer:シフトウィンドウベースの階層的Transformer
- GroupMixFormer(GMF):グループミックスアテンションを採用した効率的なTransformer
- VMamba(VM):状態空間モデルベースのビジョンアーキテクチャ
- 切断戦略:階層的VFMsの最初の数段階のみを使用する可行性を初めて体系的に探索
- 最小限の変更:シンプルな畳み込み/逆畳み込み層を通じて解像度マッチングを実現し、アーキテクチャの簡潔性を維持
- 複数アーキテクチャの検証:TransformerおよびSSMなど異なるアーキテクチャタイプ上で方法の汎用性を検証
HPE:
- 訓練:COCOデータセット
- 評価:COCO-valデータセット
HMR:
- 訓練:混合データセット(Human3.6M、MPI-INF-3DHP、COCO、MPII、InstaVariety、AVA、AI Challenger)
- 2Dポーズ評価:LSP-Extended、COCO-val、PoseTrack-val
- 3Dポーズ評価:3DPW-test、Human3.6M-val
HPE:
- Average Precision(AP)およびAverage Recall(AR)
- 統合指標:ΦP,2D = 1/2(AP + AR)
HMR:
- 2D:PCK@0.05およびPCK@0.1閾値での正解関節点の割合
- 3D:MPJPEおよびPA-MPJPE誤差指標
- 統合指標:ΦM,2DおよびΦM,3D
- 既存の軽量化手法:METROシリーズ、FastMETRO、TOREなど
- ViTベースライン:HMR2.0-{L,B,S}、ViTPose-{H,L,B,S}
- CNN手法:MEMe、SimCC-HRNetなど
- ハードウェア:8×A100 GPU訓練、単一A100 GPU推論テスト
- 初期化:階層的VFMエンコーダはImageNet-1K事前訓練重みを使用
- 訓練プロトコル:HMR2.0およびViTPoseの標準訓練設定に従う
実験結果は、最初の2~3段階の切断モデルが、全4段階モデルと同等またはそれ以上の性能を達成できることを示しています:
HPEモデル(COCOデータセット):
- SwinPose-S-S3: AP=74.6 vs S4の74.5 (+0.1)
- GMFPose-T-S3: AP=75.7 vs S4の75.8 (-0.1)
- VMPose-T-S3: AP=75.3 vs S4の75.2 (+0.1)
HMRモデルの性能:
- 3Dポーズ推定では、ほとんどのS3モデルがS4モデルをわずかに上回る
- SwinHMR2.0-S-S3はパラメータ数が31.6%削減されながら、S4と同等の性能を維持
切断戦略は計算複雑度を大幅に削減しました:
- パラメータ削減:S3モデルはS4と比較して平均30~50%のパラメータを削減
- FLOPs低下:S2モデルはS4と比較して70~90%の計算量を削減
- 推論加速:S2モデルのFPSは2~3倍向上
Human3.6Mデータセット上の3Dポーズ推定結果は、提案された階層的VFMモデルが同じ計算予算下で既存の軽量化手法を上回ることを示しています:
- GMFHMR2.0-S-S3: 19.3Mパラメータ、PA-MPJPE=35.4
- ViTベース手法と比較して効率性能トレードオフがより優れている
S2、S3、S4構成の性能を体系的に評価しました:
- S3構成:ほとんどの場合で最適な選択肢であり、性能と効率のバランスが取れている
- S2構成:効率は最高ですが、一部のタスクでは性能低下が顕著
- S4構成:計算オーバーヘッドが最大で、性能向上は限定的
- Swin Transformer:ほとんどの構成で性能が安定している
- GroupMixFormer:S2構成で良好な性能を維持
- VMamba:良好な効率性能トレードオフを示す
定性的結果は、切断モデルが完全なモデルと視覚的品質において同等であり、人体のポーズと形状を正確に推定でき、方法の有効性を検証することを示しています。
- 初期CNN手法:ResNet、HRNetなどの従来的なCNNアーキテクチャベース
- Transformer手法:METRO、Mesh GraphormerなどのハイブリッドCNN-Transformerアーキテクチャ
- 純Transformer:HMR2.0、SMPLer-Xなど完全にTransformerベースの手法
- CNN最適化:MEMe、Lite-HRNet、LitePoseなどの軽量化CNN手法
- アーキテクチャサーチ:CNF、ViPNASなどのニューラルアーキテクチャサーチ手法
- Transformerの応用:ViTPoseなどのViTベースの手法
- 非階層的:ViT、DeiTなど固定解像度を維持するモデル
- 階層的:Swin Transformer、PVTなどのマルチスケール特徴抽出モデル
- 切断戦略が有効:階層的VFMsの最初の2~3段階はHMRおよびHPEタスクに十分なセマンティック情報を含んでいます
- 効率が大幅に向上:切断モデルは性能を維持しながら計算オーバーヘッドを大幅に削減します
- 汎用性が良好:この戦略は異なるVFMアーキテクチャ上で一貫した有効性を示します
- アーキテクチャの制限:主に階層的VFMsを対象とし、非階層的モデルには適用できません
- タスク特異性:主にHMRおよびHPEタスクで検証されており、他のビジョンタスクへの適用可能性は未探索です
- 事前訓練への依存:結果は高品質な事前訓練重みに依存しています
- より多くのVFMsへの拡張:より多くの階層的ビジョン基礎モデルの探索
- 全身および複数人シーン:より複雑なHMRタスクでの効果の検証
- アーキテクチャ最適化:切断後のアーキテクチャ設計のさらなる最適化
- 実用価値が高い:実際のデプロイメントにおける効率の問題を解決し、重要な応用価値を持ちます
- 方法がシンプル:元のアーキテクチャの単純性を維持し、実装とデプロイメントが容易です
- 実験が充分:27個のモデルの包括的な評価が十分な実験証拠を提供します
- 洞察が深い:階層的VFMs中間表現の豊かさを明らかにしています
- 理論分析が不足:なぜ最初の数段階で十分なのかについての深い理論的分析が欠けています
- 革新性が限定的:主にエンジニアリング最適化であり、アルゴリズムの革新性は相対的に限定的です
- 評価範囲:主に標準データセット上で評価されており、実際の応用シーンでのロバスト性は未検証です
- 学術的貢献:効率的なHMR/HPEモデル設計に新しい視点を提供します
- 実用価値:モバイルデバイスおよびエッジコンピューティングデプロイメントに重要な意義を持ちます
- 再現可能性:方法がシンプルで再現と応用が容易です
- リソース制約環境:モバイルデバイス、エッジコンピューティングデバイス
- リアルタイムアプリケーション:高速応答が必要なインタラクティブアプリケーション
- 大規模デプロイメント:複数のデバイスで同時に実行する必要があるシーン
論文は118篇の関連文献を引用しており、HMR、HPE、ビジョン基礎モデルなど関連分野の重要な研究をカバーしており、研究に十分な背景サポートを提供しています。
総合評価:これは実用性が非常に高いエンジニアリング最適化論文であり、シンプルで効果的な切断戦略によってHMRおよびHPEモデルの効率を大幅に向上させています。アルゴリズムの革新性は限定的ですが、実際のデプロイメントにおける重要な問題を解決し、高い応用価値を持ちます。実験設計が充分で結論は信頼性が高く、関連分野の実際の応用に価値のある参考を提供しています。