2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa
In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
academic

Zur Verwendung hierarchischer Vision Foundation Models für kostengünstige Human Mesh Recovery und Pose Estimation

Grundinformationen

  • Paper-ID: 2510.12660
  • Titel: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
  • Autoren: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
  • Klassifizierung: cs.CV
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12660

Zusammenfassung

Diese Forschung zielt darauf ab, einfache und effiziente Modelle für Human Mesh Recovery (HMR) und Human Pose Estimation (HPE) zu entwickeln. Aktuelle State-of-the-Art-HMR-Methoden (wie HMR2.0 und deren Nachfolger) basieren auf großen nicht-hierarchischen Vision Transformers als Encoder, die von entsprechenden HPE-Modellen (wie ViTPose) abgeleitet sind. Um Baselines unter verschiedenen Rechenbudgets zu etablieren, konstruieren die Autoren zunächst drei leichtgewichtige HMR2.0-Varianten durch Anpassung entsprechender ViTPose-Modelle. Darüber hinaus wird die Nutzung früher Stufen hierarchischer Vision Foundation Models (VFMs) als Encoder vorgeschlagen, einschließlich Swin Transformer, GroupMixFormer und VMamba. Dieses Design basiert auf der Beobachtung, dass Merkmalskarten aus mittleren Stufen hierarchischer VFMs eine Auflösung aufweisen, die mit nicht-hierarchischen Modellen vergleichbar oder höher ist. Die Autoren führen eine umfassende Bewertung von 27 auf hierarchischen VFMs basierenden HMR- und HPE-Modellen durch und zeigen, dass die Verwendung nur der ersten zwei oder drei Stufen eine mit vollständigen Stufen-Modellen vergleichbare Leistung erreicht, wobei gekürzte Modelle ein besseres Gleichgewicht zwischen Genauigkeit und Recheneffizienz aufweisen.

Forschungshintergrund und Motivation

Problemdefinition

Human Mesh Recovery (HMR) ist eine wichtige Aufgabe in der Computervision mit breiter Anwendung in Animation, virtueller Anprobe, Sportanalyse und Mensch-Computer-Interaktion. Die Aufgabe zielt darauf ab, SMPL-Parameter aus einem einzelnen Bild vorherzusagen und ein vollständiges 3D-Menschenmodell zu rekonstruieren.

Einschränkungen bestehender Methoden

  1. Hohe Rechenressourcen-Anforderungen: Aktuelle State-of-the-Art-Methoden wie HMR2.0 verwenden große ViT-H als Encoder und erfordern erhebliche Rechenressourcen
  2. Schwierigkeiten bei der Bereitstellung: Große Modelle lassen sich schwer in Echtzeit auf mobilen Geräten oder Edge-Computing-Umgebungen einsetzen
  3. Schlechter Effizienz-Leistungs-Kompromiss: Bestehende Leichtgewichts-Methoden erzielen oft Recheneffizienz auf Kosten erheblicher Leistungsverluste

Forschungsmotivation

  1. Praktische Bereitstellungsanforderungen: Dringende Notwendigkeit, HMR- und HPE-Modelle in ressourcenbeschränkten Umgebungen bereitzustellen
  2. Architektur-Vereinfachung: Beibehaltung der Einfachheit der HMR2.0-Architektur bei gleichzeitiger Verbesserung der Effizienz
  3. Potenzial hierarchischer VFMs: Erforschung des Anwendungspotenzials hierarchischer Vision Foundation Models für diese Aufgabe

Kernbeiträge

  1. Konstruktion leichtgewichtiger Baselines: Instanziierung von drei leichtgewichtigen HMR2.0-Varianten durch Vererbung von ViTPose-{L,B,S}-Encodern
  2. Vorschlag einer Kürzungsstrategie: Systematische Erforschung der Machbarkeit, nur die ersten Stufen hierarchischer VFMs als Encoder zu verwenden
  3. Umfassende experimentelle Bewertung: Comprehensive Bewertung von 27 auf hierarchischen VFMs basierenden HMR- und HPE-Modellen
  4. Optimierung des Leistungs-Effizienz-Kompromisses: Nachweis, dass gekürzte hierarchische VFM-Modelle einen besseren Kompromiss zwischen Genauigkeit und Recheneffizienz erreichen

Methodische Details

Aufgabendefinition

  • HPE-Aufgabe: Vorhersage von 2D-Schlüsselpunkt-Positionen aus Eingabebild (H×W, typischerweise 256×192)
  • HMR-Aufgabe: Vorhersage von SMPL-Parametern (Pose α, Form β, Kamera θ) aus Eingabebild

Basis-Architektur

ViTPose-Architektur

  • Encoder: ViT erzeugt Merkmalskarten mit Auflösung H/16×W/16
  • Decoder: Dekonvolutionsschichten + Vorhersageschichten geben Schlüsselpunkt-Heatmaps aus

HMR2.0-Architektur

  • Encoder: ViT-basierter Encoder erzeugt Merkmalskarten
  • Decoder: Transformer-basierter Decoder sagt SMPL-Parameter voraus
  • Verwendet Query-Token-Mechanismus für Merkmals-Aggregation

Hierarchisches VFM-Encoder-Design

Designprinzipien

  1. Beibehaltung der Architektur-Einfachheit: Vermeidung komplexer oder hochgradig spezialisierter Module
  2. Architektur-Konsistenz: Konsistenz mit HMR2.0- und ViTPose-Baselines

Auflösungs-Matching-Strategie

Hierarchische VFMs enthalten vier Stufen mit Ausgangsauflösungen relativ zu nicht-hierarchischen VFMs von 2×2, 1×1, 1/2×1/2:

  • Verwendung aller vier Stufen (S4): Hinzufügen von 2×2-Dekonvolutionsschichten zur Ausrichtung der Ausgangsauflösung
  • Verwendung der ersten drei Stufen (S3): Direkte Eingabe der Stufe-3-Ausgabe in den Decoder
  • Verwendung der ersten zwei Stufen (S2): Hinzufügen von Stride=2-Faltungsschichten zur Unterabtastung der Merkmalskarten

Unterstützte VFM-Architekturen

  1. Swin Transformer: Hierarchischer Transformer basierend auf verschobenen Fenstern
  2. GroupMixFormer (GMF): Effizienter Transformer mit Group-Mix-Attention
  3. VMamba (VM): Visuelles Architektur-Modell basierend auf State-Space-Modellen

Technische Innovationen

  1. Kürzungsstrategie: Erste systematische Erforschung der Machbarkeit, nur die ersten Stufen hierarchischer VFMs zu verwenden
  2. Minimale Modifikationen: Erreichung des Auflösungs-Matchings durch einfache Faltungs-/Dekonvolutionsschichten bei Beibehaltung einer prägnanten Architektur
  3. Multi-Architektur-Validierung: Validierung der Methoden-Universalität über verschiedene Architektur-Typen wie Transformer und SSM

Experimentelle Einrichtung

Datensätze

HPE:

  • Training: COCO-Datensatz
  • Bewertung: COCO-val-Datensatz

HMR:

  • Training: Gemischter Datensatz (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
  • 2D-Pose-Bewertung: LSP-Extended, COCO-val, PoseTrack-val
  • 3D-Pose-Bewertung: 3DPW-test, Human3.6M-val

Bewertungsmetriken

HPE:

  • Average Precision (AP) und Average Recall (AR)
  • Zusammengesetzter Indikator: ΦP,2D = 1/2(AP + AR)

HMR:

  • 2D: PCK@0.05 und PCK@0.1 Schwellenwert-Prozentsatz korrekter Schlüsselpunkte
  • 3D: MPJPE und PA-MPJPE Fehlermetriken
  • Zusammengesetzte Indikatoren: ΦM,2D und ΦM,3D

Vergleichsmethoden

  • Bestehende Leichtgewichts-Methoden: METRO-Serie, FastMETRO, TORE usw.
  • ViT-Baselines: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
  • CNN-Methoden: MEMe, SimCC-HRNet usw.

Implementierungsdetails

  • Hardware: 8×A100-GPU-Training, Inferenz-Test auf einzelner A100-GPU
  • Initialisierung: Hierarchische VFM-Encoder verwenden ImageNet-1K-vortrainierte Gewichte
  • Trainingsprotokoll: Befolgt Standard-Trainingseinstellungen von HMR2.0 und ViTPose

Experimentelle Ergebnisse

Hauptergebnisse

Validierung der Kürzungseffekte

Experimentelle Ergebnisse zeigen, dass gekürzte Modelle mit den ersten 2-3 Stufen eine mit vollständigen 4-Stufen-Modellen vergleichbare oder sogar bessere Leistung erreichen:

HPE-Modelle (COCO-Datensatz):

  • SwinPose-S-S3: AP=74,6 vs S4 74,5 (+0,1)
  • GMFPose-T-S3: AP=75,7 vs S4 75,8 (-0,1)
  • VMPose-T-S3: AP=75,3 vs S4 75,2 (+0,1)

HMR-Modell-Leistung:

  • Bei der 3D-Pose-Schätzung sind die meisten S3-Modelle leicht besser als S4-Modelle
  • SwinHMR2.0-S-S3 behält vergleichbare Leistung bei während die Parameterzahl um 31,6% gegenüber S4 reduziert wird

Verbesserung der Recheneffizienz

Die Kürzungsstrategie reduziert die Rechenkomplexität erheblich:

  • Parameterreduktion: S3-Modelle reduzieren durchschnittlich 30-50% Parameter gegenüber S4
  • FLOPs-Reduktion: S2-Modelle reduzieren 70-90% Rechenaufwand gegenüber S4
  • Inferenz-Beschleunigung: S2-Modelle zeigen 2-3x FPS-Verbesserung

Vergleich mit bestehenden Methoden

3D-Pose-Schätzungsergebnisse auf dem Human3.6M-Datensatz zeigen, dass die vorgeschlagenen hierarchischen VFM-Modelle unter gleichem Rechenbudget bestehende Leichtgewichts-Methoden übertreffen:

  • GMFHMR2.0-S-S3: 19,3M Parameter, PA-MPJPE=35,4
  • Besserer Effizienz-Leistungs-Kompromiss im Vergleich zu ViT-basierten Methoden

Ablationsstudien

Auswirkung unterschiedlicher Stufenanzahlen

Systematische Bewertung von S2-, S3-, S4-Konfigurationen:

  • S3-Konfiguration: In den meisten Fällen optimale Wahl, ausgewogenes Verhältnis zwischen Leistung und Effizienz
  • S2-Konfiguration: Höchste Effizienz, aber deutliche Leistungseinbußen bei einigen Aufgaben
  • S4-Konfiguration: Höchster Rechenaufwand, begrenzte Leistungsverbesserung

Vergleich verschiedener VFM-Architekturen

  • Swin Transformer: Stabile Leistung in den meisten Konfigurationen
  • GroupMixFormer: Behält gute Leistung in S2-Konfiguration
  • VMamba: Zeigt gutes Effizienz-Leistungs-Gleichgewicht

Fallstudien

Qualitative Ergebnisse zeigen, dass gekürzte Modelle in visueller Qualität mit vollständigen Modellen vergleichbar sind und Menschenpose und -form genau schätzen können, was die Wirksamkeit der Methode validiert.

Verwandte Arbeiten

Human Mesh Recovery

  • Frühe CNN-Methoden: Basierend auf ResNet, HRNet und anderen traditionellen CNN-Architekturen
  • Transformer-Methoden: METRO, Mesh Graphormer und andere hybride CNN-Transformer-Architekturen
  • Reine Transformer: HMR2.0, SMPLer-X und andere vollständig Transformer-basierte Methoden

Human Pose Estimation

  • CNN-Optimierung: MEMe, Lite-HRNet, LitePose und andere leichtgewichtige CNN-Methoden
  • Architektur-Suche: CNF, ViPNAS und andere neuronale Architektur-Such-Methoden
  • Transformer-Anwendung: ViTPose und andere ViT-basierte Methoden

Vision Foundation Models

  • Nicht-hierarchisch: ViT, DeiT und andere Modelle mit fester Auflösung
  • Hierarchisch: Swin Transformer, PVT und andere Multi-Skalen-Merkmals-Extraktions-Modelle

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Kürzungsstrategie wirksam: Die ersten 2-3 Stufen hierarchischer VFMs enthalten ausreichende semantische Informationen für HMR- und HPE-Aufgaben
  2. Signifikante Effizienzverbesserung: Gekürzte Modelle reduzieren Rechenaufwand erheblich bei Beibehaltung der Leistung
  3. Gute Universalität: Die Strategie zeigt konsistente Wirksamkeit über verschiedene VFM-Architekturen

Einschränkungen

  1. Architektur-Einschränkungen: Hauptsächlich auf hierarchische VFMs ausgerichtet, nicht auf nicht-hierarchische Modelle anwendbar
  2. Aufgaben-Spezifität: Hauptsächlich auf HMR- und HPE-Aufgaben validiert, Anwendbarkeit auf andere Sehaufgaben zu erforschen
  3. Vortraining-Abhängigkeit: Ergebnisse hängen von hochqualitativen vortrainierten Gewichten ab

Zukünftige Richtungen

  1. Erweiterung auf mehr VFMs: Erforschung weiterer hierarchischer Vision Foundation Models
  2. Ganzkörper- und Multi-Person-Szenen: Validierung in komplexeren HMR-Aufgaben
  3. Architektur-Optimierung: Weitere Optimierung des Architektur-Designs nach Kürzung

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Wert: Löst Effizienzprobleme bei praktischer Bereitstellung mit wichtigem Anwendungswert
  2. Einfache Methode: Beibehaltung der Einfachheit der ursprünglichen Architektur, leicht zu implementieren und bereitzustellen
  3. Umfassende Experimente: Comprehensive Bewertung von 27 Modellen liefert ausreichende experimentelle Evidenz
  4. Tiefe Einsichten: Offenbart die Reichhaltigkeit mittlerer Darstellungen in hierarchischen VFMs

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum die ersten Stufen ausreichend sind
  2. Begrenzte Innovativität: Hauptsächlich technische Optimierung, relativ begrenzte algorithmische Innovation
  3. Bewertungsumfang: Hauptsächlich auf Standard-Datensätzen bewertet, Robustheit in praktischen Anwendungsszenarien zu überprüfen

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für effiziente HMR/HPE-Modelldesign
  2. Praktischer Wert: Wichtig für Bereitstellung auf mobilen Geräten und Edge-Computing-Geräten
  3. Reproduzierbarkeit: Einfache Methode, leicht zu reproduzieren und anzuwenden

Anwendungsszenarien

  1. Ressourcenbeschränkte Umgebungen: Mobile Geräte, Edge-Computing-Geräte
  2. Echtzeit-Anwendungen: Interaktive Anwendungen, die schnelle Reaktion erfordern
  3. Großflächige Bereitstellung: Szenarien, in denen Modelle gleichzeitig auf mehreren Geräten ausgeführt werden

Referenzen

Das Paper zitiert 118 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen HMR, HPE und Vision Foundation Models abdecken und umfassende Hintergrundunterstützung für die Forschung bieten.


Gesamtbewertung: Dies ist ein sehr praktisches Optimierungs-Paper, das durch eine einfache und effektive Kürzungsstrategie die Effizienz von HMR- und HPE-Modellen erheblich verbessert. Obwohl die algorithmische Innovation begrenzt ist, löst es wichtige Probleme bei der praktischen Bereitstellung und hat hohen Anwendungswert. Das Experimentdesign ist umfassend, die Schlussfolgerungen sind zuverlässig und bietet wertvolle Referenzen für praktische Anwendungen in verwandten Bereichen.