2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa

In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.

academic

Zur Verwendung hierarchischer Vision Foundation Models für kostengünstige Human Mesh Recovery und Pose Estimation

Grundinformationen

Paper-ID: 2510.12660
Titel: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
Autoren: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
Klassifizierung: cs.CV
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.12660

Zusammenfassung

Diese Forschung zielt darauf ab, einfache und effiziente Modelle für Human Mesh Recovery (HMR) und Human Pose Estimation (HPE) zu entwickeln. Aktuelle State-of-the-Art-HMR-Methoden (wie HMR2.0 und deren Nachfolger) basieren auf großen nicht-hierarchischen Vision Transformers als Encoder, die von entsprechenden HPE-Modellen (wie ViTPose) abgeleitet sind. Um Baselines unter verschiedenen Rechenbudgets zu etablieren, konstruieren die Autoren zunächst drei leichtgewichtige HMR2.0-Varianten durch Anpassung entsprechender ViTPose-Modelle. Darüber hinaus wird die Nutzung früher Stufen hierarchischer Vision Foundation Models (VFMs) als Encoder vorgeschlagen, einschließlich Swin Transformer, GroupMixFormer und VMamba. Dieses Design basiert auf der Beobachtung, dass Merkmalskarten aus mittleren Stufen hierarchischer VFMs eine Auflösung aufweisen, die mit nicht-hierarchischen Modellen vergleichbar oder höher ist. Die Autoren führen eine umfassende Bewertung von 27 auf hierarchischen VFMs basierenden HMR- und HPE-Modellen durch und zeigen, dass die Verwendung nur der ersten zwei oder drei Stufen eine mit vollständigen Stufen-Modellen vergleichbare Leistung erreicht, wobei gekürzte Modelle ein besseres Gleichgewicht zwischen Genauigkeit und Recheneffizienz aufweisen.

Forschungshintergrund und Motivation

Problemdefinition

Human Mesh Recovery (HMR) ist eine wichtige Aufgabe in der Computervision mit breiter Anwendung in Animation, virtueller Anprobe, Sportanalyse und Mensch-Computer-Interaktion. Die Aufgabe zielt darauf ab, SMPL-Parameter aus einem einzelnen Bild vorherzusagen und ein vollständiges 3D-Menschenmodell zu rekonstruieren.

Einschränkungen bestehender Methoden

Hohe Rechenressourcen-Anforderungen: Aktuelle State-of-the-Art-Methoden wie HMR2.0 verwenden große ViT-H als Encoder und erfordern erhebliche Rechenressourcen
Schwierigkeiten bei der Bereitstellung: Große Modelle lassen sich schwer in Echtzeit auf mobilen Geräten oder Edge-Computing-Umgebungen einsetzen
Schlechter Effizienz-Leistungs-Kompromiss: Bestehende Leichtgewichts-Methoden erzielen oft Recheneffizienz auf Kosten erheblicher Leistungsverluste

Forschungsmotivation

Praktische Bereitstellungsanforderungen: Dringende Notwendigkeit, HMR- und HPE-Modelle in ressourcenbeschränkten Umgebungen bereitzustellen
Architektur-Vereinfachung: Beibehaltung der Einfachheit der HMR2.0-Architektur bei gleichzeitiger Verbesserung der Effizienz
Potenzial hierarchischer VFMs: Erforschung des Anwendungspotenzials hierarchischer Vision Foundation Models für diese Aufgabe

Kernbeiträge

Konstruktion leichtgewichtiger Baselines: Instanziierung von drei leichtgewichtigen HMR2.0-Varianten durch Vererbung von ViTPose-{L,B,S}-Encodern
Vorschlag einer Kürzungsstrategie: Systematische Erforschung der Machbarkeit, nur die ersten Stufen hierarchischer VFMs als Encoder zu verwenden
Umfassende experimentelle Bewertung: Comprehensive Bewertung von 27 auf hierarchischen VFMs basierenden HMR- und HPE-Modellen
Optimierung des Leistungs-Effizienz-Kompromisses: Nachweis, dass gekürzte hierarchische VFM-Modelle einen besseren Kompromiss zwischen Genauigkeit und Recheneffizienz erreichen

Methodische Details

Aufgabendefinition

HPE-Aufgabe: Vorhersage von 2D-Schlüsselpunkt-Positionen aus Eingabebild (H×W, typischerweise 256×192)
HMR-Aufgabe: Vorhersage von SMPL-Parametern (Pose α, Form β, Kamera θ) aus Eingabebild

Basis-Architektur

ViTPose-Architektur

Encoder: ViT erzeugt Merkmalskarten mit Auflösung H/16×W/16
Decoder: Dekonvolutionsschichten + Vorhersageschichten geben Schlüsselpunkt-Heatmaps aus

HMR2.0-Architektur

Encoder: ViT-basierter Encoder erzeugt Merkmalskarten
Decoder: Transformer-basierter Decoder sagt SMPL-Parameter voraus
Verwendet Query-Token-Mechanismus für Merkmals-Aggregation

Hierarchisches VFM-Encoder-Design

Designprinzipien

Beibehaltung der Architektur-Einfachheit: Vermeidung komplexer oder hochgradig spezialisierter Module
Architektur-Konsistenz: Konsistenz mit HMR2.0- und ViTPose-Baselines

Auflösungs-Matching-Strategie

Hierarchische VFMs enthalten vier Stufen mit Ausgangsauflösungen relativ zu nicht-hierarchischen VFMs von 2×2, 1×1, 1/2×1/2:

Verwendung aller vier Stufen (S4): Hinzufügen von 2×2-Dekonvolutionsschichten zur Ausrichtung der Ausgangsauflösung
Verwendung der ersten drei Stufen (S3): Direkte Eingabe der Stufe-3-Ausgabe in den Decoder
Verwendung der ersten zwei Stufen (S2): Hinzufügen von Stride=2-Faltungsschichten zur Unterabtastung der Merkmalskarten

Unterstützte VFM-Architekturen

Swin Transformer: Hierarchischer Transformer basierend auf verschobenen Fenstern
GroupMixFormer (GMF): Effizienter Transformer mit Group-Mix-Attention
VMamba (VM): Visuelles Architektur-Modell basierend auf State-Space-Modellen

Technische Innovationen

Kürzungsstrategie: Erste systematische Erforschung der Machbarkeit, nur die ersten Stufen hierarchischer VFMs zu verwenden
Minimale Modifikationen: Erreichung des Auflösungs-Matchings durch einfache Faltungs-/Dekonvolutionsschichten bei Beibehaltung einer prägnanten Architektur
Multi-Architektur-Validierung: Validierung der Methoden-Universalität über verschiedene Architektur-Typen wie Transformer und SSM

Experimentelle Einrichtung

Datensätze

HPE:

Training: COCO-Datensatz
Bewertung: COCO-val-Datensatz

HMR:

Training: Gemischter Datensatz (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
2D-Pose-Bewertung: LSP-Extended, COCO-val, PoseTrack-val
3D-Pose-Bewertung: 3DPW-test, Human3.6M-val

Bewertungsmetriken

HPE:

Average Precision (AP) und Average Recall (AR)
Zusammengesetzter Indikator: ΦP,2D = 1/2(AP + AR)

HMR:

2D: PCK@0.05 und PCK@0.1 Schwellenwert-Prozentsatz korrekter Schlüsselpunkte
3D: MPJPE und PA-MPJPE Fehlermetriken
Zusammengesetzte Indikatoren: ΦM,2D und ΦM,3D

Vergleichsmethoden

Bestehende Leichtgewichts-Methoden: METRO-Serie, FastMETRO, TORE usw.
ViT-Baselines: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
CNN-Methoden: MEMe, SimCC-HRNet usw.

Implementierungsdetails

Hardware: 8×A100-GPU-Training, Inferenz-Test auf einzelner A100-GPU
Initialisierung: Hierarchische VFM-Encoder verwenden ImageNet-1K-vortrainierte Gewichte
Trainingsprotokoll: Befolgt Standard-Trainingseinstellungen von HMR2.0 und ViTPose

Experimentelle Ergebnisse

Hauptergebnisse

Validierung der Kürzungseffekte

Experimentelle Ergebnisse zeigen, dass gekürzte Modelle mit den ersten 2-3 Stufen eine mit vollständigen 4-Stufen-Modellen vergleichbare oder sogar bessere Leistung erreichen:

HPE-Modelle (COCO-Datensatz):

SwinPose-S-S3: AP=74,6 vs S4 74,5 (+0,1)
GMFPose-T-S3: AP=75,7 vs S4 75,8 (-0,1)
VMPose-T-S3: AP=75,3 vs S4 75,2 (+0,1)

HMR-Modell-Leistung:

Bei der 3D-Pose-Schätzung sind die meisten S3-Modelle leicht besser als S4-Modelle
SwinHMR2.0-S-S3 behält vergleichbare Leistung bei während die Parameterzahl um 31,6% gegenüber S4 reduziert wird

Verbesserung der Recheneffizienz

Die Kürzungsstrategie reduziert die Rechenkomplexität erheblich:

Parameterreduktion: S3-Modelle reduzieren durchschnittlich 30-50% Parameter gegenüber S4
FLOPs-Reduktion: S2-Modelle reduzieren 70-90% Rechenaufwand gegenüber S4
Inferenz-Beschleunigung: S2-Modelle zeigen 2-3x FPS-Verbesserung

Vergleich mit bestehenden Methoden

3D-Pose-Schätzungsergebnisse auf dem Human3.6M-Datensatz zeigen, dass die vorgeschlagenen hierarchischen VFM-Modelle unter gleichem Rechenbudget bestehende Leichtgewichts-Methoden übertreffen:

GMFHMR2.0-S-S3: 19,3M Parameter, PA-MPJPE=35,4
Besserer Effizienz-Leistungs-Kompromiss im Vergleich zu ViT-basierten Methoden

Ablationsstudien

Auswirkung unterschiedlicher Stufenanzahlen

Systematische Bewertung von S2-, S3-, S4-Konfigurationen:

S3-Konfiguration: In den meisten Fällen optimale Wahl, ausgewogenes Verhältnis zwischen Leistung und Effizienz
S2-Konfiguration: Höchste Effizienz, aber deutliche Leistungseinbußen bei einigen Aufgaben
S4-Konfiguration: Höchster Rechenaufwand, begrenzte Leistungsverbesserung

Vergleich verschiedener VFM-Architekturen

Swin Transformer: Stabile Leistung in den meisten Konfigurationen
GroupMixFormer: Behält gute Leistung in S2-Konfiguration
VMamba: Zeigt gutes Effizienz-Leistungs-Gleichgewicht

Fallstudien

Qualitative Ergebnisse zeigen, dass gekürzte Modelle in visueller Qualität mit vollständigen Modellen vergleichbar sind und Menschenpose und -form genau schätzen können, was die Wirksamkeit der Methode validiert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Kürzungsstrategie wirksam: Die ersten 2-3 Stufen hierarchischer VFMs enthalten ausreichende semantische Informationen für HMR- und HPE-Aufgaben
Signifikante Effizienzverbesserung: Gekürzte Modelle reduzieren Rechenaufwand erheblich bei Beibehaltung der Leistung
Gute Universalität: Die Strategie zeigt konsistente Wirksamkeit über verschiedene VFM-Architekturen

Einschränkungen

Architektur-Einschränkungen: Hauptsächlich auf hierarchische VFMs ausgerichtet, nicht auf nicht-hierarchische Modelle anwendbar
Aufgaben-Spezifität: Hauptsächlich auf HMR- und HPE-Aufgaben validiert, Anwendbarkeit auf andere Sehaufgaben zu erforschen
Vortraining-Abhängigkeit: Ergebnisse hängen von hochqualitativen vortrainierten Gewichten ab

Zukünftige Richtungen

Erweiterung auf mehr VFMs: Erforschung weiterer hierarchischer Vision Foundation Models
Ganzkörper- und Multi-Person-Szenen: Validierung in komplexeren HMR-Aufgaben
Architektur-Optimierung: Weitere Optimierung des Architektur-Designs nach Kürzung

Tiefgreifende Bewertung

Stärken

Hoher praktischer Wert: Löst Effizienzprobleme bei praktischer Bereitstellung mit wichtigem Anwendungswert
Einfache Methode: Beibehaltung der Einfachheit der ursprünglichen Architektur, leicht zu implementieren und bereitzustellen
Umfassende Experimente: Comprehensive Bewertung von 27 Modellen liefert ausreichende experimentelle Evidenz
Tiefe Einsichten: Offenbart die Reichhaltigkeit mittlerer Darstellungen in hierarchischen VFMs

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum die ersten Stufen ausreichend sind
Begrenzte Innovativität: Hauptsächlich technische Optimierung, relativ begrenzte algorithmische Innovation
Bewertungsumfang: Hauptsächlich auf Standard-Datensätzen bewertet, Robustheit in praktischen Anwendungsszenarien zu überprüfen

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für effiziente HMR/HPE-Modelldesign
Praktischer Wert: Wichtig für Bereitstellung auf mobilen Geräten und Edge-Computing-Geräten
Reproduzierbarkeit: Einfache Methode, leicht zu reproduzieren und anzuwenden

Anwendungsszenarien

Ressourcenbeschränkte Umgebungen: Mobile Geräte, Edge-Computing-Geräte
Echtzeit-Anwendungen: Interaktive Anwendungen, die schnelle Reaktion erfordern
Großflächige Bereitstellung: Szenarien, in denen Modelle gleichzeitig auf mehreren Geräten ausgeführt werden

Referenzen

Das Paper zitiert 118 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen HMR, HPE und Vision Foundation Models abdecken und umfassende Hintergrundunterstützung für die Forschung bieten.

Gesamtbewertung: Dies ist ein sehr praktisches Optimierungs-Paper, das durch eine einfache und effektive Kürzungsstrategie die Effizienz von HMR- und HPE-Modellen erheblich verbessert. Obwohl die algorithmische Innovation begrenzt ist, löst es wichtige Probleme bei der praktischen Bereitstellung und hat hohen Anwendungswert. Das Experimentdesign ist umfassend, die Schlussfolgerungen sind zuverlässig und bietet wertvolle Referenzen für praktische Anwendungen in verwandten Bereichen.