In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
- Paper-ID: 2510.12660
- Titel: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- Autoren: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
- Klassifizierung: cs.CV
- Veröffentlichungsdatum: 14. Oktober 2025 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2510.12660
Diese Forschung zielt darauf ab, einfache und effiziente Modelle für Human Mesh Recovery (HMR) und Human Pose Estimation (HPE) zu entwickeln. Aktuelle State-of-the-Art-HMR-Methoden (wie HMR2.0 und deren Nachfolger) basieren auf großen nicht-hierarchischen Vision Transformers als Encoder, die von entsprechenden HPE-Modellen (wie ViTPose) abgeleitet sind. Um Baselines unter verschiedenen Rechenbudgets zu etablieren, konstruieren die Autoren zunächst drei leichtgewichtige HMR2.0-Varianten durch Anpassung entsprechender ViTPose-Modelle. Darüber hinaus wird die Nutzung früher Stufen hierarchischer Vision Foundation Models (VFMs) als Encoder vorgeschlagen, einschließlich Swin Transformer, GroupMixFormer und VMamba. Dieses Design basiert auf der Beobachtung, dass Merkmalskarten aus mittleren Stufen hierarchischer VFMs eine Auflösung aufweisen, die mit nicht-hierarchischen Modellen vergleichbar oder höher ist. Die Autoren führen eine umfassende Bewertung von 27 auf hierarchischen VFMs basierenden HMR- und HPE-Modellen durch und zeigen, dass die Verwendung nur der ersten zwei oder drei Stufen eine mit vollständigen Stufen-Modellen vergleichbare Leistung erreicht, wobei gekürzte Modelle ein besseres Gleichgewicht zwischen Genauigkeit und Recheneffizienz aufweisen.
Human Mesh Recovery (HMR) ist eine wichtige Aufgabe in der Computervision mit breiter Anwendung in Animation, virtueller Anprobe, Sportanalyse und Mensch-Computer-Interaktion. Die Aufgabe zielt darauf ab, SMPL-Parameter aus einem einzelnen Bild vorherzusagen und ein vollständiges 3D-Menschenmodell zu rekonstruieren.
- Hohe Rechenressourcen-Anforderungen: Aktuelle State-of-the-Art-Methoden wie HMR2.0 verwenden große ViT-H als Encoder und erfordern erhebliche Rechenressourcen
- Schwierigkeiten bei der Bereitstellung: Große Modelle lassen sich schwer in Echtzeit auf mobilen Geräten oder Edge-Computing-Umgebungen einsetzen
- Schlechter Effizienz-Leistungs-Kompromiss: Bestehende Leichtgewichts-Methoden erzielen oft Recheneffizienz auf Kosten erheblicher Leistungsverluste
- Praktische Bereitstellungsanforderungen: Dringende Notwendigkeit, HMR- und HPE-Modelle in ressourcenbeschränkten Umgebungen bereitzustellen
- Architektur-Vereinfachung: Beibehaltung der Einfachheit der HMR2.0-Architektur bei gleichzeitiger Verbesserung der Effizienz
- Potenzial hierarchischer VFMs: Erforschung des Anwendungspotenzials hierarchischer Vision Foundation Models für diese Aufgabe
- Konstruktion leichtgewichtiger Baselines: Instanziierung von drei leichtgewichtigen HMR2.0-Varianten durch Vererbung von ViTPose-{L,B,S}-Encodern
- Vorschlag einer Kürzungsstrategie: Systematische Erforschung der Machbarkeit, nur die ersten Stufen hierarchischer VFMs als Encoder zu verwenden
- Umfassende experimentelle Bewertung: Comprehensive Bewertung von 27 auf hierarchischen VFMs basierenden HMR- und HPE-Modellen
- Optimierung des Leistungs-Effizienz-Kompromisses: Nachweis, dass gekürzte hierarchische VFM-Modelle einen besseren Kompromiss zwischen Genauigkeit und Recheneffizienz erreichen
- HPE-Aufgabe: Vorhersage von 2D-Schlüsselpunkt-Positionen aus Eingabebild (H×W, typischerweise 256×192)
- HMR-Aufgabe: Vorhersage von SMPL-Parametern (Pose α, Form β, Kamera θ) aus Eingabebild
- Encoder: ViT erzeugt Merkmalskarten mit Auflösung H/16×W/16
- Decoder: Dekonvolutionsschichten + Vorhersageschichten geben Schlüsselpunkt-Heatmaps aus
- Encoder: ViT-basierter Encoder erzeugt Merkmalskarten
- Decoder: Transformer-basierter Decoder sagt SMPL-Parameter voraus
- Verwendet Query-Token-Mechanismus für Merkmals-Aggregation
- Beibehaltung der Architektur-Einfachheit: Vermeidung komplexer oder hochgradig spezialisierter Module
- Architektur-Konsistenz: Konsistenz mit HMR2.0- und ViTPose-Baselines
Hierarchische VFMs enthalten vier Stufen mit Ausgangsauflösungen relativ zu nicht-hierarchischen VFMs von 2×2, 1×1, 1/2×1/2:
- Verwendung aller vier Stufen (S4): Hinzufügen von 2×2-Dekonvolutionsschichten zur Ausrichtung der Ausgangsauflösung
- Verwendung der ersten drei Stufen (S3): Direkte Eingabe der Stufe-3-Ausgabe in den Decoder
- Verwendung der ersten zwei Stufen (S2): Hinzufügen von Stride=2-Faltungsschichten zur Unterabtastung der Merkmalskarten
- Swin Transformer: Hierarchischer Transformer basierend auf verschobenen Fenstern
- GroupMixFormer (GMF): Effizienter Transformer mit Group-Mix-Attention
- VMamba (VM): Visuelles Architektur-Modell basierend auf State-Space-Modellen
- Kürzungsstrategie: Erste systematische Erforschung der Machbarkeit, nur die ersten Stufen hierarchischer VFMs zu verwenden
- Minimale Modifikationen: Erreichung des Auflösungs-Matchings durch einfache Faltungs-/Dekonvolutionsschichten bei Beibehaltung einer prägnanten Architektur
- Multi-Architektur-Validierung: Validierung der Methoden-Universalität über verschiedene Architektur-Typen wie Transformer und SSM
HPE:
- Training: COCO-Datensatz
- Bewertung: COCO-val-Datensatz
HMR:
- Training: Gemischter Datensatz (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
- 2D-Pose-Bewertung: LSP-Extended, COCO-val, PoseTrack-val
- 3D-Pose-Bewertung: 3DPW-test, Human3.6M-val
HPE:
- Average Precision (AP) und Average Recall (AR)
- Zusammengesetzter Indikator: ΦP,2D = 1/2(AP + AR)
HMR:
- 2D: PCK@0.05 und PCK@0.1 Schwellenwert-Prozentsatz korrekter Schlüsselpunkte
- 3D: MPJPE und PA-MPJPE Fehlermetriken
- Zusammengesetzte Indikatoren: ΦM,2D und ΦM,3D
- Bestehende Leichtgewichts-Methoden: METRO-Serie, FastMETRO, TORE usw.
- ViT-Baselines: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
- CNN-Methoden: MEMe, SimCC-HRNet usw.
- Hardware: 8×A100-GPU-Training, Inferenz-Test auf einzelner A100-GPU
- Initialisierung: Hierarchische VFM-Encoder verwenden ImageNet-1K-vortrainierte Gewichte
- Trainingsprotokoll: Befolgt Standard-Trainingseinstellungen von HMR2.0 und ViTPose
Experimentelle Ergebnisse zeigen, dass gekürzte Modelle mit den ersten 2-3 Stufen eine mit vollständigen 4-Stufen-Modellen vergleichbare oder sogar bessere Leistung erreichen:
HPE-Modelle (COCO-Datensatz):
- SwinPose-S-S3: AP=74,6 vs S4 74,5 (+0,1)
- GMFPose-T-S3: AP=75,7 vs S4 75,8 (-0,1)
- VMPose-T-S3: AP=75,3 vs S4 75,2 (+0,1)
HMR-Modell-Leistung:
- Bei der 3D-Pose-Schätzung sind die meisten S3-Modelle leicht besser als S4-Modelle
- SwinHMR2.0-S-S3 behält vergleichbare Leistung bei während die Parameterzahl um 31,6% gegenüber S4 reduziert wird
Die Kürzungsstrategie reduziert die Rechenkomplexität erheblich:
- Parameterreduktion: S3-Modelle reduzieren durchschnittlich 30-50% Parameter gegenüber S4
- FLOPs-Reduktion: S2-Modelle reduzieren 70-90% Rechenaufwand gegenüber S4
- Inferenz-Beschleunigung: S2-Modelle zeigen 2-3x FPS-Verbesserung
3D-Pose-Schätzungsergebnisse auf dem Human3.6M-Datensatz zeigen, dass die vorgeschlagenen hierarchischen VFM-Modelle unter gleichem Rechenbudget bestehende Leichtgewichts-Methoden übertreffen:
- GMFHMR2.0-S-S3: 19,3M Parameter, PA-MPJPE=35,4
- Besserer Effizienz-Leistungs-Kompromiss im Vergleich zu ViT-basierten Methoden
Systematische Bewertung von S2-, S3-, S4-Konfigurationen:
- S3-Konfiguration: In den meisten Fällen optimale Wahl, ausgewogenes Verhältnis zwischen Leistung und Effizienz
- S2-Konfiguration: Höchste Effizienz, aber deutliche Leistungseinbußen bei einigen Aufgaben
- S4-Konfiguration: Höchster Rechenaufwand, begrenzte Leistungsverbesserung
- Swin Transformer: Stabile Leistung in den meisten Konfigurationen
- GroupMixFormer: Behält gute Leistung in S2-Konfiguration
- VMamba: Zeigt gutes Effizienz-Leistungs-Gleichgewicht
Qualitative Ergebnisse zeigen, dass gekürzte Modelle in visueller Qualität mit vollständigen Modellen vergleichbar sind und Menschenpose und -form genau schätzen können, was die Wirksamkeit der Methode validiert.
- Frühe CNN-Methoden: Basierend auf ResNet, HRNet und anderen traditionellen CNN-Architekturen
- Transformer-Methoden: METRO, Mesh Graphormer und andere hybride CNN-Transformer-Architekturen
- Reine Transformer: HMR2.0, SMPLer-X und andere vollständig Transformer-basierte Methoden
- CNN-Optimierung: MEMe, Lite-HRNet, LitePose und andere leichtgewichtige CNN-Methoden
- Architektur-Suche: CNF, ViPNAS und andere neuronale Architektur-Such-Methoden
- Transformer-Anwendung: ViTPose und andere ViT-basierte Methoden
- Nicht-hierarchisch: ViT, DeiT und andere Modelle mit fester Auflösung
- Hierarchisch: Swin Transformer, PVT und andere Multi-Skalen-Merkmals-Extraktions-Modelle
- Kürzungsstrategie wirksam: Die ersten 2-3 Stufen hierarchischer VFMs enthalten ausreichende semantische Informationen für HMR- und HPE-Aufgaben
- Signifikante Effizienzverbesserung: Gekürzte Modelle reduzieren Rechenaufwand erheblich bei Beibehaltung der Leistung
- Gute Universalität: Die Strategie zeigt konsistente Wirksamkeit über verschiedene VFM-Architekturen
- Architektur-Einschränkungen: Hauptsächlich auf hierarchische VFMs ausgerichtet, nicht auf nicht-hierarchische Modelle anwendbar
- Aufgaben-Spezifität: Hauptsächlich auf HMR- und HPE-Aufgaben validiert, Anwendbarkeit auf andere Sehaufgaben zu erforschen
- Vortraining-Abhängigkeit: Ergebnisse hängen von hochqualitativen vortrainierten Gewichten ab
- Erweiterung auf mehr VFMs: Erforschung weiterer hierarchischer Vision Foundation Models
- Ganzkörper- und Multi-Person-Szenen: Validierung in komplexeren HMR-Aufgaben
- Architektur-Optimierung: Weitere Optimierung des Architektur-Designs nach Kürzung
- Hoher praktischer Wert: Löst Effizienzprobleme bei praktischer Bereitstellung mit wichtigem Anwendungswert
- Einfache Methode: Beibehaltung der Einfachheit der ursprünglichen Architektur, leicht zu implementieren und bereitzustellen
- Umfassende Experimente: Comprehensive Bewertung von 27 Modellen liefert ausreichende experimentelle Evidenz
- Tiefe Einsichten: Offenbart die Reichhaltigkeit mittlerer Darstellungen in hierarchischen VFMs
- Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum die ersten Stufen ausreichend sind
- Begrenzte Innovativität: Hauptsächlich technische Optimierung, relativ begrenzte algorithmische Innovation
- Bewertungsumfang: Hauptsächlich auf Standard-Datensätzen bewertet, Robustheit in praktischen Anwendungsszenarien zu überprüfen
- Akademischer Beitrag: Bietet neue Perspektiven für effiziente HMR/HPE-Modelldesign
- Praktischer Wert: Wichtig für Bereitstellung auf mobilen Geräten und Edge-Computing-Geräten
- Reproduzierbarkeit: Einfache Methode, leicht zu reproduzieren und anzuwenden
- Ressourcenbeschränkte Umgebungen: Mobile Geräte, Edge-Computing-Geräte
- Echtzeit-Anwendungen: Interaktive Anwendungen, die schnelle Reaktion erfordern
- Großflächige Bereitstellung: Szenarien, in denen Modelle gleichzeitig auf mehreren Geräten ausgeführt werden
Das Paper zitiert 118 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen HMR, HPE und Vision Foundation Models abdecken und umfassende Hintergrundunterstützung für die Forschung bieten.
Gesamtbewertung: Dies ist ein sehr praktisches Optimierungs-Paper, das durch eine einfache und effektive Kürzungsstrategie die Effizienz von HMR- und HPE-Modellen erheblich verbessert. Obwohl die algorithmische Innovation begrenzt ist, löst es wichtige Probleme bei der praktischen Bereitstellung und hat hohen Anwendungswert. Das Experimentdesign ist umfassend, die Schlussfolgerungen sind zuverlässig und bietet wertvolle Referenzen für praktische Anwendungen in verwandten Bereichen.