In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
- ID Articolo: 2510.12660
- Titolo: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- Autori: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
- Classificazione: cs.CV
- Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
- Link dell'Articolo: https://arxiv.org/abs/2510.12660
Questo studio mira a sviluppare modelli semplici ed efficienti per il recupero della mesh umana (HMR) e la stima della posa umana (HPE). I metodi HMR all'avanguardia attuali (come HMR2.0 e le sue versioni successive) si basano su grandi Transformer visivi non gerarchici come encoder, ereditati dai corrispondenti modelli HPE (come ViTPose). Per stabilire baseline con diversi budget computazionali, gli autori hanno prima costruito tre varianti leggere di HMR2.0 adattando i corrispondenti modelli ViTPose. Inoltre, propongono di utilizzare gli stadi iniziali dei modelli di fondazione visiva (VFMs) gerarchici come encoder, inclusi Swin Transformer, GroupMixFormer e VMamba. Questo design si basa sull'osservazione che le mappe di caratteristiche prodotte dagli stadi intermedi dei VFMs gerarchici hanno risoluzioni comparabili o superiori ai modelli non gerarchici. Gli autori hanno condotto una valutazione completa di 27 modelli HMR e HPE basati su VFMs gerarchici, dimostrando che l'utilizzo solo dei primi due o tre stadi raggiunge prestazioni comparabili ai modelli con stadi completi, e i modelli troncati mostrano un migliore compromesso tra accuratezza ed efficienza computazionale.
Il recupero della mesh umana (HMR) è un compito importante nella visione artificiale, con ampie applicazioni in animazione, prova virtuale di abiti, analisi sportiva e interazione uomo-macchina. Questo compito mira a prevedere i parametri SMPL da una singola immagine per ricostruire un modello umano 3D completo.
- Elevate esigenze di risorse computazionali: I metodi all'avanguardia attuali come HMR2.0 utilizzano grandi ViT-H come encoder, richiedendo notevoli risorse computazionali
- Difficoltà di distribuzione: I modelli di grandi dimensioni sono difficili da distribuire in tempo reale su dispositivi mobili o ambienti di edge computing
- Scarso compromesso efficienza-prestazioni: I metodi di alleggerimento esistenti spesso scambiano significative perdite di prestazioni per efficienza computazionale
- Necessità di distribuzione pratica: Urgente necessità di distribuire modelli HMR e HPE in ambienti con risorse limitate
- Semplificazione dell'architettura: Mantenere la semplicità dell'architettura HMR2.0 migliorando al contempo l'efficienza
- Potenziale dei VFMs gerarchici: Esplorare l'applicazione potenziale dei modelli di fondazione visiva gerarchici in questo compito
- Costruzione di baseline leggeri: Istanziazione di tre varianti leggere di HMR2.0 ereditando gli encoder ViTPose-{L,B,S}
- Proposta di strategia di troncamento: Esplorazione sistematica della fattibilità di utilizzare i primi stadi dei VFMs gerarchici come encoder
- Valutazione sperimentale completa: Valutazione comprehensive di 27 modelli HMR e HPE basati su VFMs gerarchici
- Ottimizzazione del compromesso prestazioni-efficienza: Dimostrazione che i modelli VFM gerarchici troncati raggiungono un migliore compromesso tra accuratezza ed efficienza computazionale
- Compito HPE: Prevedere le posizioni dei punti chiave 2D dall'immagine di input (H×W, tipicamente 256×192)
- Compito HMR: Prevedere i parametri SMPL (posa α, forma β, camera θ) dall'immagine di input
- Encoder: ViT genera mappe di caratteristiche con risoluzione H/16×W/16
- Decoder: Strati di deconvoluzione + strato di previsione per output di mappe di calore dei punti chiave
- Encoder: Encoder basato su ViT che produce mappe di caratteristiche
- Decoder: Decoder basato su Transformer per prevedere i parametri SMPL
- Utilizza meccanismo di token di query per l'aggregazione di caratteristiche
- Mantenimento della semplicità dell'architettura: Evitare moduli complessi o altamente specializzati
- Coerenza dell'architettura: Mantenere coerenza con i baseline HMR2.0 e ViTPose
I VFMs gerarchici contengono quattro stadi, con risoluzioni di output rispettivamente 2×2, 1×1, 1/2×1/2 relative ai VFMs non gerarchici:
- Utilizzo di tutti e quattro gli stadi (S4): Aggiunta di strato di deconvoluzione 2×2 per allineare la risoluzione di output
- Utilizzo dei primi tre stadi (S3): Invio diretto dell'output dello stadio 3 al decoder
- Utilizzo dei primi due stadi (S2): Aggiunta di strato di convoluzione con stride=2 per il sottocampionamento della mappa di caratteristiche
- Swin Transformer: Transformer gerarchico basato su finestre spostate
- GroupMixFormer (GMF): Transformer efficiente che adotta group-mix attention
- VMamba (VM): Architettura visiva basata su modello dello spazio di stato
- Strategia di troncamento: Prima esplorazione sistematica della fattibilità di utilizzare solo i primi stadi dei VFMs gerarchici
- Minimizzazione delle modifiche: Realizzazione della corrispondenza della risoluzione attraverso semplici strati di convoluzione/deconvoluzione, mantenendo l'architettura concisa
- Verifica multi-architettura: Verifica della generalizzabilità del metodo su diversi tipi di architetture come Transformer e SSM
HPE:
- Addestramento: Dataset COCO
- Valutazione: Dataset COCO-val
HMR:
- Addestramento: Dataset misto (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
- Valutazione posa 2D: LSP-Extended, COCO-val, PoseTrack-val
- Valutazione posa 3D: 3DPW-test, Human3.6M-val
HPE:
- Average Precision (AP) e Average Recall (AR)
- Metrica composita: ΦP,2D = 1/2(AP + AR)
HMR:
- 2D: Percentuale di punti chiave corretti (PCK) alle soglie 0.05 e 0.1
- 3D: Metriche di errore MPJPE e PA-MPJPE
- Metriche composite: ΦM,2D e ΦM,3D
- Metodi di alleggerimento esistenti: Serie METRO, FastMETRO, TORE, ecc.
- Baseline ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
- Metodi CNN: MEMe, SimCC-HRNet, ecc.
- Hardware: 8×GPU A100 per l'addestramento, test di inferenza su singola GPU A100
- Inizializzazione: Gli encoder VFM gerarchici utilizzano pesi pre-addestrati su ImageNet-1K
- Protocollo di addestramento: Segue le impostazioni di addestramento standard di HMR2.0 e ViTPose
I risultati sperimentali mostrano che i modelli troncati che utilizzano i primi 2-3 stadi raggiungono prestazioni comparabili o addirittura superiori ai modelli con 4 stadi completi:
Modelli HPE (Dataset COCO):
- SwinPose-S-S3: AP=74.6 vs S4 di 74.5 (+0.1)
- GMFPose-T-S3: AP=75.7 vs S4 di 75.8 (-0.1)
- VMPose-T-S3: AP=75.3 vs S4 di 75.2 (+0.1)
Prestazioni del Modello HMR:
- Nella stima della posa 3D, la maggior parte dei modelli S3 sono leggermente superiori ai modelli S4
- SwinHMR2.0-S-S3 mantiene prestazioni comparabili a S4 mentre riduce i parametri del 31.6%
La strategia di troncamento riduce significativamente la complessità computazionale:
- Riduzione dei parametri: I modelli S3 riducono in media il 30-50% dei parametri rispetto a S4
- Riduzione dei FLOPs: I modelli S2 riducono il 70-90% della quantità di calcolo rispetto a S4
- Accelerazione dell'inferenza: I modelli S2 aumentano l'FPS di 2-3 volte
I risultati della stima della posa 3D sul dataset Human3.6M mostrano che i modelli VFM gerarchici proposti superano i metodi di alleggerimento esistenti con lo stesso budget computazionale:
- GMFHMR2.0-S-S3: 19.3M parametri, PA-MPJPE=35.4
- Migliore compromesso efficienza-prestazioni rispetto ai metodi basati su ViT
Valutazione sistematica delle configurazioni S2, S3, S4:
- Configurazione S3: La scelta migliore nella maggior parte dei casi, bilanciando prestazioni ed efficienza
- Configurazione S2: Sebbene più efficiente, mostra cali di prestazioni significativi in alcuni compiti
- Configurazione S4: Maggiore overhead computazionale, miglioramento limitato delle prestazioni
- Swin Transformer: Prestazioni stabili nella maggior parte delle configurazioni
- GroupMixFormer: Mantiene buone prestazioni nella configurazione S2
- VMamba: Mostra un buon compromesso efficienza-prestazioni
I risultati qualitativi mostrano che i modelli troncati hanno qualità visiva comparabile ai modelli completi, in grado di stimare accuratamente la posa e la forma umana, verificando l'efficacia del metodo.
- Metodi CNN iniziali: Basati su architetture CNN tradizionali come ResNet, HRNet
- Metodi Transformer: METRO, Mesh Graphormer e altre architetture ibride CNN-Transformer
- Transformer puri: HMR2.0, SMPLer-X e altri metodi completamente basati su Transformer
- Ottimizzazione CNN: Metodi CNN leggeri come MEMe, Lite-HRNet, LitePose
- Ricerca dell'architettura: Metodi di ricerca dell'architettura neurale come CNF, ViPNAS
- Applicazione Transformer: Metodi basati su ViT come ViTPose
- Non gerarchici: ViT, DeiT e altri modelli che mantengono risoluzione fissa
- Gerarchici: Swin Transformer, PVT e altri modelli di estrazione di caratteristiche multi-scala
- Efficacia della strategia di troncamento: I primi 2-3 stadi dei VFMs gerarchici contengono informazioni semantiche sufficienti per i compiti HMR e HPE
- Significativo miglioramento dell'efficienza: I modelli troncati riducono notevolmente l'overhead computazionale mantenendo le prestazioni
- Buona generalizzabilità: La strategia mostra efficacia coerente su diverse architetture VFM
- Limitazioni dell'architettura: Principalmente applicabile ai VFMs gerarchici, non adatto ai modelli non gerarchici
- Specificità del compito: Principalmente verificato su compiti HMR e HPE, l'applicabilità ad altri compiti visivi rimane da esplorare
- Dipendenza dal pre-addestramento: L'efficacia dipende da pesi pre-addestrati di alta qualità
- Estensione a più VFMs: Esplorazione di più modelli di fondazione visiva gerarchici
- Scenari a corpo intero e multi-persona: Verifica dell'efficacia in compiti HMR più complessi
- Ottimizzazione dell'architettura: Ulteriore ottimizzazione del design dell'architettura dopo il troncamento
- Elevato valore pratico: Risolve il problema dell'efficienza nella distribuzione pratica, con importante valore applicativo
- Metodo semplice: Mantiene la semplicità dell'architettura originale, facile da implementare e distribuire
- Esperimenti sufficienti: La valutazione comprehensive di 27 modelli fornisce prove sperimentali sufficienti
- Intuizioni profonde: Rivela la ricchezza delle rappresentazioni intermedie nei VFMs gerarchici
- Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché i primi stadi siano sufficienti
- Innovazione limitata: Principalmente ottimizzazione ingegneristica, con innovazione algoritmica relativamente limitata
- Portata della valutazione: Principalmente valutato su dataset standard, la robustezza in scenari di applicazione reale rimane da verificare
- Contributo accademico: Fornisce nuove prospettive per il design di modelli HMR/HPE efficienti
- Valore pratico: Significativo per la distribuzione su dispositivi mobili e edge computing
- Riproducibilità: Metodo semplice, facile da riprodurre e applicare
- Ambienti con risorse limitate: Dispositivi mobili, dispositivi di edge computing
- Applicazioni in tempo reale: Applicazioni interattive che richiedono risposte rapide
- Distribuzione su larga scala: Scenari che richiedono l'esecuzione simultanea su più dispositivi
L'articolo cita 118 riferimenti correlati, coprendo importanti lavori nei campi correlati di HMR, HPE e modelli di fondazione visiva, fornendo supporto di background sufficiente per la ricerca.
Valutazione Complessiva: Questo è un articolo di ottimizzazione ingegneristica molto pratico che migliora significativamente l'efficienza dei modelli HMR e HPE attraverso una semplice ma efficace strategia di troncamento. Sebbene l'innovazione algoritmica sia limitata, risolve importanti problemi nella distribuzione pratica e ha elevato valore applicativo. Il design sperimentale è sufficientemente completo, le conclusioni sono affidabili e fornisce riferimenti preziosi per le applicazioni pratiche nel campo correlato.