2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa

In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.

academic

Sull'Uso di Modelli Gerarchici di Fondazione Visiva per il Recupero della Mesh Umana e la Stima della Posa a Basso Costo

Informazioni Fondamentali

ID Articolo: 2510.12660
Titolo: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
Autori: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
Classificazione: cs.CV
Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.12660

Riassunto

Questo studio mira a sviluppare modelli semplici ed efficienti per il recupero della mesh umana (HMR) e la stima della posa umana (HPE). I metodi HMR all'avanguardia attuali (come HMR2.0 e le sue versioni successive) si basano su grandi Transformer visivi non gerarchici come encoder, ereditati dai corrispondenti modelli HPE (come ViTPose). Per stabilire baseline con diversi budget computazionali, gli autori hanno prima costruito tre varianti leggere di HMR2.0 adattando i corrispondenti modelli ViTPose. Inoltre, propongono di utilizzare gli stadi iniziali dei modelli di fondazione visiva (VFMs) gerarchici come encoder, inclusi Swin Transformer, GroupMixFormer e VMamba. Questo design si basa sull'osservazione che le mappe di caratteristiche prodotte dagli stadi intermedi dei VFMs gerarchici hanno risoluzioni comparabili o superiori ai modelli non gerarchici. Gli autori hanno condotto una valutazione completa di 27 modelli HMR e HPE basati su VFMs gerarchici, dimostrando che l'utilizzo solo dei primi due o tre stadi raggiunge prestazioni comparabili ai modelli con stadi completi, e i modelli troncati mostrano un migliore compromesso tra accuratezza ed efficienza computazionale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il recupero della mesh umana (HMR) è un compito importante nella visione artificiale, con ampie applicazioni in animazione, prova virtuale di abiti, analisi sportiva e interazione uomo-macchina. Questo compito mira a prevedere i parametri SMPL da una singola immagine per ricostruire un modello umano 3D completo.

Limitazioni dei Metodi Esistenti

Elevate esigenze di risorse computazionali: I metodi all'avanguardia attuali come HMR2.0 utilizzano grandi ViT-H come encoder, richiedendo notevoli risorse computazionali
Difficoltà di distribuzione: I modelli di grandi dimensioni sono difficili da distribuire in tempo reale su dispositivi mobili o ambienti di edge computing
Scarso compromesso efficienza-prestazioni: I metodi di alleggerimento esistenti spesso scambiano significative perdite di prestazioni per efficienza computazionale

Motivazione della Ricerca

Necessità di distribuzione pratica: Urgente necessità di distribuire modelli HMR e HPE in ambienti con risorse limitate
Semplificazione dell'architettura: Mantenere la semplicità dell'architettura HMR2.0 migliorando al contempo l'efficienza
Potenziale dei VFMs gerarchici: Esplorare l'applicazione potenziale dei modelli di fondazione visiva gerarchici in questo compito

Contributi Principali

Costruzione di baseline leggeri: Istanziazione di tre varianti leggere di HMR2.0 ereditando gli encoder ViTPose-{L,B,S}
Proposta di strategia di troncamento: Esplorazione sistematica della fattibilità di utilizzare i primi stadi dei VFMs gerarchici come encoder
Valutazione sperimentale completa: Valutazione comprehensive di 27 modelli HMR e HPE basati su VFMs gerarchici
Ottimizzazione del compromesso prestazioni-efficienza: Dimostrazione che i modelli VFM gerarchici troncati raggiungono un migliore compromesso tra accuratezza ed efficienza computazionale

Dettagli del Metodo

Definizione del Compito

Compito HPE: Prevedere le posizioni dei punti chiave 2D dall'immagine di input (H×W, tipicamente 256×192)
Compito HMR: Prevedere i parametri SMPL (posa α, forma β, camera θ) dall'immagine di input

Architettura di Base

Architettura ViTPose

Encoder: ViT genera mappe di caratteristiche con risoluzione H/16×W/16
Decoder: Strati di deconvoluzione + strato di previsione per output di mappe di calore dei punti chiave

Architettura HMR2.0

Encoder: Encoder basato su ViT che produce mappe di caratteristiche
Decoder: Decoder basato su Transformer per prevedere i parametri SMPL
Utilizza meccanismo di token di query per l'aggregazione di caratteristiche

Design dell'Encoder VFM Gerarchico

Principi di Design

Mantenimento della semplicità dell'architettura: Evitare moduli complessi o altamente specializzati
Coerenza dell'architettura: Mantenere coerenza con i baseline HMR2.0 e ViTPose

Strategia di Corrispondenza della Risoluzione

I VFMs gerarchici contengono quattro stadi, con risoluzioni di output rispettivamente 2×2, 1×1, 1/2×1/2 relative ai VFMs non gerarchici:

Utilizzo di tutti e quattro gli stadi (S4): Aggiunta di strato di deconvoluzione 2×2 per allineare la risoluzione di output
Utilizzo dei primi tre stadi (S3): Invio diretto dell'output dello stadio 3 al decoder
Utilizzo dei primi due stadi (S2): Aggiunta di strato di convoluzione con stride=2 per il sottocampionamento della mappa di caratteristiche

Architetture VFM Supportate

Swin Transformer: Transformer gerarchico basato su finestre spostate
GroupMixFormer (GMF): Transformer efficiente che adotta group-mix attention
VMamba (VM): Architettura visiva basata su modello dello spazio di stato

Punti di Innovazione Tecnica

Strategia di troncamento: Prima esplorazione sistematica della fattibilità di utilizzare solo i primi stadi dei VFMs gerarchici
Minimizzazione delle modifiche: Realizzazione della corrispondenza della risoluzione attraverso semplici strati di convoluzione/deconvoluzione, mantenendo l'architettura concisa
Verifica multi-architettura: Verifica della generalizzabilità del metodo su diversi tipi di architetture come Transformer e SSM

Configurazione Sperimentale

Dataset

HPE:

Addestramento: Dataset COCO
Valutazione: Dataset COCO-val

HMR:

Addestramento: Dataset misto (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
Valutazione posa 2D: LSP-Extended, COCO-val, PoseTrack-val
Valutazione posa 3D: 3DPW-test, Human3.6M-val

Metriche di Valutazione

HPE:

Average Precision (AP) e Average Recall (AR)
Metrica composita: ΦP,2D = 1/2(AP + AR)

HMR:

2D: Percentuale di punti chiave corretti (PCK) alle soglie 0.05 e 0.1
3D: Metriche di errore MPJPE e PA-MPJPE
Metriche composite: ΦM,2D e ΦM,3D

Metodi di Confronto

Metodi di alleggerimento esistenti: Serie METRO, FastMETRO, TORE, ecc.
Baseline ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
Metodi CNN: MEMe, SimCC-HRNet, ecc.

Dettagli di Implementazione

Hardware: 8×GPU A100 per l'addestramento, test di inferenza su singola GPU A100
Inizializzazione: Gli encoder VFM gerarchici utilizzano pesi pre-addestrati su ImageNet-1K
Protocollo di addestramento: Segue le impostazioni di addestramento standard di HMR2.0 e ViTPose

Risultati Sperimentali

Risultati Principali

Verifica dell'Effetto di Troncamento

I risultati sperimentali mostrano che i modelli troncati che utilizzano i primi 2-3 stadi raggiungono prestazioni comparabili o addirittura superiori ai modelli con 4 stadi completi:

Modelli HPE (Dataset COCO):

SwinPose-S-S3: AP=74.6 vs S4 di 74.5 (+0.1)
GMFPose-T-S3: AP=75.7 vs S4 di 75.8 (-0.1)
VMPose-T-S3: AP=75.3 vs S4 di 75.2 (+0.1)

Prestazioni del Modello HMR:

Nella stima della posa 3D, la maggior parte dei modelli S3 sono leggermente superiori ai modelli S4
SwinHMR2.0-S-S3 mantiene prestazioni comparabili a S4 mentre riduce i parametri del 31.6%

Miglioramento dell'Efficienza Computazionale

La strategia di troncamento riduce significativamente la complessità computazionale:

Riduzione dei parametri: I modelli S3 riducono in media il 30-50% dei parametri rispetto a S4
Riduzione dei FLOPs: I modelli S2 riducono il 70-90% della quantità di calcolo rispetto a S4
Accelerazione dell'inferenza: I modelli S2 aumentano l'FPS di 2-3 volte

Confronto con Metodi Esistenti

I risultati della stima della posa 3D sul dataset Human3.6M mostrano che i modelli VFM gerarchici proposti superano i metodi di alleggerimento esistenti con lo stesso budget computazionale:

GMFHMR2.0-S-S3: 19.3M parametri, PA-MPJPE=35.4
Migliore compromesso efficienza-prestazioni rispetto ai metodi basati su ViT

Esperimenti di Ablazione

Impatto del Numero di Stadi Diversi

Valutazione sistematica delle configurazioni S2, S3, S4:

Configurazione S3: La scelta migliore nella maggior parte dei casi, bilanciando prestazioni ed efficienza
Configurazione S2: Sebbene più efficiente, mostra cali di prestazioni significativi in alcuni compiti
Configurazione S4: Maggiore overhead computazionale, miglioramento limitato delle prestazioni

Confronto di Diverse Architetture VFM

Swin Transformer: Prestazioni stabili nella maggior parte delle configurazioni
GroupMixFormer: Mantiene buone prestazioni nella configurazione S2
VMamba: Mostra un buon compromesso efficienza-prestazioni

Analisi di Casi

I risultati qualitativi mostrano che i modelli troncati hanno qualità visiva comparabile ai modelli completi, in grado di stimare accuratamente la posa e la forma umana, verificando l'efficacia del metodo.

Lavori Correlati

Recupero della Mesh Umana

Metodi CNN iniziali: Basati su architetture CNN tradizionali come ResNet, HRNet
Metodi Transformer: METRO, Mesh Graphormer e altre architetture ibride CNN-Transformer
Transformer puri: HMR2.0, SMPLer-X e altri metodi completamente basati su Transformer

Stima della Posa Umana

Ottimizzazione CNN: Metodi CNN leggeri come MEMe, Lite-HRNet, LitePose
Ricerca dell'architettura: Metodi di ricerca dell'architettura neurale come CNF, ViPNAS
Applicazione Transformer: Metodi basati su ViT come ViTPose

Modelli di Fondazione Visiva

Non gerarchici: ViT, DeiT e altri modelli che mantengono risoluzione fissa
Gerarchici: Swin Transformer, PVT e altri modelli di estrazione di caratteristiche multi-scala

Conclusioni e Discussione

Conclusioni Principali

Efficacia della strategia di troncamento: I primi 2-3 stadi dei VFMs gerarchici contengono informazioni semantiche sufficienti per i compiti HMR e HPE
Significativo miglioramento dell'efficienza: I modelli troncati riducono notevolmente l'overhead computazionale mantenendo le prestazioni
Buona generalizzabilità: La strategia mostra efficacia coerente su diverse architetture VFM

Limitazioni

Limitazioni dell'architettura: Principalmente applicabile ai VFMs gerarchici, non adatto ai modelli non gerarchici
Specificità del compito: Principalmente verificato su compiti HMR e HPE, l'applicabilità ad altri compiti visivi rimane da esplorare
Dipendenza dal pre-addestramento: L'efficacia dipende da pesi pre-addestrati di alta qualità

Direzioni Future

Estensione a più VFMs: Esplorazione di più modelli di fondazione visiva gerarchici
Scenari a corpo intero e multi-persona: Verifica dell'efficacia in compiti HMR più complessi
Ottimizzazione dell'architettura: Ulteriore ottimizzazione del design dell'architettura dopo il troncamento

Valutazione Approfondita

Punti di Forza

Elevato valore pratico: Risolve il problema dell'efficienza nella distribuzione pratica, con importante valore applicativo
Metodo semplice: Mantiene la semplicità dell'architettura originale, facile da implementare e distribuire
Esperimenti sufficienti: La valutazione comprehensive di 27 modelli fornisce prove sperimentali sufficienti
Intuizioni profonde: Rivela la ricchezza delle rappresentazioni intermedie nei VFMs gerarchici

Insufficienze

Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché i primi stadi siano sufficienti
Innovazione limitata: Principalmente ottimizzazione ingegneristica, con innovazione algoritmica relativamente limitata
Portata della valutazione: Principalmente valutato su dataset standard, la robustezza in scenari di applicazione reale rimane da verificare

Impatto

Contributo accademico: Fornisce nuove prospettive per il design di modelli HMR/HPE efficienti
Valore pratico: Significativo per la distribuzione su dispositivi mobili e edge computing
Riproducibilità: Metodo semplice, facile da riprodurre e applicare

Scenari Applicabili

Ambienti con risorse limitate: Dispositivi mobili, dispositivi di edge computing
Applicazioni in tempo reale: Applicazioni interattive che richiedono risposte rapide
Distribuzione su larga scala: Scenari che richiedono l'esecuzione simultanea su più dispositivi

Riferimenti Bibliografici

L'articolo cita 118 riferimenti correlati, coprendo importanti lavori nei campi correlati di HMR, HPE e modelli di fondazione visiva, fornendo supporto di background sufficiente per la ricerca.

Valutazione Complessiva: Questo è un articolo di ottimizzazione ingegneristica molto pratico che migliora significativamente l'efficienza dei modelli HMR e HPE attraverso una semplice ma efficace strategia di troncamento. Sebbene l'innovazione algoritmica sia limitata, risolve importanti problemi nella distribuzione pratica e ha elevato valore applicativo. Il design sperimentale è sufficientemente completo, le conclusioni sono affidabili e fornisce riferimenti preziosi per le applicazioni pratiche nel campo correlato.