2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa
In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
academic

Sull'Uso di Modelli Gerarchici di Fondazione Visiva per il Recupero della Mesh Umana e la Stima della Posa a Basso Costo

Informazioni Fondamentali

  • ID Articolo: 2510.12660
  • Titolo: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
  • Autori: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
  • Classificazione: cs.CV
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.12660

Riassunto

Questo studio mira a sviluppare modelli semplici ed efficienti per il recupero della mesh umana (HMR) e la stima della posa umana (HPE). I metodi HMR all'avanguardia attuali (come HMR2.0 e le sue versioni successive) si basano su grandi Transformer visivi non gerarchici come encoder, ereditati dai corrispondenti modelli HPE (come ViTPose). Per stabilire baseline con diversi budget computazionali, gli autori hanno prima costruito tre varianti leggere di HMR2.0 adattando i corrispondenti modelli ViTPose. Inoltre, propongono di utilizzare gli stadi iniziali dei modelli di fondazione visiva (VFMs) gerarchici come encoder, inclusi Swin Transformer, GroupMixFormer e VMamba. Questo design si basa sull'osservazione che le mappe di caratteristiche prodotte dagli stadi intermedi dei VFMs gerarchici hanno risoluzioni comparabili o superiori ai modelli non gerarchici. Gli autori hanno condotto una valutazione completa di 27 modelli HMR e HPE basati su VFMs gerarchici, dimostrando che l'utilizzo solo dei primi due o tre stadi raggiunge prestazioni comparabili ai modelli con stadi completi, e i modelli troncati mostrano un migliore compromesso tra accuratezza ed efficienza computazionale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il recupero della mesh umana (HMR) è un compito importante nella visione artificiale, con ampie applicazioni in animazione, prova virtuale di abiti, analisi sportiva e interazione uomo-macchina. Questo compito mira a prevedere i parametri SMPL da una singola immagine per ricostruire un modello umano 3D completo.

Limitazioni dei Metodi Esistenti

  1. Elevate esigenze di risorse computazionali: I metodi all'avanguardia attuali come HMR2.0 utilizzano grandi ViT-H come encoder, richiedendo notevoli risorse computazionali
  2. Difficoltà di distribuzione: I modelli di grandi dimensioni sono difficili da distribuire in tempo reale su dispositivi mobili o ambienti di edge computing
  3. Scarso compromesso efficienza-prestazioni: I metodi di alleggerimento esistenti spesso scambiano significative perdite di prestazioni per efficienza computazionale

Motivazione della Ricerca

  1. Necessità di distribuzione pratica: Urgente necessità di distribuire modelli HMR e HPE in ambienti con risorse limitate
  2. Semplificazione dell'architettura: Mantenere la semplicità dell'architettura HMR2.0 migliorando al contempo l'efficienza
  3. Potenziale dei VFMs gerarchici: Esplorare l'applicazione potenziale dei modelli di fondazione visiva gerarchici in questo compito

Contributi Principali

  1. Costruzione di baseline leggeri: Istanziazione di tre varianti leggere di HMR2.0 ereditando gli encoder ViTPose-{L,B,S}
  2. Proposta di strategia di troncamento: Esplorazione sistematica della fattibilità di utilizzare i primi stadi dei VFMs gerarchici come encoder
  3. Valutazione sperimentale completa: Valutazione comprehensive di 27 modelli HMR e HPE basati su VFMs gerarchici
  4. Ottimizzazione del compromesso prestazioni-efficienza: Dimostrazione che i modelli VFM gerarchici troncati raggiungono un migliore compromesso tra accuratezza ed efficienza computazionale

Dettagli del Metodo

Definizione del Compito

  • Compito HPE: Prevedere le posizioni dei punti chiave 2D dall'immagine di input (H×W, tipicamente 256×192)
  • Compito HMR: Prevedere i parametri SMPL (posa α, forma β, camera θ) dall'immagine di input

Architettura di Base

Architettura ViTPose

  • Encoder: ViT genera mappe di caratteristiche con risoluzione H/16×W/16
  • Decoder: Strati di deconvoluzione + strato di previsione per output di mappe di calore dei punti chiave

Architettura HMR2.0

  • Encoder: Encoder basato su ViT che produce mappe di caratteristiche
  • Decoder: Decoder basato su Transformer per prevedere i parametri SMPL
  • Utilizza meccanismo di token di query per l'aggregazione di caratteristiche

Design dell'Encoder VFM Gerarchico

Principi di Design

  1. Mantenimento della semplicità dell'architettura: Evitare moduli complessi o altamente specializzati
  2. Coerenza dell'architettura: Mantenere coerenza con i baseline HMR2.0 e ViTPose

Strategia di Corrispondenza della Risoluzione

I VFMs gerarchici contengono quattro stadi, con risoluzioni di output rispettivamente 2×2, 1×1, 1/2×1/2 relative ai VFMs non gerarchici:

  • Utilizzo di tutti e quattro gli stadi (S4): Aggiunta di strato di deconvoluzione 2×2 per allineare la risoluzione di output
  • Utilizzo dei primi tre stadi (S3): Invio diretto dell'output dello stadio 3 al decoder
  • Utilizzo dei primi due stadi (S2): Aggiunta di strato di convoluzione con stride=2 per il sottocampionamento della mappa di caratteristiche

Architetture VFM Supportate

  1. Swin Transformer: Transformer gerarchico basato su finestre spostate
  2. GroupMixFormer (GMF): Transformer efficiente che adotta group-mix attention
  3. VMamba (VM): Architettura visiva basata su modello dello spazio di stato

Punti di Innovazione Tecnica

  1. Strategia di troncamento: Prima esplorazione sistematica della fattibilità di utilizzare solo i primi stadi dei VFMs gerarchici
  2. Minimizzazione delle modifiche: Realizzazione della corrispondenza della risoluzione attraverso semplici strati di convoluzione/deconvoluzione, mantenendo l'architettura concisa
  3. Verifica multi-architettura: Verifica della generalizzabilità del metodo su diversi tipi di architetture come Transformer e SSM

Configurazione Sperimentale

Dataset

HPE:

  • Addestramento: Dataset COCO
  • Valutazione: Dataset COCO-val

HMR:

  • Addestramento: Dataset misto (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
  • Valutazione posa 2D: LSP-Extended, COCO-val, PoseTrack-val
  • Valutazione posa 3D: 3DPW-test, Human3.6M-val

Metriche di Valutazione

HPE:

  • Average Precision (AP) e Average Recall (AR)
  • Metrica composita: ΦP,2D = 1/2(AP + AR)

HMR:

  • 2D: Percentuale di punti chiave corretti (PCK) alle soglie 0.05 e 0.1
  • 3D: Metriche di errore MPJPE e PA-MPJPE
  • Metriche composite: ΦM,2D e ΦM,3D

Metodi di Confronto

  • Metodi di alleggerimento esistenti: Serie METRO, FastMETRO, TORE, ecc.
  • Baseline ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
  • Metodi CNN: MEMe, SimCC-HRNet, ecc.

Dettagli di Implementazione

  • Hardware: 8×GPU A100 per l'addestramento, test di inferenza su singola GPU A100
  • Inizializzazione: Gli encoder VFM gerarchici utilizzano pesi pre-addestrati su ImageNet-1K
  • Protocollo di addestramento: Segue le impostazioni di addestramento standard di HMR2.0 e ViTPose

Risultati Sperimentali

Risultati Principali

Verifica dell'Effetto di Troncamento

I risultati sperimentali mostrano che i modelli troncati che utilizzano i primi 2-3 stadi raggiungono prestazioni comparabili o addirittura superiori ai modelli con 4 stadi completi:

Modelli HPE (Dataset COCO):

  • SwinPose-S-S3: AP=74.6 vs S4 di 74.5 (+0.1)
  • GMFPose-T-S3: AP=75.7 vs S4 di 75.8 (-0.1)
  • VMPose-T-S3: AP=75.3 vs S4 di 75.2 (+0.1)

Prestazioni del Modello HMR:

  • Nella stima della posa 3D, la maggior parte dei modelli S3 sono leggermente superiori ai modelli S4
  • SwinHMR2.0-S-S3 mantiene prestazioni comparabili a S4 mentre riduce i parametri del 31.6%

Miglioramento dell'Efficienza Computazionale

La strategia di troncamento riduce significativamente la complessità computazionale:

  • Riduzione dei parametri: I modelli S3 riducono in media il 30-50% dei parametri rispetto a S4
  • Riduzione dei FLOPs: I modelli S2 riducono il 70-90% della quantità di calcolo rispetto a S4
  • Accelerazione dell'inferenza: I modelli S2 aumentano l'FPS di 2-3 volte

Confronto con Metodi Esistenti

I risultati della stima della posa 3D sul dataset Human3.6M mostrano che i modelli VFM gerarchici proposti superano i metodi di alleggerimento esistenti con lo stesso budget computazionale:

  • GMFHMR2.0-S-S3: 19.3M parametri, PA-MPJPE=35.4
  • Migliore compromesso efficienza-prestazioni rispetto ai metodi basati su ViT

Esperimenti di Ablazione

Impatto del Numero di Stadi Diversi

Valutazione sistematica delle configurazioni S2, S3, S4:

  • Configurazione S3: La scelta migliore nella maggior parte dei casi, bilanciando prestazioni ed efficienza
  • Configurazione S2: Sebbene più efficiente, mostra cali di prestazioni significativi in alcuni compiti
  • Configurazione S4: Maggiore overhead computazionale, miglioramento limitato delle prestazioni

Confronto di Diverse Architetture VFM

  • Swin Transformer: Prestazioni stabili nella maggior parte delle configurazioni
  • GroupMixFormer: Mantiene buone prestazioni nella configurazione S2
  • VMamba: Mostra un buon compromesso efficienza-prestazioni

Analisi di Casi

I risultati qualitativi mostrano che i modelli troncati hanno qualità visiva comparabile ai modelli completi, in grado di stimare accuratamente la posa e la forma umana, verificando l'efficacia del metodo.

Lavori Correlati

Recupero della Mesh Umana

  • Metodi CNN iniziali: Basati su architetture CNN tradizionali come ResNet, HRNet
  • Metodi Transformer: METRO, Mesh Graphormer e altre architetture ibride CNN-Transformer
  • Transformer puri: HMR2.0, SMPLer-X e altri metodi completamente basati su Transformer

Stima della Posa Umana

  • Ottimizzazione CNN: Metodi CNN leggeri come MEMe, Lite-HRNet, LitePose
  • Ricerca dell'architettura: Metodi di ricerca dell'architettura neurale come CNF, ViPNAS
  • Applicazione Transformer: Metodi basati su ViT come ViTPose

Modelli di Fondazione Visiva

  • Non gerarchici: ViT, DeiT e altri modelli che mantengono risoluzione fissa
  • Gerarchici: Swin Transformer, PVT e altri modelli di estrazione di caratteristiche multi-scala

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia della strategia di troncamento: I primi 2-3 stadi dei VFMs gerarchici contengono informazioni semantiche sufficienti per i compiti HMR e HPE
  2. Significativo miglioramento dell'efficienza: I modelli troncati riducono notevolmente l'overhead computazionale mantenendo le prestazioni
  3. Buona generalizzabilità: La strategia mostra efficacia coerente su diverse architetture VFM

Limitazioni

  1. Limitazioni dell'architettura: Principalmente applicabile ai VFMs gerarchici, non adatto ai modelli non gerarchici
  2. Specificità del compito: Principalmente verificato su compiti HMR e HPE, l'applicabilità ad altri compiti visivi rimane da esplorare
  3. Dipendenza dal pre-addestramento: L'efficacia dipende da pesi pre-addestrati di alta qualità

Direzioni Future

  1. Estensione a più VFMs: Esplorazione di più modelli di fondazione visiva gerarchici
  2. Scenari a corpo intero e multi-persona: Verifica dell'efficacia in compiti HMR più complessi
  3. Ottimizzazione dell'architettura: Ulteriore ottimizzazione del design dell'architettura dopo il troncamento

Valutazione Approfondita

Punti di Forza

  1. Elevato valore pratico: Risolve il problema dell'efficienza nella distribuzione pratica, con importante valore applicativo
  2. Metodo semplice: Mantiene la semplicità dell'architettura originale, facile da implementare e distribuire
  3. Esperimenti sufficienti: La valutazione comprehensive di 27 modelli fornisce prove sperimentali sufficienti
  4. Intuizioni profonde: Rivela la ricchezza delle rappresentazioni intermedie nei VFMs gerarchici

Insufficienze

  1. Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché i primi stadi siano sufficienti
  2. Innovazione limitata: Principalmente ottimizzazione ingegneristica, con innovazione algoritmica relativamente limitata
  3. Portata della valutazione: Principalmente valutato su dataset standard, la robustezza in scenari di applicazione reale rimane da verificare

Impatto

  1. Contributo accademico: Fornisce nuove prospettive per il design di modelli HMR/HPE efficienti
  2. Valore pratico: Significativo per la distribuzione su dispositivi mobili e edge computing
  3. Riproducibilità: Metodo semplice, facile da riprodurre e applicare

Scenari Applicabili

  1. Ambienti con risorse limitate: Dispositivi mobili, dispositivi di edge computing
  2. Applicazioni in tempo reale: Applicazioni interattive che richiedono risposte rapide
  3. Distribuzione su larga scala: Scenari che richiedono l'esecuzione simultanea su più dispositivi

Riferimenti Bibliografici

L'articolo cita 118 riferimenti correlati, coprendo importanti lavori nei campi correlati di HMR, HPE e modelli di fondazione visiva, fornendo supporto di background sufficiente per la ricerca.


Valutazione Complessiva: Questo è un articolo di ottimizzazione ingegneristica molto pratico che migliora significativamente l'efficienza dei modelli HMR e HPE attraverso una semplice ma efficace strategia di troncamento. Sebbene l'innovazione algoritmica sia limitata, risolve importanti problemi nella distribuzione pratica e ha elevato valore applicativo. Il design sperimentale è sufficientemente completo, le conclusioni sono affidabili e fornisce riferimenti preziosi per le applicazioni pratiche nel campo correlato.