2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa

In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.

academic

Sobre el Uso de Modelos de Fundación de Visión Jerárquica para la Recuperación de Malla Humana y Estimación de Pose de Bajo Costo

Información Básica

ID del Artículo: 2510.12660
Título: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
Autores: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
Clasificación: cs.CV
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12660

Resumen

Este estudio tiene como objetivo desarrollar modelos simples y eficientes para la recuperación de malla humana (HMR) y la estimación de pose humana (HPE). Los métodos HMR más avanzados actuales (como HMR2.0 y sus versiones posteriores) dependen de grandes Transformers de Visión no jerárquicos como codificadores, que se heredan de los modelos HPE correspondientes (como ViTPose). Para establecer líneas base bajo diferentes presupuestos computacionales, los autores primero construyeron tres variantes ligeras de HMR2.0 adaptando los modelos ViTPose correspondientes. Además, se propone utilizar las etapas iniciales de modelos de fundación de visión jerárquica (VFMs), incluyendo Swin Transformer, GroupMixFormer y VMamba. Este diseño se basa en la observación de que los mapas de características producidos en etapas intermedias de VFMs jerárquicos tienen resoluciones comparables o superiores a las de modelos no jerárquicos. Los autores realizaron una evaluación exhaustiva de 27 modelos HMR y HPE basados en VFMs jerárquicos, demostrando que el uso de solo las primeras dos o tres etapas logra un rendimiento comparable al de modelos con etapas completas, y los modelos truncados muestran un mejor equilibrio entre precisión y eficiencia computacional.

Antecedentes y Motivación de la Investigación

Definición del Problema

La recuperación de malla humana (HMR) es una tarea importante en la visión por computadora, con aplicaciones generalizadas en animación, prueba virtual de ropa, análisis deportivo e interacción humano-máquina. Esta tarea tiene como objetivo predecir parámetros SMPL a partir de una única imagen para reconstruir un modelo 3D completo del cuerpo humano.

Limitaciones de los Métodos Existentes

Altos requisitos de recursos computacionales: Los métodos más avanzados actuales, como HMR2.0, utilizan ViT-H de gran tamaño como codificador, requiriendo abundantes recursos computacionales
Dificultad de implementación: Los modelos grandes son difíciles de desplegar en tiempo real en dispositivos móviles o entornos de computación perimetral
Mal equilibrio eficiencia-rendimiento: Los métodos de ligero existentes a menudo intercambian pérdidas significativas de rendimiento por eficiencia computacional

Motivación de la Investigación

Necesidad de implementación práctica: Necesidad urgente de desplegar modelos HMR y HPE en entornos con recursos limitados
Simplificación de arquitectura: Mantener la simplicidad de la arquitectura HMR2.0 mientras se mejora la eficiencia
Potencial de VFMs jerárquicos: Explorar el potencial de aplicación de modelos de fundación de visión jerárquica en esta tarea

Contribuciones Principales

Construcción de líneas base ligeras: Se instanciaron tres variantes ligeras de HMR2.0 heredando codificadores ViTPose-{L,B,S}
Propuesta de estrategia de truncamiento: Exploración sistemática de la viabilidad de usar las primeras etapas de VFMs jerárquicos como codificadores
Evaluación experimental exhaustiva: Evaluación integral de 27 modelos HMR y HPE basados en VFMs jerárquicos
Optimización del equilibrio rendimiento-eficiencia: Demostración de que los modelos VFM jerárquicos truncados logran un mejor equilibrio entre precisión y eficiencia computacional

Explicación Detallada del Método

Definición de Tareas

Tarea HPE: Predicción de posiciones de puntos clave 2D a partir de imagen de entrada (H×W, típicamente 256×192)
Tarea HMR: Predicción de parámetros SMPL (pose α, forma β, cámara θ) a partir de imagen de entrada

Arquitectura de Línea Base

Arquitectura ViTPose

Codificador: ViT genera mapa de características con resolución H/16×W/16
Decodificador: Capas de deconvolución + capa de predicción que genera mapas de calor de puntos clave

Arquitectura HMR2.0

Codificador: Codificador basado en ViT que produce mapa de características
Decodificador: Decodificador basado en Transformer que predice parámetros SMPL
Utiliza mecanismo de token de consulta para agregación de características

Diseño de Codificador VFM Jerárquico

Principios de Diseño

Mantener simplicidad arquitectónica: Evitar módulos complejos o altamente especializados
Consistencia arquitectónica: Mantener consistencia con líneas base HMR2.0 y ViTPose

Estrategia de Coincidencia de Resolución

Los VFMs jerárquicos contienen cuatro etapas, produciendo resoluciones de 2×2, 1×1, 1/2×1/2 relativas a VFMs no jerárquicos:

Uso de las cuatro etapas completas (S4): Adición de capa de deconvolución 2×2 para alinear resolución de salida
Uso de las primeras tres etapas (S3): Envío directo de salida de etapa 3 al decodificador
Uso de las primeras dos etapas (S2): Adición de capa convolucional con stride=2 para submuestreo de mapa de características

Arquitecturas VFM Soportadas

Swin Transformer: Transformer jerárquico basado en ventanas desplazadas
GroupMixFormer (GMF): Transformer eficiente que adopta atención group-mix
VMamba (VM): Arquitectura de visión basada en modelo de espacio de estados

Puntos de Innovación Técnica

Estrategia de truncamiento: Primera exploración sistemática de la viabilidad de usar solo las primeras etapas de VFMs jerárquicos
Minimización de modificaciones: Logro de coincidencia de resolución mediante capas convolucionales/deconvolucionales simples, manteniendo arquitectura concisa
Verificación de múltiples arquitecturas: Validación de la universalidad del método en diferentes tipos de arquitectura como Transformer y SSM

Configuración Experimental

Conjuntos de Datos

HPE:

Entrenamiento: Conjunto de datos COCO
Evaluación: Conjunto de datos COCO-val

HMR:

Entrenamiento: Conjunto de datos mixto (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
Evaluación de pose 2D: LSP-Extended, COCO-val, PoseTrack-val
Evaluación de pose 3D: 3DPW-test, Human3.6M-val

Métricas de Evaluación

HPE:

Average Precision (AP) y Average Recall (AR)
Métrica integral: ΦP,2D = 1/2(AP + AR)

HMR:

2D: Porcentaje de puntos clave correctos (PCK) en umbrales 0.05 y 0.1
3D: Métricas de error MPJPE y PA-MPJPE
Métricas integrales: ΦM,2D y ΦM,3D

Métodos de Comparación

Métodos ligeros existentes: Serie METRO, FastMETRO, TORE, etc.
Líneas base ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
Métodos CNN: MEMe, SimCC-HRNet, etc.

Detalles de Implementación

Hardware: Entrenamiento con 8×GPU A100, prueba de inferencia con GPU A100 único
Inicialización: Codificador VFM jerárquico utiliza pesos preentrenados en ImageNet-1K
Protocolo de entrenamiento: Seguimiento de configuración de entrenamiento estándar de HMR2.0 y ViTPose

Resultados Experimentales

Resultados Principales

Verificación del Efecto de Truncamiento

Los resultados experimentales muestran que los modelos truncados que utilizan las primeras 2-3 etapas logran un rendimiento comparable o incluso mejor que los modelos de 4 etapas completas:

Modelos HPE (conjunto de datos COCO):

SwinPose-S-S3: AP=74.6 vs S4 de 74.5 (+0.1)
GMFPose-T-S3: AP=75.7 vs S4 de 75.8 (-0.1)
VMPose-T-S3: AP=75.3 vs S4 de 75.2 (+0.1)

Rendimiento del Modelo HMR:

En estimación de pose 3D, la mayoría de modelos S3 son ligeramente superiores a modelos S4
SwinHMR2.0-S-S3 mantiene rendimiento similar a S4 mientras reduce parámetros en 31.6%

Mejora de Eficiencia Computacional

La estrategia de truncamiento reduce significativamente la complejidad computacional:

Reducción de parámetros: Modelos S3 reducen en promedio 30-50% de parámetros comparado con S4
Reducción de FLOPs: Modelos S2 reducen 70-90% de cantidad computacional comparado con S4
Aceleración de inferencia: Modelos S2 aumentan FPS 2-3 veces

Comparación con Métodos Existentes

Los resultados de estimación de pose 3D en el conjunto de datos Human3.6M muestran que los modelos VFM jerárquicos propuestos superan a métodos ligeros existentes bajo presupuesto computacional similar:

GMFHMR2.0-S-S3: 19.3M parámetros, PA-MPJPE=35.4
Mejor equilibrio eficiencia-rendimiento comparado con métodos basados en ViT

Experimentos de Ablación

Impacto de Diferentes Cantidades de Etapas

Evaluación sistemática del rendimiento de configuraciones S2, S3, S4:

Configuración S3: Opción óptima en la mayoría de casos, equilibrando rendimiento y eficiencia
Configuración S2: Aunque más eficiente, muestra degradación de rendimiento notable en algunas tareas
Configuración S4: Mayor costo computacional, mejora de rendimiento limitada

Comparación de Diferentes Arquitecturas VFM

Swin Transformer: Rendimiento estable en la mayoría de configuraciones
GroupMixFormer: Mantiene buen rendimiento en configuración S2
VMamba: Demuestra buen equilibrio eficiencia-rendimiento

Análisis de Casos

Los resultados cualitativos muestran que modelos truncados tienen calidad visual comparable a modelos completos, pudiendo estimar con precisión pose y forma humana, validando la efectividad del método.

Trabajo Relacionado

Recuperación de Malla Humana

Métodos CNN tempranos: Basados en arquitecturas CNN tradicionales como ResNet, HRNet
Métodos Transformer: METRO, Mesh Graphormer y otras arquitecturas híbridas CNN-Transformer
Transformer puro: HMR2.0, SMPLer-X y otros métodos completamente basados en Transformer

Estimación de Pose Humana

Optimización CNN: Métodos ligeros como MEMe, Lite-HRNet, LitePose
Búsqueda de arquitectura: Métodos de búsqueda de arquitectura neural como CNF, ViPNAS
Aplicación Transformer: Métodos basados en ViT como ViTPose

Modelos de Fundación de Visión

No jerárquicos: ViT, DeiT y otros modelos que mantienen resolución fija
Jerárquicos: Swin Transformer, PVT y otros modelos de extracción de características multiescala

Conclusiones y Discusión

Conclusiones Principales

Estrategia de truncamiento efectiva: Las primeras 2-3 etapas de VFMs jerárquicos contienen información semántica suficiente para tareas HMR y HPE
Mejora significativa de eficiencia: Modelos truncados reducen dramáticamente costo computacional mientras mantienen rendimiento
Buena universalidad: La estrategia demuestra efectividad consistente en diferentes arquitecturas VFM

Limitaciones

Restricción de arquitectura: Principalmente dirigido a VFMs jerárquicos, no aplicable a modelos no jerárquicos
Especificidad de tarea: Principalmente verificado en tareas HMR y HPE, aplicabilidad en otras tareas de visión por explorar
Dependencia de preentrenamiento: Efectividad depende de pesos preentrenados de alta calidad

Direcciones Futuras

Extensión a más VFMs: Exploración de más modelos de fundación de visión jerárquica
Escenas de cuerpo completo y multipersona: Verificación de efectividad en tareas HMR más complejas
Optimización de arquitectura: Optimización adicional del diseño arquitectónico post-truncamiento

Evaluación Profunda

Ventajas

Alto valor práctico: Resuelve problemas de eficiencia en implementación práctica, con importante valor aplicado
Método conciso: Mantiene simplicidad de arquitectura original, fácil de implementar y desplegar
Experimentación suficiente: Evaluación integral de 27 modelos proporciona evidencia experimental abundante
Perspectiva profunda: Revela la riqueza de representaciones intermedias en VFMs jerárquicos

Insuficiencias

Análisis teórico limitado: Falta análisis teórico profundo sobre por qué las primeras etapas son suficientes
Innovación limitada: Principalmente optimización de ingeniería, innovación algorítmica relativamente limitada
Rango de evaluación: Principalmente evaluado en conjuntos de datos estándar, robustez en escenarios de aplicación real por verificar

Impacto

Contribución académica: Proporciona nuevas perspectivas para diseño de modelos HMR/HPE eficientes
Valor práctico: Importante para despliegue en dispositivos móviles y computación perimetral
Reproducibilidad: Método simple, fácil de reproducir y aplicar

Escenarios Aplicables

Entornos con recursos limitados: Dispositivos móviles, dispositivos de computación perimetral
Aplicaciones en tiempo real: Aplicaciones interactivas que requieren respuesta rápida
Despliegue a gran escala: Escenarios que requieren ejecución simultánea en múltiples dispositivos

Referencias

El artículo cita 118 referencias relacionadas, cubriendo trabajos importantes en campos relacionados como HMR, HPE y modelos de fundación de visión, proporcionando apoyo de antecedentes suficiente para la investigación.

Evaluación General: Este es un artículo de optimización de ingeniería con gran practicidad, que mejora significativamente la eficiencia de modelos HMR y HPE mediante una estrategia de truncamiento simple pero efectiva. Aunque la innovación algorítmica es limitada, resuelve problemas importantes en implementación práctica, poseyendo alto valor aplicado. El diseño experimental es suficiente, las conclusiones son confiables, proporcionando referencias valiosas para aplicaciones prácticas en campos relacionados.