2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa
In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
academic

Sobre el Uso de Modelos de Fundación de Visión Jerárquica para la Recuperación de Malla Humana y Estimación de Pose de Bajo Costo

Información Básica

  • ID del Artículo: 2510.12660
  • Título: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
  • Autores: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
  • Clasificación: cs.CV
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12660

Resumen

Este estudio tiene como objetivo desarrollar modelos simples y eficientes para la recuperación de malla humana (HMR) y la estimación de pose humana (HPE). Los métodos HMR más avanzados actuales (como HMR2.0 y sus versiones posteriores) dependen de grandes Transformers de Visión no jerárquicos como codificadores, que se heredan de los modelos HPE correspondientes (como ViTPose). Para establecer líneas base bajo diferentes presupuestos computacionales, los autores primero construyeron tres variantes ligeras de HMR2.0 adaptando los modelos ViTPose correspondientes. Además, se propone utilizar las etapas iniciales de modelos de fundación de visión jerárquica (VFMs), incluyendo Swin Transformer, GroupMixFormer y VMamba. Este diseño se basa en la observación de que los mapas de características producidos en etapas intermedias de VFMs jerárquicos tienen resoluciones comparables o superiores a las de modelos no jerárquicos. Los autores realizaron una evaluación exhaustiva de 27 modelos HMR y HPE basados en VFMs jerárquicos, demostrando que el uso de solo las primeras dos o tres etapas logra un rendimiento comparable al de modelos con etapas completas, y los modelos truncados muestran un mejor equilibrio entre precisión y eficiencia computacional.

Antecedentes y Motivación de la Investigación

Definición del Problema

La recuperación de malla humana (HMR) es una tarea importante en la visión por computadora, con aplicaciones generalizadas en animación, prueba virtual de ropa, análisis deportivo e interacción humano-máquina. Esta tarea tiene como objetivo predecir parámetros SMPL a partir de una única imagen para reconstruir un modelo 3D completo del cuerpo humano.

Limitaciones de los Métodos Existentes

  1. Altos requisitos de recursos computacionales: Los métodos más avanzados actuales, como HMR2.0, utilizan ViT-H de gran tamaño como codificador, requiriendo abundantes recursos computacionales
  2. Dificultad de implementación: Los modelos grandes son difíciles de desplegar en tiempo real en dispositivos móviles o entornos de computación perimetral
  3. Mal equilibrio eficiencia-rendimiento: Los métodos de ligero existentes a menudo intercambian pérdidas significativas de rendimiento por eficiencia computacional

Motivación de la Investigación

  1. Necesidad de implementación práctica: Necesidad urgente de desplegar modelos HMR y HPE en entornos con recursos limitados
  2. Simplificación de arquitectura: Mantener la simplicidad de la arquitectura HMR2.0 mientras se mejora la eficiencia
  3. Potencial de VFMs jerárquicos: Explorar el potencial de aplicación de modelos de fundación de visión jerárquica en esta tarea

Contribuciones Principales

  1. Construcción de líneas base ligeras: Se instanciaron tres variantes ligeras de HMR2.0 heredando codificadores ViTPose-{L,B,S}
  2. Propuesta de estrategia de truncamiento: Exploración sistemática de la viabilidad de usar las primeras etapas de VFMs jerárquicos como codificadores
  3. Evaluación experimental exhaustiva: Evaluación integral de 27 modelos HMR y HPE basados en VFMs jerárquicos
  4. Optimización del equilibrio rendimiento-eficiencia: Demostración de que los modelos VFM jerárquicos truncados logran un mejor equilibrio entre precisión y eficiencia computacional

Explicación Detallada del Método

Definición de Tareas

  • Tarea HPE: Predicción de posiciones de puntos clave 2D a partir de imagen de entrada (H×W, típicamente 256×192)
  • Tarea HMR: Predicción de parámetros SMPL (pose α, forma β, cámara θ) a partir de imagen de entrada

Arquitectura de Línea Base

Arquitectura ViTPose

  • Codificador: ViT genera mapa de características con resolución H/16×W/16
  • Decodificador: Capas de deconvolución + capa de predicción que genera mapas de calor de puntos clave

Arquitectura HMR2.0

  • Codificador: Codificador basado en ViT que produce mapa de características
  • Decodificador: Decodificador basado en Transformer que predice parámetros SMPL
  • Utiliza mecanismo de token de consulta para agregación de características

Diseño de Codificador VFM Jerárquico

Principios de Diseño

  1. Mantener simplicidad arquitectónica: Evitar módulos complejos o altamente especializados
  2. Consistencia arquitectónica: Mantener consistencia con líneas base HMR2.0 y ViTPose

Estrategia de Coincidencia de Resolución

Los VFMs jerárquicos contienen cuatro etapas, produciendo resoluciones de 2×2, 1×1, 1/2×1/2 relativas a VFMs no jerárquicos:

  • Uso de las cuatro etapas completas (S4): Adición de capa de deconvolución 2×2 para alinear resolución de salida
  • Uso de las primeras tres etapas (S3): Envío directo de salida de etapa 3 al decodificador
  • Uso de las primeras dos etapas (S2): Adición de capa convolucional con stride=2 para submuestreo de mapa de características

Arquitecturas VFM Soportadas

  1. Swin Transformer: Transformer jerárquico basado en ventanas desplazadas
  2. GroupMixFormer (GMF): Transformer eficiente que adopta atención group-mix
  3. VMamba (VM): Arquitectura de visión basada en modelo de espacio de estados

Puntos de Innovación Técnica

  1. Estrategia de truncamiento: Primera exploración sistemática de la viabilidad de usar solo las primeras etapas de VFMs jerárquicos
  2. Minimización de modificaciones: Logro de coincidencia de resolución mediante capas convolucionales/deconvolucionales simples, manteniendo arquitectura concisa
  3. Verificación de múltiples arquitecturas: Validación de la universalidad del método en diferentes tipos de arquitectura como Transformer y SSM

Configuración Experimental

Conjuntos de Datos

HPE:

  • Entrenamiento: Conjunto de datos COCO
  • Evaluación: Conjunto de datos COCO-val

HMR:

  • Entrenamiento: Conjunto de datos mixto (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
  • Evaluación de pose 2D: LSP-Extended, COCO-val, PoseTrack-val
  • Evaluación de pose 3D: 3DPW-test, Human3.6M-val

Métricas de Evaluación

HPE:

  • Average Precision (AP) y Average Recall (AR)
  • Métrica integral: ΦP,2D = 1/2(AP + AR)

HMR:

  • 2D: Porcentaje de puntos clave correctos (PCK) en umbrales 0.05 y 0.1
  • 3D: Métricas de error MPJPE y PA-MPJPE
  • Métricas integrales: ΦM,2D y ΦM,3D

Métodos de Comparación

  • Métodos ligeros existentes: Serie METRO, FastMETRO, TORE, etc.
  • Líneas base ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
  • Métodos CNN: MEMe, SimCC-HRNet, etc.

Detalles de Implementación

  • Hardware: Entrenamiento con 8×GPU A100, prueba de inferencia con GPU A100 único
  • Inicialización: Codificador VFM jerárquico utiliza pesos preentrenados en ImageNet-1K
  • Protocolo de entrenamiento: Seguimiento de configuración de entrenamiento estándar de HMR2.0 y ViTPose

Resultados Experimentales

Resultados Principales

Verificación del Efecto de Truncamiento

Los resultados experimentales muestran que los modelos truncados que utilizan las primeras 2-3 etapas logran un rendimiento comparable o incluso mejor que los modelos de 4 etapas completas:

Modelos HPE (conjunto de datos COCO):

  • SwinPose-S-S3: AP=74.6 vs S4 de 74.5 (+0.1)
  • GMFPose-T-S3: AP=75.7 vs S4 de 75.8 (-0.1)
  • VMPose-T-S3: AP=75.3 vs S4 de 75.2 (+0.1)

Rendimiento del Modelo HMR:

  • En estimación de pose 3D, la mayoría de modelos S3 son ligeramente superiores a modelos S4
  • SwinHMR2.0-S-S3 mantiene rendimiento similar a S4 mientras reduce parámetros en 31.6%

Mejora de Eficiencia Computacional

La estrategia de truncamiento reduce significativamente la complejidad computacional:

  • Reducción de parámetros: Modelos S3 reducen en promedio 30-50% de parámetros comparado con S4
  • Reducción de FLOPs: Modelos S2 reducen 70-90% de cantidad computacional comparado con S4
  • Aceleración de inferencia: Modelos S2 aumentan FPS 2-3 veces

Comparación con Métodos Existentes

Los resultados de estimación de pose 3D en el conjunto de datos Human3.6M muestran que los modelos VFM jerárquicos propuestos superan a métodos ligeros existentes bajo presupuesto computacional similar:

  • GMFHMR2.0-S-S3: 19.3M parámetros, PA-MPJPE=35.4
  • Mejor equilibrio eficiencia-rendimiento comparado con métodos basados en ViT

Experimentos de Ablación

Impacto de Diferentes Cantidades de Etapas

Evaluación sistemática del rendimiento de configuraciones S2, S3, S4:

  • Configuración S3: Opción óptima en la mayoría de casos, equilibrando rendimiento y eficiencia
  • Configuración S2: Aunque más eficiente, muestra degradación de rendimiento notable en algunas tareas
  • Configuración S4: Mayor costo computacional, mejora de rendimiento limitada

Comparación de Diferentes Arquitecturas VFM

  • Swin Transformer: Rendimiento estable en la mayoría de configuraciones
  • GroupMixFormer: Mantiene buen rendimiento en configuración S2
  • VMamba: Demuestra buen equilibrio eficiencia-rendimiento

Análisis de Casos

Los resultados cualitativos muestran que modelos truncados tienen calidad visual comparable a modelos completos, pudiendo estimar con precisión pose y forma humana, validando la efectividad del método.

Trabajo Relacionado

Recuperación de Malla Humana

  • Métodos CNN tempranos: Basados en arquitecturas CNN tradicionales como ResNet, HRNet
  • Métodos Transformer: METRO, Mesh Graphormer y otras arquitecturas híbridas CNN-Transformer
  • Transformer puro: HMR2.0, SMPLer-X y otros métodos completamente basados en Transformer

Estimación de Pose Humana

  • Optimización CNN: Métodos ligeros como MEMe, Lite-HRNet, LitePose
  • Búsqueda de arquitectura: Métodos de búsqueda de arquitectura neural como CNF, ViPNAS
  • Aplicación Transformer: Métodos basados en ViT como ViTPose

Modelos de Fundación de Visión

  • No jerárquicos: ViT, DeiT y otros modelos que mantienen resolución fija
  • Jerárquicos: Swin Transformer, PVT y otros modelos de extracción de características multiescala

Conclusiones y Discusión

Conclusiones Principales

  1. Estrategia de truncamiento efectiva: Las primeras 2-3 etapas de VFMs jerárquicos contienen información semántica suficiente para tareas HMR y HPE
  2. Mejora significativa de eficiencia: Modelos truncados reducen dramáticamente costo computacional mientras mantienen rendimiento
  3. Buena universalidad: La estrategia demuestra efectividad consistente en diferentes arquitecturas VFM

Limitaciones

  1. Restricción de arquitectura: Principalmente dirigido a VFMs jerárquicos, no aplicable a modelos no jerárquicos
  2. Especificidad de tarea: Principalmente verificado en tareas HMR y HPE, aplicabilidad en otras tareas de visión por explorar
  3. Dependencia de preentrenamiento: Efectividad depende de pesos preentrenados de alta calidad

Direcciones Futuras

  1. Extensión a más VFMs: Exploración de más modelos de fundación de visión jerárquica
  2. Escenas de cuerpo completo y multipersona: Verificación de efectividad en tareas HMR más complejas
  3. Optimización de arquitectura: Optimización adicional del diseño arquitectónico post-truncamiento

Evaluación Profunda

Ventajas

  1. Alto valor práctico: Resuelve problemas de eficiencia en implementación práctica, con importante valor aplicado
  2. Método conciso: Mantiene simplicidad de arquitectura original, fácil de implementar y desplegar
  3. Experimentación suficiente: Evaluación integral de 27 modelos proporciona evidencia experimental abundante
  4. Perspectiva profunda: Revela la riqueza de representaciones intermedias en VFMs jerárquicos

Insuficiencias

  1. Análisis teórico limitado: Falta análisis teórico profundo sobre por qué las primeras etapas son suficientes
  2. Innovación limitada: Principalmente optimización de ingeniería, innovación algorítmica relativamente limitada
  3. Rango de evaluación: Principalmente evaluado en conjuntos de datos estándar, robustez en escenarios de aplicación real por verificar

Impacto

  1. Contribución académica: Proporciona nuevas perspectivas para diseño de modelos HMR/HPE eficientes
  2. Valor práctico: Importante para despliegue en dispositivos móviles y computación perimetral
  3. Reproducibilidad: Método simple, fácil de reproducir y aplicar

Escenarios Aplicables

  1. Entornos con recursos limitados: Dispositivos móviles, dispositivos de computación perimetral
  2. Aplicaciones en tiempo real: Aplicaciones interactivas que requieren respuesta rápida
  3. Despliegue a gran escala: Escenarios que requieren ejecución simultánea en múltiples dispositivos

Referencias

El artículo cita 118 referencias relacionadas, cubriendo trabajos importantes en campos relacionados como HMR, HPE y modelos de fundación de visión, proporcionando apoyo de antecedentes suficiente para la investigación.


Evaluación General: Este es un artículo de optimización de ingeniería con gran practicidad, que mejora significativamente la eficiencia de modelos HMR y HPE mediante una estrategia de truncamiento simple pero efectiva. Aunque la innovación algorítmica es limitada, resuelve problemas importantes en implementación práctica, poseyendo alto valor aplicado. El diseño experimental es suficiente, las conclusiones son confiables, proporcionando referencias valiosas para aplicaciones prácticas en campos relacionados.