In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
- ID статьи: 2510.12660
- Название: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- Авторы: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
- Категория: cs.CV
- Дата публикации: 14 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.12660
Данное исследование направлено на разработку простых и эффективных моделей восстановления сетки человека (HMR) и оценки позы человека (HPE). Современные передовые методы HMR (такие как HMR2.0 и его последующие версии) полагаются на большие нейерархические визуальные трансформеры в качестве кодировщиков, унаследованные от соответствующих моделей HPE (таких как ViTPose). Для установления базовых показателей при различных вычислительных бюджетах авторы сначала построили три облегченных варианта HMR2.0 путем адаптации соответствующих моделей ViTPose. Кроме того, предложено использование ранних этапов иерархических моделей визуального фундамента (VFMs) в качестве кодировщиков, включая Swin Transformer, GroupMixFormer и VMamba. Этот подход основан на наблюдении, что карты признаков, производимые промежуточными этапами иерархических VFMs, имеют разрешение, сравнимое или превышающее разрешение нейерархических моделей. Авторы провели комплексную оценку 27 моделей HMR и HPE на основе иерархических VFMs, доказав, что использование только первых двух или трех этапов позволяет достичь производительности, сравнимой с моделями полного этапа, при этом усеченные модели демонстрируют лучший компромисс между точностью и вычислительной эффективностью.
Восстановление сетки человека (HMR) является важной задачей в компьютерном зрении с широким применением в анимации, виртуальной примерке, анализе спорта и взаимодействии человека с машиной. Задача направлена на предсказание параметров SMPL из одного изображения для восстановления полной 3D-модели человеческого тела.
- Высокие требования к вычислительным ресурсам: Современные передовые методы, такие как HMR2.0, используют большой ViT-H в качестве кодировщика, требующий значительных вычислительных ресурсов
- Сложность развертывания: Большие модели сложно развертывать в реальном времени на мобильных устройствах или в среде граничных вычислений
- Неоптимальный компромисс эффективность-производительность: Существующие методы облегчения часто обменивают значительную потерю производительности на вычислительную эффективность
- Потребность в практическом развертывании: Срочная необходимость развертывания моделей HMR и HPE в среде с ограниченными ресурсами
- Упрощение архитектуры: Повышение эффективности при сохранении простоты архитектуры HMR2.0
- Потенциал иерархических VFMs: Исследование применения иерархических моделей визуального фундамента в этой задаче
- Построение облегченных базовых моделей: Инстанцирование трех облегченных вариантов HMR2.0 путем наследования кодировщиков ViTPose-{L,B,S}
- Предложение стратегии усечения: Систематическое исследование осуществимости использования первых нескольких этапов иерархических VFMs в качестве кодировщиков
- Комплексная экспериментальная оценка: Comprehensive оценка 27 моделей HMR и HPE на основе иерархических VFMs
- Оптимизация компромисса производительность-эффективность: Доказательство того, что усеченные модели иерархических VFMs достигают лучшего компромисса между точностью и вычислительной эффективностью
- Задача HPE: Предсказание позиций 2D ключевых точек из входного изображения (H×W, обычно 256×192)
- Задача HMR: Предсказание параметров SMPL (поза α, форма β, камера θ) из входного изображения
- Кодировщик: ViT генерирует карту признаков разрешением H/16×W/16
- Декодировщик: Слои деконволюции + слой предсказания выводят тепловые карты ключевых точек
- Кодировщик: Кодировщик на основе ViT производит карту признаков
- Декодировщик: Декодировщик на основе трансформера предсказывает параметры SMPL
- Использует механизм токенов запроса для агрегации признаков
- Сохранение простоты архитектуры: Избежание сложных или высокоспециализированных модулей
- Согласованность архитектуры: Соответствие базовым моделям HMR2.0 и ViTPose
Иерархические VFMs содержат четыре этапа с выходным разрешением, относительно нейерархических VFMs составляющим 2×2, 1×1, 1/2×1/2:
- Использование всех четырех этапов (S4): Добавление слоя деконволюции 2×2 для выравнивания выходного разрешения
- Использование первых трех этапов (S3): Прямая передача выхода этапа 3 в декодировщик
- Использование первых двух этапов (S2): Добавление слоя свертки с stride=2 для понижающей дискретизации карты признаков
- Swin Transformer: Иерархический трансформер на основе сдвинутых окон
- GroupMixFormer (GMF): Эффективный трансформер с group-mix вниманием
- VMamba (VM): Архитектура зрения на основе модели пространства состояний
- Стратегия усечения: Первое систематическое исследование осуществимости использования только первых нескольких этапов иерархических VFMs
- Минимизация модификаций: Достижение согласования разрешения через простые слои свертки/деконволюции, сохранение простоты архитектуры
- Верификация на нескольких архитектурах: Проверка универсальности метода на различных типах архитектур, включая трансформеры и модели SSM
HPE:
- Обучение: набор данных COCO
- Оценка: набор данных COCO-val
HMR:
- Обучение: смешанный набор данных (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
- Оценка 2D позы: LSP-Extended, COCO-val, PoseTrack-val
- Оценка 3D позы: 3DPW-test, Human3.6M-val
HPE:
- Average Precision (AP) и Average Recall (AR)
- Комбинированная метрика: ΦP,2D = 1/2(AP + AR)
HMR:
- 2D: Процент правильных ключевых точек (PCK) при пороге 0.05 и 0.1
- 3D: Метрики ошибок MPJPE и PA-MPJPE
- Комбинированные метрики: ΦM,2D и ΦM,3D
- Существующие облегченные методы: Серия METRO, FastMETRO, TORE и др.
- Базовые модели ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
- Методы на основе CNN: MEMe, SimCC-HRNet и др.
- Оборудование: Обучение на 8×A100 GPU, тестирование вывода на одном A100 GPU
- Инициализация: Кодировщики иерархических VFMs используют предварительно обученные веса ImageNet-1K
- Протокол обучения: Соответствие стандартным параметрам обучения HMR2.0 и ViTPose
Результаты экспериментов показывают, что усеченные модели, использующие первые 2-3 этапа, могут достичь производительности, сравнимой или даже превосходящей модели со всеми 4 этапами:
Модели HPE (набор данных COCO):
- SwinPose-S-S3: AP=74.6 против S4 74.5 (+0.1)
- GMFPose-T-S3: AP=75.7 против S4 75.8 (-0.1)
- VMPose-T-S3: AP=75.3 против S4 75.2 (+0.1)
Производительность моделей HMR:
- При оценке 3D позы большинство моделей S3 немного превосходят модели S4
- SwinHMR2.0-S-S3 сохраняет сравнимую производительность при уменьшении параметров на 31.6% по сравнению с S4
Стратегия усечения значительно снижает вычислительную сложность:
- Уменьшение параметров: Модели S3 в среднем уменьшают параметры на 30-50% по сравнению с S4
- Снижение FLOPs: Модели S2 снижают вычислительную нагрузку на 70-90% по сравнению с S4
- Ускорение вывода: Модели S2 увеличивают FPS в 2-3 раза
Результаты оценки 3D позы на наборе данных Human3.6M показывают, что предложенные модели иерархических VFMs превосходят существующие облегченные методы при одинаковом вычислительном бюджете:
- GMFHMR2.0-S-S3: 19.3M параметров, PA-MPJPE=35.4
- Лучший компромисс эффективность-производительность по сравнению с методами на основе ViT
Систематическая оценка конфигураций S2, S3, S4:
- Конфигурация S3: В большинстве случаев оптимальный выбор, балансирующий производительность и эффективность
- Конфигурация S2: Хотя наиболее эффективна, показывает заметное снижение производительности в некоторых задачах
- Конфигурация S4: Наибольшие вычислительные затраты с ограниченным улучшением производительности
- Swin Transformer: Стабильная производительность в большинстве конфигураций
- GroupMixFormer: Сохраняет хорошую производительность в конфигурации S2
- VMamba: Демонстрирует хороший компромисс эффективность-производительность
Качественные результаты показывают, что усеченные модели сравнимы с полными моделями по визуальному качеству, точно оценивая позу и форму человека, что подтверждает эффективность метода.
- Ранние методы на основе CNN: Методы на основе традиционных архитектур CNN, таких как ResNet и HRNet
- Методы на основе трансформеров: METRO, Mesh Graphormer и другие гибридные архитектуры CNN-Transformer
- Чистые трансформеры: HMR2.0, SMPLer-X и другие полностью основанные на трансформерах методы
- Оптимизация CNN: MEMe, Lite-HRNet, LitePose и другие облегченные методы на основе CNN
- Поиск архитектуры: CNF, ViPNAS и другие методы нейроархитектурного поиска
- Применение трансформеров: ViTPose и другие методы на основе ViT
- Нейерархические: ViT, DeiT и другие модели с фиксированным разрешением
- Иерархические: Swin Transformer, PVT и другие модели многомасштабного извлечения признаков
- Эффективность стратегии усечения: Первые 2-3 этапа иерархических VFMs содержат достаточно семантической информации для задач HMR и HPE
- Значительное повышение эффективности: Усеченные модели значительно снижают вычислительные затраты при сохранении производительности
- Хорошая универсальность: Стратегия демонстрирует последовательную эффективность на различных архитектурах VFM
- Ограничения архитектуры: Применимо в основном к иерархическим VFMs, неприменимо к нейерархическим моделям
- Специфичность задачи: Верификация проведена в основном на задачах HMR и HPE, применимость к другим задачам зрения требует дальнейшего исследования
- Зависимость от предварительного обучения: Результаты зависят от высокого качества предварительно обученных весов
- Расширение на большее количество VFMs: Исследование большего количества иерархических моделей визуального фундамента
- Полнотелые и многолюдные сцены: Верификация эффективности в более сложных задачах HMR
- Оптимизация архитектуры: Дальнейшая оптимизация проектирования архитектуры после усечения
- Высокая практическая ценность: Решение проблемы эффективности при практическом развертывании с важной прикладной ценностью
- Простота метода: Сохранение простоты исходной архитектуры, легкость реализации и развертывания
- Достаточные эксперименты: Comprehensive оценка 27 моделей обеспечивает достаточные экспериментальные доказательства
- Глубокие инсайты: Раскрытие богатства промежуточных представлений иерархических VFMs
- Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа причин, почему первых нескольких этапов достаточно
- Ограниченная новизна: В основном инженерная оптимизация с относительно ограниченной алгоритмической новизной
- Ограниченный диапазон оценки: Оценка в основном на стандартных наборах данных, робастность в реальных сценариях приложений требует верификации
- Академический вклад: Предоставление новых идей для проектирования эффективных моделей HMR/HPE
- Практическая ценность: Важное значение для развертывания на мобильных устройствах и в среде граничных вычислений
- Воспроизводимость: Простота метода обеспечивает легкость воспроизведения и применения
- Среда с ограниченными ресурсами: Мобильные устройства, устройства граничных вычислений
- Приложения реального времени: Интерактивные приложения, требующие быстрого отклика
- Крупномасштабное развертывание: Сценарии, требующие одновременного запуска на нескольких устройствах
Статья цитирует 118 связанных работ, охватывающих важные исследования в областях HMR, HPE и моделей визуального фундамента, обеспечивая достаточную справочную поддержку для исследования.
Общая оценка: Это практически ценная инженерная оптимизационная статья, которая значительно повышает эффективность моделей HMR и HPE через простую и эффективную стратегию усечения. Хотя алгоритмическая новизна ограничена, она решает важные проблемы при практическом развертывании и имеет высокую прикладную ценность. Экспериментальное проектирование достаточно, выводы надежны, предоставляя ценные рекомендации для практических приложений в соответствующих областях.