2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa

In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.

academic

Об использовании иерархических моделей визуального фундамента для восстановления сетки человека и оценки позы с низкими затратами

Основная информация

ID статьи: 2510.12660
Название: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
Авторы: Shuhei Tarashima (NTT DOCOMO Business & Tokyo Metropolitan University), Yushan Wang (Tokyo Metropolitan University), Norio Tagawa (Tokyo Metropolitan University)
Категория: cs.CV
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12660

Аннотация

Данное исследование направлено на разработку простых и эффективных моделей восстановления сетки человека (HMR) и оценки позы человека (HPE). Современные передовые методы HMR (такие как HMR2.0 и его последующие версии) полагаются на большие нейерархические визуальные трансформеры в качестве кодировщиков, унаследованные от соответствующих моделей HPE (таких как ViTPose). Для установления базовых показателей при различных вычислительных бюджетах авторы сначала построили три облегченных варианта HMR2.0 путем адаптации соответствующих моделей ViTPose. Кроме того, предложено использование ранних этапов иерархических моделей визуального фундамента (VFMs) в качестве кодировщиков, включая Swin Transformer, GroupMixFormer и VMamba. Этот подход основан на наблюдении, что карты признаков, производимые промежуточными этапами иерархических VFMs, имеют разрешение, сравнимое или превышающее разрешение нейерархических моделей. Авторы провели комплексную оценку 27 моделей HMR и HPE на основе иерархических VFMs, доказав, что использование только первых двух или трех этапов позволяет достичь производительности, сравнимой с моделями полного этапа, при этом усеченные модели демонстрируют лучший компромисс между точностью и вычислительной эффективностью.

Исследовательский контекст и мотивация

Определение проблемы

Восстановление сетки человека (HMR) является важной задачей в компьютерном зрении с широким применением в анимации, виртуальной примерке, анализе спорта и взаимодействии человека с машиной. Задача направлена на предсказание параметров SMPL из одного изображения для восстановления полной 3D-модели человеческого тела.

Ограничения существующих методов

Высокие требования к вычислительным ресурсам: Современные передовые методы, такие как HMR2.0, используют большой ViT-H в качестве кодировщика, требующий значительных вычислительных ресурсов
Сложность развертывания: Большие модели сложно развертывать в реальном времени на мобильных устройствах или в среде граничных вычислений
Неоптимальный компромисс эффективность-производительность: Существующие методы облегчения часто обменивают значительную потерю производительности на вычислительную эффективность

Исследовательская мотивация

Потребность в практическом развертывании: Срочная необходимость развертывания моделей HMR и HPE в среде с ограниченными ресурсами
Упрощение архитектуры: Повышение эффективности при сохранении простоты архитектуры HMR2.0
Потенциал иерархических VFMs: Исследование применения иерархических моделей визуального фундамента в этой задаче

Основные вклады

Построение облегченных базовых моделей: Инстанцирование трех облегченных вариантов HMR2.0 путем наследования кодировщиков ViTPose-{L,B,S}
Предложение стратегии усечения: Систематическое исследование осуществимости использования первых нескольких этапов иерархических VFMs в качестве кодировщиков
Комплексная экспериментальная оценка: Comprehensive оценка 27 моделей HMR и HPE на основе иерархических VFMs
Оптимизация компромисса производительность-эффективность: Доказательство того, что усеченные модели иерархических VFMs достигают лучшего компромисса между точностью и вычислительной эффективностью

Подробное описание методов

Определение задач

Задача HPE: Предсказание позиций 2D ключевых точек из входного изображения (H×W, обычно 256×192)
Задача HMR: Предсказание параметров SMPL (поза α, форма β, камера θ) из входного изображения

Базовая архитектура

Архитектура ViTPose

Кодировщик: ViT генерирует карту признаков разрешением H/16×W/16
Декодировщик: Слои деконволюции + слой предсказания выводят тепловые карты ключевых точек

Архитектура HMR2.0

Кодировщик: Кодировщик на основе ViT производит карту признаков
Декодировщик: Декодировщик на основе трансформера предсказывает параметры SMPL
Использует механизм токенов запроса для агрегации признаков

Проектирование иерархического кодировщика VFM

Принципы проектирования

Сохранение простоты архитектуры: Избежание сложных или высокоспециализированных модулей
Согласованность архитектуры: Соответствие базовым моделям HMR2.0 и ViTPose

Стратегия согласования разрешения

Иерархические VFMs содержат четыре этапа с выходным разрешением, относительно нейерархических VFMs составляющим 2×2, 1×1, 1/2×1/2:

Использование всех четырех этапов (S4): Добавление слоя деконволюции 2×2 для выравнивания выходного разрешения
Использование первых трех этапов (S3): Прямая передача выхода этапа 3 в декодировщик
Использование первых двух этапов (S2): Добавление слоя свертки с stride=2 для понижающей дискретизации карты признаков

Поддерживаемые архитектуры VFM

Swin Transformer: Иерархический трансформер на основе сдвинутых окон
GroupMixFormer (GMF): Эффективный трансформер с group-mix вниманием
VMamba (VM): Архитектура зрения на основе модели пространства состояний

Технические инновации

Стратегия усечения: Первое систематическое исследование осуществимости использования только первых нескольких этапов иерархических VFMs
Минимизация модификаций: Достижение согласования разрешения через простые слои свертки/деконволюции, сохранение простоты архитектуры
Верификация на нескольких архитектурах: Проверка универсальности метода на различных типах архитектур, включая трансформеры и модели SSM

Экспериментальная установка

Наборы данных

HPE:

Обучение: набор данных COCO
Оценка: набор данных COCO-val

HMR:

Обучение: смешанный набор данных (Human3.6M, MPI-INF-3DHP, COCO, MPII, InstaVariety, AVA, AI Challenger)
Оценка 2D позы: LSP-Extended, COCO-val, PoseTrack-val
Оценка 3D позы: 3DPW-test, Human3.6M-val

Метрики оценки

HPE:

Average Precision (AP) и Average Recall (AR)
Комбинированная метрика: ΦP,2D = 1/2(AP + AR)

HMR:

2D: Процент правильных ключевых точек (PCK) при пороге 0.05 и 0.1
3D: Метрики ошибок MPJPE и PA-MPJPE
Комбинированные метрики: ΦM,2D и ΦM,3D

Методы сравнения

Существующие облегченные методы: Серия METRO, FastMETRO, TORE и др.
Базовые модели ViT: HMR2.0-{L,B,S}, ViTPose-{H,L,B,S}
Методы на основе CNN: MEMe, SimCC-HRNet и др.

Детали реализации

Оборудование: Обучение на 8×A100 GPU, тестирование вывода на одном A100 GPU
Инициализация: Кодировщики иерархических VFMs используют предварительно обученные веса ImageNet-1K
Протокол обучения: Соответствие стандартным параметрам обучения HMR2.0 и ViTPose

Результаты экспериментов

Основные результаты

Верификация эффекта усечения

Результаты экспериментов показывают, что усеченные модели, использующие первые 2-3 этапа, могут достичь производительности, сравнимой или даже превосходящей модели со всеми 4 этапами:

Модели HPE (набор данных COCO):

SwinPose-S-S3: AP=74.6 против S4 74.5 (+0.1)
GMFPose-T-S3: AP=75.7 против S4 75.8 (-0.1)
VMPose-T-S3: AP=75.3 против S4 75.2 (+0.1)

Производительность моделей HMR:

При оценке 3D позы большинство моделей S3 немного превосходят модели S4
SwinHMR2.0-S-S3 сохраняет сравнимую производительность при уменьшении параметров на 31.6% по сравнению с S4

Повышение вычислительной эффективности

Стратегия усечения значительно снижает вычислительную сложность:

Уменьшение параметров: Модели S3 в среднем уменьшают параметры на 30-50% по сравнению с S4
Снижение FLOPs: Модели S2 снижают вычислительную нагрузку на 70-90% по сравнению с S4
Ускорение вывода: Модели S2 увеличивают FPS в 2-3 раза

Сравнение с существующими методами

Результаты оценки 3D позы на наборе данных Human3.6M показывают, что предложенные модели иерархических VFMs превосходят существующие облегченные методы при одинаковом вычислительном бюджете:

GMFHMR2.0-S-S3: 19.3M параметров, PA-MPJPE=35.4
Лучший компромисс эффективность-производительность по сравнению с методами на основе ViT

Абляционные исследования

Влияние различного количества этапов

Систематическая оценка конфигураций S2, S3, S4:

Конфигурация S3: В большинстве случаев оптимальный выбор, балансирующий производительность и эффективность
Конфигурация S2: Хотя наиболее эффективна, показывает заметное снижение производительности в некоторых задачах
Конфигурация S4: Наибольшие вычислительные затраты с ограниченным улучшением производительности

Сравнение различных архитектур VFM

Swin Transformer: Стабильная производительность в большинстве конфигураций
GroupMixFormer: Сохраняет хорошую производительность в конфигурации S2
VMamba: Демонстрирует хороший компромисс эффективность-производительность

Анализ примеров

Качественные результаты показывают, что усеченные модели сравнимы с полными моделями по визуальному качеству, точно оценивая позу и форму человека, что подтверждает эффективность метода.

Связанные работы

Восстановление сетки человека

Ранние методы на основе CNN: Методы на основе традиционных архитектур CNN, таких как ResNet и HRNet
Методы на основе трансформеров: METRO, Mesh Graphormer и другие гибридные архитектуры CNN-Transformer
Чистые трансформеры: HMR2.0, SMPLer-X и другие полностью основанные на трансформерах методы

Оценка позы человека

Оптимизация CNN: MEMe, Lite-HRNet, LitePose и другие облегченные методы на основе CNN
Поиск архитектуры: CNF, ViPNAS и другие методы нейроархитектурного поиска
Применение трансформеров: ViTPose и другие методы на основе ViT

Модели визуального фундамента

Нейерархические: ViT, DeiT и другие модели с фиксированным разрешением
Иерархические: Swin Transformer, PVT и другие модели многомасштабного извлечения признаков

Выводы и обсуждение

Основные выводы

Эффективность стратегии усечения: Первые 2-3 этапа иерархических VFMs содержат достаточно семантической информации для задач HMR и HPE
Значительное повышение эффективности: Усеченные модели значительно снижают вычислительные затраты при сохранении производительности
Хорошая универсальность: Стратегия демонстрирует последовательную эффективность на различных архитектурах VFM

Ограничения

Ограничения архитектуры: Применимо в основном к иерархическим VFMs, неприменимо к нейерархическим моделям
Специфичность задачи: Верификация проведена в основном на задачах HMR и HPE, применимость к другим задачам зрения требует дальнейшего исследования
Зависимость от предварительного обучения: Результаты зависят от высокого качества предварительно обученных весов

Будущие направления

Расширение на большее количество VFMs: Исследование большего количества иерархических моделей визуального фундамента
Полнотелые и многолюдные сцены: Верификация эффективности в более сложных задачах HMR
Оптимизация архитектуры: Дальнейшая оптимизация проектирования архитектуры после усечения

Глубокая оценка

Преимущества

Высокая практическая ценность: Решение проблемы эффективности при практическом развертывании с важной прикладной ценностью
Простота метода: Сохранение простоты исходной архитектуры, легкость реализации и развертывания
Достаточные эксперименты: Comprehensive оценка 27 моделей обеспечивает достаточные экспериментальные доказательства
Глубокие инсайты: Раскрытие богатства промежуточных представлений иерархических VFMs

Недостатки

Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа причин, почему первых нескольких этапов достаточно
Ограниченная новизна: В основном инженерная оптимизация с относительно ограниченной алгоритмической новизной
Ограниченный диапазон оценки: Оценка в основном на стандартных наборах данных, робастность в реальных сценариях приложений требует верификации

Влияние

Академический вклад: Предоставление новых идей для проектирования эффективных моделей HMR/HPE
Практическая ценность: Важное значение для развертывания на мобильных устройствах и в среде граничных вычислений
Воспроизводимость: Простота метода обеспечивает легкость воспроизведения и применения

Применимые сценарии

Среда с ограниченными ресурсами: Мобильные устройства, устройства граничных вычислений
Приложения реального времени: Интерактивные приложения, требующие быстрого отклика
Крупномасштабное развертывание: Сценарии, требующие одновременного запуска на нескольких устройствах

Библиография

Статья цитирует 118 связанных работ, охватывающих важные исследования в областях HMR, HPE и моделей визуального фундамента, обеспечивая достаточную справочную поддержку для исследования.

Общая оценка: Это практически ценная инженерная оптимизационная статья, которая значительно повышает эффективность моделей HMR и HPE через простую и эффективную стратегию усечения. Хотя алгоритмическая новизна ограничена, она решает важные проблемы при практическом развертывании и имеет высокую прикладную ценность. Экспериментальное проектирование достаточно, выводы надежны, предоставляя ценные рекомендации для практических приложений в соответствующих областях.