2025-11-17T06:28:12.898097

On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Tarashima, Wang, Tagawa

In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.

academic

حول استخدام نماذج أساس الرؤية الهرمية لاستعادة شبكة الجسم البشري وتقدير الوضعية برسوم منخفضة التكلفة

المعلومات الأساسية

معرّف الورقة: 2510.12660
العنوان: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
المؤلفون: شوهي تاراشيما (NTT DOCOMO Business و جامعة طوكيو متروبوليتان)، يوشان وانج (جامعة طوكيو متروبوليتان)، نوريو تاجاوا (جامعة طوكيو متروبوليتان)
التصنيف: cs.CV
تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.12660

الملخص

تهدف هذه الدراسة إلى تطوير نماذج بسيطة وفعالة لاستعادة شبكة الجسم البشري (HMR) وتقدير وضعية الجسم البشري (HPE). تعتمد أحدث طرق HMR (مثل HMR2.0 والإصدارات اللاحقة) على محولات رؤية كبيرة غير هرمية كمشفرات، وهذه المشفرات موروثة من نماذج HPE المقابلة (مثل ViTPose). لإنشاء خطوط أساس تحت ميزانيات حسابية مختلفة، قام المؤلفون أولاً بإنشاء ثلاث متغيرات خفيفة الوزن من HMR2.0 من خلال تكييف نماذج ViTPose المقابلة. بالإضافة إلى ذلك، يقترحون استخدام المراحل المبكرة من نماذج أساس الرؤية الهرمية (VFMs) كمشفرات، بما في ذلك Swin Transformer و GroupMixFormer و VMamba. يعتمد هذا التصميم على ملاحظة مفادها أن خرائط الميزات الناتجة من المراحل الوسيطة من VFMs الهرمية لها دقة مماثلة أو أعلى من النماذج غير الهرمية. أجرى المؤلفون تقييماً شاملاً لـ 27 نموذج HMR و HPE قائم على VFM هرمي، مما يثبت أن استخدام المرحلتين أو الثلاث الأولى فقط يحقق أداء مماثلة لنماذج المراحل الكاملة، وتظهر النماذج المقطوعة توازناً أفضل بين الدقة والكفاءة الحسابية.

خلفية البحث والدافع

تعريف المشكلة

استعادة شبكة الجسم البشري (HMR) هي مهمة مهمة في رؤية الحاسوب، مع تطبيقات واسعة في الرسوم المتحركة والملابس الافتراضية وتحليل الرياضة والتفاعل بين الإنسان والآلة. تهدف هذه المهمة إلى التنبؤ بمعاملات SMPL من صورة واحدة، وإعادة بناء نموذج جسم بشري ثلاثي الأبعاد كامل.

قيود الطرق الموجودة

متطلبات الموارد الحسابية العالية: تستخدم الطرق الحديثة مثل HMR2.0 محول ViT-H كبير كمشفر، مما يتطلب موارد حسابية كبيرة
صعوبة النشر: يصعب نشر النماذج الكبيرة في الوقت الفعلي على الأجهزة المحمولة أو بيئات الحوسبة الطرفية
توازن الكفاءة والأداء السيء: غالباً ما تتبادل الطرق الخفيفة الموجودة الأداء الكبير مقابل الكفاءة الحسابية

دافع البحث

الحاجة إلى النشر العملي: الحاجة الملحة لنشر نماذج HMR و HPE في البيئات محدودة الموارد
تبسيط الهندسة المعمارية: الحفاظ على بساطة معمارية HMR2.0 مع تحسين الكفاءة
إمكانات VFMs الهرمية: استكشاف تطبيق نماذج أساس الرؤية الهرمية في هذه المهمة

المساهمات الأساسية

بناء خطوط أساس خفيفة الوزن: تم إنشاء ثلاث متغيرات خفيفة الوزن من HMR2.0 من خلال وراثة مشفرات ViTPose-{L,B,S}
اقتراح استراتيجية القطع: استكشاف منهجي لجدوى استخدام المراحل الأولى من VFMs الهرمية كمشفرات
تقييم تجريبي شامل: تقييم شامل لـ 27 نموذج HMR و HPE قائم على VFM هرمي
تحسين توازن الأداء والكفاءة: إثبات أن نماذج VFM الهرمية المقطوعة تحقق توازناً أفضل بين الدقة والكفاءة الحسابية

شرح الطريقة

تعريف المهام

مهمة HPE: التنبؤ بمواقع النقاط الرئيسية ثنائية الأبعاد من صورة الإدخال (H×W، عادة 256×192)
مهمة HMR: التنبؤ بمعاملات SMPL (الوضعية α والشكل β والكاميرا θ) من صورة الإدخال

الهندسة المعمارية الأساسية

معمارية ViTPose

المشفر: ينتج ViT خريطة ميزات بدقة H/16×W/16
فك التشفير: طبقات فك التشفير + طبقة التنبؤ لإخراج خرائط حرارة النقاط الرئيسية

معمارية HMR2.0

المشفر: مشفر قائم على ViT ينتج خريطة ميزات
فك التشفير: فك تشفير قائم على محول للتنبؤ بمعاملات SMPL
استخدام آلية رمز الاستعلام لتجميع الميزات

تصميم مشفر VFM الهرمي

مبادئ التصميم

الحفاظ على بساطة الهندسة المعمارية: تجنب الوحدات المعقدة أو المتخصصة للغاية
اتساق الهندسة المعمارية: الحفاظ على الاتساق مع خطوط أساس HMR2.0 و ViTPose

استراتيجية مطابقة الدقة

تحتوي VFMs الهرمية على أربع مراحل، مع إخراج دقة نسبية إلى VFMs غير الهرمية بـ 2×2 و 1×1 و 1/2×1/2:

استخدام جميع المراحل الأربع (S4): إضافة طبقة فك تشفير 2×2 لمحاذاة دقة الإخراج
استخدام المراحل الثلاث الأولى (S3): إرسال إخراج المرحلة 3 مباشرة إلى فك التشفير
استخدام المرحلتين الأولى (S2): إضافة طبقة التفاف بـ stride=2 لأخذ عينات من خريطة الميزات

معماريات VFM المدعومة

Swin Transformer: محول هرمي قائم على نافذة الإزاحة
GroupMixFormer (GMF): محول فعال يعتمد على انتباه group-mix
VMamba (VM): معمارية رؤية قائمة على نموذج الفضاء الحالة

نقاط الابتكار التقني

استراتيجية القطع: أول استكشاف منهجي لاستخدام المراحل الأولى فقط من VFMs الهرمية
تقليل التعديلات: تحقيق مطابقة الدقة من خلال طبقات التفاف/فك تشفير بسيطة، مع الحفاظ على بساطة الهندسة المعمارية
التحقق من معماريات متعددة: التحقق من عمومية الطريقة عبر أنواع معمارية مختلفة مثل Transformer و SSM

إعداد التجارب

مجموعات البيانات

HPE:

التدريب: مجموعة بيانات COCO
التقييم: مجموعة بيانات COCO-val

HMR:

التدريب: مجموعة بيانات مختلطة (Human3.6M و MPI-INF-3DHP و COCO و MPII و InstaVariety و AVA و AI Challenger)
تقييم وضعية 2D: LSP-Extended و COCO-val و PoseTrack-val
تقييم وضعية 3D: 3DPW-test و Human3.6M-val

مؤشرات التقييم

HPE:

Average Precision (AP) و Average Recall (AR)
المؤشر المركب: ΦP,2D = 1/2(AP + AR)

HMR:

2D: نسبة النقاط الرئيسية الصحيحة عند عتبات PCK@0.05 و PCK@0.1
3D: مؤشرات الخطأ MPJPE و PA-MPJPE
المؤشرات المركبة: ΦM,2D و ΦM,3D

طرق المقارنة

الطرق الخفيفة الموجودة: سلسلة METRO و FastMETRO و TORE وغيرها
خطوط أساس ViT: HMR2.0-{L,B,S} و ViTPose-{H,L,B,S}
طرق CNN: MEMe و SimCC-HRNet وغيرها

تفاصيل التنفيذ

الأجهزة: تدريب على 8×A100 GPU، اختبار الاستدلال على A100 GPU واحد
التهيئة: استخدام أوزان مشفر VFM الهرمية المدربة مسبقاً على ImageNet-1K
بروتوكول التدريب: اتباع إعدادات التدريب القياسية لـ HMR2.0 و ViTPose

نتائج التجارب

النتائج الرئيسية

التحقق من تأثير القطع

تظهر نتائج التجارب أن النماذج المقطوعة التي تستخدم المراحل 2-3 الأولى يمكنها تحقيق أداء مماثلة أو أفضل من نماذج المراحل الأربع الكاملة:

نماذج HPE (مجموعة بيانات COCO):

SwinPose-S-S3: AP=74.6 مقابل S4 بـ 74.5 (+0.1)
GMFPose-T-S3: AP=75.7 مقابل S4 بـ 75.8 (-0.1)
VMPose-T-S3: AP=75.3 مقابل S4 بـ 75.2 (+0.1)

أداء نماذج HMR:

في تقدير الوضعية 3D، تتفوق معظم نماذج S3 قليلاً على نماذج S4
يحافظ SwinHMR2.0-S-S3 على أداء مماثلة مقابل S4 مع تقليل المعاملات بنسبة 31.6%

تحسن الكفاءة الحسابية

تقلل استراتيجية القطع بشكل كبير من التعقيد الحسابي:

تقليل المعاملات: تقلل نماذج S3 المعاملات بمتوسط 30-50% مقابل S4
انخفاض FLOPs: تقلل نماذج S2 الحسابات بـ 70-90% مقابل S4
تسريع الاستدلال: تزيد نماذج S2 من FPS بـ 2-3 مرات

المقارنة مع الطرق الموجودة

تظهر نتائج تقدير الوضعية 3D على مجموعة بيانات Human3.6M أن نماذج VFM الهرمية المقترحة تتفوق على الطرق الخفيفة الموجودة تحت نفس الميزانية الحسابية:

GMFHMR2.0-S-S3: 19.3M معامل، PA-MPJPE=35.4
توازن أفضل بين الكفاءة والأداء مقابل الطرق القائمة على ViT

التجارب الاستئصالية

تأثير عدد المراحل المختلفة

تقييم منهجي لأداء التكوينات S2 و S3 و S4:

تكوين S3: الخيار الأفضل في معظم الحالات، يوازن بين الأداء والكفاءة
تكوين S2: على الرغم من أعلى كفاءة، إلا أن الأداء تنخفض بشكل ملحوظ في بعض المهام
تكوين S4: أكبر تكلفة حسابية، مع تحسن محدود في الأداء

مقارنة معماريات VFM المختلفة

Swin Transformer: أداء مستقرة في معظم التكوينات
GroupMixFormer: الحفاظ على أداء جيدة في تكوين S2
VMamba: إظهار توازن جيد بين الكفاءة والأداء

تحليل الحالات

تظهر النتائج النوعية أن النماذج المقطوعة تحقق جودة بصرية مماثلة للنماذج الكاملة، وقادرة على تقدير وضعية وشكل الجسم البشري بدقة، مما يتحقق من فعالية الطريقة.

الأعمال ذات الصلة

استعادة شبكة الجسم البشري

طرق CNN المبكرة: قائمة على معماريات CNN التقليدية مثل ResNet و HRNet
طرق Transformer: METRO و Mesh Graphormer وغيرها من معماريات CNN-Transformer الهجينة
Transformer النقي: HMR2.0 و SMPLer-X وغيرها من الطرق القائمة بالكامل على Transformer

تقدير وضعية الجسم البشري

تحسين CNN: MEMe و Lite-HRNet و LitePose وغيرها من طرق CNN الخفيفة الوزن
البحث عن الهندسة المعمارية: CNF و ViPNAS وغيرها من طرق البحث عن الهندسة المعمارية العصبية
تطبيق Transformer: ViTPose وغيرها من الطرق القائمة على ViT

نماذج أساس الرؤية

غير الهرمية: ViT و DeiT وغيرها من النماذج التي تحافظ على دقة ثابتة
الهرمية: Swin Transformer و PVT وغيرها من نماذج استخراج الميزات متعددة المقاييس

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية استراتيجية القطع: تحتوي المراحل 2-3 الأولى من VFMs الهرمية على معلومات دلالية كافية لمهام HMR و HPE
تحسن الكفاءة الكبير: تقلل النماذج المقطوعة التكاليف الحسابية بشكل كبير مع الحفاظ على الأداء
عمومية جيدة: تظهر الاستراتيجية فعالية متسقة عبر معماريات VFM المختلفة

القيود

قيود الهندسة المعمارية: موجهة بشكل أساسي نحو VFMs الهرمية، غير قابلة للتطبيق على النماذج غير الهرمية
خصوصية المهام: تم التحقق منها بشكل أساسي على مهام HMR و HPE، مع عدم التأكد من قابلية التطبيق على مهام الرؤية الأخرى
الاعتماد على التدريب المسبق: تعتمد النتائج على أوزان تدريب مسبق عالية الجودة

الاتجاهات المستقبلية

التوسع إلى المزيد من VFMs: استكشاف نماذج أساس رؤية هرمية أكثر
السيناريوهات الكاملة والمتعددة الأشخاص: التحقق من الفعالية في مهام HMR الأكثر تعقيداً
تحسين الهندسة المعمارية: مزيد من تحسين تصميم الهندسة المعمارية بعد القطع

التقييم المتعمق

المزايا

قيمة عملية عالية: حل مشاكل الكفاءة في النشر العملي، مع قيمة تطبيقية مهمة
طريقة بسيطة: الحفاظ على بساطة الهندسة المعمارية الأصلية، سهلة التنفيذ والنشر
تجارب شاملة: يوفر التقييم الشامل لـ 27 نموذج أدلة تجريبية كافية
رؤى عميقة: الكشف عن ثراء التمثيلات الوسيطة في VFMs الهرمية

أوجه القصور

نقص التحليل النظري: افتقار إلى تحليل نظري عميق حول سبب كفاية المراحل الأولى
ابتكار محدود: في الأساس تحسين هندسي، مع ابتكار خوارزمي نسبي محدود
نطاق التقييم: التقييم بشكل أساسي على مجموعات البيانات القياسية، مع عدم التأكد من الاستقرار في سيناريوهات التطبيق الفعلي

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لتصميم نماذج HMR/HPE فعالة
القيمة العملية: أهمية كبيرة لنشر الأجهزة المحمولة والحوسبة الطرفية
قابلية التكرار: الطريقة بسيطة، سهلة التكرار والتطبيق

السيناريوهات المناسبة

البيئات محدودة الموارد: الأجهزة المحمولة وأجهزة الحوسبة الطرفية
التطبيقات في الوقت الفعلي: التطبيقات التفاعلية التي تتطلب استجابة سريعة
النشر على نطاق واسع: السيناريوهات التي تتطلب التشغيل المتزامن على أجهزة متعددة

المراجع

تستشهد الورقة بـ 118 مرجعاً ذا صلة، تغطي الأعمال المهمة في المجالات ذات الصلة بـ HMR و HPE ونماذج أساس الرؤية، مما يوفر دعماً خلفياً كافياً للبحث.

التقييم الشامل: هذه ورقة تحسين هندسي عملية جداً، تحسن بشكل كبير كفاءة نماذج HMR و HPE من خلال استراتيجية قطع بسيطة وفعالة. على الرغم من أن الابتكار الخوارزمي محدود، إلا أنها تحل مشاكل مهمة في النشر العملي، وتتمتع بقيمة تطبيقية عالية. التصميم التجريبي شامل، والاستنتاجات موثوقة، وتوفر مرجعاً قيماً للتطبيقات العملية في المجالات ذات الصلة.