In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
- معرّف الورقة: 2510.12660
- العنوان: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- المؤلفون: شوهي تاراشيما (NTT DOCOMO Business و جامعة طوكيو متروبوليتان)، يوشان وانج (جامعة طوكيو متروبوليتان)، نوريو تاجاوا (جامعة طوكيو متروبوليتان)
- التصنيف: cs.CV
- تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2510.12660
تهدف هذه الدراسة إلى تطوير نماذج بسيطة وفعالة لاستعادة شبكة الجسم البشري (HMR) وتقدير وضعية الجسم البشري (HPE). تعتمد أحدث طرق HMR (مثل HMR2.0 والإصدارات اللاحقة) على محولات رؤية كبيرة غير هرمية كمشفرات، وهذه المشفرات موروثة من نماذج HPE المقابلة (مثل ViTPose). لإنشاء خطوط أساس تحت ميزانيات حسابية مختلفة، قام المؤلفون أولاً بإنشاء ثلاث متغيرات خفيفة الوزن من HMR2.0 من خلال تكييف نماذج ViTPose المقابلة. بالإضافة إلى ذلك، يقترحون استخدام المراحل المبكرة من نماذج أساس الرؤية الهرمية (VFMs) كمشفرات، بما في ذلك Swin Transformer و GroupMixFormer و VMamba. يعتمد هذا التصميم على ملاحظة مفادها أن خرائط الميزات الناتجة من المراحل الوسيطة من VFMs الهرمية لها دقة مماثلة أو أعلى من النماذج غير الهرمية. أجرى المؤلفون تقييماً شاملاً لـ 27 نموذج HMR و HPE قائم على VFM هرمي، مما يثبت أن استخدام المرحلتين أو الثلاث الأولى فقط يحقق أداء مماثلة لنماذج المراحل الكاملة، وتظهر النماذج المقطوعة توازناً أفضل بين الدقة والكفاءة الحسابية.
استعادة شبكة الجسم البشري (HMR) هي مهمة مهمة في رؤية الحاسوب، مع تطبيقات واسعة في الرسوم المتحركة والملابس الافتراضية وتحليل الرياضة والتفاعل بين الإنسان والآلة. تهدف هذه المهمة إلى التنبؤ بمعاملات SMPL من صورة واحدة، وإعادة بناء نموذج جسم بشري ثلاثي الأبعاد كامل.
- متطلبات الموارد الحسابية العالية: تستخدم الطرق الحديثة مثل HMR2.0 محول ViT-H كبير كمشفر، مما يتطلب موارد حسابية كبيرة
- صعوبة النشر: يصعب نشر النماذج الكبيرة في الوقت الفعلي على الأجهزة المحمولة أو بيئات الحوسبة الطرفية
- توازن الكفاءة والأداء السيء: غالباً ما تتبادل الطرق الخفيفة الموجودة الأداء الكبير مقابل الكفاءة الحسابية
- الحاجة إلى النشر العملي: الحاجة الملحة لنشر نماذج HMR و HPE في البيئات محدودة الموارد
- تبسيط الهندسة المعمارية: الحفاظ على بساطة معمارية HMR2.0 مع تحسين الكفاءة
- إمكانات VFMs الهرمية: استكشاف تطبيق نماذج أساس الرؤية الهرمية في هذه المهمة
- بناء خطوط أساس خفيفة الوزن: تم إنشاء ثلاث متغيرات خفيفة الوزن من HMR2.0 من خلال وراثة مشفرات ViTPose-{L,B,S}
- اقتراح استراتيجية القطع: استكشاف منهجي لجدوى استخدام المراحل الأولى من VFMs الهرمية كمشفرات
- تقييم تجريبي شامل: تقييم شامل لـ 27 نموذج HMR و HPE قائم على VFM هرمي
- تحسين توازن الأداء والكفاءة: إثبات أن نماذج VFM الهرمية المقطوعة تحقق توازناً أفضل بين الدقة والكفاءة الحسابية
- مهمة HPE: التنبؤ بمواقع النقاط الرئيسية ثنائية الأبعاد من صورة الإدخال (H×W، عادة 256×192)
- مهمة HMR: التنبؤ بمعاملات SMPL (الوضعية α والشكل β والكاميرا θ) من صورة الإدخال
- المشفر: ينتج ViT خريطة ميزات بدقة H/16×W/16
- فك التشفير: طبقات فك التشفير + طبقة التنبؤ لإخراج خرائط حرارة النقاط الرئيسية
- المشفر: مشفر قائم على ViT ينتج خريطة ميزات
- فك التشفير: فك تشفير قائم على محول للتنبؤ بمعاملات SMPL
- استخدام آلية رمز الاستعلام لتجميع الميزات
- الحفاظ على بساطة الهندسة المعمارية: تجنب الوحدات المعقدة أو المتخصصة للغاية
- اتساق الهندسة المعمارية: الحفاظ على الاتساق مع خطوط أساس HMR2.0 و ViTPose
تحتوي VFMs الهرمية على أربع مراحل، مع إخراج دقة نسبية إلى VFMs غير الهرمية بـ 2×2 و 1×1 و 1/2×1/2:
- استخدام جميع المراحل الأربع (S4): إضافة طبقة فك تشفير 2×2 لمحاذاة دقة الإخراج
- استخدام المراحل الثلاث الأولى (S3): إرسال إخراج المرحلة 3 مباشرة إلى فك التشفير
- استخدام المرحلتين الأولى (S2): إضافة طبقة التفاف بـ stride=2 لأخذ عينات من خريطة الميزات
- Swin Transformer: محول هرمي قائم على نافذة الإزاحة
- GroupMixFormer (GMF): محول فعال يعتمد على انتباه group-mix
- VMamba (VM): معمارية رؤية قائمة على نموذج الفضاء الحالة
- استراتيجية القطع: أول استكشاف منهجي لاستخدام المراحل الأولى فقط من VFMs الهرمية
- تقليل التعديلات: تحقيق مطابقة الدقة من خلال طبقات التفاف/فك تشفير بسيطة، مع الحفاظ على بساطة الهندسة المعمارية
- التحقق من معماريات متعددة: التحقق من عمومية الطريقة عبر أنواع معمارية مختلفة مثل Transformer و SSM
HPE:
- التدريب: مجموعة بيانات COCO
- التقييم: مجموعة بيانات COCO-val
HMR:
- التدريب: مجموعة بيانات مختلطة (Human3.6M و MPI-INF-3DHP و COCO و MPII و InstaVariety و AVA و AI Challenger)
- تقييم وضعية 2D: LSP-Extended و COCO-val و PoseTrack-val
- تقييم وضعية 3D: 3DPW-test و Human3.6M-val
HPE:
- Average Precision (AP) و Average Recall (AR)
- المؤشر المركب: ΦP,2D = 1/2(AP + AR)
HMR:
- 2D: نسبة النقاط الرئيسية الصحيحة عند عتبات PCK@0.05 و PCK@0.1
- 3D: مؤشرات الخطأ MPJPE و PA-MPJPE
- المؤشرات المركبة: ΦM,2D و ΦM,3D
- الطرق الخفيفة الموجودة: سلسلة METRO و FastMETRO و TORE وغيرها
- خطوط أساس ViT: HMR2.0-{L,B,S} و ViTPose-{H,L,B,S}
- طرق CNN: MEMe و SimCC-HRNet وغيرها
- الأجهزة: تدريب على 8×A100 GPU، اختبار الاستدلال على A100 GPU واحد
- التهيئة: استخدام أوزان مشفر VFM الهرمية المدربة مسبقاً على ImageNet-1K
- بروتوكول التدريب: اتباع إعدادات التدريب القياسية لـ HMR2.0 و ViTPose
تظهر نتائج التجارب أن النماذج المقطوعة التي تستخدم المراحل 2-3 الأولى يمكنها تحقيق أداء مماثلة أو أفضل من نماذج المراحل الأربع الكاملة:
نماذج HPE (مجموعة بيانات COCO):
- SwinPose-S-S3: AP=74.6 مقابل S4 بـ 74.5 (+0.1)
- GMFPose-T-S3: AP=75.7 مقابل S4 بـ 75.8 (-0.1)
- VMPose-T-S3: AP=75.3 مقابل S4 بـ 75.2 (+0.1)
أداء نماذج HMR:
- في تقدير الوضعية 3D، تتفوق معظم نماذج S3 قليلاً على نماذج S4
- يحافظ SwinHMR2.0-S-S3 على أداء مماثلة مقابل S4 مع تقليل المعاملات بنسبة 31.6%
تقلل استراتيجية القطع بشكل كبير من التعقيد الحسابي:
- تقليل المعاملات: تقلل نماذج S3 المعاملات بمتوسط 30-50% مقابل S4
- انخفاض FLOPs: تقلل نماذج S2 الحسابات بـ 70-90% مقابل S4
- تسريع الاستدلال: تزيد نماذج S2 من FPS بـ 2-3 مرات
تظهر نتائج تقدير الوضعية 3D على مجموعة بيانات Human3.6M أن نماذج VFM الهرمية المقترحة تتفوق على الطرق الخفيفة الموجودة تحت نفس الميزانية الحسابية:
- GMFHMR2.0-S-S3: 19.3M معامل، PA-MPJPE=35.4
- توازن أفضل بين الكفاءة والأداء مقابل الطرق القائمة على ViT
تقييم منهجي لأداء التكوينات S2 و S3 و S4:
- تكوين S3: الخيار الأفضل في معظم الحالات، يوازن بين الأداء والكفاءة
- تكوين S2: على الرغم من أعلى كفاءة، إلا أن الأداء تنخفض بشكل ملحوظ في بعض المهام
- تكوين S4: أكبر تكلفة حسابية، مع تحسن محدود في الأداء
- Swin Transformer: أداء مستقرة في معظم التكوينات
- GroupMixFormer: الحفاظ على أداء جيدة في تكوين S2
- VMamba: إظهار توازن جيد بين الكفاءة والأداء
تظهر النتائج النوعية أن النماذج المقطوعة تحقق جودة بصرية مماثلة للنماذج الكاملة، وقادرة على تقدير وضعية وشكل الجسم البشري بدقة، مما يتحقق من فعالية الطريقة.
- طرق CNN المبكرة: قائمة على معماريات CNN التقليدية مثل ResNet و HRNet
- طرق Transformer: METRO و Mesh Graphormer وغيرها من معماريات CNN-Transformer الهجينة
- Transformer النقي: HMR2.0 و SMPLer-X وغيرها من الطرق القائمة بالكامل على Transformer
- تحسين CNN: MEMe و Lite-HRNet و LitePose وغيرها من طرق CNN الخفيفة الوزن
- البحث عن الهندسة المعمارية: CNF و ViPNAS وغيرها من طرق البحث عن الهندسة المعمارية العصبية
- تطبيق Transformer: ViTPose وغيرها من الطرق القائمة على ViT
- غير الهرمية: ViT و DeiT وغيرها من النماذج التي تحافظ على دقة ثابتة
- الهرمية: Swin Transformer و PVT وغيرها من نماذج استخراج الميزات متعددة المقاييس
- فعالية استراتيجية القطع: تحتوي المراحل 2-3 الأولى من VFMs الهرمية على معلومات دلالية كافية لمهام HMR و HPE
- تحسن الكفاءة الكبير: تقلل النماذج المقطوعة التكاليف الحسابية بشكل كبير مع الحفاظ على الأداء
- عمومية جيدة: تظهر الاستراتيجية فعالية متسقة عبر معماريات VFM المختلفة
- قيود الهندسة المعمارية: موجهة بشكل أساسي نحو VFMs الهرمية، غير قابلة للتطبيق على النماذج غير الهرمية
- خصوصية المهام: تم التحقق منها بشكل أساسي على مهام HMR و HPE، مع عدم التأكد من قابلية التطبيق على مهام الرؤية الأخرى
- الاعتماد على التدريب المسبق: تعتمد النتائج على أوزان تدريب مسبق عالية الجودة
- التوسع إلى المزيد من VFMs: استكشاف نماذج أساس رؤية هرمية أكثر
- السيناريوهات الكاملة والمتعددة الأشخاص: التحقق من الفعالية في مهام HMR الأكثر تعقيداً
- تحسين الهندسة المعمارية: مزيد من تحسين تصميم الهندسة المعمارية بعد القطع
- قيمة عملية عالية: حل مشاكل الكفاءة في النشر العملي، مع قيمة تطبيقية مهمة
- طريقة بسيطة: الحفاظ على بساطة الهندسة المعمارية الأصلية، سهلة التنفيذ والنشر
- تجارب شاملة: يوفر التقييم الشامل لـ 27 نموذج أدلة تجريبية كافية
- رؤى عميقة: الكشف عن ثراء التمثيلات الوسيطة في VFMs الهرمية
- نقص التحليل النظري: افتقار إلى تحليل نظري عميق حول سبب كفاية المراحل الأولى
- ابتكار محدود: في الأساس تحسين هندسي، مع ابتكار خوارزمي نسبي محدود
- نطاق التقييم: التقييم بشكل أساسي على مجموعات البيانات القياسية، مع عدم التأكد من الاستقرار في سيناريوهات التطبيق الفعلي
- المساهمة الأكاديمية: توفير أفكار جديدة لتصميم نماذج HMR/HPE فعالة
- القيمة العملية: أهمية كبيرة لنشر الأجهزة المحمولة والحوسبة الطرفية
- قابلية التكرار: الطريقة بسيطة، سهلة التكرار والتطبيق
- البيئات محدودة الموارد: الأجهزة المحمولة وأجهزة الحوسبة الطرفية
- التطبيقات في الوقت الفعلي: التطبيقات التفاعلية التي تتطلب استجابة سريعة
- النشر على نطاق واسع: السيناريوهات التي تتطلب التشغيل المتزامن على أجهزة متعددة
تستشهد الورقة بـ 118 مرجعاً ذا صلة، تغطي الأعمال المهمة في المجالات ذات الصلة بـ HMR و HPE ونماذج أساس الرؤية، مما يوفر دعماً خلفياً كافياً للبحث.
التقييم الشامل: هذه ورقة تحسين هندسي عملية جداً، تحسن بشكل كبير كفاءة نماذج HMR و HPE من خلال استراتيجية قطع بسيطة وفعالة. على الرغم من أن الابتكار الخوارزمي محدود، إلا أنها تحل مشاكل مهمة في النشر العملي، وتتمتع بقيمة تطبيقية عالية. التصميم التجريبي شامل، والاستنتاجات موثوقة، وتوفر مرجعاً قيماً للتطبيقات العملية في المجالات ذات الصلة.