We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
- معرّف الورقة: 2510.13933
- العنوان: عكس الهيكل العظمي للوجه القائم على الصور
- المؤلفون: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
- المؤسسات: جامعة Surrey وشركة Humain Ltd.
- التصنيف: eess.IV (معالجة الصور والفيديو)
- تاريخ النشر: 15 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.13933v1
تقدم هذه الورقة إطار عمل لعكس الهيكل العظمي للوجه القائم على الصور، يستخدم نمطين: صور RGB والخرائط العادية المشفرة بـ RGB. يتم معالجة كل نمط من خلال شبكة ظهر Hiera transformer مستقلة، وتندمج الميزات المستخرجة لتراجع 102 معامل هيكل عظمي مستند إلى نظام ترميز الحركات الوجهية (FACS). تُظهر التجارب على مجموعات البيانات الاصطناعية والممسوحة ضوئياً أن الطريقة قادرة على التعميم على البيانات الممسوحة ضوئياً وإنتاج نتائج إعادة بناء دقيقة.
عكس الهيكل العظمي للوجه (Facial Rig Inversion) هو عملية استرجاع معاملات التحكم في الهيكل العظمي بدقة من المدخلات البصرية، وهو يلعب دوراً حاسماً في خطوط الإنتاج للرسوم المتحركة والتجسيدات الافتراضية والتقاط الأداء، مما يتيح التحكم المباشر في أصول الإنتاج.
- احتياجات الرسوم المتحركة: في الرسوم المتحركة الحديثة، يعتبر التحكم الدقيق بتعابير الوجه مفتاحاً لتحقيق رسوم متحركة شخصيات واقعية
- تطبيقات التجسيدات الافتراضية: مع تطور تقنيات الميتافيرس والواقع الافتراضي، أصبح التقاط تعابير الوجه الفوري والدقيق ذا أهمية متزايدة
- خطوط التقاط الأداء: توفير أدوات إنتاج رسوم متحركة وجهية عالية الجودة لصناعة الترفيه مثل الأفلام والألعاب
- الطرق المبكرة: تعتمد على نماذج إحصائية أو انحدار، مدربة على بيانات أنشأها الرسامون، بقدرة تعميم محدودة
- الطرق القائمة على الشبكات: على الرغم من كونها غنية بالمعلومات، إلا أنها مقتصرة على الطوبولوجيا المنظمة بشكل جيد، مع قابلية تكيف ضعيفة مع البيانات الممسوحة ضوئياً
- نقص الاستكشاف في المجال الصوري: تعتمد معظم الأعمال السابقة على ميزات على مستوى الشبكة، بينما لم يتم استكشاف الاتجاه القائم على مدخلات الصور بشكل كافٍ
توفر مدخلات المجال الصوري مزايا التعميم على البيانات الممسوحة ضوئياً، وهذا الاتجاه ذو قيمة عملية مهمة لكن لم يتم استكشافه بشكل كافٍ، لذا تركز هذه الورقة على تطوير طريقة عكس الهيكل العظمي للوجه القائمة على الصور.
- إطار معالجة ثنائي النمط: تقديم أول معمارية شبكة ثنائية الفرع تجمع بين صور RGB والخرائط العادية المشفرة بـ RGB
- تطبيق Hiera transformer: تطبيق أحدث Hiera visual transformer على مهمة عكس الهيكل العظمي للوجه
- استراتيجية التعلم متعدد الإشراف: الإشراف المتزامن في فضاء معاملات الهيكل العظمي وفضاء الشبكة ثلاثية الأبعاد، مما يضمن الدقة العددية والاتساق الهندسي
- التعميم على البيانات الممسوحة ضوئياً: التحقق من قدرة الطريقة على التعميم على البيانات الممسوحة ضوئياً الحقيقية، ملء الفجوة البحثية
بالنظر إلى صورة المظهر Ia وخريطة عادية In، تعلم الدالة fθ:(Ia,In)→p∈R102، حيث يمثل p معاملات التحكم في الهيكل العظمي المستهدف.
كما هو موضح في الشكل 1، تتضمن معمارية الشبكة ثنائية الفرع المقترحة المكونات الأساسية التالية:
- استخراج الميزات ثنائي الفرع:
- فرع RGB يعالج صور المظهر، ويلتقط معلومات النسيج والإضاءة
- فرع خريطة عادية يعالج المعلومات الهندسية، يصف اتجاه السطح لكل بكسل
- شبكة ظهر Hiera:
- يستخدم كل فرع شبكة ظهر Hiera transformer مستقلة
- يتم رفع دقة الإدخال من 224×224 المدربة مسبقاً إلى 512×512، مع الحفاظ على ميزات الوجه الدقيقة
- يتم تجميد المراحل الثلاث الأولى من الترميز للحفاظ على الميزات منخفضة المستوى، بينما المرحلة الأخيرة قابلة للتدريب
- دمج الميزات والانحدار:
- يتم إدخال الميزات المستخرجة المتسلسلة في رأس انحدار متعدد الطبقات (MLP)
- إخراج 102 معامل تحكم هيكل عظمي مشتق من FACS
- فك تشفير الهيكل العظمي الإجرائي:
- استخدام هيكل عظمي إجرائي مُنفذ في PyTorch لفك تشفير المعاملات إلى شبكة ثلاثية الأبعاد
- يعكس هيكل عظمي وجهي مخصص في Maya لإعادة بناء الشبكة
- معالجة الصور المسبقة: يتم تعديل جميع الصور إلى 512×512 بكسل، مع القص المركزي والتطبيع باستخدام إحصائيات ImageNet
- ترميز خريطة عادية: مشفرة في فضاء الظل، تعيين الأعراف السطحية في النطاق -1,1 إلى نطاق RGB 0,255
- إعدادات التصيير: دقة ثابتة، وضعية كاميرا ثابتة وإضاءة ثلاثية النقاط متسقة
- استراتيجية الدمج متعدد الأنماط: دمج ذكي للمعلومات المتعلقة بالمظهر والهندسة، بقوة تكاملية عالية
- معالجة الدقة العالية: إدخال 512×512 يحافظ على الأدلة الهندسية والنسيجية الدقيقة المطلوبة لالتقاط تغييرات التعبير الدقيقة
- استراتيجية التجميد الجزئي: تجميد طبقات الميزات منخفضة المستوى من النموذج المدرب مسبقاً، مع الحفاظ على التمثيلات البصرية العامة والتكيف مع المهام المحددة
- آلية الإشراف المزدوج: الإشراف المشترك في فضاء المعاملات وفضاء الشبكة يضمن معقولية التنبؤات
- البيانات الاصطناعية: تم إنشاؤها باستخدام هيكل عظمي شكل مختلط نقل التشوه (DT)
- استراتيجية تفعيل المعاملات: تفعيل كل معامل هيكل عظمي بشكل مستقل، بالإضافة إلى 20 تعبيراً قياسياً مجمعاً يدوياً
- تعزيز البيانات:
- إسقاط عشوائي للمعاملات وإضافتها أو استبدالها لمحاكاة تغييرات الأداء الحقيقية
- أخذ عينات من قيم المعاملات من التوزيع الطبيعي لإنشاء كثافات مختلفة
- تعزيز التحويل الصلب لتحسين المتانة تجاه الأخطاء الدقيقة في البيانات الممسوحة ضوئياً
- الحجم: 22,575 عينة تدريب
- البيانات الممسوحة ضوئياً الحقيقية: تتضمن تسلسلات ممسوحة ضوئياً للممثلين يؤدون 20 تعبيراً
- الاستخدام: تقييم قدرة النموذج على التعميم على البيانات الحقيقية
- المُحسِّن: AdamW، معدل التعلم 1×10^-4
- عدد الحقب: 200 حقبة، حجم الدفعة 32
- الأجهزة: بطاقة رسومات واحدة NVIDIA 4080 Laptop GPU
- خطوات التدريب: حوالي 141k خطوة (706 تكرارات لكل حقبة)
تتضمن دالة الخسارة المركبة:
- خسارة فضاء المعاملات: متوسط الخطأ التربيعي (MSE) بين المعاملات المتنبأ بها والحقيقية
- خسارة فضاء الشبكة: خسارة L1 للشبكة المعاد بناؤها من خلال فك تشفير الهيكل العظمي الإجرائي
تقييم النموذج على البيانات الممسوحة ضوئياً، حيث يتم تطبيق المعاملات المتنبأ بها على هيكل عظمي شكل مختلط DT المستخدم أثناء التدريب لإعادة بناء الشبكة.
كما هو موضح في نتائج إعادة البناء في الشكل 2:
- الأداء الممتازة في منطقة الفم: يُظهر التنبؤ قوة خاصة في منطقة الفم، مع القدرة على التقاط تعابير الفم المعقدة بدقة
- تحديات حركة العين: اتجاهات النظر لأعلى أو لأسفل أو جانباً تشكل تحديات نسبية أكبر لعكس الهيكل العظمي
- الدقة الشاملة: تُظهر نتائج إعادة البناء دقة بصرية تجاه تعابير المسح الممسوح ضوئياً المدخلة
تثبت التجارب القدرة الجيدة للطريقة على التعميم من بيانات التدريب الاصطناعية إلى البيانات الممسوحة ضوئياً الحقيقية، وهي ميزة مهمة للطرق القائمة على الصور مقابل الطرق القائمة على الشبكات.
- نماذج الانحدار الإحصائي: تعتمد الطرق المبكرة على نماذج إحصائية أو انحدار مدربة على بيانات أنشأها الرسامون
- تعلم الحركية العكسية: طريقة تعلم الحركية العكسية لوضعية الشخصية من قبل Holden وآخرين
- الهياكل العظمية العصبية: طرق الهياكل العظمية العصبية مثل RigNet توفر هياكل عظمية تلقائية للشخصيات المفصلية
- الهياكل العظمية القابلة للتفاضل: تحقيق عكس الهيكل العظمي من خلال تدريب دوال هيكل عظمي قابلة للتفاضل بواسطة Bolduc و Phan
- الإشراف على مستوى الشبكة: طرق التعلم من خلال الإشراف على مستوى الشبكة باستخدام تقريب الهيكل العظمي القابل للتفاضل
- محول الرؤية: تطبيق محولات الرؤية الهرمية مثل Hiera في رؤية الحاسوب
هذه الورقة هي الأولى التي تستكشف بشكل منهجي طرق عكس الهيكل العظمي للوجه القائمة على الصور، ملء فجوة مهمة في هذا المجال.
- التحقق من الفعالية: إطار عمل عكس الهيكل العظمي للوجه القائم على الصور قادر على دمج مدخلات المظهر والخريطة العادية بفعالية لاسترجاع معاملات الهيكل العظمي
- القدرة على التعميم: تعمم الطريقة بنجاح على البيانات الممسوحة ضوئياً، مما ينتج عنه نتائج إعادة بناء دقيقة
- القيمة العملية: توفير مسار تقني جديد للرسوم المتحركة والتقاط الأداء
- استراتيجية التجميد الجزئي: قد تحد الاستراتيجية الحالية للتجميد الجزئي من قدرة النموذج على التكيف
- تحديات حركة العين: تظل الحركات العينية المعقدة تشكل تحديات
- الاعتماد على البيانات: يعتمد أداء الطريقة على جودة وتنوع بيانات التدريب
تحدد الورقة بوضوح أن توسيع استراتيجية الضبط الدقيق إلى الشبكة بأكملها قد يحسن بشكل أكبر التكيف مع إعدادات عكس الهيكل العظمي.
- الابتكار التقني:
- أول استكشاف منهجي لعكس الهيكل العظمي للوجه القائم على الصور
- تصميم دمج ثنائي النمط ذكي
- معالجة الدقة العالية تحافظ على معلومات التفاصيل
- كفاية التجارب:
- تقييم شامل على البيانات الاصطناعية والحقيقية
- إعدادات تجريبية واضحة وتفاصيل التنفيذ
- تحليل دقيق لأداء مناطق الوجه المختلفة
- القيمة العملية:
- حل المشاكل الفعلية في الصناعة
- توفير حل شامل من الصورة مباشرة إلى معاملات الهيكل العظمي
- قدرة جيدة على التعميم على البيانات الممسوحة ضوئياً
- نقص التقييم الكمي: تفتقر الورقة إلى مقاييس تقييم كمية مفصلة ونتائج عددية
- عدم كفاية التجارب المقارنة: عدم إجراء مقارنات كافية مع طرق الأساس الأخرى
- نقص التجارب الاستئصالية: لا يوجد تحليل مفصل لمساهمة كل مكون
- حجم مجموعة البيانات: قد يكون حجم وتنوع مجموعة التحقق محدوداً
- المساهمة الأكاديمية: فتح اتجاه جديد لعكس الهيكل العظمي للوجه القائم على الصور
- التطبيق الصناعي: توفير تقنية عملية لصناعات الرسوم المتحركة والألعاب والواقع الافتراضي
- نشر التقنية: حالة تطبيق ناجحة لمحول Hiera في المجالات المتخصصة
- الرسوم المتحركة: إنشاء رسوم متحركة وجهية سريعة من صور المرجع
- التقاط الأداء: التقاط والتقاط تعابير الوجه في الوقت الفعلي
- التجسيدات الافتراضية: تعيين تعابير المستخدم في الوقت الفعلي إلى شخصيات افتراضية
- ما بعد الإنتاج السينمائي: التحكم الدقيق وتعديل تعابير الوجه
تتضمن المراجع الرئيسية:
- Bolduc & Phan (2022): طريقة عكس الهيكل العظمي من خلال تدريب دوال الهيكل العظمي القابلة للتفاضل
- Hatamizadeh et al. (2023): محول الرؤية الهرمي Hiera
- Sumner & Popović (2004): الطريقة الكلاسيكية لنقل التشوه للشبكات الثلاثية
- Holden et al. (2015): تعلم الحركية العكسية لوضعية الشخصية
- Rackovic et al. (2021): الهيكل العظمي العصبي RigNet للشخصيات المفصلية
التقييم الشامل: هذا عمل ذو أهمية رائدة في مجال عكس الهيكل العظمي للوجه، وعلى الرغم من أن هناك حاجة لتحسين اكتمال التقييم التجريبي، فإن ابتكاره التقني وقيمته العملية تجعله مساهمة مهمة في هذا المجال. توفر الورقة مسار تقني جديد لإنتاج الرسوم المتحركة الوجهية القائمة على الصور، مع آفاق تطبيق صناعي جيدة.