We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
- पेपर ID: 2510.13933
- शीर्षक: Image-based Facial Rig Inversion
- लेखक: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
- संस्थान: University of Surrey & Humain Ltd.
- वर्गीकरण: eess.IV (छवि और वीडियो प्रसंस्करण)
- प्रकाशन समय: 15 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.13933v1
यह पेपर RGB उपस्थिति छवि और RGB एन्कोडित सामान्य मानचित्र दोनों तरीकों का उपयोग करके एक छवि-आधारित चेहरे की रिग व्युत्क्रम ढांचा प्रस्तावित करता है। प्रत्येक तरीका स्वतंत्र Hiera transformer बैकबोन नेटवर्क के माध्यम से संसाधित होता है, निकाली गई विशेषताओं को चेहरे की कार्रवाई कोडिंग प्रणाली (FACS) के आधार पर 102 रिग पैरामीटर में प्रतिगमन के लिए संलयित किया जाता है। सिंथेटिक और स्कैन किए गए डेटासेट पर प्रयोग दर्शाते हैं कि यह विधि स्कैन किए गए डेटा को सामान्यीकृत कर सकती है और विश्वसनीय पुनर्निर्माण परिणाम प्रदान करती है।
चेहरे की रिग व्युत्क्रम (Facial Rig Inversion) दृश्य इनपुट से रिग नियंत्रण पैरामीटर को सटीक रूप से पुनः प्राप्त करने की प्रक्रिया है, जो एनिमेशन, आभासी अवतार और प्रदर्शन कैप्चर पाइपलाइन में महत्वपूर्ण भूमिका निभाती है, जो उत्पादन संपत्तियों को सीधे नियंत्रित करने में सक्षम बनाती है।
- एनिमेशन आवश्यकताएं: आधुनिक एनिमेशन उत्पादन में, चेहरे की अभिव्यक्ति का सटीक नियंत्रण यथार्थवादी चरित्र एनिमेशन प्राप्त करने की कुंजी है
- आभासी अवतार अनुप्रयोग: मेटावर्स और आभासी वास्तविकता प्रौद्योगिकी के विकास के साथ, वास्तविक समय में सटीक चेहरे की अभिव्यक्ति कैप्चर तेजी से महत्वपूर्ण हो गई है
- प्रदर्शन कैप्चर पाइपलाइन: फिल्म, गेम और अन्य मनोरंजन उद्योगों के लिए उच्च गुणवत्ता की चेहरे की एनिमेशन निर्माण उपकरण प्रदान करता है
- प्रारंभिक विधियां: सांख्यिकीय या प्रतिगमन मॉडल पर निर्भर, एनिमेटर द्वारा बनाए गए डेटा पर प्रशिक्षित, सीमित सामान्यीकरण क्षमता
- जाल-आधारित विधियां: जानकारी से भरपूर होने के बावजूद, केवल अच्छी तरह से संरचित टोपोलॉजी तक सीमित, स्कैन किए गए डेटा के अनुकूलन में कमजोर
- छवि डोमेन अन्वेषण की कमी: अधिकांश पूर्व कार्य जाल-स्तरीय विशेषताओं पर निर्भर करते हैं, जबकि छवि इनपुट-आधारित दिशा अभी तक पर्याप्त रूप से अन्वेषित नहीं की गई है
छवि डोमेन इनपुट स्कैन किए गए डेटा को सामान्यीकृत करने का लाभ प्रदान करता है, यह दिशा महत्वपूर्ण व्यावहारिक मूल्य रखती है लेकिन अपर्याप्त रूप से अनुसंधान की गई है, इसलिए यह पेपर छवि-आधारित चेहरे की रिग व्युत्क्रम विधि विकसित करने पर केंद्रित है।
- द्वि-तरीका छवि प्रसंस्करण ढांचा: RGB उपस्थिति छवि और RGB एन्कोडित सामान्य मानचित्र को संयोजित करने वाली द्वि-शाखा नेटवर्क आर्किटेक्चर पहली बार प्रस्तावित करता है
- Hiera transformer अनुप्रयोग: नवीनतम Hiera दृश्य transformer को चेहरे की रिग व्युत्क्रम कार्य में लागू करता है
- बहु-पर्यवेक्षण शिक्षण रणनीति: रिग पैरामीटर स्पेस और 3D जाल स्पेस दोनों में एक साथ पर्यवेक्षण, संख्यात्मक सटीकता और ज्यामितीय सामंजस्य सुनिश्चित करता है
- स्कैन किए गए डेटा सामान्यीकरण: वास्तविक स्कैन किए गए डेटा पर विधि की सामान्यीकरण क्षमता को सत्यापित करता है, अनुसंधान अंतर को भरता है
उपस्थिति छवि Ia और सामान्य मानचित्र In दिए गए, फ़ंक्शन fθ:(Ia,In)→p∈R102 सीखें, जहां p लक्ष्य रिग के नियंत्रण पैरामीटर को दर्शाता है।
चित्र 1 में दिखाए गए अनुसार, प्रस्तावित द्वि-शाखा नेटवर्क आर्किटेक्चर में निम्नलिखित मुख्य घटक शामिल हैं:
- द्वि-शाखा विशेषता निष्कर्षण:
- RGB शाखा उपस्थिति छवि को संसाधित करती है, बनावट और प्रकाश जानकारी को कैप्चर करती है
- सामान्य मानचित्र शाखा ज्यामितीय जानकारी को संसाधित करती है, प्रत्येक पिक्सेल की सतह दिशा का वर्णन करती है
- Hiera बैकबोन नेटवर्क:
- प्रत्येक शाखा स्वतंत्र Hiera transformer बैकबोन नेटवर्क का उपयोग करती है
- इनपुट रिज़ॉल्यूशन पूर्व-प्रशिक्षित 224×224 से 512×512 तक बढ़ाया जाता है, महीन-दानेदार चेहरे की विशेषताओं को बनाए रखता है
- पहले तीन एन्कोडिंग चरण निम्न-स्तरीय विशेषताओं को संरक्षित करने के लिए फ्रीज किए जाते हैं, अंतिम चरण प्रशिक्षणीय है
- विशेषता संलयन और प्रतिगमन:
- निकाली गई विशेषताओं को बहु-परत परसेप्ट्रॉन (MLP) प्रतिगमन हेड में जोड़ा जाता है
- 102 FACS-व्युत्पन्न रिग नियंत्रण पैरामीटर आउटपुट करता है
- प्रोग्रामेटिक रिग डिकोडिंग:
- PyTorch में लागू प्रोग्रामेटिक रिग पैरामीटर को 3D जाल में डिकोड करता है
- कस्टम Maya चेहरे की रिग को प्रतिबिंबित करके जाल पुनर्निर्माण करता है
- छवि पूर्व-प्रसंस्करण: सभी छवियों को 512×512 पिक्सल में समायोजित किया जाता है, केंद्र में काटा जाता है और ImageNet आंकड़ों का उपयोग करके सामान्यीकृत किया जाता है
- सामान्य मानचित्र एन्कोडिंग: स्पर्शरेखा स्पेस में एन्कोडित, -1,1 श्रेणी की सतह सामान्य को 0,255 RGB श्रेणी में मैप किया जाता है
- रेंडरिंग सेटिंग्स: निश्चित रिज़ॉल्यूशन, स्थिर कैमरा मुद्रा और सुसंगत तीन-बिंदु प्रकाश
- बहु-तरीका संलयन रणनीति: उपस्थिति और ज्यामितीय जानकारी को चतुराई से संयोजित करता है, मजबूत पूरकता
- उच्च-रिज़ॉल्यूशन प्रसंस्करण: 512×512 इनपुट सूक्ष्म अभिव्यक्ति परिवर्तन को कैप्चर करने के लिए आवश्यक महीन-दानेदार बनावट और ज्यामितीय संकेत बनाए रखता है
- आंशिक फ्रीजिंग रणनीति: पूर्व-प्रशिक्षित मॉडल की निम्न-स्तरीय विशेषता परतों को फ्रीज करता है, सामान्य दृश्य प्रतिनिधित्व को बनाए रखते हुए विशिष्ट कार्य के अनुकूल
- दोहरी पर्यवेक्षण तंत्र: पैरामीटर स्पेस और जाल स्पेस का संयुक्त पर्यवेक्षण पूर्वानुमानित पैरामीटर की तर्कसंगतता सुनिश्चित करता है
- सिंथेटिक डेटा: विरूपण स्थानांतरण (DT) मिश्रित आकार रिग का उपयोग करके उत्पन्न
- पैरामीटर सक्रियण रणनीति: प्रत्येक रिग पैरामीटर स्वतंत्र रूप से सक्रिय, साथ ही 20 मैनुअल रूप से संयोजित मानक अभिव्यक्तियां
- डेटा वृद्धि:
- पैरामीटर यादृच्छिक ड्रॉपआउट, जोड़ना या प्रतिस्थापन वास्तविक प्रदर्शन परिवर्तन का अनुकरण करने के लिए
- सामान्य वितरण से नमूना पैरामीटर मान विभिन्न तीव्रता बनाने के लिए
- कठोर परिवर्तन वृद्धि स्कैन किए गए डेटा में सूक्ष्म गलतियों के प्रति मजबूती में सुधार करता है
- पैमाना: 22,575 प्रशिक्षण नमूने
- वास्तविक स्कैन किए गए डेटा: अभिनेता प्रदर्शन 20 अभिव्यक्तियों के स्कैन अनुक्रम शामिल
- उद्देश्य: वास्तविक डेटा पर मॉडल की सामान्यीकरण क्षमता का मूल्यांकन
- अनुकूलक: AdamW, सीखने की दर 1×10^-4
- प्रशिक्षण युग: 200 epochs, बैच आकार 32
- हार्डवेयर: एकल NVIDIA 4080 Laptop GPU
- प्रशिक्षण चरण: लगभग 141k चरण (प्रति युग 706 पुनरावृत्तियां)
संयुक्त हानि फ़ंक्शन में शामिल हैं:
- पैरामीटर स्पेस हानि: पूर्वानुमानित और वास्तविक रिग पैरामीटर के बीच माध्य वर्ग त्रुटि (MSE)
- जाल स्पेस हानि: प्रोग्रामेटिक रिग के माध्यम से पुनर्निर्मित जाल की L1 हानि
स्कैन किए गए डेटा पर मॉडल का मूल्यांकन, पूर्वानुमानित पैरामीटर को प्रशिक्षण के दौरान उपयोग की गई DT मिश्रित आकार रिग में लागू किया जाता है जाल पुनर्निर्माण के लिए।
चित्र 2 में दिखाए गए पुनर्निर्माण परिणाम दर्शाते हैं:
- मुंह क्षेत्र उत्कृष्ट प्रदर्शन: पूर्वानुमान मुंह क्षेत्र में विशेष रूप से मजबूत है, जटिल मुंह अभिव्यक्तियों को सटीक रूप से कैप्चर कर सकता है
- आंख आंदोलन चुनौती: ऊपर, नीचे या पार्श्व दिशा में देखने की दिशा रिग व्युत्क्रम के लिए अपेक्षाकृत अधिक चुनौतीपूर्ण है
- समग्र विश्वसनीयता: पुनर्निर्माण परिणाम इनपुट स्कैन किए गए अभिव्यक्ति के लिए दृश्य रूप से विश्वसनीय हैं
प्रयोग सिंथेटिक प्रशिक्षण डेटा से वास्तविक स्कैन किए गए डेटा तक विधि की अच्छी सामान्यीकरण क्षमता को प्रदर्शित करता है, यह जाल-आधारित विधियों के सापेक्ष छवि-आधारित विधियों का महत्वपूर्ण लाभ है।
- सांख्यिकीय प्रतिगमन मॉडल: प्रारंभिक विधियां एनिमेटर द्वारा बनाए गए डेटा पर प्रशिक्षित सांख्यिकीय या प्रतिगमन मॉडल पर निर्भर करती हैं
- व्युत्क्रम गतिकी सीखना: Holden आदि की चरित्र मुद्रा व्युत्क्रम गतिकी सीखने की विधि
- तंत्रिका रिग: RigNet आदि तंत्रिका रिग विधियां संयुक्त चरित्रों के लिए स्वचालित रिग प्रदान करती हैं
- अवकलनीय रिग: Bolduc और Phan द्वारा अवकलनीय रिग फ़ंक्शन प्रशिक्षण के माध्यम से रिग व्युत्क्रम
- जाल-स्तरीय पर्यवेक्षण: अवकलनीय रिग सन्निकटन के माध्यम से जाल-स्तरीय पर्यवेक्षण लागू करने वाली शिक्षण विधियां
- दृश्य transformer: Hiera आदि पदानुक्रमित दृश्य transformer कंप्यूटर दृष्टि में अनुप्रयोग
यह पेपर छवि-आधारित चेहरे की रिग व्युत्क्रम विधि का पहला व्यवस्थित अन्वेषण है, इस क्षेत्र के महत्वपूर्ण अंतर को भरता है।
- प्रभावशीलता सत्यापन: छवि-आधारित चेहरे की रिग व्युत्क्रम ढांचा उपस्थिति और सामान्य इनपुट को प्रभावी रूप से संयोजित कर रिग पैरामीटर पुनः प्राप्त कर सकता है
- सामान्यीकरण क्षमता: विधि स्कैन किए गए डेटा को सफलतापूर्वक सामान्यीकृत करती है, विश्वसनीय पुनर्निर्माण परिणाम प्रदान करती है
- व्यावहारिक मूल्य: एनिमेशन और प्रदर्शन कैप्चर के लिए नई तकनीकी पथ प्रदान करता है
- आंशिक फ्रीजिंग रणनीति: वर्तमान आंशिक फ्रीजिंग रणनीति मॉडल की अनुकूलन क्षमता को सीमित कर सकती है
- दृष्टि दिशा चुनौती: जटिल आंख आंदोलन अभी भी चुनौतीपूर्ण हैं
- डेटा निर्भरता: विधि प्रदर्शन प्रशिक्षण डेटा की गुणवत्ता और विविधता पर निर्भर करता है
पेपर स्पष्ट रूप से पूरे नेटवर्क में माइक्रो-ट्यूनिंग रणनीति का विस्तार करने का प्रस्ताव देता है जो रिग व्युत्क्रम सेटिंग्स के अनुकूलन को और बेहतर बना सकता है।
- तकनीकी नवाचार:
- छवि-आधारित चेहरे की रिग व्युत्क्रम का पहला व्यवस्थित अन्वेषण
- चतुर द्वि-तरीका संलयन डिजाइन
- उच्च-रिज़ॉल्यूशन प्रसंस्करण विवरण जानकारी बनाए रखता है
- प्रयोग पूर्णता:
- सिंथेटिक और वास्तविक डेटा का व्यापक मूल्यांकन
- स्पष्ट प्रयोग सेटअप और कार्यान्वयन विवरण
- विभिन्न चेहरे क्षेत्रों के प्रदर्शन का सूक्ष्म विश्लेषण
- व्यावहारिक मूल्य:
- औद्योगिक वास्तविक आवश्यकताओं को हल करता है
- छवि से सीधे रिग पैरामीटर तक अंत-से-अंत समाधान प्रदान करता है
- अच्छी स्कैन किए गए डेटा सामान्यीकरण क्षमता
- मात्रात्मक मूल्यांकन की कमी: पेपर में विस्तृत मात्रात्मक मूल्यांकन मेट्रिक्स और संख्यात्मक परिणामों की कमी है
- तुलनात्मक प्रयोग अपर्याप्त: अन्य आधारभूत विधियों के साथ पर्याप्त तुलना नहीं की गई है
- विलोपन प्रयोग की कमी: विभिन्न घटकों के योगदान का विस्तृत विश्लेषण नहीं है
- डेटासेट पैमाना: सत्यापन सेट का पैमाना और विविधता सीमित हो सकती है
- शैक्षणिक योगदान: छवि-आधारित चेहरे की रिग व्युत्क्रम की नई दिशा खोलता है
- औद्योगिक अनुप्रयोग: एनिमेशन, गेम, आभासी वास्तविकता आदि उद्योगों के लिए व्यावहारिक तकनीक प्रदान करता है
- तकनीकी प्रचार: Hiera transformer के पेशेवर क्षेत्र में सफल अनुप्रयोग का उदाहरण
- एनिमेशन उत्पादन: संदर्भ छवि से तेजी से चेहरे की एनिमेशन उत्पन्न करना
- प्रदर्शन कैप्चर: वास्तविक समय में चेहरे की अभिव्यक्ति कैप्चर और पुनर्निर्माण
- आभासी अवतार: उपयोगकर्ता अभिव्यक्ति से आभासी चरित्र तक वास्तविक समय मानचित्रण
- फिल्म पोस्ट-प्रोडक्शन: चेहरे की अभिव्यक्ति का सटीक नियंत्रण और समायोजन
मुख्य संदर्भ में शामिल हैं:
- Bolduc & Phan (2022): अवकलनीय रिग फ़ंक्शन प्रशिक्षण की रिग व्युत्क्रम विधि
- Hatamizadeh et al. (2023): Hiera पदानुक्रमित दृश्य transformer
- Sumner & Popović (2004): त्रिकोणीय जाल विरूपण स्थानांतरण की शास्त्रीय विधि
- Holden et al. (2015): चरित्र मुद्रा व्युत्क्रम गतिकी सीखना
- Rackovic et al. (2021): संयुक्त चरित्रों के लिए तंत्रिका रिग RigNet
समग्र मूल्यांकन: यह चेहरे की रिग व्युत्क्रम क्षेत्र में ऐतिहासिक महत्व का एक कार्य है, हालांकि प्रयोग मूल्यांकन की पूर्णता में सुधार की आवश्यकता है, लेकिन इसकी तकनीकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का महत्वपूर्ण योगदान बनाते हैं। पेपर छवि-आधारित चेहरे की एनिमेशन निर्माण के लिए नई तकनीकी पथ प्रदान करता है, जिसमें अच्छी औद्योगिक अनुप्रयोग संभावनाएं हैं।