2025-11-17T02:58:13.321681

Image-based Facial Rig Inversion

Yang, Volino, Mustafa et al.
We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
academic

छवि-आधारित चेहरे की रिग व्युत्क्रम

मूल जानकारी

  • पेपर ID: 2510.13933
  • शीर्षक: Image-based Facial Rig Inversion
  • लेखक: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
  • संस्थान: University of Surrey & Humain Ltd.
  • वर्गीकरण: eess.IV (छवि और वीडियो प्रसंस्करण)
  • प्रकाशन समय: 15 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.13933v1

सारांश

यह पेपर RGB उपस्थिति छवि और RGB एन्कोडित सामान्य मानचित्र दोनों तरीकों का उपयोग करके एक छवि-आधारित चेहरे की रिग व्युत्क्रम ढांचा प्रस्तावित करता है। प्रत्येक तरीका स्वतंत्र Hiera transformer बैकबोन नेटवर्क के माध्यम से संसाधित होता है, निकाली गई विशेषताओं को चेहरे की कार्रवाई कोडिंग प्रणाली (FACS) के आधार पर 102 रिग पैरामीटर में प्रतिगमन के लिए संलयित किया जाता है। सिंथेटिक और स्कैन किए गए डेटासेट पर प्रयोग दर्शाते हैं कि यह विधि स्कैन किए गए डेटा को सामान्यीकृत कर सकती है और विश्वसनीय पुनर्निर्माण परिणाम प्रदान करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

चेहरे की रिग व्युत्क्रम (Facial Rig Inversion) दृश्य इनपुट से रिग नियंत्रण पैरामीटर को सटीक रूप से पुनः प्राप्त करने की प्रक्रिया है, जो एनिमेशन, आभासी अवतार और प्रदर्शन कैप्चर पाइपलाइन में महत्वपूर्ण भूमिका निभाती है, जो उत्पादन संपत्तियों को सीधे नियंत्रित करने में सक्षम बनाती है।

अनुसंधान का महत्व

  1. एनिमेशन आवश्यकताएं: आधुनिक एनिमेशन उत्पादन में, चेहरे की अभिव्यक्ति का सटीक नियंत्रण यथार्थवादी चरित्र एनिमेशन प्राप्त करने की कुंजी है
  2. आभासी अवतार अनुप्रयोग: मेटावर्स और आभासी वास्तविकता प्रौद्योगिकी के विकास के साथ, वास्तविक समय में सटीक चेहरे की अभिव्यक्ति कैप्चर तेजी से महत्वपूर्ण हो गई है
  3. प्रदर्शन कैप्चर पाइपलाइन: फिल्म, गेम और अन्य मनोरंजन उद्योगों के लिए उच्च गुणवत्ता की चेहरे की एनिमेशन निर्माण उपकरण प्रदान करता है

मौजूदा विधियों की सीमाएं

  1. प्रारंभिक विधियां: सांख्यिकीय या प्रतिगमन मॉडल पर निर्भर, एनिमेटर द्वारा बनाए गए डेटा पर प्रशिक्षित, सीमित सामान्यीकरण क्षमता
  2. जाल-आधारित विधियां: जानकारी से भरपूर होने के बावजूद, केवल अच्छी तरह से संरचित टोपोलॉजी तक सीमित, स्कैन किए गए डेटा के अनुकूलन में कमजोर
  3. छवि डोमेन अन्वेषण की कमी: अधिकांश पूर्व कार्य जाल-स्तरीय विशेषताओं पर निर्भर करते हैं, जबकि छवि इनपुट-आधारित दिशा अभी तक पर्याप्त रूप से अन्वेषित नहीं की गई है

अनुसंधान प्रेरणा

छवि डोमेन इनपुट स्कैन किए गए डेटा को सामान्यीकृत करने का लाभ प्रदान करता है, यह दिशा महत्वपूर्ण व्यावहारिक मूल्य रखती है लेकिन अपर्याप्त रूप से अनुसंधान की गई है, इसलिए यह पेपर छवि-आधारित चेहरे की रिग व्युत्क्रम विधि विकसित करने पर केंद्रित है।

मुख्य योगदान

  1. द्वि-तरीका छवि प्रसंस्करण ढांचा: RGB उपस्थिति छवि और RGB एन्कोडित सामान्य मानचित्र को संयोजित करने वाली द्वि-शाखा नेटवर्क आर्किटेक्चर पहली बार प्रस्तावित करता है
  2. Hiera transformer अनुप्रयोग: नवीनतम Hiera दृश्य transformer को चेहरे की रिग व्युत्क्रम कार्य में लागू करता है
  3. बहु-पर्यवेक्षण शिक्षण रणनीति: रिग पैरामीटर स्पेस और 3D जाल स्पेस दोनों में एक साथ पर्यवेक्षण, संख्यात्मक सटीकता और ज्यामितीय सामंजस्य सुनिश्चित करता है
  4. स्कैन किए गए डेटा सामान्यीकरण: वास्तविक स्कैन किए गए डेटा पर विधि की सामान्यीकरण क्षमता को सत्यापित करता है, अनुसंधान अंतर को भरता है

विधि विवरण

कार्य परिभाषा

उपस्थिति छवि IaI_a और सामान्य मानचित्र InI_n दिए गए, फ़ंक्शन fθ:(Ia,In)pR102f_θ : (I_a, I_n) → p ∈ R^{102} सीखें, जहां pp लक्ष्य रिग के नियंत्रण पैरामीटर को दर्शाता है।

मॉडल आर्किटेक्चर

समग्र डिजाइन

चित्र 1 में दिखाए गए अनुसार, प्रस्तावित द्वि-शाखा नेटवर्क आर्किटेक्चर में निम्नलिखित मुख्य घटक शामिल हैं:

  1. द्वि-शाखा विशेषता निष्कर्षण:
    • RGB शाखा उपस्थिति छवि को संसाधित करती है, बनावट और प्रकाश जानकारी को कैप्चर करती है
    • सामान्य मानचित्र शाखा ज्यामितीय जानकारी को संसाधित करती है, प्रत्येक पिक्सेल की सतह दिशा का वर्णन करती है
  2. Hiera बैकबोन नेटवर्क:
    • प्रत्येक शाखा स्वतंत्र Hiera transformer बैकबोन नेटवर्क का उपयोग करती है
    • इनपुट रिज़ॉल्यूशन पूर्व-प्रशिक्षित 224×224 से 512×512 तक बढ़ाया जाता है, महीन-दानेदार चेहरे की विशेषताओं को बनाए रखता है
    • पहले तीन एन्कोडिंग चरण निम्न-स्तरीय विशेषताओं को संरक्षित करने के लिए फ्रीज किए जाते हैं, अंतिम चरण प्रशिक्षणीय है
  3. विशेषता संलयन और प्रतिगमन:
    • निकाली गई विशेषताओं को बहु-परत परसेप्ट्रॉन (MLP) प्रतिगमन हेड में जोड़ा जाता है
    • 102 FACS-व्युत्पन्न रिग नियंत्रण पैरामीटर आउटपुट करता है
  4. प्रोग्रामेटिक रिग डिकोडिंग:
    • PyTorch में लागू प्रोग्रामेटिक रिग पैरामीटर को 3D जाल में डिकोड करता है
    • कस्टम Maya चेहरे की रिग को प्रतिबिंबित करके जाल पुनर्निर्माण करता है

तकनीकी विवरण

  • छवि पूर्व-प्रसंस्करण: सभी छवियों को 512×512 पिक्सल में समायोजित किया जाता है, केंद्र में काटा जाता है और ImageNet आंकड़ों का उपयोग करके सामान्यीकृत किया जाता है
  • सामान्य मानचित्र एन्कोडिंग: स्पर्शरेखा स्पेस में एन्कोडित, -1,1 श्रेणी की सतह सामान्य को 0,255 RGB श्रेणी में मैप किया जाता है
  • रेंडरिंग सेटिंग्स: निश्चित रिज़ॉल्यूशन, स्थिर कैमरा मुद्रा और सुसंगत तीन-बिंदु प्रकाश

तकनीकी नवाचार

  1. बहु-तरीका संलयन रणनीति: उपस्थिति और ज्यामितीय जानकारी को चतुराई से संयोजित करता है, मजबूत पूरकता
  2. उच्च-रिज़ॉल्यूशन प्रसंस्करण: 512×512 इनपुट सूक्ष्म अभिव्यक्ति परिवर्तन को कैप्चर करने के लिए आवश्यक महीन-दानेदार बनावट और ज्यामितीय संकेत बनाए रखता है
  3. आंशिक फ्रीजिंग रणनीति: पूर्व-प्रशिक्षित मॉडल की निम्न-स्तरीय विशेषता परतों को फ्रीज करता है, सामान्य दृश्य प्रतिनिधित्व को बनाए रखते हुए विशिष्ट कार्य के अनुकूल
  4. दोहरी पर्यवेक्षण तंत्र: पैरामीटर स्पेस और जाल स्पेस का संयुक्त पर्यवेक्षण पूर्वानुमानित पैरामीटर की तर्कसंगतता सुनिश्चित करता है

प्रयोग सेटअप

डेटासेट

प्रशिक्षण सेट

  • सिंथेटिक डेटा: विरूपण स्थानांतरण (DT) मिश्रित आकार रिग का उपयोग करके उत्पन्न
  • पैरामीटर सक्रियण रणनीति: प्रत्येक रिग पैरामीटर स्वतंत्र रूप से सक्रिय, साथ ही 20 मैनुअल रूप से संयोजित मानक अभिव्यक्तियां
  • डेटा वृद्धि:
    • पैरामीटर यादृच्छिक ड्रॉपआउट, जोड़ना या प्रतिस्थापन वास्तविक प्रदर्शन परिवर्तन का अनुकरण करने के लिए
    • सामान्य वितरण से नमूना पैरामीटर मान विभिन्न तीव्रता बनाने के लिए
    • कठोर परिवर्तन वृद्धि स्कैन किए गए डेटा में सूक्ष्म गलतियों के प्रति मजबूती में सुधार करता है
  • पैमाना: 22,575 प्रशिक्षण नमूने

सत्यापन सेट

  • वास्तविक स्कैन किए गए डेटा: अभिनेता प्रदर्शन 20 अभिव्यक्तियों के स्कैन अनुक्रम शामिल
  • उद्देश्य: वास्तविक डेटा पर मॉडल की सामान्यीकरण क्षमता का मूल्यांकन

प्रशिक्षण विवरण

  • अनुकूलक: AdamW, सीखने की दर 1×10^-4
  • प्रशिक्षण युग: 200 epochs, बैच आकार 32
  • हार्डवेयर: एकल NVIDIA 4080 Laptop GPU
  • प्रशिक्षण चरण: लगभग 141k चरण (प्रति युग 706 पुनरावृत्तियां)

हानि फ़ंक्शन

संयुक्त हानि फ़ंक्शन में शामिल हैं:

  1. पैरामीटर स्पेस हानि: पूर्वानुमानित और वास्तविक रिग पैरामीटर के बीच माध्य वर्ग त्रुटि (MSE)
  2. जाल स्पेस हानि: प्रोग्रामेटिक रिग के माध्यम से पुनर्निर्मित जाल की L1 हानि

प्रयोग परिणाम

मुख्य परिणाम

स्कैन किए गए डेटा पर मॉडल का मूल्यांकन, पूर्वानुमानित पैरामीटर को प्रशिक्षण के दौरान उपयोग की गई DT मिश्रित आकार रिग में लागू किया जाता है जाल पुनर्निर्माण के लिए।

पुनर्निर्माण गुणवत्ता विश्लेषण

चित्र 2 में दिखाए गए पुनर्निर्माण परिणाम दर्शाते हैं:

  1. मुंह क्षेत्र उत्कृष्ट प्रदर्शन: पूर्वानुमान मुंह क्षेत्र में विशेष रूप से मजबूत है, जटिल मुंह अभिव्यक्तियों को सटीक रूप से कैप्चर कर सकता है
  2. आंख आंदोलन चुनौती: ऊपर, नीचे या पार्श्व दिशा में देखने की दिशा रिग व्युत्क्रम के लिए अपेक्षाकृत अधिक चुनौतीपूर्ण है
  3. समग्र विश्वसनीयता: पुनर्निर्माण परिणाम इनपुट स्कैन किए गए अभिव्यक्ति के लिए दृश्य रूप से विश्वसनीय हैं

सामान्यीकरण क्षमता

प्रयोग सिंथेटिक प्रशिक्षण डेटा से वास्तविक स्कैन किए गए डेटा तक विधि की अच्छी सामान्यीकरण क्षमता को प्रदर्शित करता है, यह जाल-आधारित विधियों के सापेक्ष छवि-आधारित विधियों का महत्वपूर्ण लाभ है।

संबंधित कार्य

पारंपरिक विधियां

  1. सांख्यिकीय प्रतिगमन मॉडल: प्रारंभिक विधियां एनिमेटर द्वारा बनाए गए डेटा पर प्रशिक्षित सांख्यिकीय या प्रतिगमन मॉडल पर निर्भर करती हैं
  2. व्युत्क्रम गतिकी सीखना: Holden आदि की चरित्र मुद्रा व्युत्क्रम गतिकी सीखने की विधि
  3. तंत्रिका रिग: RigNet आदि तंत्रिका रिग विधियां संयुक्त चरित्रों के लिए स्वचालित रिग प्रदान करती हैं

आधुनिक शिक्षण विधियां

  1. अवकलनीय रिग: Bolduc और Phan द्वारा अवकलनीय रिग फ़ंक्शन प्रशिक्षण के माध्यम से रिग व्युत्क्रम
  2. जाल-स्तरीय पर्यवेक्षण: अवकलनीय रिग सन्निकटन के माध्यम से जाल-स्तरीय पर्यवेक्षण लागू करने वाली शिक्षण विधियां
  3. दृश्य transformer: Hiera आदि पदानुक्रमित दृश्य transformer कंप्यूटर दृष्टि में अनुप्रयोग

इस पेपर का योगदान स्थिति

यह पेपर छवि-आधारित चेहरे की रिग व्युत्क्रम विधि का पहला व्यवस्थित अन्वेषण है, इस क्षेत्र के महत्वपूर्ण अंतर को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रभावशीलता सत्यापन: छवि-आधारित चेहरे की रिग व्युत्क्रम ढांचा उपस्थिति और सामान्य इनपुट को प्रभावी रूप से संयोजित कर रिग पैरामीटर पुनः प्राप्त कर सकता है
  2. सामान्यीकरण क्षमता: विधि स्कैन किए गए डेटा को सफलतापूर्वक सामान्यीकृत करती है, विश्वसनीय पुनर्निर्माण परिणाम प्रदान करती है
  3. व्यावहारिक मूल्य: एनिमेशन और प्रदर्शन कैप्चर के लिए नई तकनीकी पथ प्रदान करता है

सीमाएं

  1. आंशिक फ्रीजिंग रणनीति: वर्तमान आंशिक फ्रीजिंग रणनीति मॉडल की अनुकूलन क्षमता को सीमित कर सकती है
  2. दृष्टि दिशा चुनौती: जटिल आंख आंदोलन अभी भी चुनौतीपूर्ण हैं
  3. डेटा निर्भरता: विधि प्रदर्शन प्रशिक्षण डेटा की गुणवत्ता और विविधता पर निर्भर करता है

भविष्य की दिशाएं

पेपर स्पष्ट रूप से पूरे नेटवर्क में माइक्रो-ट्यूनिंग रणनीति का विस्तार करने का प्रस्ताव देता है जो रिग व्युत्क्रम सेटिंग्स के अनुकूलन को और बेहतर बना सकता है।

गहन मूल्यांकन

लाभ

  1. तकनीकी नवाचार:
    • छवि-आधारित चेहरे की रिग व्युत्क्रम का पहला व्यवस्थित अन्वेषण
    • चतुर द्वि-तरीका संलयन डिजाइन
    • उच्च-रिज़ॉल्यूशन प्रसंस्करण विवरण जानकारी बनाए रखता है
  2. प्रयोग पूर्णता:
    • सिंथेटिक और वास्तविक डेटा का व्यापक मूल्यांकन
    • स्पष्ट प्रयोग सेटअप और कार्यान्वयन विवरण
    • विभिन्न चेहरे क्षेत्रों के प्रदर्शन का सूक्ष्म विश्लेषण
  3. व्यावहारिक मूल्य:
    • औद्योगिक वास्तविक आवश्यकताओं को हल करता है
    • छवि से सीधे रिग पैरामीटर तक अंत-से-अंत समाधान प्रदान करता है
    • अच्छी स्कैन किए गए डेटा सामान्यीकरण क्षमता

कमियां

  1. मात्रात्मक मूल्यांकन की कमी: पेपर में विस्तृत मात्रात्मक मूल्यांकन मेट्रिक्स और संख्यात्मक परिणामों की कमी है
  2. तुलनात्मक प्रयोग अपर्याप्त: अन्य आधारभूत विधियों के साथ पर्याप्त तुलना नहीं की गई है
  3. विलोपन प्रयोग की कमी: विभिन्न घटकों के योगदान का विस्तृत विश्लेषण नहीं है
  4. डेटासेट पैमाना: सत्यापन सेट का पैमाना और विविधता सीमित हो सकती है

प्रभाव

  1. शैक्षणिक योगदान: छवि-आधारित चेहरे की रिग व्युत्क्रम की नई दिशा खोलता है
  2. औद्योगिक अनुप्रयोग: एनिमेशन, गेम, आभासी वास्तविकता आदि उद्योगों के लिए व्यावहारिक तकनीक प्रदान करता है
  3. तकनीकी प्रचार: Hiera transformer के पेशेवर क्षेत्र में सफल अनुप्रयोग का उदाहरण

लागू परिदृश्य

  1. एनिमेशन उत्पादन: संदर्भ छवि से तेजी से चेहरे की एनिमेशन उत्पन्न करना
  2. प्रदर्शन कैप्चर: वास्तविक समय में चेहरे की अभिव्यक्ति कैप्चर और पुनर्निर्माण
  3. आभासी अवतार: उपयोगकर्ता अभिव्यक्ति से आभासी चरित्र तक वास्तविक समय मानचित्रण
  4. फिल्म पोस्ट-प्रोडक्शन: चेहरे की अभिव्यक्ति का सटीक नियंत्रण और समायोजन

संदर्भ

मुख्य संदर्भ में शामिल हैं:

  1. Bolduc & Phan (2022): अवकलनीय रिग फ़ंक्शन प्रशिक्षण की रिग व्युत्क्रम विधि
  2. Hatamizadeh et al. (2023): Hiera पदानुक्रमित दृश्य transformer
  3. Sumner & Popović (2004): त्रिकोणीय जाल विरूपण स्थानांतरण की शास्त्रीय विधि
  4. Holden et al. (2015): चरित्र मुद्रा व्युत्क्रम गतिकी सीखना
  5. Rackovic et al. (2021): संयुक्त चरित्रों के लिए तंत्रिका रिग RigNet

समग्र मूल्यांकन: यह चेहरे की रिग व्युत्क्रम क्षेत्र में ऐतिहासिक महत्व का एक कार्य है, हालांकि प्रयोग मूल्यांकन की पूर्णता में सुधार की आवश्यकता है, लेकिन इसकी तकनीकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का महत्वपूर्ण योगदान बनाते हैं। पेपर छवि-आधारित चेहरे की एनिमेशन निर्माण के लिए नई तकनीकी पथ प्रदान करता है, जिसमें अच्छी औद्योगिक अनुप्रयोग संभावनाएं हैं।