We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- पेपर ID: 2510.13978
- शीर्षक: वेब, मोबाइल और VR अनुप्रयोगों के लिए तत्काल स्किन्ड गॉसियन अवतार
- लेखक: नारुया कोंडो, यूतो असानो, योइची ओचियाई (त्सुकुबा विश्वविद्यालय)
- वर्गीकरण: cs.CG (कंप्यूटर ग्राफिक्स)
- प्रकाशन समय/सम्मेलन: SUI '25 (ACM सिम्पोजियम ऑन स्पेशियल यूजर इंटरएक्शन), 10-11 नवंबर, 2025, मॉन्ट्रियल, QC, कनाडा
- पेपर लिंक: https://arxiv.org/abs/2510.13978
यह पेपर तत्काल स्किन्ड गॉसियन अवतार प्रस्तुत करता है, जो एक वास्तविक समय क्रॉस-प्लेटफॉर्म 3D अवतार प्रणाली है। मौजूदा गॉसियन स्प्लैटिंग एनिमेशन विधियों को आमतौर पर कैमरा सरणियों, लंबे समय की पूर्व-प्रसंस्करण या उच्च-अंत GPU की आवश्यकता होती है। कुछ विधियां गॉसियन स्प्लैटिंग को जाल-आधारित प्रतिनिधित्व में परिवर्तित करने का प्रयास करती हैं, जो हल्के-फुल्के प्रदर्शन को प्राप्त करते हैं लेकिन दृश्य निष्ठा का त्याग करते हैं। इसके विपरीत, यह प्रणाली समानांतर स्प्लैट प्रसंस्करण के माध्यम से गॉसियन स्प्लैटिंग को कुशलतापूर्वक एनिमेट करती है, अंतर्निहित स्किन्ड जाल की गतिशील गतिविधियों का वास्तविक समय में पालन करती है, साथ ही उच्च दृश्य निष्ठा बनाए रखती है। स्मार्टफोन-आधारित 3D स्कैनिंग से लेकर डिवाइस-पक्ष पूर्व-प्रसंस्करण तक, संपूर्ण प्रक्रिया में केवल लगभग 5 मिनट लगते हैं, जिसमें अवतार निर्माण चरण स्वयं केवल लगभग 30 सेकंड लेता है। यह प्रणाली उपयोगकर्ताओं को तुरंत वास्तविक दुनिया के दिखावट को 3D अवतार में परिवर्तित करने में सक्षम बनाती है, जो सोशल मीडिया और मेटावर्स अनुप्रयोगों के साथ निर्बाध एकीकरण के लिए अत्यंत उपयुक्त है।
पारंपरिक 3D मानव अवतार निर्माण मैनुअल मॉडलिंग या फोटोग्रामेट्री पाइपलाइन पर निर्भर करता है, ये विधियां या तो समय-गहन हैं या पेशेवर उपकरण की आवश्यकता होती है। हालांकि गॉसियन स्प्लैटिंग तकनीक उच्च-निष्ठा दृश्य पुनर्निर्माण और वास्तविक समय प्रतिपादन में उत्कृष्ट प्रदर्शन करती है, मौजूदा गॉसियन स्प्लैटिंग एनिमेशन विधियों में निम्नलिखित सीमाएं हैं:
- उच्च हार्डवेयर आवश्यकताएं: कैमरा सरणियों, उच्च-अंत GPU जैसे महंगे उपकरणों की आवश्यकता
- लंबा पूर्व-प्रसंस्करण समय: ExAvatar को 2-3 घंटे की पूर्व-प्रसंस्करण समय की आवश्यकता होती है
- दृश्य निष्ठा हानि: जाल प्रतिनिधित्व में रूपांतरण अभिव्यक्ति को कम करता है
- कम पहुंच: सामान्य उपयोगकर्ताओं के लिए उपयोग करना मुश्किल है
यह अनुसंधान 3D अवतार निर्माण की पहुंच समस्या को हल करने का लक्ष्य रखता है, जिससे सामान्य उपयोगकर्ता तेजी से और सुविधाजनक तरीके से उच्च-गुणवत्ता के 3D अवतार बना सकें, जो निम्नलिखित के लिए महत्वपूर्ण है:
- सोशल मीडिया अनुप्रयोगों का प्रसार
- मेटावर्स प्लेटफॉर्म का उपयोगकर्ता अनुभव
- आभासी सम्मेलन और डिजिटल ट्विन अनुप्रयोग
- मोबाइल डिवाइस पर AR/VR अनुभव
- तीव्र अवतार निर्माण प्रणाली: स्कैनिंग से अवतार निर्माण तक केवल 5 मिनट की संपूर्ण प्रक्रिया प्रस्तावित की गई है, जिसमें मुख्य निर्माण चरण केवल 30 सेकंड लेता है
- कुशल एनिमेशन विधि: समानांतर स्प्लैट प्रसंस्करण के माध्यम से गॉसियन स्प्लैटिंग का वास्तविक समय एनिमेशन प्राप्त किया गया है, उच्च दृश्य निष्ठा बनाए रखते हुए
- क्रॉस-प्लेटफॉर्म संगतता: WebXR-आधारित कार्यान्वयन मोबाइल डिवाइस, VR हेडसेट और वेब प्लेटफॉर्म का समर्थन करता है
- मोबाइल डिवाइस अनुकूलन: विशेष रूप से मोबाइल डिवाइस प्रदर्शन के लिए अनुकूलित, iPhone 13 Pro पर 40-50 fps प्राप्त करता है
इनपुट: एकल कैमरे से कैप्चर किया गया छोटा वीडियो (Scaniverse एप्लिकेशन के माध्यम से)
आउटपुट: वास्तविक समय एनिमेशन योग्य उच्च-निष्ठा 3D अवतार
बाधा शर्तें:
- मोबाइल डिवाइस संगतता
- वास्तविक समय प्रतिपादन प्रदर्शन
- दृश्य निष्ठा बनाए रखना
प्रणाली का मुख्य विचार गॉसियन स्प्लैट्स को पृष्ठभूमि 3D जाल के शीर्ष गति का पालन करने देना है। पूर्व-प्रसंस्करण चरण में, स्प्लैट्स को जाल शीर्षों को सौंपा जाता है और सापेक्ष परिवर्तन संबंध संग्रहीत किए जाते हैं। रनटाइम पर, पृष्ठभूमि जाल को एनिमेट करके, गॉसियन स्प्लैट्स की स्थिति को समानांतर में अपडेट करके वास्तविक समय एनिमेशन प्राप्त किया जाता है।
चरण 1: 3D स्कैनिंग
- Scaniverse एप्लिकेशन का उपयोग करके गॉसियन स्प्लैटिंग प्रारूप में विषय कैप्चर करें
- विषय को A-pose में रखने की आवश्यकता है ताकि बाद की प्रसंस्करण को सरल बनाया जा सके
चरण 2: बिंदु क्लाउड फ़िल्टरिंग
- विषय से संबंधित नहीं बिंदुओं को हटाएं
- नियम-आधारित क्षैतिज और ऊर्ध्वाधर फ़िल्टरिंग
- स्प्लैट की स्थिति और पैमाने को सामान्य करें
चरण 3: मुद्रा अनुमान और जाल स्थिति
- विषय की सामने की दिशा और अंग कोण का अनुमान लगाएं
- समान स्थिति, मुद्रा और पैमाने पर पृष्ठभूमि 3D जाल रखें
चरण 4: स्प्लैट-शीर्ष बाइंडिंग
- निकटतम पड़ोसी खोज के माध्यम से प्रत्येक स्प्लैट के लिए निकटतम जाल शीर्ष चुनें
- सापेक्ष परिवर्तन संबंध की गणना करें
चरण 5: डेटा आउटपुट
- विषय मुद्रा, पैमाना, निकटतम शीर्ष सूचकांक और सापेक्ष परिवर्तन आउटपुट करें
प्रत्येक फ्रेम में तीन चरण:
- जाल एनिमेशन: पृष्ठभूमि स्किन्ड जाल को एनिमेट करें
- स्प्लैट अपडेट: गॉसियन स्प्लैट्स की स्थिति और दिशा को समानांतर में अपडेट करें
- गहराई सॉर्टिंग: प्रेक्षक के दृष्टिकोण के अनुसार स्प्लैट्स को सॉर्ट करें
पारंपरिक गतिशील गॉसियन स्प्लैटिंग को प्रत्येक फ्रेम में स्थिति डेटा अपडेट करने की आवश्यकता होती है, जिससे प्रदर्शन में गंभीर गिरावट आती है। यह पेपर समानांतर स्प्लैट प्रसंस्करण के माध्यम से इस समस्या को हल करता है।
सॉर्टिंग की कम्प्यूटेशनल लागत को कम करने के लिए, समूह सॉर्टिंग रणनीति अपनाई गई है:
- स्प्लैट्स को हड्डी स्तर पर समूहित करें
- व्यक्तिगत स्प्लैट सॉर्टिंग के बजाय समूह स्तर पर सॉर्ट करें
- समूह संख्या और हार्डवेयर क्षमता के बीच संतुलन प्राप्त करें
- 32k बहुभुज के VRM प्रारूप जाल का उपयोग करें
- JavaScript और Three.js पर आधारित ब्राउजर कार्यान्वयन
- मोबाइल GPU के लिए प्रदर्शन अनुकूलन
- विकास वातावरण: JavaScript + Three.js (ब्राउजर एप्लिकेशन)
- 3D स्कैनिंग: Scaniverse एप्लिकेशन
- पृष्ठभूमि जाल: VRM प्रारूप, 32k बहुभुज, तटस्थ शरीर प्रकार
- परीक्षण डिवाइस: iPhone 13 Pro, NVIDIA GeForce RTX 3060 वाला लैपटॉप
- कुल प्रसंस्करण समय: लगभग 5 मिनट (स्कैनिंग सहित)
- अवतार निर्माण समय: लगभग 30 सेकंड
- 3D पुनर्निर्माण समय: लगभग 1 मिनट (Scaniverse)
- प्रतिपादन फ्रेम दर: मोबाइल डिवाइस 40-50 fps, लैपटॉप 240 fps
समय दक्षता:
- संपूर्ण प्रवाह: ~5 मिनट
- अवतार निर्माण: ~30 सेकंड
- 3D स्कैनिंग: ~1 मिनट (iPhone 13 Pro)
प्रतिपादन प्रदर्शन:
- iPhone 13 Pro: 40-50 fps
- RTX 3060 लैपटॉप: 240 fps (डिस्प्ले रिफ्रेश दर द्वारा सीमित)
- उच्च स्वचालन: पूर्व-प्रसंस्करण चरण पूरी तरह स्वचालित है
- क्रॉस-प्लेटफॉर्म संगतता: मोबाइल डिवाइस, VR हेडसेट, वेब प्लेटफॉर्म का समर्थन करता है
- मानक प्रारूप समर्थन: VRM प्रारूप का उपयोग, मौजूदा अनुप्रयोगों के साथ एकीकरण में सुविधा
- वास्तविक समय प्रदर्शन: वास्तविक समय प्रतिपादन बनाए रखते हुए उच्च दृश्य गुणवत्ता
पेपर कई संबंधित कार्यों का हवाला देता है:
- GaussianAvatar1: एकल वीडियो से यथार्थवादी मानव अवतार निर्माण
- GauHuman2: वास्तविक समय 3D मानव प्रतिपादन के लिए संयुक्त गॉसियन स्प्लैटिंग
- HUGS4: मानव गॉसियन स्प्लैट्स
- ExAvatar6: अभिव्यक्तिपूर्ण पूर्ण-शरीर 3D गॉसियन अवतार
मौजूदा विधियों की तुलना में, इस पेपर के मुख्य लाभ हैं:
- प्रसंस्करण गति: ExAvatar के 2-3 घंटे की तुलना में केवल 30 सेकंड
- डिवाइस आवश्यकताएं: उच्च-अंत GPU या कैमरा सरणी की आवश्यकता नहीं
- पहुंच: पूरी तरह मोबाइल डिवाइस और ब्राउजर पर आधारित
- निष्ठा: गॉसियन स्प्लैटिंग की उच्च दृश्य गुणवत्ता बनाए रखता है
- तीव्र, उच्च-गुणवत्ता के 3D अवतार निर्माण प्रणाली का सफल कार्यान्वयन
- समानांतर प्रसंस्करण और समूह सॉर्टिंग के माध्यम से गतिशील गॉसियन स्प्लैटिंग की प्रदर्शन समस्या का प्रभावी समाधान
- WebXR-आधारित कार्यान्वयन क्रॉस-प्लेटफॉर्म संगतता सुनिश्चित करता है
- मोबाइल डिवाइस अनुकूलन सामान्य उपयोगकर्ताओं को सुविधाजनक उपयोग सक्षम बनाता है
- तीसरे पक्ष के एप्लिकेशन पर निर्भरता: 3D स्कैनिंग के लिए Scaniverse का उपयोग करने की आवश्यकता है
- मुद्रा बाधा: पूर्व-प्रसंस्करण के समय A-pose की आवश्यकता है, उपयोग के मामलों को सीमित करता है
- जाल सटीकता: पृष्ठभूमि जाल की गुणवत्ता अंतिम प्रभाव को प्रभावित कर सकती है
- समूह सॉर्टिंग व्यापार: मोबाइल संगतता के लिए कुछ प्रतिपादन सटीकता का त्याग
- अधिक 3D स्कैनिंग समाधान एकीकृत करें, विशिष्ट एप्लिकेशन पर निर्भरता कम करें
- अधिक विविध प्रारंभिक मुद्राओं का समर्थन करें
- समूह सॉर्टिंग एल्गोरिदम को अनुकूलित करें, प्रतिपादन गुणवत्ता में सुधार करें
- अधिक जटिल एनिमेशन दृश्यों तक विस्तार करें
- वास्तविक उपयोगकर्ता आवश्यकताओं को हल करता है
- संपूर्ण अंत-से-अंत समाधान
- अच्छा उपयोगकर्ता अनुभव डिजाइन
- प्रभावी समानांतर प्रसंस्करण समाधान
- चतुर समूह सॉर्टिंग अनुकूलन
- मोबाइल डिवाइस प्रदर्शन अनुकूलन
- व्यापक मोबाइल डिवाइस पर आधारित
- ब्राउजर कार्यान्वयन, स्थापना की आवश्यकता नहीं
- तीव्र प्रसंस्करण समय
- VRM मानक प्रारूप का उपयोग करता है
- मौजूदा पारिस्थितिकी तंत्र के साथ एकीकरण में सुविधा
- मुख्य विधि अपेक्षाकृत सरल है, तकनीकी गहराई सीमित है
- मुख्य रूप से इंजीनियरिंग अनुकूलन है, एल्गोरिदम नवाचार नहीं
- अन्य विधियों के साथ मात्रात्मक तुलना की कमी
- कोई उपयोगकर्ता अनुसंधान या गुणवत्ता मूल्यांकन नहीं
- विभिन्न परिस्थितियों में परीक्षण की कमी
- तीसरे पक्ष के Scaniverse एप्लिकेशन पर निर्भर है
- प्रारंभिक मुद्रा पर आवश्यकता है
- समूह सॉर्टिंग के विशिष्ट कार्यान्वयन विवरण पर्याप्त विस्तृत नहीं हैं
- विफलता केस विश्लेषण की कमी है
- मोबाइल पर गॉसियन स्प्लैटिंग के अनुप्रयोग के लिए संदर्भ प्रदान करता है
- व्यावहारिक प्रणाली डिजाइन के विचार प्रदर्शित करता है
- उच्च व्यावहारिक मूल्य, वास्तविक तैनाती के लिए उपयुक्त
- मेटावर्स और सोशल मीडिया अनुप्रयोगों के लिए महत्वपूर्ण है
- मानक तकनीकी स्टैक पर आधारित, पुनरुत्पादन में आसान
- खुला स्रोत संभावना बड़ी है
- सोशल मीडिया अनुप्रयोग: व्यक्तिगत अवतार का तीव्र निर्माण
- मेटावर्स प्लेटफॉर्म: उपयोगकर्ता पहचान प्रतिनिधित्व
- आभासी सम्मेलन: उपस्थिति की भावना में सुधार
- गेम अनुप्रयोग: चरित्र अनुकूलन
- AR/VR अनुभव: व्यक्तिगत आभासी छवि
पेपर 12 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से निम्नलिखित को कवर करता है:
- गॉसियन स्प्लैटिंग बुनियादी तकनीक3
- मानव अवतार निर्माण विधियां1,2,4,5,6,8,9,11,12
- 3D पुनर्निर्माण तकनीक10
- वाणिज्यिक स्कैनिंग एप्लिकेशन7
ये संदर्भ संबंधित अनुसंधान क्षेत्र को अच्छी तरह कवर करते हैं, इस पेपर के कार्य के लिए पर्याप्त पृष्ठभूमि समर्थन प्रदान करते हैं।
समग्र मूल्यांकन: यह एक बहुत ही व्यावहारिक प्रणाली पेपर है, हालांकि एल्गोरिदम नवाचार के संदर्भ में अपेक्षाकृत सीमित है, लेकिन वास्तविक समस्याओं को हल करने और पहुंच में सुधार करने में महत्वपूर्ण योगदान दिया है। इस प्रणाली की तीव्रता और मोबाइल संगतता इसे बहुत उच्च व्यावहारिक मूल्य देती है, जो वास्तविक अनुप्रयोगों में तैनाती के लिए उपयुक्त है।