We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- معرّف الورقة: 2510.13978
- العنوان: الصور الرمزية الغاوسية ذات الجلد الفوري لتطبيقات الويب والهاتف المحمول وتطبيقات الواقع الافتراضي
- المؤلفون: ناروya كوندو، يوتو أسانو، يويتشي أوتشياي (جامعة تسوكوبا)
- التصنيف: cs.CG (رسومات الحاسوب)
- وقت النشر/المؤتمر: SUI '25 (ندوة ACM حول التفاعل المكاني للمستخدم)، 10-11 نوفمبر 2025، مونتريال، كيبيك، كندا
- رابط الورقة: https://arxiv.org/abs/2510.13978
تقدم هذه الورقة نظام الصور الرمزية الغاوسية ذات الجلد الفوري، وهو نظام صور رمزية ثلاثية الأبعاد في الوقت الفعلي عبر الأنظمة الأساسية. عادة ما تتطلب طرق رسم Gaussian Splatting المتحركة مصفوفات كاميرا أو معالجة مسبقة طويلة أو وحدات معالجة رسومات عالية الأداء. تحاول بعض الطرق تحويل Gaussian Splatting إلى تمثيل قائم على الشبكة، وعلى الرغم من تحقيق أداء خفيفة الوزن، إلا أنها تضحي بدقة الرؤية. في المقابل، يحقق هذا النظام رسم متحرك فعال لـ Gaussian Splatting من خلال معالجة splat متوازية، مما يتابع في الوقت الفعلي التغييرات الديناميكية للشبكة ذات الجلد الأساسية مع الحفاظ على دقة رؤية عالية. من المسح ثلاثي الأبعاد القائم على الهاتف الذكي إلى المعالجة المسبقة على الجهاز، تستغرق العملية برمتها حوالي 5 دقائق فقط، حيث تستغرق خطوة إنشاء الصورة الرمزية نفسها حوالي 30 ثانية فقط. يمكّن هذا النظام المستخدمين من تحويل المظهر من العالم الحقيقي على الفور إلى صورة رمزية ثلاثية الأبعاد، وهو مثالي للتكامل السلس مع تطبيقات وسائل التواصل الاجتماعي وتطبيقات الميتافيرس.
يعتمد إنشاء الصور الرمزية ثلاثية الأبعاد التقليدية على النمذجة اليدوية أو خطوط أنابيب القياس الفوتوغرافي، وهذه الطرق إما تستغرق وقتاً طويلاً وتتطلب جهداً كبيراً أو تتطلب معدات متخصصة. على الرغم من أن تقنية Gaussian Splatting أظهرت تفوقاً في إعادة بناء المشاهد عالية الدقة والعرض في الوقت الفعلي، إلا أن طرق رسم Gaussian Splatting المتحركة الحالية تعاني من القيود التالية:
- متطلبات الأجهزة العالية: تتطلب مصفوفات كاميرا ووحدات معالجة رسومات عالية الأداء وغيرها من المعدات المكلفة
- وقت المعالجة المسبقة الطويل: يتطلب ExAvatar وقت معالجة مسبقة من 2-3 ساعات
- فقدان دقة الرؤية: يؤدي التحويل إلى تمثيل الشبكة إلى تقليل القدرة التعبيرية
- إمكانية الوصول الضعيفة: يصعب على المستخدمين العاديين استخدامها
يهدف هذا البحث إلى حل مشكلة إمكانية الوصول إلى إنشاء الصور الرمزية ثلاثية الأبعاد، مما يمكّن المستخدمين العاديين من إنشاء صور رمزية ثلاثية الأبعاد عالية الجودة بسرعة وسهولة، وهو أمر ذو أهمية كبيرة لـ:
- انتشار تطبيقات وسائل التواصل الاجتماعي
- تحسين تجربة المستخدم على منصات الميتافيرس
- تطبيقات الاجتماعات الافتراضية والتوأم الرقمي
- تجارب الواقع المعزز/الواقع الافتراضي على أجهزة الهاتف المحمول
- نظام إنشاء صور رمزية سريع: يقدم عملية كاملة من المسح إلى إنشاء الصورة الرمزية تستغرق 5 دقائق فقط، حيث تستغرق خطوة الإنشاء الأساسية 30 ثانية فقط
- طريقة رسم متحرك فعالة: يحقق رسم Gaussian Splatting المتحرك في الوقت الفعلي من خلال معالجة splat متوازية، مع الحفاظ على دقة رؤية عالية
- التوافقية عبر الأنظمة الأساسية: يدعم التنفيذ القائم على WebXR أجهزة الهاتف المحمول وسماعات الواقع الافتراضي ومنصات الويب
- تحسين أجهزة الهاتف المحمول: تحسين متخصص لأداء أجهزة الهاتف المحمول، يحقق 40-50 إطار في الثانية على iPhone 13 Pro
الإدخال: مقطع فيديو قصير تم التقاطه باستخدام كاميرا واحدة (من خلال تطبيق Scaniverse)
الإخراج: صورة رمزية ثلاثية الأبعاد عالية الدقة قابلة للرسم المتحرك في الوقت الفعلي
القيود:
- توافقية أجهزة الهاتف المحمول
- أداء العرض في الوقت الفعلي
- الحفاظ على دقة الرؤية
الفكرة الأساسية للنظام هي السماح لـ Gaussian splats بمتابعة حركة رؤوس الشبكة ثلاثية الأبعاد الخلفية. في مرحلة المعالجة المسبقة، يتم تعيين splats إلى رؤوس الشبكة وتخزين علاقات التحويل النسبية. في وقت التشغيل، يتم تحقيق الرسم المتحرك في الوقت الفعلي من خلال رسم الشبكة الخلفية وتحديث مواضع Gaussian splats بشكل متوازي.
الخطوة 1: المسح ثلاثي الأبعاد
- استخدام تطبيق Scaniverse لالتقاط الموضوع بصيغة Gaussian Splatting
- يتطلب أن يكون الموضوع في وضعية A-pose لتبسيط المعالجة اللاحقة
الخطوة 2: تصفية السحابة النقطية
- إزالة النقاط التي لا تنتمي إلى الموضوع
- تصفية أفقية وعمودية قائمة على القواعد
- تطبيع موضع وحجم splat
الخطوة 3: تقدير الوضعية وتحديد موضع الشبكة
- استنتاج الاتجاه الأمامي للموضوع وزوايا الأطراف
- وضع شبكة ثلاثية الأبعاد خلفية في نفس الموضع والوضعية والحجم
الخطوة 4: ربط Splat-Vertex
- اختيار أقرب رأس شبكة لكل splat من خلال البحث عن أقرب جار
- حساب علاقات التحويل النسبية
الخطوة 5: إخراج البيانات
- إخراج وضعية الموضوع والحجم وفهرس أقرب رأس والتحويل النسبي
ثلاث خطوات في كل إطار:
- رسم الشبكة: رسم شبكة الجلد الخلفية بشكل متحرك
- تحديث Splat: تحديث موضع واتجاه Gaussian splats بشكل متوازي
- ترتيب العمق: ترتيب splats وفقاً لمنظور المراقب
يتطلب رسم Gaussian Splatting الديناميكي التقليدي تحديث بيانات الموضع في كل إطار، مما يؤدي إلى انخفاض حاد في الأداء. تحل هذه الورقة هذه المشكلة من خلال معالجة splat متوازية.
لتقليل تكلفة الحساب للترتيب، يتم اعتماد استراتيجية ترتيب مجمعة:
- تجميع splats على مستوى العظم
- الترتيب على مستوى المجموعة بدلاً من ترتيب splat الفردي
- تحقيق التوازن بين عدد المجموعات وقدرات الأجهزة
- استخدام شبكة تنسيق VRM بـ 32k مضلع
- تنفيذ قائم على JavaScript و Three.js للمتصفح
- تحسين الأداء لوحدات معالجة الرسومات للهاتف المحمول
- بيئة التطوير: JavaScript + Three.js (تطبيق المتصفح)
- المسح ثلاثي الأبعاد: تطبيق Scaniverse
- الشبكة الخلفية: تنسيق VRM، 32k مضلع، نوع جسم محايد
- أجهزة الاختبار: iPhone 13 Pro، كمبيوتر محمول مزود بـ NVIDIA GeForce RTX 3060
- إجمالي وقت المعالجة: حوالي 5 دقائق (بما في ذلك المسح)
- وقت إنشاء الصورة الرمزية: حوالي 30 ثانية
- وقت إعادة البناء ثلاثي الأبعاد: حوالي دقيقة واحدة (Scaniverse)
- معدل الإطارات: 40-50 إطار في الثانية على أجهزة الهاتف المحمول، 240 إطار في الثانية على كمبيوتر محمول
كفاءة الوقت:
- العملية الكاملة: ~5 دقائق
- إنشاء الصورة الرمزية: ~30 ثانية
- المسح ثلاثي الأبعاد: ~دقيقة واحدة (iPhone 13 Pro)
أداء العرض:
- iPhone 13 Pro: 40-50 إطار في الثانية
- كمبيوتر محمول RTX 3060: 240 إطار في الثانية (محدود بمعدل تحديث الشاشة)
- درجة عالية من الأتمتة: خطوات المعالجة المسبقة مؤتمتة بالكامل
- التوافقية عبر الأنظمة الأساسية: دعم أجهزة الهاتف المحمول وسماعات الواقع الافتراضي ومنصات الويب
- دعم التنسيقات القياسية: استخدام تنسيق VRM، مما يسهل التكامل مع التطبيقات الموجودة
- الأداء في الوقت الفعلي: الحفاظ على العرض في الوقت الفعلي مع الحفاظ على جودة رؤية عالية
تستشهد الورقة بعدة أعمال ذات صلة:
- GaussianAvatar1: إنشاء صور رمزية واقعية للأشخاص من مقطع فيديو واحد
- GauHuman2: Gaussian Splatting المفصلي للعرض ثلاثي الأبعاد للجسم البشري في الوقت الفعلي
- HUGS4: Gaussian Splats للجسم البشري
- ExAvatar6: صور رمزية Gaussian ثلاثية الأبعاد بالجسم الكامل الغنية بالتعبير
مقارنة بالطرق الموجودة، تتمثل المزايا الرئيسية لهذه الورقة في:
- سرعة المعالجة: مقارنة بـ 2-3 ساعات لـ ExAvatar، تستغرق هذه الورقة 30 ثانية فقط
- متطلبات الجهاز: لا تتطلب وحدة معالجة رسومات عالية الأداء أو مصفوفة كاميرا
- إمكانية الوصول: قائمة بالكامل على أجهزة الهاتف المحمول والمتصفح
- الدقة: الحفاظ على جودة الرؤية العالية لـ Gaussian Splatting
- تحقيق نظام إنشاء صور رمزية ثلاثية الأبعاد سريع وعالي الجودة بنجاح
- حل مشكلة الأداء في رسم Gaussian Splatting الديناميكي بشكل فعال من خلال المعالجة المتوازية والترتيب المجمع
- يضمن التنفيذ القائم على WebXR التوافقية عبر الأنظمة الأساسية
- تحسين أجهزة الهاتف المحمول يمكّن المستخدمين العاديين من الاستخدام المريح
- الاعتماد على تطبيقات الجهات الخارجية: يتطلب استخدام Scaniverse للمسح ثلاثي الأبعاد
- قيود الوضعية: تتطلب المعالجة المسبقة وضعية A-pose، مما يحد من حالات الاستخدام
- دقة الشبكة: قد تؤثر جودة الشبكة الخلفية على النتيجة النهائية
- مقايضة الترتيب المجمع: التضحية بدقة العرض جزئياً من أجل التوافقية مع الهاتف المحمول
- دمج المزيد من حلول المسح ثلاثي الأبعاد، وتقليل الاعتماد على تطبيقات محددة
- دعم وضعيات ابتدائية أكثر تنوعاً
- تحسين خوارزمية الترتيب المجمع، وتحسين جودة العرض
- التوسع إلى سيناريوهات رسم متحرك أكثر تعقيداً
- حل احتياجات المستخدمين الحقيقية
- حل شامل من البداية إلى النهاية
- تصميم تجربة مستخدم جيد
- حل معالجة متوازية فعال
- تحسين ترتيب مجمع ذكي
- تحسين أداء أجهزة الهاتف المحمول
- بناءً على أجهزة الهاتف المحمول الشائعة
- تنفيذ المتصفح، لا يتطلب التثبيت
- وقت معالجة سريع
- استخدام تنسيق VRM القياسي
- يسهل التكامل مع النظام البيئي الموجود
- الطريقة الأساسية بسيطة نسبياً، وعمق التقنية محدود
- في الأساس تحسين هندسي وليس ابتكار خوارزمي
- افتقار إلى المقارنة الكمية مع الطرق الأخرى
- لا توجد دراسات للمستخدمين أو تقييمات الجودة
- نقص الاختبار في سيناريوهات مختلفة
- الاعتماد على تطبيق Scaniverse من جهة خارجية
- متطلبات الوضعية الأولية
- تفاصيل التنفيذ المحددة للترتيب المجمع غير كافية
- نقص تحليل حالات الفشل
- توفير مرجع لتطبيق Gaussian Splatting على الأجهزة المحمولة
- عرض أفكار تصميم النظام العملي
- قيمة عملية عالية، مناسبة للنشر الفعلي
- أهمية كبيرة لتطبيقات الميتافيرس ووسائل التواصل الاجتماعي
- بناءً على مكدس تقنيات قياسي، سهل التكرار
- إمكانية مفتوحة المصدر أكبر
- تطبيقات وسائل التواصل الاجتماعي: إنشاء صور رمزية شخصية سريعة
- منصات الميتافيرس: تمثيل هوية المستخدم
- الاجتماعات الافتراضية: تحسين الحضور
- تطبيقات الألعاب: تخصيص الشخصيات
- تجارب الواقع المعزز/الواقع الافتراضي: صور رمزية افتراضية شخصية
تستشهد الورقة بـ 12 مرجعاً ذا صلة، تغطي بشكل أساسي:
- تقنية Gaussian Splatting الأساسية3
- طرق إنشاء الصور الرمزية البشرية1,2,4,5,6,8,9,11,12
- تقنيات إعادة البناء ثلاثي الأبعاد10
- تطبيقات المسح التجارية7
تغطي هذه المراجع بشكل جيد مجال البحث ذي الصلة، وتوفر دعماً خلفياً كافياً لعمل هذه الورقة.
التقييم الشامل: هذه ورقة نظام عملية جداً، وعلى الرغم من أن الابتكار الخوارزمي محدود نسبياً، إلا أنها تقدم مساهمات مهمة في حل المشاكل العملية وتحسين إمكانية الوصول. تجعل سرعة النظام والتوافقية مع الهاتف المحمول ذات قيمة عملية عالية، مما يجعلها مناسبة للنشر في التطبيقات الفعلية.