2025-11-13T07:01:10.346871

Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications

Kondo, Asano, Ochiai
We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
academic

الصور الرمزية الغاوسية ذات الجلد الفوري لتطبيقات الويب والهاتف المحمول وتطبيقات الواقع الافتراضي

المعلومات الأساسية

  • معرّف الورقة: 2510.13978
  • العنوان: الصور الرمزية الغاوسية ذات الجلد الفوري لتطبيقات الويب والهاتف المحمول وتطبيقات الواقع الافتراضي
  • المؤلفون: ناروya كوندو، يوتو أسانو، يويتشي أوتشياي (جامعة تسوكوبا)
  • التصنيف: cs.CG (رسومات الحاسوب)
  • وقت النشر/المؤتمر: SUI '25 (ندوة ACM حول التفاعل المكاني للمستخدم)، 10-11 نوفمبر 2025، مونتريال، كيبيك، كندا
  • رابط الورقة: https://arxiv.org/abs/2510.13978

الملخص

تقدم هذه الورقة نظام الصور الرمزية الغاوسية ذات الجلد الفوري، وهو نظام صور رمزية ثلاثية الأبعاد في الوقت الفعلي عبر الأنظمة الأساسية. عادة ما تتطلب طرق رسم Gaussian Splatting المتحركة مصفوفات كاميرا أو معالجة مسبقة طويلة أو وحدات معالجة رسومات عالية الأداء. تحاول بعض الطرق تحويل Gaussian Splatting إلى تمثيل قائم على الشبكة، وعلى الرغم من تحقيق أداء خفيفة الوزن، إلا أنها تضحي بدقة الرؤية. في المقابل، يحقق هذا النظام رسم متحرك فعال لـ Gaussian Splatting من خلال معالجة splat متوازية، مما يتابع في الوقت الفعلي التغييرات الديناميكية للشبكة ذات الجلد الأساسية مع الحفاظ على دقة رؤية عالية. من المسح ثلاثي الأبعاد القائم على الهاتف الذكي إلى المعالجة المسبقة على الجهاز، تستغرق العملية برمتها حوالي 5 دقائق فقط، حيث تستغرق خطوة إنشاء الصورة الرمزية نفسها حوالي 30 ثانية فقط. يمكّن هذا النظام المستخدمين من تحويل المظهر من العالم الحقيقي على الفور إلى صورة رمزية ثلاثية الأبعاد، وهو مثالي للتكامل السلس مع تطبيقات وسائل التواصل الاجتماعي وتطبيقات الميتافيرس.

الخلفية البحثية والدافع

تعريف المشكلة

يعتمد إنشاء الصور الرمزية ثلاثية الأبعاد التقليدية على النمذجة اليدوية أو خطوط أنابيب القياس الفوتوغرافي، وهذه الطرق إما تستغرق وقتاً طويلاً وتتطلب جهداً كبيراً أو تتطلب معدات متخصصة. على الرغم من أن تقنية Gaussian Splatting أظهرت تفوقاً في إعادة بناء المشاهد عالية الدقة والعرض في الوقت الفعلي، إلا أن طرق رسم Gaussian Splatting المتحركة الحالية تعاني من القيود التالية:

  1. متطلبات الأجهزة العالية: تتطلب مصفوفات كاميرا ووحدات معالجة رسومات عالية الأداء وغيرها من المعدات المكلفة
  2. وقت المعالجة المسبقة الطويل: يتطلب ExAvatar وقت معالجة مسبقة من 2-3 ساعات
  3. فقدان دقة الرؤية: يؤدي التحويل إلى تمثيل الشبكة إلى تقليل القدرة التعبيرية
  4. إمكانية الوصول الضعيفة: يصعب على المستخدمين العاديين استخدامها

أهمية البحث

يهدف هذا البحث إلى حل مشكلة إمكانية الوصول إلى إنشاء الصور الرمزية ثلاثية الأبعاد، مما يمكّن المستخدمين العاديين من إنشاء صور رمزية ثلاثية الأبعاد عالية الجودة بسرعة وسهولة، وهو أمر ذو أهمية كبيرة لـ:

  • انتشار تطبيقات وسائل التواصل الاجتماعي
  • تحسين تجربة المستخدم على منصات الميتافيرس
  • تطبيقات الاجتماعات الافتراضية والتوأم الرقمي
  • تجارب الواقع المعزز/الواقع الافتراضي على أجهزة الهاتف المحمول

المساهمات الأساسية

  1. نظام إنشاء صور رمزية سريع: يقدم عملية كاملة من المسح إلى إنشاء الصورة الرمزية تستغرق 5 دقائق فقط، حيث تستغرق خطوة الإنشاء الأساسية 30 ثانية فقط
  2. طريقة رسم متحرك فعالة: يحقق رسم Gaussian Splatting المتحرك في الوقت الفعلي من خلال معالجة splat متوازية، مع الحفاظ على دقة رؤية عالية
  3. التوافقية عبر الأنظمة الأساسية: يدعم التنفيذ القائم على WebXR أجهزة الهاتف المحمول وسماعات الواقع الافتراضي ومنصات الويب
  4. تحسين أجهزة الهاتف المحمول: تحسين متخصص لأداء أجهزة الهاتف المحمول، يحقق 40-50 إطار في الثانية على iPhone 13 Pro

شرح الطريقة

تعريف المهمة

الإدخال: مقطع فيديو قصير تم التقاطه باستخدام كاميرا واحدة (من خلال تطبيق Scaniverse) الإخراج: صورة رمزية ثلاثية الأبعاد عالية الدقة قابلة للرسم المتحرك في الوقت الفعلي القيود:

  • توافقية أجهزة الهاتف المحمول
  • أداء العرض في الوقت الفعلي
  • الحفاظ على دقة الرؤية

معمارية النظام

الفكرة الأساسية

الفكرة الأساسية للنظام هي السماح لـ Gaussian splats بمتابعة حركة رؤوس الشبكة ثلاثية الأبعاد الخلفية. في مرحلة المعالجة المسبقة، يتم تعيين splats إلى رؤوس الشبكة وتخزين علاقات التحويل النسبية. في وقت التشغيل، يتم تحقيق الرسم المتحرك في الوقت الفعلي من خلال رسم الشبكة الخلفية وتحديث مواضع Gaussian splats بشكل متوازي.

عملية المعالجة المسبقة

الخطوة 1: المسح ثلاثي الأبعاد

  • استخدام تطبيق Scaniverse لالتقاط الموضوع بصيغة Gaussian Splatting
  • يتطلب أن يكون الموضوع في وضعية A-pose لتبسيط المعالجة اللاحقة

الخطوة 2: تصفية السحابة النقطية

  • إزالة النقاط التي لا تنتمي إلى الموضوع
  • تصفية أفقية وعمودية قائمة على القواعد
  • تطبيع موضع وحجم splat

الخطوة 3: تقدير الوضعية وتحديد موضع الشبكة

  • استنتاج الاتجاه الأمامي للموضوع وزوايا الأطراف
  • وضع شبكة ثلاثية الأبعاد خلفية في نفس الموضع والوضعية والحجم

الخطوة 4: ربط Splat-Vertex

  • اختيار أقرب رأس شبكة لكل splat من خلال البحث عن أقرب جار
  • حساب علاقات التحويل النسبية

الخطوة 5: إخراج البيانات

  • إخراج وضعية الموضوع والحجم وفهرس أقرب رأس والتحويل النسبي

نظام الرسم المتحرك

ثلاث خطوات في كل إطار:

  1. رسم الشبكة: رسم شبكة الجلد الخلفية بشكل متحرك
  2. تحديث Splat: تحديث موضع واتجاه Gaussian splats بشكل متوازي
  3. ترتيب العمق: ترتيب splats وفقاً لمنظور المراقب

نقاط الابتكار التقني

1. معالجة Splat المتوازية

يتطلب رسم Gaussian Splatting الديناميكي التقليدي تحديث بيانات الموضع في كل إطار، مما يؤدي إلى انخفاض حاد في الأداء. تحل هذه الورقة هذه المشكلة من خلال معالجة splat متوازية.

2. تحسين الترتيب المجمع

لتقليل تكلفة الحساب للترتيب، يتم اعتماد استراتيجية ترتيب مجمعة:

  • تجميع splats على مستوى العظم
  • الترتيب على مستوى المجموعة بدلاً من ترتيب splat الفردي
  • تحقيق التوازن بين عدد المجموعات وقدرات الأجهزة

3. تحسين أجهزة الهاتف المحمول

  • استخدام شبكة تنسيق VRM بـ 32k مضلع
  • تنفيذ قائم على JavaScript و Three.js للمتصفح
  • تحسين الأداء لوحدات معالجة الرسومات للهاتف المحمول

إعداد التجربة

منصة التنفيذ

  • بيئة التطوير: JavaScript + Three.js (تطبيق المتصفح)
  • المسح ثلاثي الأبعاد: تطبيق Scaniverse
  • الشبكة الخلفية: تنسيق VRM، 32k مضلع، نوع جسم محايد
  • أجهزة الاختبار: iPhone 13 Pro، كمبيوتر محمول مزود بـ NVIDIA GeForce RTX 3060

مؤشرات الأداء

  • إجمالي وقت المعالجة: حوالي 5 دقائق (بما في ذلك المسح)
  • وقت إنشاء الصورة الرمزية: حوالي 30 ثانية
  • وقت إعادة البناء ثلاثي الأبعاد: حوالي دقيقة واحدة (Scaniverse)
  • معدل الإطارات: 40-50 إطار في الثانية على أجهزة الهاتف المحمول، 240 إطار في الثانية على كمبيوتر محمول

نتائج التجربة

الأداء

كفاءة الوقت:

  • العملية الكاملة: ~5 دقائق
  • إنشاء الصورة الرمزية: ~30 ثانية
  • المسح ثلاثي الأبعاد: ~دقيقة واحدة (iPhone 13 Pro)

أداء العرض:

  • iPhone 13 Pro: 40-50 إطار في الثانية
  • كمبيوتر محمول RTX 3060: 240 إطار في الثانية (محدود بمعدل تحديث الشاشة)

خصائص النظام

  1. درجة عالية من الأتمتة: خطوات المعالجة المسبقة مؤتمتة بالكامل
  2. التوافقية عبر الأنظمة الأساسية: دعم أجهزة الهاتف المحمول وسماعات الواقع الافتراضي ومنصات الويب
  3. دعم التنسيقات القياسية: استخدام تنسيق VRM، مما يسهل التكامل مع التطبيقات الموجودة
  4. الأداء في الوقت الفعلي: الحفاظ على العرض في الوقت الفعلي مع الحفاظ على جودة رؤية عالية

الأعمال ذات الصلة

أبحاث الصور الرمزية Gaussian Splatting

تستشهد الورقة بعدة أعمال ذات صلة:

  • GaussianAvatar1: إنشاء صور رمزية واقعية للأشخاص من مقطع فيديو واحد
  • GauHuman2: Gaussian Splatting المفصلي للعرض ثلاثي الأبعاد للجسم البشري في الوقت الفعلي
  • HUGS4: Gaussian Splats للجسم البشري
  • ExAvatar6: صور رمزية Gaussian ثلاثية الأبعاد بالجسم الكامل الغنية بالتعبير

مزايا هذه الورقة

مقارنة بالطرق الموجودة، تتمثل المزايا الرئيسية لهذه الورقة في:

  1. سرعة المعالجة: مقارنة بـ 2-3 ساعات لـ ExAvatar، تستغرق هذه الورقة 30 ثانية فقط
  2. متطلبات الجهاز: لا تتطلب وحدة معالجة رسومات عالية الأداء أو مصفوفة كاميرا
  3. إمكانية الوصول: قائمة بالكامل على أجهزة الهاتف المحمول والمتصفح
  4. الدقة: الحفاظ على جودة الرؤية العالية لـ Gaussian Splatting

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تحقيق نظام إنشاء صور رمزية ثلاثية الأبعاد سريع وعالي الجودة بنجاح
  2. حل مشكلة الأداء في رسم Gaussian Splatting الديناميكي بشكل فعال من خلال المعالجة المتوازية والترتيب المجمع
  3. يضمن التنفيذ القائم على WebXR التوافقية عبر الأنظمة الأساسية
  4. تحسين أجهزة الهاتف المحمول يمكّن المستخدمين العاديين من الاستخدام المريح

القيود

  1. الاعتماد على تطبيقات الجهات الخارجية: يتطلب استخدام Scaniverse للمسح ثلاثي الأبعاد
  2. قيود الوضعية: تتطلب المعالجة المسبقة وضعية A-pose، مما يحد من حالات الاستخدام
  3. دقة الشبكة: قد تؤثر جودة الشبكة الخلفية على النتيجة النهائية
  4. مقايضة الترتيب المجمع: التضحية بدقة العرض جزئياً من أجل التوافقية مع الهاتف المحمول

الاتجاهات المستقبلية

  1. دمج المزيد من حلول المسح ثلاثي الأبعاد، وتقليل الاعتماد على تطبيقات محددة
  2. دعم وضعيات ابتدائية أكثر تنوعاً
  3. تحسين خوارزمية الترتيب المجمع، وتحسين جودة العرض
  4. التوسع إلى سيناريوهات رسم متحرك أكثر تعقيداً

التقييم المتعمق

المزايا

1. قوة الجدوى العملية

  • حل احتياجات المستخدمين الحقيقية
  • حل شامل من البداية إلى النهاية
  • تصميم تجربة مستخدم جيد

2. الابتكار التقني

  • حل معالجة متوازية فعال
  • تحسين ترتيب مجمع ذكي
  • تحسين أداء أجهزة الهاتف المحمول

3. إمكانية الوصول

  • بناءً على أجهزة الهاتف المحمول الشائعة
  • تنفيذ المتصفح، لا يتطلب التثبيت
  • وقت معالجة سريع

4. التوافقية القياسية

  • استخدام تنسيق VRM القياسي
  • يسهل التكامل مع النظام البيئي الموجود

أوجه القصور

1. بساطة الطريقة

  • الطريقة الأساسية بسيطة نسبياً، وعمق التقنية محدود
  • في الأساس تحسين هندسي وليس ابتكار خوارزمي

2. تقييم غير كافٍ

  • افتقار إلى المقارنة الكمية مع الطرق الأخرى
  • لا توجد دراسات للمستخدمين أو تقييمات الجودة
  • نقص الاختبار في سيناريوهات مختلفة

3. مشاكل الاعتماد

  • الاعتماد على تطبيق Scaniverse من جهة خارجية
  • متطلبات الوضعية الأولية

4. التفاصيل التقنية

  • تفاصيل التنفيذ المحددة للترتيب المجمع غير كافية
  • نقص تحليل حالات الفشل

التأثير

1. المساهمة الأكاديمية

  • توفير مرجع لتطبيق Gaussian Splatting على الأجهزة المحمولة
  • عرض أفكار تصميم النظام العملي

2. القيمة العملية

  • قيمة عملية عالية، مناسبة للنشر الفعلي
  • أهمية كبيرة لتطبيقات الميتافيرس ووسائل التواصل الاجتماعي

3. قابلية التكرار

  • بناءً على مكدس تقنيات قياسي، سهل التكرار
  • إمكانية مفتوحة المصدر أكبر

السيناريوهات المعمول بها

  1. تطبيقات وسائل التواصل الاجتماعي: إنشاء صور رمزية شخصية سريعة
  2. منصات الميتافيرس: تمثيل هوية المستخدم
  3. الاجتماعات الافتراضية: تحسين الحضور
  4. تطبيقات الألعاب: تخصيص الشخصيات
  5. تجارب الواقع المعزز/الواقع الافتراضي: صور رمزية افتراضية شخصية

المراجع

تستشهد الورقة بـ 12 مرجعاً ذا صلة، تغطي بشكل أساسي:

  • تقنية Gaussian Splatting الأساسية3
  • طرق إنشاء الصور الرمزية البشرية1,2,4,5,6,8,9,11,12
  • تقنيات إعادة البناء ثلاثي الأبعاد10
  • تطبيقات المسح التجارية7

تغطي هذه المراجع بشكل جيد مجال البحث ذي الصلة، وتوفر دعماً خلفياً كافياً لعمل هذه الورقة.


التقييم الشامل: هذه ورقة نظام عملية جداً، وعلى الرغم من أن الابتكار الخوارزمي محدود نسبياً، إلا أنها تقدم مساهمات مهمة في حل المشاكل العملية وتحسين إمكانية الوصول. تجعل سرعة النظام والتوافقية مع الهاتف المحمول ذات قيمة عملية عالية، مما يجعلها مناسبة للنشر في التطبيقات الفعلية.