Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- معرّف الورقة: 2510.08656
- العنوان: إطار عمل توليد ثلاثي الأبعاد من الطرائق المتعددة إلى البدائيات المعاملية
- المؤلفون: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (جامعة تشجيانغ)
- التصنيف: cs.GR (رسومات الحاسوب)، cs.AI (الذكاء الاصطناعي)، cs.CV (رؤية الحاسوب)
- تاريخ النشر: 9 أكتوبر 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.08656
تقدم هذه الورقة إطار عمل توليد ثلاثي الأبعاد متعدد المراحل قائم على البدائيات المعاملية لمعالجة تحديات جودة السطح والتكاليف التخزينية في توليد النماذج ثلاثية الأبعاد المدفوع بالذكاء الاصطناعي. يمكن للإطار توليد نماذج ثلاثية الأبعاد تتكون من بدائيات معاملية بناءً على مدخلات نصية وصورية، من خلال تحديد الخصائص الشكلية لعناصر النموذج واستبدالها ببدائيات معاملية ذات سطح عالي الجودة. تُظهر النتائج التجريبية أداءً متفوقاً على مجموعات البيانات الافتراضية والحقيقية، بمسافة Chamfer تبلغ 3.092×10⁻³، و VIoU بقيمة 0.545، و F1-Score بقيمة 0.9139، و NC بقيمة 0.8369، مع حجم ملف معاملات البدائيات حوالي 6KB.
تواجه تقنيات توليد النماذج ثلاثية الأبعاد التقليدية تحديين أساسيين:
- متطلبات التخزين العالية: تعتمد الطرق الموجودة عادةً على خوارزمية Marching Cubes لاستخراج التمثيل الشبكي الصريح من التمثيلات الضمنية ثلاثية الأبعاد، مما يؤدي إلى متطلبات تخزين ضخمة. على سبيل المثال، شبكة الفوكسل بحجم 256³ تتطلب تخزين أكثر من 16 مليون معلومة فوكسل، مع استهلاك ذاكرة يصل إلى 0.54GB.
- جودة سطح النموذج: محدودة بالدقة والقيود الطوبولوجية، حيث يؤدي الفوكسل منخفض الدقة (مثل 32³) إلى فقدان التفاصيل، والطرق القائمة على الشبكات تعتمد على تشويه القالب الأولي، مما لا يسمح بمعالجة مرنة للطوبولوجيا المعقدة.
مع التطور السريع لتقنيات التوليد بالذكاء الاصطناعي ورسومات الحاسوب، يتمتع تمثيل النماذج ثلاثية الأبعاد بتطبيقات واسعة في الواقع الافتراضي ومعالجة الصور الطبية والتصميم الصناعي والتصنيع وتطوير الألعاب. تتطلب الطرق التقليدية عادةً معرفة مسبقة وافتراضات كبيرة، مما يحد من قابليتها للتطبيق في السيناريوهات الحقيقية. لذلك، هناك حاجة ملحة لطريقة توليد قادرة على تحسين جودة سطح النموذج مع تقليل متطلبات التخزين.
- اقتراح خوارزميات ملاءمة ومطابقة البدائيات: قادرة على استبدال عناصر السطح الفائق التي تشكل النموذج ببدائيات هندسية معاملية ذات جودة سطح أعلى، مما يحسن الجودة الكلية للنموذج ثلاثي الأبعاد.
- اقتراح طريقة تخزين نماذج ثلاثية الأبعاد: من خلال الاحتفاظ فقط بمعاملات عناصر البدائيات، يتم تقليل متطلبات تخزين النموذج، مما يحقق تقليلاً بثلاث رتب من حيث الحجم.
- بناء طريقة توليد نماذج ثلاثية الأبعاد متعددة المراحل قائمة على المعلومات متعددة الطرائق: باستخدام معلومات النص والصور كمدخلات، يتم توليد نماذج ثلاثية الأبعاد تتكون من بدائيات معاملية في ظروف بدون عينات.
المدخلات: وصف نصي أو صورة واحدة
المخرجات: نموذج ثلاثي الأبعاد يتكون من بدائيات معاملية
القيود: توليد بدون عينات، تحسين جودة السطح، تقليل التكاليف التخزينية
ينقسم الإطار إلى ثلاث مراحل رئيسية:
- تركيب صور العمق متعددة الآراء:
- استخدام نموذج ImageDream المدرب مسبقاً لتوليد صور متعددة الآراء للنموذج المستهدف
- توجيه تحسين حقل الإشعاع العصبي من خلال دالة خسارة Score Distillation Sampling (SDS)
- استخدام طريقة NeRFStudio للعينات لأخذ عينات من صور العمق من 48 زاوية نظر مختلفة من حقل الإشعاع العصبي المحسّن
- الملاءمة التكرارية للسطح الفائق:
- بناء حقل المسافة الموقعة المقطوعة (TSDF)
- تعريف سلسلة عتبات المسافة الموقعة المتناقصة: Tc={t1c,t2c,...,tmc,tm+1c}
- تعيين العتبة الأولية: t1c=minxi∈Vt(xi)، صيغة التحلل: tm+1c=αtmc
- معاملات السطح الفائق: θ=(ε1,ε2,T,R,S)
- المعادلة الضمنية: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
بناءً على معاملات الشكل للسطح الفائق ε1 و ε2، يتم تقسيمها إلى ثلاث فترات عددية:
- (0,0.5): خصائص أسطوانية
- [0.5,2]: خصائص إهليلجية
- (2,+∞): خصائص نجمية
من خلال دمج خصائص الشكل في اتجاه z والمستوى xy، يتم تشكيل 9 أنواع مختلفة من السطح الفائق.
استخدام المعادلة القطبية لتمثيل البدائيات المعاملية:
- اتجاه z: المعادلة القطبية للنظام الأسطواني والنظام الكروي والخط النجمي
- المستوى xy: المعادلة القطبية للقاعدة المستطيلة والقاعدة الإهليلجية والقاعدة النجمية
دمج متجه الدوران R ومتجه الإزاحة T للسطح الفائق، تنفيذ تحويلات الإزاحة والدوران، وتحسين ملاءمة ومطابقة النموذج ثلاثي الأبعاد المستهدف.
- تحليل الخصائص الشكلية: من خلال التحليل المنهجي لتأثير معاملات السطح الفائق على الشكل، يتم إنشاء علاقة تعيين من السطح الفائق إلى البدائيات المعاملية.
- التمثيل المعاملي: حفظ معاملات البدائيات فقط (معاملات الحجم S، معاملات الشكل ε1 و ε2، متجه الإزاحة T، متجه الدوران R) لتحقيق تخزين النموذج.
- التوليد بدون عينات: دمج نموذج الانتشار الضمني وتحليل البدائيات لتحقيق توليد ثلاثي الأبعاد بدون عينات عبر الطرائق.
- مجموعة البيانات الافتراضية:
- تستند بشكل أساسي إلى مجموعة بيانات ShapeNet، التي تحتوي على أكثر من 3000 فئة كائنات و 220000 نموذج
- تتضمن صور واختبارات نصية من نماذج ImageDream و One-2-3-45++ و Wonder3D و MVDream و TripoSR
- مجموعة البيانات الحقيقية:
- تستند بشكل أساسي إلى مجموعة بيانات CO3D، التي توفر بيانات ثلاثية الأبعاد غنية من العالم الحقيقي
- تتضمن صور جزئية من AKB-48 و OmniObject 3D
- مسافة Chamfer (CD): قياس التشابه بين سحابتي نقاط
- تقاطع الحجم على الاتحاد (VIoU): تقييم درجة تداخل النماذج ثلاثية الأبعاد
- F1-Score: النظر الشامل في دقة واستدعاء إعادة بناء السطح
- اتساق الطبيعي (NC): تقييم اتساق متجهات السطح الطبيعية
- EMS
- SuperDec
- Marching-Primitives (MP)
- بيئة الأجهزة: معالج AMD Ryzen 7 9700X، بطاقة رسومات NVIDIA GeForce RTX 5060Ti
- بيئة البرنامج: Windows 11، Python 3.10
- معاملات TSDF: حجم فضاء الفوكسل -13,13، 100 عينة موحدة لكل بُعد، إجمالي 10⁶ فوكسل
- دقة الشبكة: 100
| الطريقة | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13.1 | 0.218 | 0.8572 | 0.6607 |
| SuperDec | 6.38 | 0.246 | 0.8629 | 0.7101 |
| MP | 4.95 | 0.390 | 0.8193 | 0.7284 |
| الطريقة المقترحة | 3.09 | 0.545 | 0.9139 | 0.8369 |
مقارنة بطريقة MP، تقلل الطريقة المقترحة CD بنسبة 37.6%، وتزيد VIoU بنسبة 39.7%، وتزيد F1-Score بنسبة 11.5%، وتزيد NC بنسبة 14.9%.
| الطريقة | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15.1 | 0.141 | 0.8917 | 0.7539 |
| SuperDec | 4.40 | 0.301 | 0.8383 | 0.6759 |
| MP | 4.32 | 0.492 | 0.7771 | 0.5882 |
| الطريقة المقترحة | 2.52 | 0.673 | 0.9183 | 0.7752 |
على ستة فئات من bench و table و plane و cabinet و bottle و rifle، يبلغ متوسط CD للطريقة المقترحة 0.503×10⁻³، و VIoU بقيمة 0.742، و F1-Score بقيمة 0.8896، و NC بقيمة 0.4511، مع أفضل أداء في جميع المؤشرات.
| نوع المدخل | سعة تخزين الشبكة | سعة تخزين البدائيات |
|---|
| نص | 4.56MB | 5KB |
| صورة | 5.76MB | 6KB |
| الكل | 5.36MB | 6KB |
تم تقليل السعة التخزينية بثلاث رتب من حيث الحجم، من مستوى MB إلى مستوى KB.
تشير تجارب الاستبعاد التي أجريت على مجموعة البيانات الحقيقية إلى أن الطريقة المقترحة تحقق أفضل أداء في مؤشرات VIoU و F1-Score و NC، مما يتحقق من فعالية المعادلات القطبية الأربع.
اعتمدت تقنيات توليد النماذج ثلاثية الأبعاد المبكرة بشكل أساسي على التعلم الخاضع للإشراف، مما يتطلب كميات كبيرة من البيانات الخاضعة للإشراف. قدم اقتراح نماذج الانتشار الضمنية منظوراً جديداً لإعادة بناء ثلاثي الأبعاد من صورة واحدة، من خلال تقنية Score Distillation Sampling ونماذج الانتشار ثنائية الأبعاد المدربة مسبقاً لتوجيه تحسين التمثيل ثلاثي الأبعاد.
يركز البحث الموجود بشكل أساسي على تحقيق تمثيل الشكل من خلال تحليل النموذج ثلاثي الأبعاد إلى عدة بدائيات بسيطة، بما في ذلك الإهليلجيات الفائقة والغاوسيات الخواص والهياكل المحدبة وغيرها. تتضمن الطرق ذات الصلة مثل Marching-Primitives توسيع نطاق النماذج القابلة للتوليد من خلال الملاءمة التكرارية لحقل المسافة الموقعة المقطوعة.
يمكن لإطار العمل المقترح متعدد المراحل لتوليد البدائيات المعاملية عبر الطرائق:
- توليد نماذج ثلاثية الأبعاد أساسية متنوعة تستجيب لمدخلات شروط متعددة
- تجاوز الخوارزميات الحديثة المتقدمة في مؤشرات CD و VIoU و F1-Score و NC
- توليد نماذج مركبة من بدائيات معاملية أكثر توافقاً مع المتطلبات الجمالية
- تحقيق توفير كبير في مساحة التخزين
- مشكلة ملاءمة الأسطوانة الحلقية: نظراً لأن السطح الفائق لا يخترق السطح، لا يمكن للطريقة مطابقة أو ملاءمة الأسطوانات الحلقية بفعالية
- مزايا التمثيل المعاملي: عدم القدرة على عرض المزايا بشكل كامل مقارنة بالحلول البديلة مثل NURBS
- جودة النماذج المعقدة: محدودة بجودة التوليد متعدد الآراء، مع جودة محدودة للنماذج من الزوايا غير المرئية للنماذج المعقدة
- استخدام أجهزة التشفير التلقائي المتغيرة لترميز سحب النقاط للبدائيات المعقدة، للاستخدام في مطابقة البدائيات للأسطوانات الحلقية
- استخدام أنواع سطح أخرى لملاءمة مكونات النموذج، لعرض مزايا التمثيل المعاملي
- الاستفادة المتزامنة من معلومات الطرائق المختلفة لوصف أفضل لخصائص النموذج المستهدف، أو إجراء تدريب ضبط دقيق في المهام النهائية
- قوة الابتكار المنهجي: أول من يقترح طريقة تعيين منهجية من السطح الفائق إلى البدائيات المعاملية
- التجارب الشاملة: تحقق شامل على مجموعات البيانات الافتراضية والحقيقية
- القيمة العملية العالية: تقليل كبير في متطلبات التخزين، مناسب للتصميم السريع للنماذج الأولية
- وضوح المسار التقني: تصميم إطار العمل ثلاثي المراحل معقول، وظائف كل وحدة واضحة
- قيود نطاق التطبيق: مناسب بشكل أساسي للنماذج البسيطة، مع قدرة محدودة على معالجة الهياكل الطوبولوجية المعقدة
- الاعتماد على النماذج المدربة مسبقاً: يعتمد على جودة النماذج المدربة مسبقاً مثل ImageDream
- نقص التحليل النظري: افتقار إلى التحليل النظري لقدرات التمثيل المعاملي
- قيود مؤشرات التقييم: التركيز الأساسي على التشابه الهندسي، مع نقص التقييم الذاتي لجودة الرؤية
- المساهمة الأكاديمية: توفير منظور تمثيل معاملي جديد لمجال توليد ثلاثي الأبعاد
- القيمة العملية: تحسن كبير في كفاءة التخزين وجودة السطح
- قابلية التكرار: وصف الطريقة مفصل، إعداد التجارب واضح
- التصميم السريع للنماذج الأولية في التصميم الصناعي
- توليد أصول ثلاثية الأبعاد بسيطة في تطوير الألعاب
- إنشاء محتوى ثلاثي الأبعاد خفيف الوزن لمشاهد الواقع الافتراضي
- تخزين ونقل النماذج ثلاثية الأبعاد على الأجهزة المحمولة
تستشهد الورقة بـ 38 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات توليد ثلاثي الأبعاد ونماذج الانتشار الضمنية وتحليل البدائيات، مما يوفر أساساً نظرياً متيناً لهذا البحث.