2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.
Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
academic

إطار عمل توليد ثلاثي الأبعاد من الطرائق المتعددة إلى البدائيات المعاملية

المعلومات الأساسية

  • معرّف الورقة: 2510.08656
  • العنوان: إطار عمل توليد ثلاثي الأبعاد من الطرائق المتعددة إلى البدائيات المعاملية
  • المؤلفون: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (جامعة تشجيانغ)
  • التصنيف: cs.GR (رسومات الحاسوب)، cs.AI (الذكاء الاصطناعي)، cs.CV (رؤية الحاسوب)
  • تاريخ النشر: 9 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.08656

الملخص

تقدم هذه الورقة إطار عمل توليد ثلاثي الأبعاد متعدد المراحل قائم على البدائيات المعاملية لمعالجة تحديات جودة السطح والتكاليف التخزينية في توليد النماذج ثلاثية الأبعاد المدفوع بالذكاء الاصطناعي. يمكن للإطار توليد نماذج ثلاثية الأبعاد تتكون من بدائيات معاملية بناءً على مدخلات نصية وصورية، من خلال تحديد الخصائص الشكلية لعناصر النموذج واستبدالها ببدائيات معاملية ذات سطح عالي الجودة. تُظهر النتائج التجريبية أداءً متفوقاً على مجموعات البيانات الافتراضية والحقيقية، بمسافة Chamfer تبلغ 3.092×10⁻³، و VIoU بقيمة 0.545، و F1-Score بقيمة 0.9139، و NC بقيمة 0.8369، مع حجم ملف معاملات البدائيات حوالي 6KB.

خلفية البحث والدافع

تعريف المشكلة

تواجه تقنيات توليد النماذج ثلاثية الأبعاد التقليدية تحديين أساسيين:

  1. متطلبات التخزين العالية: تعتمد الطرق الموجودة عادةً على خوارزمية Marching Cubes لاستخراج التمثيل الشبكي الصريح من التمثيلات الضمنية ثلاثية الأبعاد، مما يؤدي إلى متطلبات تخزين ضخمة. على سبيل المثال، شبكة الفوكسل بحجم 256³ تتطلب تخزين أكثر من 16 مليون معلومة فوكسل، مع استهلاك ذاكرة يصل إلى 0.54GB.
  2. جودة سطح النموذج: محدودة بالدقة والقيود الطوبولوجية، حيث يؤدي الفوكسل منخفض الدقة (مثل 32³) إلى فقدان التفاصيل، والطرق القائمة على الشبكات تعتمد على تشويه القالب الأولي، مما لا يسمح بمعالجة مرنة للطوبولوجيا المعقدة.

دافع البحث

مع التطور السريع لتقنيات التوليد بالذكاء الاصطناعي ورسومات الحاسوب، يتمتع تمثيل النماذج ثلاثية الأبعاد بتطبيقات واسعة في الواقع الافتراضي ومعالجة الصور الطبية والتصميم الصناعي والتصنيع وتطوير الألعاب. تتطلب الطرق التقليدية عادةً معرفة مسبقة وافتراضات كبيرة، مما يحد من قابليتها للتطبيق في السيناريوهات الحقيقية. لذلك، هناك حاجة ملحة لطريقة توليد قادرة على تحسين جودة سطح النموذج مع تقليل متطلبات التخزين.

المساهمات الأساسية

  1. اقتراح خوارزميات ملاءمة ومطابقة البدائيات: قادرة على استبدال عناصر السطح الفائق التي تشكل النموذج ببدائيات هندسية معاملية ذات جودة سطح أعلى، مما يحسن الجودة الكلية للنموذج ثلاثي الأبعاد.
  2. اقتراح طريقة تخزين نماذج ثلاثية الأبعاد: من خلال الاحتفاظ فقط بمعاملات عناصر البدائيات، يتم تقليل متطلبات تخزين النموذج، مما يحقق تقليلاً بثلاث رتب من حيث الحجم.
  3. بناء طريقة توليد نماذج ثلاثية الأبعاد متعددة المراحل قائمة على المعلومات متعددة الطرائق: باستخدام معلومات النص والصور كمدخلات، يتم توليد نماذج ثلاثية الأبعاد تتكون من بدائيات معاملية في ظروف بدون عينات.

شرح الطريقة

تعريف المهمة

المدخلات: وصف نصي أو صورة واحدة المخرجات: نموذج ثلاثي الأبعاد يتكون من بدائيات معاملية القيود: توليد بدون عينات، تحسين جودة السطح، تقليل التكاليف التخزينية

معمارية النموذج

ينقسم الإطار إلى ثلاث مراحل رئيسية:

المرحلة الأولى: تركيب صور العمق متعددة الآراء والملاءمة التكرارية للسطح الفائق

  1. تركيب صور العمق متعددة الآراء:
    • استخدام نموذج ImageDream المدرب مسبقاً لتوليد صور متعددة الآراء للنموذج المستهدف
    • توجيه تحسين حقل الإشعاع العصبي من خلال دالة خسارة Score Distillation Sampling (SDS)
    • استخدام طريقة NeRFStudio للعينات لأخذ عينات من صور العمق من 48 زاوية نظر مختلفة من حقل الإشعاع العصبي المحسّن
  2. الملاءمة التكرارية للسطح الفائق:
    • بناء حقل المسافة الموقعة المقطوعة (TSDF)
    • تعريف سلسلة عتبات المسافة الموقعة المتناقصة: Tc={t1c,t2c,...,tmc,tm+1c}T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}
    • تعيين العتبة الأولية: t1c=minxiVt(xi)t_1^c = \min_{x_i \in V} t(x_i)، صيغة التحلل: tm+1c=αtmct_{m+1}^c = \alpha t_m^c
    • معاملات السطح الفائق: θ=(ε1,ε2,T,R,S)\theta = (\varepsilon_1, \varepsilon_2, T, R, S)
    • المعادلة الضمنية: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1

المرحلة الثانية: البحث عن البدائيات المعاملية المتشابهة

بناءً على معاملات الشكل للسطح الفائق ε1\varepsilon_1 و ε2\varepsilon_2، يتم تقسيمها إلى ثلاث فترات عددية:

  • (0,0.5)(0, 0.5): خصائص أسطوانية
  • [0.5,2][0.5, 2]: خصائص إهليلجية
  • (2,+)(2, +\infty): خصائص نجمية

من خلال دمج خصائص الشكل في اتجاه z والمستوى xy، يتم تشكيل 9 أنواع مختلفة من السطح الفائق.

المرحلة الثالثة: خوارزمية ملاءمة ومطابقة البدائيات

استخدام المعادلة القطبية لتمثيل البدائيات المعاملية:

  • اتجاه z: المعادلة القطبية للنظام الأسطواني والنظام الكروي والخط النجمي
  • المستوى xy: المعادلة القطبية للقاعدة المستطيلة والقاعدة الإهليلجية والقاعدة النجمية

دمج متجه الدوران R ومتجه الإزاحة T للسطح الفائق، تنفيذ تحويلات الإزاحة والدوران، وتحسين ملاءمة ومطابقة النموذج ثلاثي الأبعاد المستهدف.

نقاط الابتكار التقني

  1. تحليل الخصائص الشكلية: من خلال التحليل المنهجي لتأثير معاملات السطح الفائق على الشكل، يتم إنشاء علاقة تعيين من السطح الفائق إلى البدائيات المعاملية.
  2. التمثيل المعاملي: حفظ معاملات البدائيات فقط (معاملات الحجم S، معاملات الشكل ε1\varepsilon_1 و ε2\varepsilon_2، متجه الإزاحة T، متجه الدوران R) لتحقيق تخزين النموذج.
  3. التوليد بدون عينات: دمج نموذج الانتشار الضمني وتحليل البدائيات لتحقيق توليد ثلاثي الأبعاد بدون عينات عبر الطرائق.

إعداد التجارب

مجموعات البيانات

  1. مجموعة البيانات الافتراضية:
    • تستند بشكل أساسي إلى مجموعة بيانات ShapeNet، التي تحتوي على أكثر من 3000 فئة كائنات و 220000 نموذج
    • تتضمن صور واختبارات نصية من نماذج ImageDream و One-2-3-45++ و Wonder3D و MVDream و TripoSR
  2. مجموعة البيانات الحقيقية:
    • تستند بشكل أساسي إلى مجموعة بيانات CO3D، التي توفر بيانات ثلاثية الأبعاد غنية من العالم الحقيقي
    • تتضمن صور جزئية من AKB-48 و OmniObject 3D

مؤشرات التقييم

  • مسافة Chamfer (CD): قياس التشابه بين سحابتي نقاط
  • تقاطع الحجم على الاتحاد (VIoU): تقييم درجة تداخل النماذج ثلاثية الأبعاد
  • F1-Score: النظر الشامل في دقة واستدعاء إعادة بناء السطح
  • اتساق الطبيعي (NC): تقييم اتساق متجهات السطح الطبيعية

طرق المقارنة

  • EMS
  • SuperDec
  • Marching-Primitives (MP)

تفاصيل التنفيذ

  • بيئة الأجهزة: معالج AMD Ryzen 7 9700X، بطاقة رسومات NVIDIA GeForce RTX 5060Ti
  • بيئة البرنامج: Windows 11، Python 3.10
  • معاملات TSDF: حجم فضاء الفوكسل -13,13، 100 عينة موحدة لكل بُعد، إجمالي 10⁶ فوكسل
  • دقة الشبكة: 100

نتائج التجارب

النتائج الرئيسية

نتائج مجموعة البيانات الافتراضية

الطريقةCD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS13.10.2180.85720.6607
SuperDec6.380.2460.86290.7101
MP4.950.3900.81930.7284
الطريقة المقترحة3.090.5450.91390.8369

مقارنة بطريقة MP، تقلل الطريقة المقترحة CD بنسبة 37.6%، وتزيد VIoU بنسبة 39.7%، وتزيد F1-Score بنسبة 11.5%، وتزيد NC بنسبة 14.9%.

نتائج مجموعة البيانات الحقيقية

الطريقةCD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS15.10.1410.89170.7539
SuperDec4.400.3010.83830.6759
MP4.320.4920.77710.5882
الطريقة المقترحة2.520.6730.91830.7752

نتائج مجموعة بيانات ShapeNet المفصلة

على ستة فئات من bench و table و plane و cabinet و bottle و rifle، يبلغ متوسط CD للطريقة المقترحة 0.503×10⁻³، و VIoU بقيمة 0.742، و F1-Score بقيمة 0.8896، و NC بقيمة 0.4511، مع أفضل أداء في جميع المؤشرات.

تجربة مقارنة السعة التخزينية

نوع المدخلسعة تخزين الشبكةسعة تخزين البدائيات
نص4.56MB5KB
صورة5.76MB6KB
الكل5.36MB6KB

تم تقليل السعة التخزينية بثلاث رتب من حيث الحجم، من مستوى MB إلى مستوى KB.

تجربة الاستبعاد

تشير تجارب الاستبعاد التي أجريت على مجموعة البيانات الحقيقية إلى أن الطريقة المقترحة تحقق أفضل أداء في مؤشرات VIoU و F1-Score و NC، مما يتحقق من فعالية المعادلات القطبية الأربع.

الأعمال ذات الصلة

نماذج الانتشار الضمنية

اعتمدت تقنيات توليد النماذج ثلاثية الأبعاد المبكرة بشكل أساسي على التعلم الخاضع للإشراف، مما يتطلب كميات كبيرة من البيانات الخاضعة للإشراف. قدم اقتراح نماذج الانتشار الضمنية منظوراً جديداً لإعادة بناء ثلاثي الأبعاد من صورة واحدة، من خلال تقنية Score Distillation Sampling ونماذج الانتشار ثنائية الأبعاد المدربة مسبقاً لتوجيه تحسين التمثيل ثلاثي الأبعاد.

نماذج ثلاثية الأبعاد من تركيب البدائيات

يركز البحث الموجود بشكل أساسي على تحقيق تمثيل الشكل من خلال تحليل النموذج ثلاثي الأبعاد إلى عدة بدائيات بسيطة، بما في ذلك الإهليلجيات الفائقة والغاوسيات الخواص والهياكل المحدبة وغيرها. تتضمن الطرق ذات الصلة مثل Marching-Primitives توسيع نطاق النماذج القابلة للتوليد من خلال الملاءمة التكرارية لحقل المسافة الموقعة المقطوعة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يمكن لإطار العمل المقترح متعدد المراحل لتوليد البدائيات المعاملية عبر الطرائق:

  1. توليد نماذج ثلاثية الأبعاد أساسية متنوعة تستجيب لمدخلات شروط متعددة
  2. تجاوز الخوارزميات الحديثة المتقدمة في مؤشرات CD و VIoU و F1-Score و NC
  3. توليد نماذج مركبة من بدائيات معاملية أكثر توافقاً مع المتطلبات الجمالية
  4. تحقيق توفير كبير في مساحة التخزين

القيود

  1. مشكلة ملاءمة الأسطوانة الحلقية: نظراً لأن السطح الفائق لا يخترق السطح، لا يمكن للطريقة مطابقة أو ملاءمة الأسطوانات الحلقية بفعالية
  2. مزايا التمثيل المعاملي: عدم القدرة على عرض المزايا بشكل كامل مقارنة بالحلول البديلة مثل NURBS
  3. جودة النماذج المعقدة: محدودة بجودة التوليد متعدد الآراء، مع جودة محدودة للنماذج من الزوايا غير المرئية للنماذج المعقدة

الاتجاهات المستقبلية

  1. استخدام أجهزة التشفير التلقائي المتغيرة لترميز سحب النقاط للبدائيات المعقدة، للاستخدام في مطابقة البدائيات للأسطوانات الحلقية
  2. استخدام أنواع سطح أخرى لملاءمة مكونات النموذج، لعرض مزايا التمثيل المعاملي
  3. الاستفادة المتزامنة من معلومات الطرائق المختلفة لوصف أفضل لخصائص النموذج المستهدف، أو إجراء تدريب ضبط دقيق في المهام النهائية

التقييم المتعمق

المزايا

  1. قوة الابتكار المنهجي: أول من يقترح طريقة تعيين منهجية من السطح الفائق إلى البدائيات المعاملية
  2. التجارب الشاملة: تحقق شامل على مجموعات البيانات الافتراضية والحقيقية
  3. القيمة العملية العالية: تقليل كبير في متطلبات التخزين، مناسب للتصميم السريع للنماذج الأولية
  4. وضوح المسار التقني: تصميم إطار العمل ثلاثي المراحل معقول، وظائف كل وحدة واضحة

أوجه القصور

  1. قيود نطاق التطبيق: مناسب بشكل أساسي للنماذج البسيطة، مع قدرة محدودة على معالجة الهياكل الطوبولوجية المعقدة
  2. الاعتماد على النماذج المدربة مسبقاً: يعتمد على جودة النماذج المدربة مسبقاً مثل ImageDream
  3. نقص التحليل النظري: افتقار إلى التحليل النظري لقدرات التمثيل المعاملي
  4. قيود مؤشرات التقييم: التركيز الأساسي على التشابه الهندسي، مع نقص التقييم الذاتي لجودة الرؤية

التأثير

  1. المساهمة الأكاديمية: توفير منظور تمثيل معاملي جديد لمجال توليد ثلاثي الأبعاد
  2. القيمة العملية: تحسن كبير في كفاءة التخزين وجودة السطح
  3. قابلية التكرار: وصف الطريقة مفصل، إعداد التجارب واضح

السيناريوهات المناسبة

  • التصميم السريع للنماذج الأولية في التصميم الصناعي
  • توليد أصول ثلاثية الأبعاد بسيطة في تطوير الألعاب
  • إنشاء محتوى ثلاثي الأبعاد خفيف الوزن لمشاهد الواقع الافتراضي
  • تخزين ونقل النماذج ثلاثية الأبعاد على الأجهزة المحمولة

المراجع

تستشهد الورقة بـ 38 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات توليد ثلاثي الأبعاد ونماذج الانتشار الضمنية وتحليل البدائيات، مما يوفر أساساً نظرياً متيناً لهذا البحث.