2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.
Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
academic

क्रॉस मोडैलिटी से पैरामीटराइज्ड प्रिमिटिव तक 3D जनरेशन फ्रेमवर्क

बुनियादी जानकारी

  • पेपर ID: 2510.08656
  • शीर्षक: A 3D Generation Framework from Cross Modality to Parameterized Primitive
  • लेखक: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (ज़ेजियांग विश्वविद्यालय)
  • वर्गीकरण: cs.GR (कंप्यूटर ग्राफिक्स), cs.AI (कृत्रिम बुद्धिमत्ता), cs.CV (कंप्यूटर विजन)
  • प्रकाशन समय: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.08656

सारांश

यह पेपर AI-संचालित 3D मॉडल जनरेशन में सतह की गुणवत्ता और भंडारण ओवरहेड की चुनौतियों का समाधान करने के लिए पैरामीटराइज्ड प्रिमिटिव पर आधारित एक बहु-चरणीय 3D जनरेशन फ्रेमवर्क प्रस्तावित करता है। यह फ्रेमवर्क पाठ और छवि इनपुट के अनुसार पैरामीटराइज्ड प्रिमिटिव से बने 3D मॉडल उत्पन्न कर सकता है, मॉडल के घटक तत्वों की आकृति विशेषताओं की पहचान करके, मूल तत्वों को उच्च-गुणवत्ता वाली सतह के पैरामीटराइज्ड प्रिमिटिव से बदल देता है। प्रायोगिक परिणाम दिखाते हैं कि यह विधि आभासी और वास्तविक दृश्य डेटासेट पर उत्कृष्ट प्रदर्शन प्राप्त करती है, Chamfer दूरी 3.092×10⁻³, VIoU 0.545, F1-Score 0.9139, NC 0.8369, और प्रिमिटिव पैरामीटर फ़ाइल आकार लगभग 6KB है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक 3D मॉडल जनरेशन तकनीकें दो मुख्य चुनौतियों का सामना करती हैं:

  1. उच्च भंडारण आवश्यकता: मौजूदा विधियां आमतौर पर Marching Cubes एल्गोरिदम के माध्यम से निहित 3D प्रतिनिधित्व से स्पष्ट जाल प्रतिनिधित्व निकालती हैं, जिससे भंडारण आवश्यकता विशाल हो जाती है। उदाहरण के लिए, 256³ वॉक्सेल ग्रिड को 16 मिलियन से अधिक वॉक्सेल जानकारी संग्रहीत करने की आवश्यकता होती है, मेमोरी उपयोग 0.54GB तक पहुंचता है।
  2. मॉडल सतह की गुणवत्ता: रिज़ॉल्यूशन और टोपोलॉजी संरचना बाधाओं से सीमित, कम रिज़ॉल्यूशन वॉक्सेल (जैसे 32³) विवरण हानि का कारण बनते हैं, जाल-आधारित विधियां प्रारंभिक टेम्पलेट विरूपण पर निर्भर करती हैं, जटिल टोपोलॉजी को लचीले ढंग से संभाल नहीं सकती हैं।

अनुसंधान प्रेरणा

AI जनरेशन तकनीक और कंप्यूटर ग्राफिक्स के तीव्र विकास के साथ, 3D मॉडल प्रतिनिधित्व तकनीक का वर्चुअल रियलिटी, चिकित्सा छवि प्रसंस्करण, औद्योगिक डिजाइन निर्माण, गेम विकास और अन्य क्षेत्रों में व्यापक अनुप्रयोग है। पारंपरिक विधियों को आमतौर पर बड़ी मात्रा में पूर्व ज्ञान और धारणाओं की आवश्यकता होती है, जो वास्तविक दृश्यों में प्रयोज्यता को सीमित करता है। इसलिए, एक ऐसी जनरेशन विधि की तत्काल आवश्यकता है जो मॉडल सतह की गुणवत्ता में सुधार करते हुए भंडारण आवश्यकता को कम कर सके।

मुख्य योगदान

  1. प्रिमिटिव फिटिंग और मिलान एल्गोरिदम प्रस्तावित किया: मॉडल को बनाने वाले सुपर-क्वाड्रिक सतह तत्वों को उच्च सतह गुणवत्ता वाली पैरामीटराइज्ड ज्यामिति से बदल सकता है, जिससे 3D मॉडल की समग्र गुणवत्ता में सुधार होता है।
  2. 3D मॉडल भंडारण विधि प्रस्तावित की: केवल प्रिमिटिव तत्वों के पैरामीटर को संरक्षित करके मॉडल की भंडारण आवश्यकता को कम करता है, भंडारण स्थान में तीन परिमाण का कमी प्राप्त करता है।
  3. बहु-मोडैलिटी जानकारी पर आधारित तीन-चरणीय 3D मॉडल जनरेशन विधि का निर्माण किया: पाठ और छवि जानकारी को इनपुट के रूप में लेता है, शून्य-शॉट स्थिति में पैरामीटराइज्ड प्रिमिटिव से बने 3D मॉडल उत्पन्न करता है।

विधि विवरण

कार्य परिभाषा

इनपुट: पाठ विवरण या एकल छवि आउटपुट: पैरामीटराइज्ड प्रिमिटिव से बना 3D मॉडल बाधाएं: शून्य-शॉट जनरेशन, सतह की गुणवत्ता में सुधार, भंडारण ओवरहेड में कमी

मॉडल आर्किटेक्चर

यह फ्रेमवर्क तीन मुख्य चरणों में विभाजित है:

प्रथम चरण: बहु-दृश्य गहराई छवि संश्लेषण और सुपर-क्वाड्रिक पुनरावृत्तिमूलक फिटिंग

  1. बहु-दृश्य गहराई छवि संश्लेषण:
    • लक्ष्य मॉडल की बहु-दृश्य छवियां उत्पन्न करने के लिए पूर्व-प्रशिक्षित ImageDream मॉडल का उपयोग करता है
    • Score Distillation Sampling (SDS) हानि फ़ंक्शन के माध्यम से तंत्रिका विकिरण क्षेत्र अनुकूलन को निर्देशित करता है
    • अनुकूलित निहित तंत्रिका विकिरण क्षेत्र से 48 विभिन्न दृष्टिकोणों की गहराई छवियों को नमूना करने के लिए NeRFStudio नमूनाकरण विधि का उपयोग करता है
  2. सुपर-क्वाड्रिक पुनरावृत्तिमूलक फिटिंग:
    • काटे गए हस्ताक्षरित दूरी क्षेत्र (TSDF) का निर्माण करता है
    • घटती हस्ताक्षरित दूरी थ्रेशोल्ड अनुक्रम परिभाषित करता है: Tc={t1c,t2c,...,tmc,tm+1c}T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}
    • प्रारंभिक थ्रेशोल्ड सेटिंग: t1c=minxiVt(xi)t_1^c = \min_{x_i \in V} t(x_i), क्षय सूत्र: tm+1c=αtmct_{m+1}^c = \alpha t_m^c
    • सुपर-क्वाड्रिक पैरामीटर: θ=(ε1,ε2,T,R,S)\theta = (\varepsilon_1, \varepsilon_2, T, R, S)
    • निहित समीकरण: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1

द्वितीय चरण: समान पैरामीटराइज्ड प्रिमिटिव खोज

सुपर-क्वाड्रिक के आकार पैरामीटर ε1\varepsilon_1 और ε2\varepsilon_2 के अनुसार, इसे तीन संख्यात्मक अंतरालों में विभाजित करता है:

  • (0,0.5)(0, 0.5): बेलनाकार विशेषता
  • [0.5,2][0.5, 2]: दीर्घवृत्ताकार विशेषता
  • (2,+)(2, +\infty): तारकीय विशेषता

z दिशा और xy समतल की आकृति विशेषताओं को संयोजित करके, 9 विभिन्न आकार के सुपर-क्वाड्रिक प्रकार बनाता है।

तृतीय चरण: प्रिमिटिव फिटिंग और मिलान एल्गोरिदम

पैरामीटराइज्ड प्रिमिटिव को ध्रुवीय समीकरण का उपयोग करके प्रतिनिधित्व करता है:

  • z दिशा: बेलनाकार निर्देशांक, गोलाकार निर्देशांक, तारकीय रेखा के ध्रुवीय समीकरण
  • xy समतल: आयताकार आधार, दीर्घवृत्ताकार आधार, तारकीय आधार के ध्रुवीय समीकरण

सुपर-क्वाड्रिक के घूर्णन वेक्टर R और अनुवाद वेक्टर T के साथ संयोजित करके, अनुवाद घूर्णन परिवर्तन निष्पादित करता है, लक्ष्य 3D मॉडल के अनुकूलन फिटिंग और मिलान को करता है।

तकनीकी नवाचार बिंदु

  1. आकृति विशेषता विश्लेषण: सुपर-क्वाड्रिक पैरामीटर के आकार पर प्रभाव का व्यवस्थित विश्लेषण करके, सुपर-क्वाड्रिक से पैरामीटराइज्ड प्रिमिटिव तक मानचित्रण संबंध स्थापित करता है।
  2. पैरामीटराइज्ड प्रतिनिधित्व: केवल प्रिमिटिव पैरामीटर (आकार पैरामीटर S, आकृति पैरामीटर ε1\varepsilon_1 और ε2\varepsilon_2, अनुवाद वेक्टर T, घूर्णन वेक्टर R) को संरक्षित करके मॉडल भंडारण प्राप्त करता है।
  3. शून्य-शॉट जनरेशन: निहित प्रसार मॉडल और प्रिमिटिव अपघटन को संयोजित करके, क्रॉस-मोडैलिटी शून्य-शॉट 3D जनरेशन प्राप्त करता है।

प्रायोगिक सेटअप

डेटासेट

  1. आभासी दृश्य डेटासेट:
    • मुख्य रूप से ShapeNet डेटासेट पर आधारित, 3000 से अधिक ऑब्जेक्ट श्रेणियां और 220000 मॉडल शामिल हैं
    • ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR आदि मॉडलों से परीक्षण छवियां और पाठ शामिल हैं
  2. वास्तविक दृश्य डेटासेट:
    • मुख्य रूप से CO3D डेटासेट पर आधारित, समृद्ध वास्तविक दुनिया 3D डेटा प्रदान करता है
    • AKB-48 और OmniObject 3D की आंशिक छवियां शामिल हैं

मूल्यांकन मेट्रिक्स

  • Chamfer Distance (CD): दो बिंदु बादलों के बीच समानता को मापता है
  • Volumetric Intersection over Union (VIoU): 3D मॉडल के ओवरलैप की डिग्री का मूल्यांकन करता है
  • F1-Score: सतह पुनर्निर्माण सटीकता और रिकॉल को व्यापक रूप से विचार करता है
  • Normal Consistency (NC): सतह सामान्य वेक्टर की सामंजस्य का मूल्यांकन करता है

तुलना विधियां

  • EMS
  • SuperDec
  • Marching-Primitives (MP)

कार्यान्वयन विवरण

  • हार्डवेयर वातावरण: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
  • सॉफ्टवेयर वातावरण: Windows 11, Python 3.10
  • TSDF पैरामीटर: वॉक्सेल स्पेस आकार -13,13, प्रत्येक आयाम में 100 समान नमूने, कुल 10⁶ वॉक्सेल
  • जाल रिज़ॉल्यूशन: 100

प्रायोगिक परिणाम

मुख्य परिणाम

आभासी दृश्य डेटासेट परिणाम

विधिCD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS13.10.2180.85720.6607
SuperDec6.380.2460.86290.7101
MP4.950.3900.81930.7284
यह विधि3.090.5450.91390.8369

MP विधि की तुलना में, यह विधि CD को 37.6% कम करती है, VIoU को 39.7% बढ़ाती है, F1-Score को 11.5% बढ़ाती है, NC को 14.9% बढ़ाती है।

वास्तविक दृश्य डेटासेट परिणाम

विधिCD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS15.10.1410.89170.7539
SuperDec4.400.3010.83830.6759
MP4.320.4920.77710.5882
यह विधि2.520.6730.91830.7752

ShapeNet डेटासेट विस्तृत परिणाम

bench, table, plane, cabinet, bottle, rifle छह श्रेणियों पर, यह विधि औसत CD 0.503×10⁻³, VIoU 0.742, F1-Score 0.8896, NC 0.4511 है, सभी मेट्रिक्स पर सर्वश्रेष्ठ प्रदर्शन करता है।

भंडारण क्षमता तुलना प्रयोग

इनपुट प्रकारजाल भंडारण क्षमताप्रिमिटिव भंडारण क्षमता
पाठ4.56MB5KB
छवि5.76MB6KB
सभी5.36MB6KB

भंडारण क्षमता में तीन परिमाण की कमी, MB स्तर से KB स्तर तक।

विलोपन प्रयोग

वास्तविक दृश्य डेटासेट पर किए गए विलोपन प्रयोग से पता चलता है कि यह विधि VIoU, F1-Score और NC मेट्रिक्स पर सर्वश्रेष्ठ प्रदर्शन करती है, चार ध्रुवीय समीकरणों की प्रभावशीलता को सत्यापित करती है।

संबंधित कार्य

निहित प्रसार मॉडल

प्रारंभिक 3D मॉडल जनरेशन तकनीक मुख्य रूप से पर्यवेक्षित शिक्षा पर आधारित थी, जिसे बड़ी मात्रा में पर्यवेक्षित डेटा की आवश्यकता थी। निहित प्रसार मॉडल का प्रस्ताव एकल छवि 3D पुनर्निर्माण के लिए नई सोच प्रदान करता है, Score Distillation Sampling तकनीक और पूर्व-प्रशिक्षित 2D प्रसार मॉडल के माध्यम से 3D प्रतिनिधित्व अनुकूलन को निर्देशित करता है।

प्रिमिटिव संश्लेषण के 3D मॉडल

मौजूदा अनुसंधान मुख्य रूप से 3D मॉडल को कई सरल प्रिमिटिव में विघटित करके आकार प्रतिनिधित्व प्राप्त करता है, जिसमें सुपर-दीर्घवृत्त, विषमदैशिक गॉसियन, उत्तल पतवार आदि शामिल हैं। संबंधित विधियां जैसे Marching-Primitives काटे गए हस्ताक्षरित दूरी क्षेत्र को पुनरावृत्तिमूलक रूप से फिट करके उत्पन्न मॉडल की श्रेणी का विस्तार करती हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

इस पेपर द्वारा प्रस्तावित बहु-चरणीय क्रॉस-मोडैलिटी पैरामीटराइज्ड प्रिमिटिव जनरेशन फ्रेमवर्क निम्नलिखित को प्राप्त कर सकता है:

  1. विविध शर्तों के इनपुट के अनुसार विविध 3D आधार मॉडल उत्पन्न करता है
  2. CD, VIoU, F1-Score और NC मेट्रिक्स पर मौजूदा अत्याधुनिक एल्गोरिदम को पार करता है
  3. सौंदर्य आवश्यकताओं के अनुरूप पैरामीटराइज्ड प्रिमिटिव संश्लेषण मॉडल उत्पन्न करता है
  4. भंडारण स्थान में महत्वपूर्ण बचत प्राप्त करता है

सीमाएं

  1. वलय बेलन फिटिंग समस्या: चूंकि सुपर-क्वाड्रिक में पारगम्य सतह नहीं है, विधि वलय बेलन को प्रभावी ढंग से मिलान या फिट नहीं कर सकती है
  2. पैरामीटराइज्ड प्रतिनिधित्व लाभ: NURBS जैसे अन्य वैकल्पिक समाधानों की तुलना में लाभ पूरी तरह से प्रदर्शित नहीं किए गए हैं
  3. जटिल मॉडल गुणवत्ता: बहु-दृश्य जनरेशन गुणवत्ता से सीमित, जटिल मॉडलों की अदृश्य दृष्टिकोण की गुणवत्ता सीमित है

भविष्य की दिशा

  1. जटिल प्रिमिटिव के बिंदु बादलों को एन्कोड करने के लिए परिवर्तनशील ऑटोएन्कोडर का उपयोग करता है, वलय बेलन के प्रिमिटिव मिलान के लिए
  2. मॉडल घटकों को फिट करने के लिए अन्य प्रकार की सतह का उपयोग करता है, पैरामीटराइज्ड प्रतिनिधित्व के लाभ प्रदर्शित करता है
  3. लक्ष्य मॉडल विशेषताओं का बेहतर वर्णन करने के लिए विभिन्न मोडैलिटी जानकारी का एक साथ उपयोग करता है, या डाउनस्ट्रीम कार्यों में सूक्ष्म-ट्यूनिंग प्रशिक्षण करता है

गहन मूल्यांकन

फायदे

  1. विधि नवाचार मजबूत है: सुपर-क्वाड्रिक से पैरामीटराइज्ड प्रिमिटिव तक पहली व्यवस्थित मानचित्रण विधि प्रस्तावित करता है
  2. प्रयोग व्यापक हैं: आभासी और वास्तविक दृश्य डेटासेट पर व्यापक सत्यापन किया गया है
  3. व्यावहारिक मूल्य अधिक है: भंडारण आवश्यकता में महत्वपूर्ण कमी, तीव्र प्रोटोटाइप डिजाइन के लिए उपयुक्त है
  4. तकनीकी मार्ग स्पष्ट है: तीन-चरणीय फ्रेमवर्क डिजाइन तर्कसंगत है, प्रत्येक मॉड्यूल कार्य स्पष्ट है

कमियां

  1. प्रयोज्यता श्रेणी सीमित है: मुख्य रूप से सरल मॉडलों के लिए उपयुक्त है, जटिल टोपोलॉजी संरचना को संभालने की क्षमता सीमित है
  2. पूर्व-प्रशिक्षित मॉडल पर निर्भरता: ImageDream आदि पूर्व-प्रशिक्षित मॉडलों की गुणवत्ता पर निर्भर है
  3. सैद्धांतिक विश्लेषण अपर्याप्त है: पैरामीटराइज्ड प्रिमिटिव प्रतिनिधित्व क्षमता का सैद्धांतिक विश्लेषण अभाव है
  4. मूल्यांकन मेट्रिक्स सीमित हैं: मुख्य रूप से ज्यामितीय समानता पर ध्यान केंद्रित करता है, दृश्य गुणवत्ता का व्यक्तिपरक मूल्यांकन अभाव है

प्रभाव

  1. शैक्षणिक योगदान: 3D जनरेशन क्षेत्र के लिए पैरामीटराइज्ड प्रतिनिधित्व की नई सोच प्रदान करता है
  2. व्यावहारिक मूल्य: भंडारण दक्षता और सतह गुणवत्ता में महत्वपूर्ण सुधार
  3. पुनरुत्पादनीयता: विधि विवरण विस्तृत है, प्रायोगिक सेटअप स्पष्ट है

प्रयोज्य दृश्य

  • औद्योगिक डिजाइन में तीव्र प्रोटोटाइप निर्माण
  • गेम विकास में सरल 3D संपत्ति जनरेशन
  • वर्चुअल रियलिटी दृश्य में हल्के 3D सामग्री निर्माण
  • मोबाइल डिवाइस पर 3D मॉडल भंडारण और संचरण

संदर्भ

पेपर में 38 संबंधित संदर्भों का उल्लेख है, जो 3D जनरेशन, निहित प्रसार मॉडल, प्रिमिटिव अपघटन आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, इस अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करता है।