Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- पेपर ID: 2510.08656
- शीर्षक: A 3D Generation Framework from Cross Modality to Parameterized Primitive
- लेखक: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (ज़ेजियांग विश्वविद्यालय)
- वर्गीकरण: cs.GR (कंप्यूटर ग्राफिक्स), cs.AI (कृत्रिम बुद्धिमत्ता), cs.CV (कंप्यूटर विजन)
- प्रकाशन समय: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.08656
यह पेपर AI-संचालित 3D मॉडल जनरेशन में सतह की गुणवत्ता और भंडारण ओवरहेड की चुनौतियों का समाधान करने के लिए पैरामीटराइज्ड प्रिमिटिव पर आधारित एक बहु-चरणीय 3D जनरेशन फ्रेमवर्क प्रस्तावित करता है। यह फ्रेमवर्क पाठ और छवि इनपुट के अनुसार पैरामीटराइज्ड प्रिमिटिव से बने 3D मॉडल उत्पन्न कर सकता है, मॉडल के घटक तत्वों की आकृति विशेषताओं की पहचान करके, मूल तत्वों को उच्च-गुणवत्ता वाली सतह के पैरामीटराइज्ड प्रिमिटिव से बदल देता है। प्रायोगिक परिणाम दिखाते हैं कि यह विधि आभासी और वास्तविक दृश्य डेटासेट पर उत्कृष्ट प्रदर्शन प्राप्त करती है, Chamfer दूरी 3.092×10⁻³, VIoU 0.545, F1-Score 0.9139, NC 0.8369, और प्रिमिटिव पैरामीटर फ़ाइल आकार लगभग 6KB है।
पारंपरिक 3D मॉडल जनरेशन तकनीकें दो मुख्य चुनौतियों का सामना करती हैं:
- उच्च भंडारण आवश्यकता: मौजूदा विधियां आमतौर पर Marching Cubes एल्गोरिदम के माध्यम से निहित 3D प्रतिनिधित्व से स्पष्ट जाल प्रतिनिधित्व निकालती हैं, जिससे भंडारण आवश्यकता विशाल हो जाती है। उदाहरण के लिए, 256³ वॉक्सेल ग्रिड को 16 मिलियन से अधिक वॉक्सेल जानकारी संग्रहीत करने की आवश्यकता होती है, मेमोरी उपयोग 0.54GB तक पहुंचता है।
- मॉडल सतह की गुणवत्ता: रिज़ॉल्यूशन और टोपोलॉजी संरचना बाधाओं से सीमित, कम रिज़ॉल्यूशन वॉक्सेल (जैसे 32³) विवरण हानि का कारण बनते हैं, जाल-आधारित विधियां प्रारंभिक टेम्पलेट विरूपण पर निर्भर करती हैं, जटिल टोपोलॉजी को लचीले ढंग से संभाल नहीं सकती हैं।
AI जनरेशन तकनीक और कंप्यूटर ग्राफिक्स के तीव्र विकास के साथ, 3D मॉडल प्रतिनिधित्व तकनीक का वर्चुअल रियलिटी, चिकित्सा छवि प्रसंस्करण, औद्योगिक डिजाइन निर्माण, गेम विकास और अन्य क्षेत्रों में व्यापक अनुप्रयोग है। पारंपरिक विधियों को आमतौर पर बड़ी मात्रा में पूर्व ज्ञान और धारणाओं की आवश्यकता होती है, जो वास्तविक दृश्यों में प्रयोज्यता को सीमित करता है। इसलिए, एक ऐसी जनरेशन विधि की तत्काल आवश्यकता है जो मॉडल सतह की गुणवत्ता में सुधार करते हुए भंडारण आवश्यकता को कम कर सके।
- प्रिमिटिव फिटिंग और मिलान एल्गोरिदम प्रस्तावित किया: मॉडल को बनाने वाले सुपर-क्वाड्रिक सतह तत्वों को उच्च सतह गुणवत्ता वाली पैरामीटराइज्ड ज्यामिति से बदल सकता है, जिससे 3D मॉडल की समग्र गुणवत्ता में सुधार होता है।
- 3D मॉडल भंडारण विधि प्रस्तावित की: केवल प्रिमिटिव तत्वों के पैरामीटर को संरक्षित करके मॉडल की भंडारण आवश्यकता को कम करता है, भंडारण स्थान में तीन परिमाण का कमी प्राप्त करता है।
- बहु-मोडैलिटी जानकारी पर आधारित तीन-चरणीय 3D मॉडल जनरेशन विधि का निर्माण किया: पाठ और छवि जानकारी को इनपुट के रूप में लेता है, शून्य-शॉट स्थिति में पैरामीटराइज्ड प्रिमिटिव से बने 3D मॉडल उत्पन्न करता है।
इनपुट: पाठ विवरण या एकल छवि
आउटपुट: पैरामीटराइज्ड प्रिमिटिव से बना 3D मॉडल
बाधाएं: शून्य-शॉट जनरेशन, सतह की गुणवत्ता में सुधार, भंडारण ओवरहेड में कमी
यह फ्रेमवर्क तीन मुख्य चरणों में विभाजित है:
- बहु-दृश्य गहराई छवि संश्लेषण:
- लक्ष्य मॉडल की बहु-दृश्य छवियां उत्पन्न करने के लिए पूर्व-प्रशिक्षित ImageDream मॉडल का उपयोग करता है
- Score Distillation Sampling (SDS) हानि फ़ंक्शन के माध्यम से तंत्रिका विकिरण क्षेत्र अनुकूलन को निर्देशित करता है
- अनुकूलित निहित तंत्रिका विकिरण क्षेत्र से 48 विभिन्न दृष्टिकोणों की गहराई छवियों को नमूना करने के लिए NeRFStudio नमूनाकरण विधि का उपयोग करता है
- सुपर-क्वाड्रिक पुनरावृत्तिमूलक फिटिंग:
- काटे गए हस्ताक्षरित दूरी क्षेत्र (TSDF) का निर्माण करता है
- घटती हस्ताक्षरित दूरी थ्रेशोल्ड अनुक्रम परिभाषित करता है: Tc={t1c,t2c,...,tmc,tm+1c}
- प्रारंभिक थ्रेशोल्ड सेटिंग: t1c=minxi∈Vt(xi), क्षय सूत्र: tm+1c=αtmc
- सुपर-क्वाड्रिक पैरामीटर: θ=(ε1,ε2,T,R,S)
- निहित समीकरण: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
सुपर-क्वाड्रिक के आकार पैरामीटर ε1 और ε2 के अनुसार, इसे तीन संख्यात्मक अंतरालों में विभाजित करता है:
- (0,0.5): बेलनाकार विशेषता
- [0.5,2]: दीर्घवृत्ताकार विशेषता
- (2,+∞): तारकीय विशेषता
z दिशा और xy समतल की आकृति विशेषताओं को संयोजित करके, 9 विभिन्न आकार के सुपर-क्वाड्रिक प्रकार बनाता है।
पैरामीटराइज्ड प्रिमिटिव को ध्रुवीय समीकरण का उपयोग करके प्रतिनिधित्व करता है:
- z दिशा: बेलनाकार निर्देशांक, गोलाकार निर्देशांक, तारकीय रेखा के ध्रुवीय समीकरण
- xy समतल: आयताकार आधार, दीर्घवृत्ताकार आधार, तारकीय आधार के ध्रुवीय समीकरण
सुपर-क्वाड्रिक के घूर्णन वेक्टर R और अनुवाद वेक्टर T के साथ संयोजित करके, अनुवाद घूर्णन परिवर्तन निष्पादित करता है, लक्ष्य 3D मॉडल के अनुकूलन फिटिंग और मिलान को करता है।
- आकृति विशेषता विश्लेषण: सुपर-क्वाड्रिक पैरामीटर के आकार पर प्रभाव का व्यवस्थित विश्लेषण करके, सुपर-क्वाड्रिक से पैरामीटराइज्ड प्रिमिटिव तक मानचित्रण संबंध स्थापित करता है।
- पैरामीटराइज्ड प्रतिनिधित्व: केवल प्रिमिटिव पैरामीटर (आकार पैरामीटर S, आकृति पैरामीटर ε1 और ε2, अनुवाद वेक्टर T, घूर्णन वेक्टर R) को संरक्षित करके मॉडल भंडारण प्राप्त करता है।
- शून्य-शॉट जनरेशन: निहित प्रसार मॉडल और प्रिमिटिव अपघटन को संयोजित करके, क्रॉस-मोडैलिटी शून्य-शॉट 3D जनरेशन प्राप्त करता है।
- आभासी दृश्य डेटासेट:
- मुख्य रूप से ShapeNet डेटासेट पर आधारित, 3000 से अधिक ऑब्जेक्ट श्रेणियां और 220000 मॉडल शामिल हैं
- ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR आदि मॉडलों से परीक्षण छवियां और पाठ शामिल हैं
- वास्तविक दृश्य डेटासेट:
- मुख्य रूप से CO3D डेटासेट पर आधारित, समृद्ध वास्तविक दुनिया 3D डेटा प्रदान करता है
- AKB-48 और OmniObject 3D की आंशिक छवियां शामिल हैं
- Chamfer Distance (CD): दो बिंदु बादलों के बीच समानता को मापता है
- Volumetric Intersection over Union (VIoU): 3D मॉडल के ओवरलैप की डिग्री का मूल्यांकन करता है
- F1-Score: सतह पुनर्निर्माण सटीकता और रिकॉल को व्यापक रूप से विचार करता है
- Normal Consistency (NC): सतह सामान्य वेक्टर की सामंजस्य का मूल्यांकन करता है
- EMS
- SuperDec
- Marching-Primitives (MP)
- हार्डवेयर वातावरण: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
- सॉफ्टवेयर वातावरण: Windows 11, Python 3.10
- TSDF पैरामीटर: वॉक्सेल स्पेस आकार -13,13, प्रत्येक आयाम में 100 समान नमूने, कुल 10⁶ वॉक्सेल
- जाल रिज़ॉल्यूशन: 100
| विधि | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13.1 | 0.218 | 0.8572 | 0.6607 |
| SuperDec | 6.38 | 0.246 | 0.8629 | 0.7101 |
| MP | 4.95 | 0.390 | 0.8193 | 0.7284 |
| यह विधि | 3.09 | 0.545 | 0.9139 | 0.8369 |
MP विधि की तुलना में, यह विधि CD को 37.6% कम करती है, VIoU को 39.7% बढ़ाती है, F1-Score को 11.5% बढ़ाती है, NC को 14.9% बढ़ाती है।
| विधि | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15.1 | 0.141 | 0.8917 | 0.7539 |
| SuperDec | 4.40 | 0.301 | 0.8383 | 0.6759 |
| MP | 4.32 | 0.492 | 0.7771 | 0.5882 |
| यह विधि | 2.52 | 0.673 | 0.9183 | 0.7752 |
bench, table, plane, cabinet, bottle, rifle छह श्रेणियों पर, यह विधि औसत CD 0.503×10⁻³, VIoU 0.742, F1-Score 0.8896, NC 0.4511 है, सभी मेट्रिक्स पर सर्वश्रेष्ठ प्रदर्शन करता है।
| इनपुट प्रकार | जाल भंडारण क्षमता | प्रिमिटिव भंडारण क्षमता |
|---|
| पाठ | 4.56MB | 5KB |
| छवि | 5.76MB | 6KB |
| सभी | 5.36MB | 6KB |
भंडारण क्षमता में तीन परिमाण की कमी, MB स्तर से KB स्तर तक।
वास्तविक दृश्य डेटासेट पर किए गए विलोपन प्रयोग से पता चलता है कि यह विधि VIoU, F1-Score और NC मेट्रिक्स पर सर्वश्रेष्ठ प्रदर्शन करती है, चार ध्रुवीय समीकरणों की प्रभावशीलता को सत्यापित करती है।
प्रारंभिक 3D मॉडल जनरेशन तकनीक मुख्य रूप से पर्यवेक्षित शिक्षा पर आधारित थी, जिसे बड़ी मात्रा में पर्यवेक्षित डेटा की आवश्यकता थी। निहित प्रसार मॉडल का प्रस्ताव एकल छवि 3D पुनर्निर्माण के लिए नई सोच प्रदान करता है, Score Distillation Sampling तकनीक और पूर्व-प्रशिक्षित 2D प्रसार मॉडल के माध्यम से 3D प्रतिनिधित्व अनुकूलन को निर्देशित करता है।
मौजूदा अनुसंधान मुख्य रूप से 3D मॉडल को कई सरल प्रिमिटिव में विघटित करके आकार प्रतिनिधित्व प्राप्त करता है, जिसमें सुपर-दीर्घवृत्त, विषमदैशिक गॉसियन, उत्तल पतवार आदि शामिल हैं। संबंधित विधियां जैसे Marching-Primitives काटे गए हस्ताक्षरित दूरी क्षेत्र को पुनरावृत्तिमूलक रूप से फिट करके उत्पन्न मॉडल की श्रेणी का विस्तार करती हैं।
इस पेपर द्वारा प्रस्तावित बहु-चरणीय क्रॉस-मोडैलिटी पैरामीटराइज्ड प्रिमिटिव जनरेशन फ्रेमवर्क निम्नलिखित को प्राप्त कर सकता है:
- विविध शर्तों के इनपुट के अनुसार विविध 3D आधार मॉडल उत्पन्न करता है
- CD, VIoU, F1-Score और NC मेट्रिक्स पर मौजूदा अत्याधुनिक एल्गोरिदम को पार करता है
- सौंदर्य आवश्यकताओं के अनुरूप पैरामीटराइज्ड प्रिमिटिव संश्लेषण मॉडल उत्पन्न करता है
- भंडारण स्थान में महत्वपूर्ण बचत प्राप्त करता है
- वलय बेलन फिटिंग समस्या: चूंकि सुपर-क्वाड्रिक में पारगम्य सतह नहीं है, विधि वलय बेलन को प्रभावी ढंग से मिलान या फिट नहीं कर सकती है
- पैरामीटराइज्ड प्रतिनिधित्व लाभ: NURBS जैसे अन्य वैकल्पिक समाधानों की तुलना में लाभ पूरी तरह से प्रदर्शित नहीं किए गए हैं
- जटिल मॉडल गुणवत्ता: बहु-दृश्य जनरेशन गुणवत्ता से सीमित, जटिल मॉडलों की अदृश्य दृष्टिकोण की गुणवत्ता सीमित है
- जटिल प्रिमिटिव के बिंदु बादलों को एन्कोड करने के लिए परिवर्तनशील ऑटोएन्कोडर का उपयोग करता है, वलय बेलन के प्रिमिटिव मिलान के लिए
- मॉडल घटकों को फिट करने के लिए अन्य प्रकार की सतह का उपयोग करता है, पैरामीटराइज्ड प्रतिनिधित्व के लाभ प्रदर्शित करता है
- लक्ष्य मॉडल विशेषताओं का बेहतर वर्णन करने के लिए विभिन्न मोडैलिटी जानकारी का एक साथ उपयोग करता है, या डाउनस्ट्रीम कार्यों में सूक्ष्म-ट्यूनिंग प्रशिक्षण करता है
- विधि नवाचार मजबूत है: सुपर-क्वाड्रिक से पैरामीटराइज्ड प्रिमिटिव तक पहली व्यवस्थित मानचित्रण विधि प्रस्तावित करता है
- प्रयोग व्यापक हैं: आभासी और वास्तविक दृश्य डेटासेट पर व्यापक सत्यापन किया गया है
- व्यावहारिक मूल्य अधिक है: भंडारण आवश्यकता में महत्वपूर्ण कमी, तीव्र प्रोटोटाइप डिजाइन के लिए उपयुक्त है
- तकनीकी मार्ग स्पष्ट है: तीन-चरणीय फ्रेमवर्क डिजाइन तर्कसंगत है, प्रत्येक मॉड्यूल कार्य स्पष्ट है
- प्रयोज्यता श्रेणी सीमित है: मुख्य रूप से सरल मॉडलों के लिए उपयुक्त है, जटिल टोपोलॉजी संरचना को संभालने की क्षमता सीमित है
- पूर्व-प्रशिक्षित मॉडल पर निर्भरता: ImageDream आदि पूर्व-प्रशिक्षित मॉडलों की गुणवत्ता पर निर्भर है
- सैद्धांतिक विश्लेषण अपर्याप्त है: पैरामीटराइज्ड प्रिमिटिव प्रतिनिधित्व क्षमता का सैद्धांतिक विश्लेषण अभाव है
- मूल्यांकन मेट्रिक्स सीमित हैं: मुख्य रूप से ज्यामितीय समानता पर ध्यान केंद्रित करता है, दृश्य गुणवत्ता का व्यक्तिपरक मूल्यांकन अभाव है
- शैक्षणिक योगदान: 3D जनरेशन क्षेत्र के लिए पैरामीटराइज्ड प्रतिनिधित्व की नई सोच प्रदान करता है
- व्यावहारिक मूल्य: भंडारण दक्षता और सतह गुणवत्ता में महत्वपूर्ण सुधार
- पुनरुत्पादनीयता: विधि विवरण विस्तृत है, प्रायोगिक सेटअप स्पष्ट है
- औद्योगिक डिजाइन में तीव्र प्रोटोटाइप निर्माण
- गेम विकास में सरल 3D संपत्ति जनरेशन
- वर्चुअल रियलिटी दृश्य में हल्के 3D सामग्री निर्माण
- मोबाइल डिवाइस पर 3D मॉडल भंडारण और संचरण
पेपर में 38 संबंधित संदर्भों का उल्लेख है, जो 3D जनरेशन, निहित प्रसार मॉडल, प्रिमिटिव अपघटन आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, इस अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करता है।