Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- পেপার আইডি: 2510.08656
- শিরোনাম: A 3D Generation Framework from Cross Modality to Parameterized Primitive
- লেখক: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (জেজিয়াং বিশ্ববিদ্যালয়)
- শ্রেণীবিভাগ: cs.GR (কম্পিউটার গ্রাফিক্স), cs.AI (কৃত্রিম বুদ্ধিমত্তা), cs.CV (কম্পিউটার ভিশন)
- প্রকাশনার সময়: 2025 সালের 9 অক্টোবর (arXiv প্রিপ্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.08656
এই পেপারটি AI-চালিত 3D মডেল জেনারেশনে পৃষ্ঠের গুণমান এবং স্টোরেজ ওভারহেডের চ্যালেঞ্জগুলির সমাধানের জন্য একটি প্যারামিটারাইজড প্রিমিটিভ-ভিত্তিক বহু-পর্যায়ের 3D জেনারেশন ফ্রেমওয়ার্ক প্রস্তাব করে। এই ফ্রেমওয়ার্কটি টেক্সট এবং ইমেজ ইনপুট অনুযায়ী প্যারামিটারাইজড প্রিমিটিভ দ্বারা গঠিত 3D মডেল তৈরি করতে পারে, মডেল গঠনকারী উপাদানগুলির আকৃতির বৈশিষ্ট্য চিহ্নিত করে উচ্চ-গুণমানের পৃষ্ঠের প্যারামিটারাইজড প্রিমিটিভ দিয়ে মূল উপাদানগুলি প্রতিস্থাপন করে। পরীক্ষামূলক ফলাফল দেখায় যে এই পদ্ধতিটি ভার্চুয়াল এবং বাস্তব দৃশ্যের ডেটাসেটে চমৎকার কর্মক্ষমতা অর্জন করেছে, Chamfer দূরত্ব 3.092×10⁻³, VIoU 0.545, F1-স্কোর 0.9139, NC 0.8369, এবং প্রিমিটিভ প্যারামিটার ফাইল আকার প্রায় 6KB।
ঐতিহ্যবাহী 3D মডেল জেনারেশন প্রযুক্তি দুটি মূল চ্যালেঞ্জের সম্মুখীন:
- উচ্চ স্টোরেজ প্রয়োজনীয়তা: বিদ্যমান পদ্ধতিগুলি সাধারণত Marching Cubes অ্যালগরিদম ব্যবহার করে অন্তর্নিহিত 3D প্রতিনিধিত্ব থেকে স্পষ্ট মেশ প্রতিনিধিত্ব বের করে, যা বিশাল স্টোরেজ প্রয়োজনীয়তার দিকে পরিচালিত করে। উদাহরণস্বরূপ, 256³ ভক্সেল গ্রিডের জন্য 16 মিলিয়নেরও বেশি ভক্সেল তথ্য সংরক্ষণ করতে হয়, মেমরি ব্যবহার 0.54GB পর্যন্ত।
- মডেল পৃষ্ঠের গুণমান: রেজোলিউশন এবং টপোলজিক্যাল কাঠামোর সীমাবদ্ধতার কারণে, কম রেজোলিউশনের ভক্সেল (যেমন 32³) বিস্তারিত হারানোর দিকে পরিচালিত করে, মেশ-ভিত্তিক পদ্ধতিগুলি প্রাথমিক টেমপ্লেট বিকৃতির উপর নির্ভর করে এবং জটিল টপোলজি নমনীয়ভাবে পরিচালনা করতে পারে না।
AI জেনারেশন প্রযুক্তি এবং কম্পিউটার গ্রাফিক্সের দ্রুত উন্নয়নের সাথে, 3D মডেল প্রতিনিধিত্ব প্রযুক্তি ভার্চুয়াল রিয়েলিটি, চিকিৎসা ইমেজ প্রসেসিং, শিল্প ডিজাইন উৎপাদন, গেম ডেভেলপমেন্ট এবং অন্যান্য ক্ষেত্রে ব্যাপক প্রয়োগ রয়েছে। ঐতিহ্যবাহী পদ্ধতিগুলি সাধারণত প্রচুর পূর্ব জ্ঞান এবং অনুমান প্রয়োজন, যা বাস্তব দৃশ্যে প্রয়োগযোগ্যতা সীমিত করে। অতএব, এমন একটি জেনারেশন পদ্ধতির জরুরি প্রয়োজন যা মডেল পৃষ্ঠের গুণমান উন্নত করার সাথে সাথে স্টোরেজ প্রয়োজনীয়তা হ্রাস করতে পারে।
- প্রিমিটিভ ফিটিং এবং ম্যাচিং অ্যালগরিদম প্রস্তাব: মডেল গঠনকারী সুপারকোয়াড্রিক পৃষ্ঠ উপাদানগুলিকে উচ্চতর পৃষ্ঠ গুণমান সহ প্যারামিটারাইজড জ্যামিতিতে প্রতিস্থাপন করতে পারে, যা 3D মডেলের সামগ্রিক গুণমান উন্নত করে।
- 3D মডেল স্টোরেজ পদ্ধতি প্রস্তাব: শুধুমাত্র প্রিমিটিভ উপাদানগুলির প্যারামিটার সংরক্ষণ করে মডেলের স্টোরেজ প্রয়োজনীয়তা হ্রাস করে, তিনটি পরিমাণের ক্রমে স্টোরেজ স্থান হ্রাস অর্জন করে।
- বহু-মোডাল তথ্যের উপর ভিত্তি করে তিন-পর্যায়ের 3D মডেল জেনারেশন পদ্ধতি নির্মাণ: টেক্সট এবং ইমেজ তথ্যকে ইনপুট হিসাবে ব্যবহার করে, শূন্য-শট শর্তে প্যারামিটারাইজড প্রিমিটিভ দ্বারা গঠিত 3D মডেল তৈরি করে।
ইনপুট: টেক্সট বর্ণনা বা একক ইমেজ
আউটপুট: প্যারামিটারাইজড প্রিমিটিভ দ্বারা গঠিত 3D মডেল
সীমাবদ্ধতা: শূন্য-শট জেনারেশন, পৃষ্ঠের গুণমান উন্নত করা, স্টোরেজ ওভারহেড হ্রাস করা
এই ফ্রেমওয়ার্কটি তিনটি প্রধান পর্যায়ে বিভক্ত:
- মাল্টি-ভিউ গভীরতা ইমেজ সংশ্লেষণ:
- লক্ষ্য মডেলের মাল্টি-ভিউ ইমেজ তৈরি করতে প্রি-প্রশিক্ষিত ImageDream মডেল ব্যবহার করে
- Score Distillation Sampling (SDS) ক্ষতি ফাংশনের মাধ্যমে নিউরাল রেডিয়েন্স ফিল্ড অপ্টিমাইজেশন পরিচালনা করে
- অপ্টিমাইজড অন্তর্নিহিত নিউরাল রেডিয়েন্স ফিল্ড থেকে 48টি ভিন্ন দৃষ্টিকোণের গভীরতা ইমেজ নমুনা করতে NeRFStudio স্যাম্পলিং পদ্ধতি ব্যবহার করে
- সুপারকোয়াড্রিক পুনরাবৃত্তিমূলক ফিটিং:
- ট্রাঙ্কেটেড স্বাক্ষরিত দূরত্ব ক্ষেত্র (TSDF) নির্মাণ করে
- হ্রাসমান স্বাক্ষরিত দূরত্ব থ্রেশহোল্ড সিকোয়েন্স সংজ্ঞায়িত করে: Tc={t1c,t2c,...,tmc,tm+1c}
- প্রাথমিক থ্রেশহোল্ড সেট করে: t1c=minxi∈Vt(xi), ক্ষয় সূত্র: tm+1c=αtmc
- সুপারকোয়াড্রিক প্যারামিটার: θ=(ε1,ε2,T,R,S)
- অন্তর্নিহিত সমীকরণ: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
সুপারকোয়াড্রিকের আকৃতি প্যারামিটার ε1 এবং ε2 অনুযায়ী, এটিকে তিনটি সংখ্যাগত ব্যবধানে বিভক্ত করে:
- (0,0.5): সিলিন্ডার বৈশিষ্ট্য
- [0.5,2]: উপবৃত্তাকার বৈশিষ্ট্য
- (2,+∞): তারকা বৈশিষ্ট্য
z দিক এবং xy সমতলের আকৃতির বৈশিষ্ট্য সংমিশ্রণ করে, 9 ধরনের বিভিন্ন আকৃতির সুপারকোয়াড্রিক ধরন গঠন করে।
পোলার সমীকরণ ব্যবহার করে প্যারামিটারাইজড প্রিমিটিভ প্রতিনিধিত্ব করে:
- z দিক: সিলিন্ডার সমন্বয় সিস্টেম, গোলাকার সমন্বয় সিস্টেম, তারকা লাইনের পোলার সমীকরণ
- xy সমতল: আয়তাকার ভিত্তি, উপবৃত্তাকার ভিত্তি, তারকা ভিত্তির পোলার সমীকরণ
সুপারকোয়াড্রিকের ঘূর্ণন ভেক্টর R এবং অনুবাদ ভেক্টর T এর সাথে মিলিয়ে, অনুবাদ ঘূর্ণন রূপান্তর সম্পাদন করে, লক্ষ্য 3D মডেলের অপ্টিমাইজেশন ফিটিং এবং ম্যাচিং করে।
- আকৃতির বৈশিষ্ট্য বিশ্লেষণ: সুপারকোয়াড্রিক প্যারামিটারের আকৃতিতে প্রভাব সিস্টেমেটিকভাবে বিশ্লেষণ করে, সুপারকোয়াড্রিক থেকে প্যারামিটারাইজড প্রিমিটিভের ম্যাপিং সম্পর্ক স্থাপন করে।
- প্যারামিটারাইজড প্রতিনিধিত্ব: শুধুমাত্র প্রিমিটিভ প্যারামিটার (আকার প্যারামিটার S, আকৃতি প্যারামিটার ε1 এবং ε2, অনুবাদ ভেক্টর T, ঘূর্ণন ভেক্টর R) সংরক্ষণ করে মডেল স্টোরেজ বাস্তবায়ন করে।
- শূন্য-শট জেনারেশন: অন্তর্নিহিত বিস্তার মডেল এবং প্রিমিটিভ বিয়োজন একত্রিত করে, ক্রস-মোডাল শূন্য-শট 3D জেনারেশন বাস্তবায়ন করে।
- ভার্চুয়াল দৃশ্য ডেটাসেট:
- প্রধানত ShapeNet ডেটাসেটের উপর ভিত্তি করে, 3000+ অবজেক্ট ক্লাস এবং 220000 মডেল অন্তর্ভুক্ত করে
- ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR ইত্যাদি মডেল থেকে পরীক্ষার ইমেজ এবং টেক্সট অন্তর্ভুক্ত করে
- বাস্তব দৃশ্য ডেটাসেট:
- প্রধানত CO3D ডেটাসেটের উপর ভিত্তি করে, সমৃদ্ধ বাস্তব-বিশ্ব 3D ডেটা প্রদান করে
- AKB-48 এবং OmniObject 3D এর অংশ ইমেজ অন্তর্ভুক্ত করে
- Chamfer দূরত্ব (CD): দুটি পয়েন্ট ক্লাউডের মধ্যে সাদৃশ্য পরিমাপ করে
- ভলিউমেট্রিক ইন্টারসেকশন ওভার ইউনিয়ন (VIoU): 3D মডেলের ওভারল্যাপ ডিগ্রি মূল্যায়ন করে
- F1-স্কোর: পৃষ্ঠ পুনর্নির্মাণ নির্ভুলতা এবং রিকল একত্রিত বিবেচনা করে
- সাধারণ সামঞ্জস্য (NC): পৃষ্ঠ সাধারণ ভেক্টরের সামঞ্জস্য মূল্যায়ন করে
- EMS
- SuperDec
- Marching-Primitives (MP)
- হার্ডওয়্যার পরিবেশ: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
- সফটওয়্যার পরিবেশ: Windows 11, Python 3.10
- TSDF প্যারামিটার: ভক্সেল স্থান আকার -13,13, প্রতিটি মাত্রায় 100 সমান নমুনা, মোট 10⁶ ভক্সেল
- মেশ রেজোলিউশন: 100
| পদ্ধতি | CD(×10⁻³)↓ | VIoU↑ | F1-স্কোর↑ | NC↑ |
|---|
| EMS | 13.1 | 0.218 | 0.8572 | 0.6607 |
| SuperDec | 6.38 | 0.246 | 0.8629 | 0.7101 |
| MP | 4.95 | 0.390 | 0.8193 | 0.7284 |
| এই পদ্ধতি | 3.09 | 0.545 | 0.9139 | 0.8369 |
MP পদ্ধতির তুলনায়, এই পদ্ধতি CD 37.6% হ্রাস করে, VIoU 39.7% বৃদ্ধি করে, F1-স্কোর 11.5% বৃদ্ধি করে, NC 14.9% বৃদ্ধি করে।
| পদ্ধতি | CD(×10⁻³)↓ | VIoU↑ | F1-স্কোর↑ | NC↑ |
|---|
| EMS | 15.1 | 0.141 | 0.8917 | 0.7539 |
| SuperDec | 4.40 | 0.301 | 0.8383 | 0.6759 |
| MP | 4.32 | 0.492 | 0.7771 | 0.5882 |
| এই পদ্ধতি | 2.52 | 0.673 | 0.9183 | 0.7752 |
bench, table, plane, cabinet, bottle, rifle ছয়টি ক্লাসে, এই পদ্ধতির গড় CD 0.503×10⁻³, VIoU 0.742, F1-স্কোর 0.8896, NC 0.4511, সমস্ত সূচকে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে।
| ইনপুট ধরন | মেশ স্টোরেজ ক্ষমতা | প্রিমিটিভ স্টোরেজ ক্ষমতা |
|---|
| টেক্সট | 4.56MB | 5KB |
| ইমেজ | 5.76MB | 6KB |
| সম্পূর্ণ | 5.36MB | 6KB |
স্টোরেজ ক্ষমতা তিনটি পরিমাণের ক্রমে হ্রাস পেয়েছে, MB স্তর থেকে KB স্তরে নেমে এসেছে।
বাস্তব দৃশ্য ডেটাসেটে পরিচালিত অ্যাবলেশন পরীক্ষা দেখায় যে এই পদ্ধতি VIoU, F1-স্কোর এবং NC সূচকে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, চারটি পোলার সমীকরণের কার্যকারিতা যাচাই করে।
প্রাথমিক 3D মডেল জেনারেশন প্রযুক্তি প্রধানত তত্ত্বাবধানে শেখার উপর ভিত্তি করে, যার জন্য প্রচুর তত্ত্বাবধানে ডেটা প্রয়োজন। অন্তর্নিহিত বিস্তার মডেলের প্রস্তাব একক ইমেজ 3D পুনর্নির্মাণের জন্য নতুন চিন্তাভাবনা প্রদান করে, Score Distillation Sampling প্রযুক্তি এবং প্রি-প্রশিক্ষিত 2D বিস্তার মডেল দ্বারা 3D প্রতিনিধিত্ব অপ্টিমাইজেশন পরিচালনা করে।
বিদ্যমান গবেষণা প্রধানত 3D মডেলকে একাধিক সহজ প্রিমিটিভে বিয়োজন করে আকৃতি প্রতিনিধিত্ব বাস্তবায়ন করে, যার মধ্যে সুপারএলিপসয়েড, অ্যানিসোট্রপিক গাউসিয়ান, উত্তল হাল ইত্যাদি অন্তর্ভুক্ত। Marching-Primitives এর মতো সম্পর্কিত পদ্ধতিগুলি পুনরাবৃত্তিমূলক ফিটিং ট্রাঙ্কেটেড স্বাক্ষরিত দূরত্ব ক্ষেত্র সম্প্রসারণ করে উৎপাদনযোগ্য মডেলের পরিসীমা প্রসারিত করেছে।
এই পেপারে প্রস্তাবিত বহু-পর্যায়ের ক্রস-মোডাল প্যারামিটারাইজড প্রিমিটিভ জেনারেশন ফ্রেমওয়ার্ক নিম্নলিখিত সক্ষমতা রাখে:
- বিভিন্ন শর্তাধীন ইনপুটের প্রতিক্রিয়ায় বৈচিত্র্যময় 3D ভিত্তি মডেল তৈরি করা
- CD, VIoU, F1-স্কোর এবং NC সূচকে বর্তমান অত্যাধুনিক অ্যালগরিদম অতিক্রম করা
- নান্দনিক প্রয়োজনীয়তার সাথে আরও সামঞ্জস্যপূর্ণ প্যারামিটারাইজড প্রিমিটিভ সংশ্লেষণ মডেল তৈরি করা
- উল্লেখযোগ্য স্টোরেজ স্থান সঞ্চয় অর্জন করা
- রিং সিলিন্ডার ফিটিং সমস্যা: সুপারকোয়াড্রিকের কোন অনুপ্রবেশকারী পৃষ্ঠ নেই বলে, পদ্ধতি রিং সিলিন্ডার কার্যকরভাবে ম্যাচ বা ফিট করতে পারে না
- প্যারামিটারাইজড প্রতিনিধিত্বের সুবিধা: NURBS এর মতো অন্যান্য বিকল্প সমাধানের তুলনায় সুবিধা পর্যাপ্তভাবে প্রদর্শন করতে পারে না
- জটিল মডেল গুণমান: মাল্টি-ভিউ জেনারেশন গুণমানের সীমাবদ্ধতা, জটিল মডেলের অদৃশ্য দৃষ্টিকোণের মডেল গুণমান সীমিত
- জটিল প্রিমিটিভের পয়েন্ট ক্লাউড এনকোড করতে ভেরিয়েশনাল অটোএনকোডার ব্যবহার করা, রিং সিলিন্ডারের প্রিমিটিভ ম্যাচিংয়ের জন্য
- মডেল উপাদান ফিট করতে অন্যান্য ধরনের পৃষ্ঠ ব্যবহার করা, প্যারামিটারাইজড প্রতিনিধিত্বের সুবিধা প্রদর্শন করা
- লক্ষ্য মডেল বৈশিষ্ট্য আরও ভালভাবে বর্ণনা করতে বিভিন্ন মোডাল তথ্য একযোগে ব্যবহার করা, বা ডাউনস্ট্রিম কাজে ফাইন-টিউনিং প্রশিক্ষণ পরিচালনা করা
- পদ্ধতির উদ্ভাবনী শক্তি শক্তিশালী: সুপারকোয়াড্রিক থেকে প্যারামিটারাইজড প্রিমিটিভের সিস্টেমেটিক ম্যাপিং পদ্ধতি প্রথমবারের মতো প্রস্তাব করা
- পরীক্ষা পর্যাপ্ত: ভার্চুয়াল এবং বাস্তব দৃশ্য ডেটাসেটে ব্যাপক যাচাইকরণ পরিচালিত
- ব্যবহারিক মূল্য উচ্চ: দ্রুত প্রোটোটাইপ ডিজাইনের জন্য উপযুক্ত, স্টোরেজ প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করে
- প্রযুক্তিগত রুট পরিষ্কার: তিন-পর্যায়ের ফ্রেমওয়ার্ক ডিজাইন যুক্তিসঙ্গত, প্রতিটি মডিউলের কার্যকারিতা স্পষ্ট
- প্রয়োগযোগ্যতার পরিসীমা সীমিত: প্রধানত সহজ মডেলের জন্য উপযুক্ত, জটিল টপোলজিক্যাল কাঠামো পরিচালনার ক্ষমতা সীমিত
- প্রি-প্রশিক্ষিত মডেলের উপর নির্ভরশীল: ImageDream এর মতো প্রি-প্রশিক্ষিত মডেলের গুণমানের উপর নির্ভর করে
- তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: প্যারামিটারাইজড প্রিমিটিভ প্রতিনিধিত্ব ক্ষমতার তাত্ত্বিক বিশ্লেষণ অভাব
- মূল্যায়ন সূচকের সীমাবদ্ধতা: প্রধানত জ্যামিতিক সাদৃশ্যে মনোনিবেশ করে, ভিজ্যুয়াল গুণমানের বিষয়গত মূল্যায়ন অভাব
- একাডেমিক অবদান: 3D জেনারেশন ক্ষেত্রে নতুন প্যারামিটারাইজড প্রতিনিধিত্ব চিন্তাভাবনা প্রদান করে
- ব্যবহারিক মূল্য: স্টোরেজ দক্ষতা এবং পৃষ্ঠ গুণমানে উল্লেখযোগ্য উন্নতি
- পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা বিস্তারিত, পরীক্ষামূলক সেটআপ স্পষ্ট
- শিল্প ডিজাইনে দ্রুত প্রোটোটাইপ তৈরি
- গেম ডেভেলপমেন্টে সহজ 3D সম্পদ জেনারেশন
- ভার্চুয়াল রিয়েলিটি দৃশ্যের হালকা 3D সামগ্রী তৈরি
- মোবাইল ডিভাইসে 3D মডেল স্টোরেজ এবং ট্রান্সমিশন
পেপারটি 38টি সম্পর্কিত সাহিত্য উদ্ধৃত করেছে, যা 3D জেনারেশন, অন্তর্নিহিত বিস্তার মডেল, প্রিমিটিভ বিয়োজন এবং অন্যান্য মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।