2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

ক্রস মডালিটি থেকে প্যারামিটারাইজড প্রিমিটিভ পর্যন্ত একটি 3D জেনারেশন ফ্রেমওয়ার্ক

মৌলিক তথ্য

পেপার আইডি: 2510.08656
শিরোনাম: A 3D Generation Framework from Cross Modality to Parameterized Primitive
লেখক: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (জেজিয়াং বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.GR (কম্পিউটার গ্রাফিক্স), cs.AI (কৃত্রিম বুদ্ধিমত্তা), cs.CV (কম্পিউটার ভিশন)
প্রকাশনার সময়: 2025 সালের 9 অক্টোবর (arXiv প্রিপ্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.08656

সারসংক্ষেপ

এই পেপারটি AI-চালিত 3D মডেল জেনারেশনে পৃষ্ঠের গুণমান এবং স্টোরেজ ওভারহেডের চ্যালেঞ্জগুলির সমাধানের জন্য একটি প্যারামিটারাইজড প্রিমিটিভ-ভিত্তিক বহু-পর্যায়ের 3D জেনারেশন ফ্রেমওয়ার্ক প্রস্তাব করে। এই ফ্রেমওয়ার্কটি টেক্সট এবং ইমেজ ইনপুট অনুযায়ী প্যারামিটারাইজড প্রিমিটিভ দ্বারা গঠিত 3D মডেল তৈরি করতে পারে, মডেল গঠনকারী উপাদানগুলির আকৃতির বৈশিষ্ট্য চিহ্নিত করে উচ্চ-গুণমানের পৃষ্ঠের প্যারামিটারাইজড প্রিমিটিভ দিয়ে মূল উপাদানগুলি প্রতিস্থাপন করে। পরীক্ষামূলক ফলাফল দেখায় যে এই পদ্ধতিটি ভার্চুয়াল এবং বাস্তব দৃশ্যের ডেটাসেটে চমৎকার কর্মক্ষমতা অর্জন করেছে, Chamfer দূরত্ব 3.092×10⁻³, VIoU 0.545, F1-স্কোর 0.9139, NC 0.8369, এবং প্রিমিটিভ প্যারামিটার ফাইল আকার প্রায় 6KB।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

ঐতিহ্যবাহী 3D মডেল জেনারেশন প্রযুক্তি দুটি মূল চ্যালেঞ্জের সম্মুখীন:

উচ্চ স্টোরেজ প্রয়োজনীয়তা: বিদ্যমান পদ্ধতিগুলি সাধারণত Marching Cubes অ্যালগরিদম ব্যবহার করে অন্তর্নিহিত 3D প্রতিনিধিত্ব থেকে স্পষ্ট মেশ প্রতিনিধিত্ব বের করে, যা বিশাল স্টোরেজ প্রয়োজনীয়তার দিকে পরিচালিত করে। উদাহরণস্বরূপ, 256³ ভক্সেল গ্রিডের জন্য 16 মিলিয়নেরও বেশি ভক্সেল তথ্য সংরক্ষণ করতে হয়, মেমরি ব্যবহার 0.54GB পর্যন্ত।
মডেল পৃষ্ঠের গুণমান: রেজোলিউশন এবং টপোলজিক্যাল কাঠামোর সীমাবদ্ধতার কারণে, কম রেজোলিউশনের ভক্সেল (যেমন 32³) বিস্তারিত হারানোর দিকে পরিচালিত করে, মেশ-ভিত্তিক পদ্ধতিগুলি প্রাথমিক টেমপ্লেট বিকৃতির উপর নির্ভর করে এবং জটিল টপোলজি নমনীয়ভাবে পরিচালনা করতে পারে না।

গবেষণার প্রেরণা

AI জেনারেশন প্রযুক্তি এবং কম্পিউটার গ্রাফিক্সের দ্রুত উন্নয়নের সাথে, 3D মডেল প্রতিনিধিত্ব প্রযুক্তি ভার্চুয়াল রিয়েলিটি, চিকিৎসা ইমেজ প্রসেসিং, শিল্প ডিজাইন উৎপাদন, গেম ডেভেলপমেন্ট এবং অন্যান্য ক্ষেত্রে ব্যাপক প্রয়োগ রয়েছে। ঐতিহ্যবাহী পদ্ধতিগুলি সাধারণত প্রচুর পূর্ব জ্ঞান এবং অনুমান প্রয়োজন, যা বাস্তব দৃশ্যে প্রয়োগযোগ্যতা সীমিত করে। অতএব, এমন একটি জেনারেশন পদ্ধতির জরুরি প্রয়োজন যা মডেল পৃষ্ঠের গুণমান উন্নত করার সাথে সাথে স্টোরেজ প্রয়োজনীয়তা হ্রাস করতে পারে।

মূল অবদান

প্রিমিটিভ ফিটিং এবং ম্যাচিং অ্যালগরিদম প্রস্তাব: মডেল গঠনকারী সুপারকোয়াড্রিক পৃষ্ঠ উপাদানগুলিকে উচ্চতর পৃষ্ঠ গুণমান সহ প্যারামিটারাইজড জ্যামিতিতে প্রতিস্থাপন করতে পারে, যা 3D মডেলের সামগ্রিক গুণমান উন্নত করে।
3D মডেল স্টোরেজ পদ্ধতি প্রস্তাব: শুধুমাত্র প্রিমিটিভ উপাদানগুলির প্যারামিটার সংরক্ষণ করে মডেলের স্টোরেজ প্রয়োজনীয়তা হ্রাস করে, তিনটি পরিমাণের ক্রমে স্টোরেজ স্থান হ্রাস অর্জন করে।
বহু-মোডাল তথ্যের উপর ভিত্তি করে তিন-পর্যায়ের 3D মডেল জেনারেশন পদ্ধতি নির্মাণ: টেক্সট এবং ইমেজ তথ্যকে ইনপুট হিসাবে ব্যবহার করে, শূন্য-শট শর্তে প্যারামিটারাইজড প্রিমিটিভ দ্বারা গঠিত 3D মডেল তৈরি করে।

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

ইনপুট: টেক্সট বর্ণনা বা একক ইমেজ আউটপুট: প্যারামিটারাইজড প্রিমিটিভ দ্বারা গঠিত 3D মডেল সীমাবদ্ধতা: শূন্য-শট জেনারেশন, পৃষ্ঠের গুণমান উন্নত করা, স্টোরেজ ওভারহেড হ্রাস করা

মডেল আর্কিটেকচার

এই ফ্রেমওয়ার্কটি তিনটি প্রধান পর্যায়ে বিভক্ত:

প্রথম পর্যায়: মাল্টি-ভিউ গভীরতা ইমেজ সংশ্লেষণ এবং সুপারকোয়াড্রিক পুনরাবৃত্তিমূলক ফিটিং

মাল্টি-ভিউ গভীরতা ইমেজ সংশ্লেষণ:
- লক্ষ্য মডেলের মাল্টি-ভিউ ইমেজ তৈরি করতে প্রি-প্রশিক্ষিত ImageDream মডেল ব্যবহার করে
- Score Distillation Sampling (SDS) ক্ষতি ফাংশনের মাধ্যমে নিউরাল রেডিয়েন্স ফিল্ড অপ্টিমাইজেশন পরিচালনা করে
- অপ্টিমাইজড অন্তর্নিহিত নিউরাল রেডিয়েন্স ফিল্ড থেকে 48টি ভিন্ন দৃষ্টিকোণের গভীরতা ইমেজ নমুনা করতে NeRFStudio স্যাম্পলিং পদ্ধতি ব্যবহার করে
সুপারকোয়াড্রিক পুনরাবৃত্তিমূলক ফিটিং:
- ট্রাঙ্কেটেড স্বাক্ষরিত দূরত্ব ক্ষেত্র (TSDF) নির্মাণ করে
- হ্রাসমান স্বাক্ষরিত দূরত্ব থ্রেশহোল্ড সিকোয়েন্স সংজ্ঞায়িত করে: $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- প্রাথমিক থ্রেশহোল্ড সেট করে: $t_1^c = \min_{x_i \in V} t(x_i)$ , ক্ষয় সূত্র: $t_{m+1}^c = \alpha t_m^c$
- সুপারকোয়াড্রিক প্যারামিটার: $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- অন্তর্নিহিত সমীকরণ: $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

দ্বিতীয় পর্যায়: সমরূপ প্যারামিটারাইজড প্রিমিটিভ অনুসন্ধান

সুপারকোয়াড্রিকের আকৃতি প্যারামিটার $\varepsilon_1$ এবং $\varepsilon_2$ অনুযায়ী, এটিকে তিনটি সংখ্যাগত ব্যবধানে বিভক্ত করে:

$(0, 0.5)$ : সিলিন্ডার বৈশিষ্ট্য
$[0.5, 2]$ : উপবৃত্তাকার বৈশিষ্ট্য
$(2, +\infty)$ : তারকা বৈশিষ্ট্য

z দিক এবং xy সমতলের আকৃতির বৈশিষ্ট্য সংমিশ্রণ করে, 9 ধরনের বিভিন্ন আকৃতির সুপারকোয়াড্রিক ধরন গঠন করে।

তৃতীয় পর্যায়: প্রিমিটিভ ফিটিং এবং ম্যাচিং অ্যালগরিদম

পোলার সমীকরণ ব্যবহার করে প্যারামিটারাইজড প্রিমিটিভ প্রতিনিধিত্ব করে:

z দিক: সিলিন্ডার সমন্বয় সিস্টেম, গোলাকার সমন্বয় সিস্টেম, তারকা লাইনের পোলার সমীকরণ
xy সমতল: আয়তাকার ভিত্তি, উপবৃত্তাকার ভিত্তি, তারকা ভিত্তির পোলার সমীকরণ

সুপারকোয়াড্রিকের ঘূর্ণন ভেক্টর R এবং অনুবাদ ভেক্টর T এর সাথে মিলিয়ে, অনুবাদ ঘূর্ণন রূপান্তর সম্পাদন করে, লক্ষ্য 3D মডেলের অপ্টিমাইজেশন ফিটিং এবং ম্যাচিং করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

আকৃতির বৈশিষ্ট্য বিশ্লেষণ: সুপারকোয়াড্রিক প্যারামিটারের আকৃতিতে প্রভাব সিস্টেমেটিকভাবে বিশ্লেষণ করে, সুপারকোয়াড্রিক থেকে প্যারামিটারাইজড প্রিমিটিভের ম্যাপিং সম্পর্ক স্থাপন করে।
প্যারামিটারাইজড প্রতিনিধিত্ব: শুধুমাত্র প্রিমিটিভ প্যারামিটার (আকার প্যারামিটার S, আকৃতি প্যারামিটার $\varepsilon_1$ এবং $\varepsilon_2$ , অনুবাদ ভেক্টর T, ঘূর্ণন ভেক্টর R) সংরক্ষণ করে মডেল স্টোরেজ বাস্তবায়ন করে।
শূন্য-শট জেনারেশন: অন্তর্নিহিত বিস্তার মডেল এবং প্রিমিটিভ বিয়োজন একত্রিত করে, ক্রস-মোডাল শূন্য-শট 3D জেনারেশন বাস্তবায়ন করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

ভার্চুয়াল দৃশ্য ডেটাসেট:
- প্রধানত ShapeNet ডেটাসেটের উপর ভিত্তি করে, 3000+ অবজেক্ট ক্লাস এবং 220000 মডেল অন্তর্ভুক্ত করে
- ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR ইত্যাদি মডেল থেকে পরীক্ষার ইমেজ এবং টেক্সট অন্তর্ভুক্ত করে
বাস্তব দৃশ্য ডেটাসেট:
- প্রধানত CO3D ডেটাসেটের উপর ভিত্তি করে, সমৃদ্ধ বাস্তব-বিশ্ব 3D ডেটা প্রদান করে
- AKB-48 এবং OmniObject 3D এর অংশ ইমেজ অন্তর্ভুক্ত করে

মূল্যায়ন সূচক

Chamfer দূরত্ব (CD): দুটি পয়েন্ট ক্লাউডের মধ্যে সাদৃশ্য পরিমাপ করে
ভলিউমেট্রিক ইন্টারসেকশন ওভার ইউনিয়ন (VIoU): 3D মডেলের ওভারল্যাপ ডিগ্রি মূল্যায়ন করে
F1-স্কোর: পৃষ্ঠ পুনর্নির্মাণ নির্ভুলতা এবং রিকল একত্রিত বিবেচনা করে
সাধারণ সামঞ্জস্য (NC): পৃষ্ঠ সাধারণ ভেক্টরের সামঞ্জস্য মূল্যায়ন করে

তুলনা পদ্ধতি

EMS
SuperDec
Marching-Primitives (MP)

বাস্তবায়ন বিস্তারিত

হার্ডওয়্যার পরিবেশ: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
সফটওয়্যার পরিবেশ: Windows 11, Python 3.10
TSDF প্যারামিটার: ভক্সেল স্থান আকার -13,13, প্রতিটি মাত্রায় 100 সমান নমুনা, মোট 10⁶ ভক্সেল
মেশ রেজোলিউশন: 100

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ভার্চুয়াল দৃশ্য ডেটাসেট ফলাফল

পদ্ধতি	CD(×10⁻³)↓	VIoU↑	F1-স্কোর↑	NC↑
EMS	13.1	0.218	0.8572	0.6607
SuperDec	6.38	0.246	0.8629	0.7101
MP	4.95	0.390	0.8193	0.7284
এই পদ্ধতি	3.09	0.545	0.9139	0.8369

MP পদ্ধতির তুলনায়, এই পদ্ধতি CD 37.6% হ্রাস করে, VIoU 39.7% বৃদ্ধি করে, F1-স্কোর 11.5% বৃদ্ধি করে, NC 14.9% বৃদ্ধি করে।

বাস্তব দৃশ্য ডেটাসেট ফলাফল

পদ্ধতি	CD(×10⁻³)↓	VIoU↑	F1-স্কোর↑	NC↑
EMS	15.1	0.141	0.8917	0.7539
SuperDec	4.40	0.301	0.8383	0.6759
MP	4.32	0.492	0.7771	0.5882
এই পদ্ধতি	2.52	0.673	0.9183	0.7752

ShapeNet ডেটাসেট বিস্তারিত ফলাফল

bench, table, plane, cabinet, bottle, rifle ছয়টি ক্লাসে, এই পদ্ধতির গড় CD 0.503×10⁻³, VIoU 0.742, F1-স্কোর 0.8896, NC 0.4511, সমস্ত সূচকে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে।

স্টোরেজ ক্ষমতা তুলনা পরীক্ষা

ইনপুট ধরন	মেশ স্টোরেজ ক্ষমতা	প্রিমিটিভ স্টোরেজ ক্ষমতা
টেক্সট	4.56MB	5KB
ইমেজ	5.76MB	6KB
সম্পূর্ণ	5.36MB	6KB

স্টোরেজ ক্ষমতা তিনটি পরিমাণের ক্রমে হ্রাস পেয়েছে, MB স্তর থেকে KB স্তরে নেমে এসেছে।

অ্যাবলেশন পরীক্ষা

বাস্তব দৃশ্য ডেটাসেটে পরিচালিত অ্যাবলেশন পরীক্ষা দেখায় যে এই পদ্ধতি VIoU, F1-স্কোর এবং NC সূচকে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, চারটি পোলার সমীকরণের কার্যকারিতা যাচাই করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

এই পেপারে প্রস্তাবিত বহু-পর্যায়ের ক্রস-মোডাল প্যারামিটারাইজড প্রিমিটিভ জেনারেশন ফ্রেমওয়ার্ক নিম্নলিখিত সক্ষমতা রাখে:

বিভিন্ন শর্তাধীন ইনপুটের প্রতিক্রিয়ায় বৈচিত্র্যময় 3D ভিত্তি মডেল তৈরি করা
CD, VIoU, F1-স্কোর এবং NC সূচকে বর্তমান অত্যাধুনিক অ্যালগরিদম অতিক্রম করা
নান্দনিক প্রয়োজনীয়তার সাথে আরও সামঞ্জস্যপূর্ণ প্যারামিটারাইজড প্রিমিটিভ সংশ্লেষণ মডেল তৈরি করা
উল্লেখযোগ্য স্টোরেজ স্থান সঞ্চয় অর্জন করা

সীমাবদ্ধতা

রিং সিলিন্ডার ফিটিং সমস্যা: সুপারকোয়াড্রিকের কোন অনুপ্রবেশকারী পৃষ্ঠ নেই বলে, পদ্ধতি রিং সিলিন্ডার কার্যকরভাবে ম্যাচ বা ফিট করতে পারে না
প্যারামিটারাইজড প্রতিনিধিত্বের সুবিধা: NURBS এর মতো অন্যান্য বিকল্প সমাধানের তুলনায় সুবিধা পর্যাপ্তভাবে প্রদর্শন করতে পারে না
জটিল মডেল গুণমান: মাল্টি-ভিউ জেনারেশন গুণমানের সীমাবদ্ধতা, জটিল মডেলের অদৃশ্য দৃষ্টিকোণের মডেল গুণমান সীমিত

ভবিষ্যত দিকনির্দেশনা

জটিল প্রিমিটিভের পয়েন্ট ক্লাউড এনকোড করতে ভেরিয়েশনাল অটোএনকোডার ব্যবহার করা, রিং সিলিন্ডারের প্রিমিটিভ ম্যাচিংয়ের জন্য
মডেল উপাদান ফিট করতে অন্যান্য ধরনের পৃষ্ঠ ব্যবহার করা, প্যারামিটারাইজড প্রতিনিধিত্বের সুবিধা প্রদর্শন করা
লক্ষ্য মডেল বৈশিষ্ট্য আরও ভালভাবে বর্ণনা করতে বিভিন্ন মোডাল তথ্য একযোগে ব্যবহার করা, বা ডাউনস্ট্রিম কাজে ফাইন-টিউনিং প্রশিক্ষণ পরিচালনা করা

গভীর মূল্যায়ন

শক্তি

পদ্ধতির উদ্ভাবনী শক্তি শক্তিশালী: সুপারকোয়াড্রিক থেকে প্যারামিটারাইজড প্রিমিটিভের সিস্টেমেটিক ম্যাপিং পদ্ধতি প্রথমবারের মতো প্রস্তাব করা
পরীক্ষা পর্যাপ্ত: ভার্চুয়াল এবং বাস্তব দৃশ্য ডেটাসেটে ব্যাপক যাচাইকরণ পরিচালিত
ব্যবহারিক মূল্য উচ্চ: দ্রুত প্রোটোটাইপ ডিজাইনের জন্য উপযুক্ত, স্টোরেজ প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করে
প্রযুক্তিগত রুট পরিষ্কার: তিন-পর্যায়ের ফ্রেমওয়ার্ক ডিজাইন যুক্তিসঙ্গত, প্রতিটি মডিউলের কার্যকারিতা স্পষ্ট

অপূর্ণতা

প্রয়োগযোগ্যতার পরিসীমা সীমিত: প্রধানত সহজ মডেলের জন্য উপযুক্ত, জটিল টপোলজিক্যাল কাঠামো পরিচালনার ক্ষমতা সীমিত
প্রি-প্রশিক্ষিত মডেলের উপর নির্ভরশীল: ImageDream এর মতো প্রি-প্রশিক্ষিত মডেলের গুণমানের উপর নির্ভর করে
তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: প্যারামিটারাইজড প্রিমিটিভ প্রতিনিধিত্ব ক্ষমতার তাত্ত্বিক বিশ্লেষণ অভাব
মূল্যায়ন সূচকের সীমাবদ্ধতা: প্রধানত জ্যামিতিক সাদৃশ্যে মনোনিবেশ করে, ভিজ্যুয়াল গুণমানের বিষয়গত মূল্যায়ন অভাব

প্রভাব

একাডেমিক অবদান: 3D জেনারেশন ক্ষেত্রে নতুন প্যারামিটারাইজড প্রতিনিধিত্ব চিন্তাভাবনা প্রদান করে
ব্যবহারিক মূল্য: স্টোরেজ দক্ষতা এবং পৃষ্ঠ গুণমানে উল্লেখযোগ্য উন্নতি
পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা বিস্তারিত, পরীক্ষামূলক সেটআপ স্পষ্ট

প্রয়োগযোগ্য দৃশ্য

শিল্প ডিজাইনে দ্রুত প্রোটোটাইপ তৈরি
গেম ডেভেলপমেন্টে সহজ 3D সম্পদ জেনারেশন
ভার্চুয়াল রিয়েলিটি দৃশ্যের হালকা 3D সামগ্রী তৈরি
মোবাইল ডিভাইসে 3D মডেল স্টোরেজ এবং ট্রান্সমিশন

রেফারেন্স

পেপারটি 38টি সম্পর্কিত সাহিত্য উদ্ধৃত করেছে, যা 3D জেনারেশন, অন্তর্নিহিত বিস্তার মডেল, প্রিমিটিভ বিয়োজন এবং অন্যান্য মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।