Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- 论文ID: 2510.08656
- 标题: A 3D Generation Framework from Cross Modality to Parameterized Primitive
- 作者: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (浙江大学)
- 分类: cs.GR (计算机图形学), cs.AI (人工智能), cs.CV (计算机视觉)
- 发表时间: 2025年10月9日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.08656
本文针对AI驱动的3D模型生成中表面质量和存储开销的挑战,提出了一个基于参数化基元的多阶段3D生成框架。该框架能够根据文本和图像输入生成由参数化基元组成的3D模型,通过识别模型组成元素的形状特征,用高质量表面的参数化基元替换原元素。实验结果显示,该方法在虚拟场景和真实场景数据集上取得了优异表现,Chamfer距离为3.092×10⁻³,VIoU为0.545,F1-Score为0.9139,NC为0.8369,基元参数文件大小约为6KB。
传统3D模型生成技术面临两个核心挑战:
- 高存储需求:现有方法通常通过Marching Cubes算法从隐式3D表示中提取显式网格表示,导致存储需求巨大。例如,256³体素网格需要存储超过1600万个体素信息,内存占用高达0.54GB。
- 模型表面质量:受分辨率和拓扑结构约束限制,低分辨率体素(如32³)会导致细节丢失,基于网格的方法依赖初始模板变形,无法灵活处理复杂拓扑。
随着AI生成技术和计算机图形学的快速发展,3D模型表示技术在虚拟现实、医学图像处理、工业设计制造、游戏开发等领域有广泛应用。传统方法通常需要大量先验知识和假设,限制了在真实场景中的适用性。因此,迫切需要一种能够提高模型表面质量同时减少存储需求的生成方法。
- 提出了基元拟合和匹配算法:能够将构成模型的超二次曲面元素替换为具有更高表面质量的参数化几何体,从而提升3D模型的整体质量。
- 提出了3D模型存储方法:通过仅保留基元元素的参数来减少模型的存储需求,实现了三个数量级的存储空间缩减。
- 构建了基于多模态信息的三阶段3D模型生成方法:以文本和图像信息为输入,在零样本条件下生成由参数化基元组成的3D模型。
输入:文本描述或单张图像
输出:由参数化基元组成的3D模型
约束:零样本生成,提高表面质量,减少存储开销
该框架分为三个主要阶段:
- 多视图深度图像合成:
- 使用预训练的ImageDream模型生成目标模型的多视图图像
- 通过Score Distillation Sampling (SDS)损失函数指导神经辐射场优化
- 使用NeRFStudio采样方法从优化的隐式神经辐射场中采样48个不同视角的深度图像
- 超二次曲面迭代拟合:
- 构建截断符号距离场(TSDF)
- 定义递减符号距离阈值序列:Tc={t1c,t2c,...,tmc,tm+1c}
- 初始阈值设定:t1c=minxi∈Vt(xi),衰减公式:tm+1c=αtmc
- 超二次曲面参数:θ=(ε1,ε2,T,R,S)
- 隐式方程:f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
根据超二次曲面的形状参数ε1和ε2,将其分为三个数值区间:
- (0,0.5):柱状特征
- [0.5,2]:椭球特征
- (2,+∞):星形特征
通过组合z方向和xy平面的形状特征,形成9种不同形状的超二次曲面类型。
使用极坐标方程表示参数化基元:
- z方向:柱坐标系、球坐标系、星线的极坐标方程
- xy平面:矩形底、椭圆底、星底的极坐标方程
结合超二次曲面的旋转向量R和平移向量T,执行平移旋转变换,对目标3D模型进行优化拟合和匹配。
- 形状特征分析:通过系统分析超二次曲面参数对形状的影响,建立了从超二次曲面到参数化基元的映射关系。
- 参数化表示:仅保存基元参数(尺寸参数S、形状参数ε1和ε2、平移向量T、旋转向量R)实现模型存储。
- 零样本生成:结合隐式扩散模型和基元分解,实现跨模态的零样本3D生成。
- 虚拟场景数据集:
- 主要基于ShapeNet数据集,包含3000多个对象类别和220000个模型
- 包含来自ImageDream、One-2-3-45++、Wonder3D、MVDream、TripoSR等模型的测试图像和文本
- 真实场景数据集:
- 主要基于CO3D数据集,提供丰富的真实世界3D数据
- 包含AKB-48和OmniObject 3D的部分图像
- Chamfer Distance (CD):测量两个点云之间的相似性
- Volumetric Intersection over Union (VIoU):评估3D模型的重叠程度
- F1-Score:综合考虑表面重建精度和召回率
- Normal Consistency (NC):评估表面法向量的一致性
- EMS
- SuperDec
- Marching-Primitives (MP)
- 硬件环境:AMD Ryzen 7 9700X CPU,NVIDIA GeForce RTX 5060Ti
- 软件环境:Windows 11,Python 3.10
- TSDF参数:体素空间大小-13,13,每维度100个均匀采样,总计10⁶个体素
- 网格分辨率:100
| 方法 | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13.1 | 0.218 | 0.8572 | 0.6607 |
| SuperDec | 6.38 | 0.246 | 0.8629 | 0.7101 |
| MP | 4.95 | 0.390 | 0.8193 | 0.7284 |
| 本方法 | 3.09 | 0.545 | 0.9139 | 0.8369 |
相比MP方法,本方法CD降低37.6%,VIoU提高39.7%,F1-Score提高11.5%,NC提高14.9%。
| 方法 | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15.1 | 0.141 | 0.8917 | 0.7539 |
| SuperDec | 4.40 | 0.301 | 0.8383 | 0.6759 |
| MP | 4.32 | 0.492 | 0.7771 | 0.5882 |
| 本方法 | 2.52 | 0.673 | 0.9183 | 0.7752 |
在bench、table、plane、cabinet、bottle、rifle六个类别上,本方法平均CD为0.503×10⁻³,VIoU为0.742,F1-Score为0.8896,NC为0.4511,在各项指标上均表现最佳。
| 输入类型 | 网格存储容量 | 基元存储容量 |
|---|
| 文本 | 4.56MB | 5KB |
| 图像 | 5.76MB | 6KB |
| 全部 | 5.36MB | 6KB |
存储容量减少了三个数量级,从MB级别降至KB级别。
在真实场景数据集上进行的消融实验表明,本方法在VIoU、F1-Score和NC指标上表现最佳,验证了四个极坐标方程的有效性。
早期3D模型生成技术主要基于监督学习,需要大量监督数据。隐式扩散模型的提出为单图像3D重建提供了新思路,通过Score Distillation Sampling技术和预训练2D扩散模型指导3D表示优化。
现有研究主要通过将3D模型分解为多个简单基元来实现形状表征,包括超椭球、各向异性高斯、凸包等。相关方法如Marching-Primitives通过迭代拟合截断符号距离场扩展了可生成模型的范围。
本文提出的多阶段跨模态参数化基元生成框架能够:
- 生成响应多种条件输入的多样化3D基础模型
- 在CD、VIoU、F1-Score和NC指标上超越现有最先进算法
- 生成更符合美学要求的参数化基元合成模型
- 实现显著的存储空间节省
- 环形柱拟合问题:由于超二次曲面没有穿透表面,方法无法有效匹配或拟合环形柱
- 参数化表示优势:未能充分展示相比NURBS等其他替代方案的优势
- 复杂模型质量:受多视图生成质量限制,复杂模型不可见视角的模型质量有限
- 使用变分自编码器对复杂基元的点云进行编码,用于环形柱的基元匹配
- 使用其他类型表面拟合模型组件,展示参数化表示的优势
- 同时利用不同模态信息更好地描述目标模型特征,或在下游任务中进行微调训练
- 方法创新性强:首次提出从超二次曲面到参数化基元的系统映射方法
- 实验充分:在虚拟和真实场景数据集上进行了全面验证
- 实用价值高:显著减少存储需求,适合快速原型设计
- 技术路线清晰:三阶段框架设计合理,各模块功能明确
- 适用范围限制:主要适用于简单模型,对复杂拓扑结构处理能力有限
- 依赖预训练模型:依赖ImageDream等预训练模型的质量
- 理论分析不足:缺乏对参数化基元表示能力的理论分析
- 评估指标局限:主要关注几何相似性,缺乏对视觉质量的主观评估
- 学术贡献:为3D生成领域提供了新的参数化表示思路
- 实用价值:在存储效率和表面质量方面有显著改进
- 可复现性:方法描述详细,实验设置清晰
- 工业设计中的快速原型制作
- 游戏开发中的简单3D资产生成
- 虚拟现实场景的轻量化3D内容创建
- 移动设备上的3D模型存储和传输
论文引用了38篇相关文献,涵盖了3D生成、隐式扩散模型、基元分解等关键领域的重要工作,为本研究提供了坚实的理论基础。