2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

A 3D Generation Framework from Cross Modality to Parameterized Primitive

基本信息

论文ID: 2510.08656
标题: A 3D Generation Framework from Cross Modality to Parameterized Primitive
作者: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (浙江大学)
分类: cs.GR (计算机图形学), cs.AI (人工智能), cs.CV (计算机视觉)
发表时间: 2025年10月9日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.08656

摘要

本文针对AI驱动的3D模型生成中表面质量和存储开销的挑战，提出了一个基于参数化基元的多阶段3D生成框架。该框架能够根据文本和图像输入生成由参数化基元组成的3D模型，通过识别模型组成元素的形状特征，用高质量表面的参数化基元替换原元素。实验结果显示，该方法在虚拟场景和真实场景数据集上取得了优异表现，Chamfer距离为3.092×10⁻³，VIoU为0.545，F1-Score为0.9139，NC为0.8369，基元参数文件大小约为6KB。

研究背景与动机

问题定义

传统3D模型生成技术面临两个核心挑战：

高存储需求：现有方法通常通过Marching Cubes算法从隐式3D表示中提取显式网格表示，导致存储需求巨大。例如，256³体素网格需要存储超过1600万个体素信息，内存占用高达0.54GB。
模型表面质量：受分辨率和拓扑结构约束限制，低分辨率体素(如32³)会导致细节丢失，基于网格的方法依赖初始模板变形，无法灵活处理复杂拓扑。

研究动机

随着AI生成技术和计算机图形学的快速发展，3D模型表示技术在虚拟现实、医学图像处理、工业设计制造、游戏开发等领域有广泛应用。传统方法通常需要大量先验知识和假设，限制了在真实场景中的适用性。因此，迫切需要一种能够提高模型表面质量同时减少存储需求的生成方法。

核心贡献

提出了基元拟合和匹配算法：能够将构成模型的超二次曲面元素替换为具有更高表面质量的参数化几何体，从而提升3D模型的整体质量。
提出了3D模型存储方法：通过仅保留基元元素的参数来减少模型的存储需求，实现了三个数量级的存储空间缩减。
构建了基于多模态信息的三阶段3D模型生成方法：以文本和图像信息为输入，在零样本条件下生成由参数化基元组成的3D模型。

多视图深度图像合成：
- 使用预训练的ImageDream模型生成目标模型的多视图图像
- 通过Score Distillation Sampling (SDS)损失函数指导神经辐射场优化
- 使用NeRFStudio采样方法从优化的隐式神经辐射场中采样48个不同视角的深度图像
超二次曲面迭代拟合：
- 构建截断符号距离场(TSDF)
- 定义递减符号距离阈值序列： $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- 初始阈值设定： $t_1^c = \min_{x_i \in V} t(x_i)$ ，衰减公式： $t_{m+1}^c = \alpha t_m^c$
- 超二次曲面参数： $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- 隐式方程： $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

第二阶段：相似参数化基元搜索

根据超二次曲面的形状参数 $\varepsilon_1$ 和 $\varepsilon_2$ ，将其分为三个数值区间：

$(0, 0.5)$ ：柱状特征
$[0.5, 2]$ ：椭球特征
$(2, +\infty)$ ：星形特征

通过组合z方向和xy平面的形状特征，形成9种不同形状的超二次曲面类型。

第三阶段：基元拟合和匹配算法

使用极坐标方程表示参数化基元：

z方向：柱坐标系、球坐标系、星线的极坐标方程
xy平面：矩形底、椭圆底、星底的极坐标方程

结合超二次曲面的旋转向量R和平移向量T，执行平移旋转变换，对目标3D模型进行优化拟合和匹配。

技术创新点

形状特征分析：通过系统分析超二次曲面参数对形状的影响，建立了从超二次曲面到参数化基元的映射关系。
参数化表示：仅保存基元参数(尺寸参数S、形状参数 $\varepsilon_1$ 和 $\varepsilon_2$ 、平移向量T、旋转向量R)实现模型存储。
零样本生成：结合隐式扩散模型和基元分解，实现跨模态的零样本3D生成。

实验设置

数据集

虚拟场景数据集：
- 主要基于ShapeNet数据集，包含3000多个对象类别和220000个模型
- 包含来自ImageDream、One-2-3-45++、Wonder3D、MVDream、TripoSR等模型的测试图像和文本
真实场景数据集：
- 主要基于CO3D数据集，提供丰富的真实世界3D数据
- 包含AKB-48和OmniObject 3D的部分图像