2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

Un Marco de Generación 3D de Modalidad Cruzada a Primitiva Parametrizada

Información Básica

ID del Artículo: 2510.08656
Título: Un Marco de Generación 3D de Modalidad Cruzada a Primitiva Parametrizada
Autores: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Universidad de Zhejiang)
Clasificación: cs.GR (Gráficos por Computadora), cs.AI (Inteligencia Artificial), cs.CV (Visión por Computadora)
Fecha de Publicación: 9 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.08656

Resumen

Este artículo propone un marco de generación 3D multietapa basado en primitivas parametrizadas para abordar los desafíos de calidad de superficie y sobrecarga de almacenamiento en la generación de modelos 3D impulsada por IA. El marco puede generar modelos 3D compuestos por primitivas parametrizadas a partir de entradas de texto e imagen, reemplazando los elementos originales con primitivas parametrizadas de superficie de alta calidad mediante la identificación de características de forma de los elementos constituyentes del modelo. Los resultados experimentales demuestran un desempeño excepcional en conjuntos de datos de escenas virtuales y reales, con una distancia de Chamfer de 3.092×10⁻³, VIoU de 0.545, F1-Score de 0.9139, NC de 0.8369, y un tamaño de archivo de parámetros primitivos de aproximadamente 6KB.

Antecedentes de Investigación y Motivación

Definición del Problema

Las técnicas tradicionales de generación de modelos 3D enfrentan dos desafíos fundamentales:

Requisitos de Almacenamiento Elevados: Los métodos existentes típicamente extraen representaciones de malla explícita de representaciones 3D implícitas mediante el algoritmo Marching Cubes, lo que resulta en requisitos de almacenamiento enormes. Por ejemplo, una cuadrícula de vóxeles de 256³ requiere almacenar más de 16 millones de información de vóxeles, con una ocupación de memoria de hasta 0.54GB.
Calidad de Superficie del Modelo: Limitada por restricciones de resolución y estructura topológica, los vóxeles de baja resolución (como 32³) conducen a pérdida de detalles, y los métodos basados en malla dependen de la deformación de plantillas iniciales, sin poder manejar flexiblemente topologías complejas.

Motivación de la Investigación

Con el rápido desarrollo de la tecnología de generación por IA y la gráfica por computadora, la tecnología de representación de modelos 3D tiene aplicaciones generalizadas en realidad virtual, procesamiento de imágenes médicas, diseño y fabricación industrial, desarrollo de videojuegos y otros campos. Los métodos tradicionales típicamente requieren una gran cantidad de conocimiento previo y suposiciones, limitando su aplicabilidad en escenarios reales. Por lo tanto, existe una necesidad urgente de un método de generación que pueda mejorar la calidad de la superficie del modelo mientras reduce los requisitos de almacenamiento.

Contribuciones Principales

Se propone un algoritmo de ajuste y coincidencia de primitivas: Capaz de reemplazar elementos de cuádricas superelípticas que constituyen el modelo con geometrías parametrizadas de mayor calidad de superficie, mejorando así la calidad general del modelo 3D.
Se propone un método de almacenamiento de modelos 3D: Al retener únicamente los parámetros de elementos primitivos, se reduce la necesidad de almacenamiento del modelo en tres órdenes de magnitud.
Se construye un método de generación de modelos 3D de tres etapas basado en información multimodal: Con información de texto e imagen como entrada, genera modelos 3D compuestos por primitivas parametrizadas bajo condiciones de aprendizaje cero.

Explicación Detallada del Método

Definición de la Tarea

Entrada: Descripción de texto o imagen única Salida: Modelo 3D compuesto por primitivas parametrizadas Restricciones: Generación de aprendizaje cero, mejora de calidad de superficie, reducción de sobrecarga de almacenamiento

Arquitectura del Modelo

El marco se divide en tres etapas principales:

Primera Etapa: Síntesis de Imágenes de Profundidad Multivista y Ajuste Iterativo de Cuádricas Superelípticas

Síntesis de Imágenes de Profundidad Multivista:
- Utiliza el modelo ImageDream preentrenado para generar imágenes multivista del modelo objetivo
- Guía la optimización del campo de radiancia neural mediante la función de pérdida Score Distillation Sampling (SDS)
- Utiliza el método de muestreo NeRFStudio para muestrear imágenes de profundidad de 48 ángulos de vista diferentes del campo de radiancia neural implícito optimizado
Ajuste Iterativo de Cuádricas Superelípticas:
- Construye un campo de distancia firmada truncada (TSDF)
- Define una secuencia de umbral de distancia firmada decreciente: $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- Configuración de umbral inicial: $t_1^c = \min_{x_i \in V} t(x_i)$ , fórmula de decaimiento: $t_{m+1}^c = \alpha t_m^c$
- Parámetros de cuádrica superelíptica: $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- Ecuación implícita: $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

Segunda Etapa: Búsqueda de Primitivas Parametrizadas Similares

Según los parámetros de forma de la cuádrica superelíptica $\varepsilon_1$ y $\varepsilon_2$ , se divide en tres intervalos numéricos:

$(0, 0.5)$ : Características cilíndricas
$[0.5, 2]$ : Características elipsoidales
$(2, +\infty)$ : Características estelares

Mediante la combinación de características de forma en la dirección z y en el plano xy, se forman 9 tipos diferentes de cuádricas superelípticas.

Tercera Etapa: Algoritmo de Ajuste y Coincidencia de Primitivas

Utiliza ecuaciones en coordenadas polares para representar primitivas parametrizadas:

Dirección z: ecuaciones en coordenadas cilíndricas, esféricas y polares de líneas estelares
Plano xy: ecuaciones en coordenadas polares de bases rectangulares, elípticas y estelares

Combinando el vector de rotación R y el vector de traslación T de la cuádrica superelíptica, ejecuta transformaciones de traslación y rotación para optimizar el ajuste y la coincidencia del modelo 3D objetivo.

Puntos de Innovación Técnica

Análisis de Características de Forma: Mediante análisis sistemático del impacto de los parámetros de cuádricas superelípticas en la forma, se establece la relación de mapeo de cuádricas superelípticas a primitivas parametrizadas.
Representación Parametrizada: Se logra el almacenamiento del modelo conservando únicamente parámetros primitivos (parámetros de tamaño S, parámetros de forma $\varepsilon_1$ y $\varepsilon_2$ , vector de traslación T, vector de rotación R).
Generación de Aprendizaje Cero: Combinando modelos de difusión implícita y descomposición de primitivas, se logra generación 3D de aprendizaje cero entre modalidades.

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Escenas Virtuales:
- Basado principalmente en el conjunto de datos ShapeNet, que contiene más de 3000 categorías de objetos y 220000 modelos
- Incluye imágenes de prueba y texto de modelos como ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR
Conjunto de Datos de Escenas Reales:
- Basado principalmente en el conjunto de datos CO3D, que proporciona datos 3D del mundo real abundantes
- Incluye imágenes parciales de AKB-48 y OmniObject 3D

Métricas de Evaluación

Distancia de Chamfer (CD): Mide la similitud entre dos nubes de puntos
Intersección sobre Unión Volumétrica (VIoU): Evalúa el grado de superposición del modelo 3D
F1-Score: Considera integralmente la precisión y recuperación de reconstrucción de superficie
Consistencia Normal (NC): Evalúa la consistencia de vectores normales de superficie

Métodos de Comparación

EMS
SuperDec
Marching-Primitives (MP)

Detalles de Implementación

Entorno de Hardware: CPU AMD Ryzen 7 9700X, NVIDIA GeForce RTX 5060Ti
Entorno de Software: Windows 11, Python 3.10
Parámetros TSDF: Tamaño del espacio de vóxeles -13,13, 100 muestras uniformes por dimensión, total de 10⁶ vóxeles
Resolución de malla: 100

Resultados Experimentales

Resultados Principales

Resultados del Conjunto de Datos de Escenas Virtuales

Método	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	13.1	0.218	0.8572	0.6607
SuperDec	6.38	0.246	0.8629	0.7101
MP	4.95	0.390	0.8193	0.7284
Nuestro Método	3.09	0.545	0.9139	0.8369

En comparación con el método MP, nuestro método reduce CD en 37.6%, aumenta VIoU en 39.7%, aumenta F1-Score en 11.5%, y aumenta NC en 14.9%.

Resultados del Conjunto de Datos de Escenas Reales

Método	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	15.1	0.141	0.8917	0.7539
SuperDec	4.40	0.301	0.8383	0.6759
MP	4.32	0.492	0.7771	0.5882
Nuestro Método	2.52	0.673	0.9183	0.7752

Resultados Detallados del Conjunto de Datos ShapeNet

En seis categorías de banco, mesa, avión, gabinete, botella y rifle, nuestro método logra un CD promedio de 0.503×10⁻³, VIoU de 0.742, F1-Score de 0.8896, NC de 0.4511, demostrando el mejor desempeño en todos los indicadores.

Experimento de Comparación de Capacidad de Almacenamiento

Tipo de Entrada	Capacidad de Almacenamiento de Malla	Capacidad de Almacenamiento de Primitivas
Texto	4.56MB	5KB
Imagen	5.76MB	6KB
Todos	5.36MB	6KB

La capacidad de almacenamiento se reduce en tres órdenes de magnitud, de nivel MB a nivel KB.

Experimento de Ablación

Los experimentos de ablación realizados en el conjunto de datos de escenas reales demuestran que nuestro método muestra el mejor desempeño en los indicadores VIoU, F1-Score y NC, validando la efectividad de las cuatro ecuaciones en coordenadas polares.

Trabajo Relacionado

Modelos de Difusión Implícita

Las técnicas tempranas de generación de modelos 3D se basaban principalmente en aprendizaje supervisado, requiriendo una gran cantidad de datos supervisados. La propuesta de modelos de difusión implícita proporciona nuevas ideas para reconstrucción 3D de imagen única, guiando la optimización de representación 3D mediante la técnica Score Distillation Sampling y modelos de difusión 2D preentrenados.

Modelos 3D de Síntesis de Primitivas

La investigación existente logra principalmente la caracterización de forma descomponiendo modelos 3D en múltiples primitivas simples, incluyendo superelipsoides, gaussianas anisotrópicas, envolventes convexas, etc. Métodos relacionados como Marching-Primitives extienden el rango de modelos generables mediante ajuste iterativo de campos de distancia firmada truncada.

Conclusiones y Discusión

Conclusiones Principales

El marco de generación de primitivas parametrizadas multietapa entre modalidades propuesto en este artículo puede:

Generar modelos 3D base diversos que respondan a múltiples entradas condicionales
Superar algoritmos de última generación en indicadores CD, VIoU, F1-Score y NC
Generar modelos de síntesis de primitivas parametrizadas más conformes a requisitos estéticos
Lograr ahorros de espacio de almacenamiento significativos

Limitaciones

Problema de Ajuste de Cilindros Anulares: Debido a que las cuádricas superelípticas no tienen superficies penetrantes, el método no puede coincidir o ajustar efectivamente cilindros anulares
Ventajas de Representación Parametrizada: No se demuestran suficientemente las ventajas en comparación con soluciones alternativas como NURBS
Calidad de Modelos Complejos: Limitada por la calidad de generación multivista, la calidad del modelo en ángulos de vista no visibles de modelos complejos es limitada

Direcciones Futuras

Utilizar autoencodificadores variacionales para codificar nubes de puntos de primitivas complejas, para coincidencia de primitivas de cilindros anulares
Utilizar otros tipos de modelos de ajuste de superficie para componentes del modelo, demostrando las ventajas de la representación parametrizada
Utilizar simultáneamente información de diferentes modalidades para describir mejor características del modelo objetivo, o realizar entrenamiento de ajuste fino en tareas posteriores

Evaluación Profunda

Fortalezas

Innovación Metodológica Fuerte: Propone por primera vez un método de mapeo sistemático de cuádricas superelípticas a primitivas parametrizadas
Experimentación Completa: Validación integral en conjuntos de datos de escenas virtuales y reales
Valor Práctico Elevado: Reduce significativamente los requisitos de almacenamiento, adecuado para diseño de prototipos rápidos
Línea Técnica Clara: El diseño del marco de tres etapas es razonable, con funciones de módulos claras

Insuficiencias

Rango de Aplicabilidad Limitado: Principalmente aplicable a modelos simples, con capacidad limitada para manejar estructuras topológicas complejas
Dependencia de Modelos Preentrenados: Depende de la calidad de modelos preentrenados como ImageDream
Análisis Teórico Insuficiente: Carece de análisis teórico sobre la capacidad de representación de primitivas parametrizadas
Limitaciones de Indicadores de Evaluación: Se enfoca principalmente en similitud geométrica, carece de evaluación subjetiva de calidad visual

Impacto

Contribución Académica: Proporciona nuevas ideas de representación parametrizada para el campo de generación 3D
Valor Práctico: Mejoras significativas en eficiencia de almacenamiento y calidad de superficie
Reproducibilidad: Descripción detallada del método, configuración experimental clara

Escenarios Aplicables

Fabricación rápida de prototipos en diseño industrial
Generación de activos 3D simples en desarrollo de videojuegos
Creación de contenido 3D ligero en escenas de realidad virtual
Almacenamiento y transmisión de modelos 3D en dispositivos móviles

Referencias

El artículo cita 38 referencias relacionadas, abarcando trabajos importantes en campos clave como generación 3D, modelos de difusión implícita, descomposición de primitivas, proporcionando una base teórica sólida para esta investigación.