2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

Un Framework di Generazione 3D dalla Modalità Incrociata alla Primitiva Parametrizzata

Informazioni Fondamentali

ID Articolo: 2510.08656
Titolo: A 3D Generation Framework from Cross Modality to Parameterized Primitive
Autori: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Università di Zhejiang)
Classificazione: cs.GR (Grafica Computazionale), cs.AI (Intelligenza Artificiale), cs.CV (Visione Artificiale)
Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.08656

Riassunto

Questo articolo propone un framework di generazione 3D multi-stadio basato su primitive parametrizzate per affrontare le sfide relative alla qualità della superficie e ai costi di archiviazione nella generazione di modelli 3D guidata dall'IA. Il framework è in grado di generare modelli 3D composti da primitive parametrizzate in base a input testuali e immagini, sostituendo gli elementi originali con primitive parametrizzate di qualità superiore identificando le caratteristiche di forma degli elementi costitutivi del modello. I risultati sperimentali dimostrano prestazioni eccellenti su dataset di scene virtuali e reali, con una distanza di Chamfer di 3,092×10⁻³, VIoU di 0,545, F1-Score di 0,9139, NC di 0,8369 e dimensione del file dei parametri primitivi di circa 6KB.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le tecniche tradizionali di generazione di modelli 3D affrontano due sfide fondamentali:

Elevati Requisiti di Archiviazione: I metodi esistenti estraggono tipicamente rappresentazioni di mesh esplicite da rappresentazioni 3D implicite utilizzando l'algoritmo Marching Cubes, determinando enormi requisiti di archiviazione. Ad esempio, una griglia di voxel 256³ richiede l'archiviazione di oltre 16 milioni di informazioni di voxel, con un'occupazione di memoria di 0,54GB.
Qualità della Superficie del Modello: Limitata dalla risoluzione e dai vincoli della struttura topologica, i voxel a bassa risoluzione (come 32³) causano perdita di dettagli, mentre i metodi basati su mesh dipendono dalla deformazione di template iniziali e non possono gestire in modo flessibile topologie complesse.

Motivazione della Ricerca

Con il rapido sviluppo della tecnologia di generazione IA e della grafica computazionale, la tecnologia di rappresentazione dei modelli 3D ha applicazioni diffuse in realtà virtuale, elaborazione di immagini mediche, progettazione e produzione industriale, sviluppo di videogiochi e altri campi. I metodi tradizionali richiedono tipicamente una vasta conoscenza preliminare e ipotesi, limitando l'applicabilità in scenari reali. Pertanto, è urgentemente necessario un metodo di generazione che possa migliorare la qualità della superficie del modello riducendo al contempo i requisiti di archiviazione.

Contributi Fondamentali

Propone algoritmi di adattamento e abbinamento di primitive: In grado di sostituire gli elementi di superquadriche che costituiscono il modello con geometrie parametrizzate di qualità superficiale superiore, migliorando così la qualità complessiva del modello 3D.
Propone un metodo di archiviazione di modelli 3D: Riduce i requisiti di archiviazione del modello conservando solo i parametri degli elementi primitivi, realizzando una riduzione dello spazio di archiviazione di tre ordini di grandezza.
Costruisce un metodo di generazione di modelli 3D in tre fasi basato su informazioni multimodali: Utilizza informazioni testuali e immagini come input per generare modelli 3D composti da primitive parametrizzate in condizioni zero-shot.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Descrizione testuale o singola immagine Output: Modello 3D composto da primitive parametrizzate Vincoli: Generazione zero-shot, miglioramento della qualità della superficie, riduzione dei costi di archiviazione

Architettura del Modello

Il framework è diviso in tre fasi principali:

Prima Fase: Sintesi di Immagini di Profondità Multi-Vista e Adattamento Iterativo di Superquadriche

Sintesi di Immagini di Profondità Multi-Vista:
- Utilizza il modello ImageDream pre-addestrato per generare immagini multi-vista del modello target
- Guida l'ottimizzazione del campo di radianza neurale tramite la funzione di perdita Score Distillation Sampling (SDS)
- Utilizza il metodo di campionamento NeRFStudio per campionare immagini di profondità da 48 diversi angoli di vista dal campo di radianza neurale implicito ottimizzato
Adattamento Iterativo di Superquadriche:
- Costruisce un campo di distanza con segno troncato (TSDF)
- Definisce una sequenza di soglie di distanza con segno decrescenti: $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- Impostazione della soglia iniziale: $t_1^c = \min_{x_i \in V} t(x_i)$ , formula di decadimento: $t_{m+1}^c = \alpha t_m^c$
- Parametri della superquadrica: $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- Equazione implicita: $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

Seconda Fase: Ricerca di Primitive Parametrizzate Simili

In base ai parametri di forma della superquadrica $\varepsilon_1$ e $\varepsilon_2$ , vengono divisi in tre intervalli numerici:

$(0, 0,5)$ : Caratteristiche cilindriche
$[0,5, 2]$ : Caratteristiche ellissoidali
$(2, +\infty)$ : Caratteristiche stellari

Combinando le caratteristiche di forma nella direzione z e nel piano xy, si formano 9 diversi tipi di superquadriche.

Terza Fase: Algoritmo di Adattamento e Abbinamento di Primitive

Utilizza l'equazione in coordinate polari per rappresentare le primitive parametrizzate:

Direzione z: coordinate cilindriche, coordinate sferiche, equazione polare della curva stellare
Piano xy: base rettangolare, base ellittica, base stellare in coordinate polari

Combinando il vettore di rotazione R e il vettore di traslazione T della superquadrica, esegue trasformazioni di traslazione e rotazione per ottimizzare l'adattamento e l'abbinamento del modello 3D target.

Punti di Innovazione Tecnica

Analisi delle Caratteristiche di Forma: Attraverso l'analisi sistematica dell'influenza dei parametri della superquadrica sulla forma, stabilisce la relazione di mappatura dalle superquadriche alle primitive parametrizzate.
Rappresentazione Parametrizzata: Realizza l'archiviazione del modello conservando solo i parametri primitivi (parametri di dimensione S, parametri di forma $\varepsilon_1$ e $\varepsilon_2$ , vettore di traslazione T, vettore di rotazione R).
Generazione Zero-Shot: Combina modelli di diffusione implicita e decomposizione primitiva per realizzare la generazione 3D zero-shot multimodale.

Configurazione Sperimentale

Dataset

Dataset di Scene Virtuali:
- Principalmente basato sul dataset ShapeNet, contenente oltre 3000 categorie di oggetti e 220000 modelli
- Contiene immagini di test e testo da modelli come ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR
Dataset di Scene Reali:
- Principalmente basato sul dataset CO3D, fornendo dati 3D ricchi del mondo reale
- Contiene immagini parziali da AKB-48 e OmniObject 3D

Metriche di Valutazione

Distanza di Chamfer (CD): Misura la similarità tra due nuvole di punti
Intersezione Volumetrica su Unione (VIoU): Valuta il grado di sovrapposizione del modello 3D
F1-Score: Considera in modo integrato la precisione e il richiamo della ricostruzione della superficie
Coerenza Normale (NC): Valuta la coerenza dei vettori normali della superficie

Metodi di Confronto

EMS
SuperDec
Marching-Primitives (MP)

Dettagli di Implementazione

Ambiente Hardware: CPU AMD Ryzen 7 9700X, NVIDIA GeForce RTX 5060Ti
Ambiente Software: Windows 11, Python 3.10
Parametri TSDF: Dimensione dello spazio di voxel -13,13, 100 campioni uniformi per dimensione, totale 10⁶ voxel
Risoluzione della mesh: 100

Risultati Sperimentali

Risultati Principali

Risultati del Dataset di Scene Virtuali

Metodo	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	13,1	0,218	0,8572	0,6607
SuperDec	6,38	0,246	0,8629	0,7101
MP	4,95	0,390	0,8193	0,7284
Metodo Proposto	3,09	0,545	0,9139	0,8369

Rispetto al metodo MP, il metodo proposto riduce il CD del 37,6%, aumenta il VIoU del 39,7%, aumenta l'F1-Score dell'11,5% e aumenta il NC del 14,9%.

Risultati del Dataset di Scene Reali

Metodo	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	15,1	0,141	0,8917	0,7539
SuperDec	4,40	0,301	0,8383	0,6759
MP	4,32	0,492	0,7771	0,5882
Metodo Proposto	2,52	0,673	0,9183	0,7752

Risultati Dettagliati del Dataset ShapeNet

Nelle sei categorie di banco, tavolo, aereo, mobile, bottiglia e fucile, il metodo proposto ha una media di CD di 0,503×10⁻³, VIoU di 0,742, F1-Score di 0,8896, NC di 0,4511, con le migliori prestazioni in tutti gli indicatori.

Esperimento di Confronto della Capacità di Archiviazione

Tipo di Input	Capacità di Archiviazione della Mesh	Capacità di Archiviazione Primitiva
Testo	4,56MB	5KB
Immagine	5,76MB	6KB
Totale	5,36MB	6KB

La capacità di archiviazione è stata ridotta di tre ordini di grandezza, da livello MB a livello KB.

Esperimento di Ablazione

L'esperimento di ablazione condotto sul dataset di scene reali dimostra che il metodo proposto ha le migliori prestazioni negli indicatori VIoU, F1-Score e NC, verificando l'efficacia delle quattro equazioni in coordinate polari.

Lavori Correlati

Modelli di Diffusione Implicita

Le prime tecniche di generazione di modelli 3D erano principalmente basate su apprendimento supervisionato, richiedendo grandi quantità di dati supervisionati. La proposta di modelli di diffusione implicita ha fornito nuove prospettive per la ricostruzione 3D da singola immagine, guidando l'ottimizzazione della rappresentazione 3D attraverso la tecnica Score Distillation Sampling e modelli di diffusione 2D pre-addestrati.

Modelli 3D Sintetizzati da Primitive

La ricerca esistente realizza principalmente la caratterizzazione della forma decomponendo modelli 3D in più primitive semplici, incluse superellissoidi, gaussiane anisotrope, inviluppi convessi e altri. Metodi correlati come Marching-Primitives hanno esteso l'intervallo di modelli generabili attraverso l'adattamento iterativo di campi di distanza con segno troncato.

Conclusioni e Discussione

Conclusioni Principali

Il framework di generazione di primitive parametrizzate multimodale multi-stadio proposto in questo articolo è in grado di:

Generare modelli 3D di base diversificati in risposta a vari input condizionati
Superare gli algoritmi all'avanguardia attuali negli indicatori CD, VIoU, F1-Score e NC
Generare modelli sintetizzati da primitive parametrizzate più conformi ai requisiti estetici
Realizzare risparmi significativi nello spazio di archiviazione

Limitazioni

Problema di Adattamento del Cilindro Toroidale: Poiché la superquadrica non ha una superficie penetrante, il metodo non può abbinare o adattare efficacemente cilindri toroidali
Vantaggi della Rappresentazione Parametrizzata: Non riesce a dimostrare pienamente i vantaggi rispetto ad alternative come NURBS
Qualità del Modello Complesso: Limitata dalla qualità della generazione multi-vista, la qualità del modello negli angoli di vista non visibili dei modelli complessi è limitata

Direzioni Future

Utilizzare autoencodificatori variazionali per codificare nuvole di punti di primitive complesse, per l'abbinamento di primitive di cilindri toroidali
Utilizzare altri tipi di modelli di adattamento di superficie per componenti del modello, dimostrando i vantaggi della rappresentazione parametrizzata
Sfruttare simultaneamente informazioni da diverse modalità per descrivere meglio le caratteristiche del modello target, o eseguire training di fine-tuning in compiti downstream

Valutazione Approfondita

Punti di Forza

Forte Innovazione del Metodo: Propone per la prima volta un metodo di mappatura sistematica dalle superquadriche alle primitive parametrizzate
Sperimentazione Completa: Verifica completa su dataset di scene virtuali e reali
Alto Valore Pratico: Riduce significativamente i requisiti di archiviazione, adatto per la prototipazione rapida
Chiara Linea Tecnica: Il design del framework in tre fasi è ragionevole, con funzioni di moduli chiaramente definite

Insufficienze

Ambito di Applicabilità Limitato: Principalmente applicabile a modelli semplici, con capacità limitata di gestire strutture topologiche complesse
Dipendenza da Modelli Pre-Addestrati: Dipende dalla qualità di modelli pre-addestrati come ImageDream
Analisi Teorica Insufficiente: Manca l'analisi teorica della capacità di rappresentazione delle primitive parametrizzate
Limitazioni delle Metriche di Valutazione: Si concentra principalmente sulla similarità geometrica, mancando valutazioni soggettive della qualità visiva

Impatto

Contributo Accademico: Fornisce nuove prospettive di rappresentazione parametrizzata al campo della generazione 3D
Valore Pratico: Miglioramenti significativi nell'efficienza di archiviazione e nella qualità della superficie
Riproducibilità: Descrizione dettagliata del metodo, configurazione sperimentale chiara

Scenari Applicabili

Prototipazione rapida nella progettazione industriale
Generazione di asset 3D semplici nello sviluppo di videogiochi
Creazione di contenuti 3D leggeri in scene di realtà virtuale
Archiviazione e trasmissione di modelli 3D su dispositivi mobili

Bibliografia

L'articolo cita 37 lavori correlati, coprendo aree chiave come generazione 3D, modelli di diffusione implicita, decomposizione primitiva e altri, fornendo una base teorica solida per questa ricerca.