Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- ID Articolo: 2510.08656
- Titolo: A 3D Generation Framework from Cross Modality to Parameterized Primitive
- Autori: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Università di Zhejiang)
- Classificazione: cs.GR (Grafica Computazionale), cs.AI (Intelligenza Artificiale), cs.CV (Visione Artificiale)
- Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.08656
Questo articolo propone un framework di generazione 3D multi-stadio basato su primitive parametrizzate per affrontare le sfide relative alla qualità della superficie e ai costi di archiviazione nella generazione di modelli 3D guidata dall'IA. Il framework è in grado di generare modelli 3D composti da primitive parametrizzate in base a input testuali e immagini, sostituendo gli elementi originali con primitive parametrizzate di qualità superiore identificando le caratteristiche di forma degli elementi costitutivi del modello. I risultati sperimentali dimostrano prestazioni eccellenti su dataset di scene virtuali e reali, con una distanza di Chamfer di 3,092×10⁻³, VIoU di 0,545, F1-Score di 0,9139, NC di 0,8369 e dimensione del file dei parametri primitivi di circa 6KB.
Le tecniche tradizionali di generazione di modelli 3D affrontano due sfide fondamentali:
- Elevati Requisiti di Archiviazione: I metodi esistenti estraggono tipicamente rappresentazioni di mesh esplicite da rappresentazioni 3D implicite utilizzando l'algoritmo Marching Cubes, determinando enormi requisiti di archiviazione. Ad esempio, una griglia di voxel 256³ richiede l'archiviazione di oltre 16 milioni di informazioni di voxel, con un'occupazione di memoria di 0,54GB.
- Qualità della Superficie del Modello: Limitata dalla risoluzione e dai vincoli della struttura topologica, i voxel a bassa risoluzione (come 32³) causano perdita di dettagli, mentre i metodi basati su mesh dipendono dalla deformazione di template iniziali e non possono gestire in modo flessibile topologie complesse.
Con il rapido sviluppo della tecnologia di generazione IA e della grafica computazionale, la tecnologia di rappresentazione dei modelli 3D ha applicazioni diffuse in realtà virtuale, elaborazione di immagini mediche, progettazione e produzione industriale, sviluppo di videogiochi e altri campi. I metodi tradizionali richiedono tipicamente una vasta conoscenza preliminare e ipotesi, limitando l'applicabilità in scenari reali. Pertanto, è urgentemente necessario un metodo di generazione che possa migliorare la qualità della superficie del modello riducendo al contempo i requisiti di archiviazione.
- Propone algoritmi di adattamento e abbinamento di primitive: In grado di sostituire gli elementi di superquadriche che costituiscono il modello con geometrie parametrizzate di qualità superficiale superiore, migliorando così la qualità complessiva del modello 3D.
- Propone un metodo di archiviazione di modelli 3D: Riduce i requisiti di archiviazione del modello conservando solo i parametri degli elementi primitivi, realizzando una riduzione dello spazio di archiviazione di tre ordini di grandezza.
- Costruisce un metodo di generazione di modelli 3D in tre fasi basato su informazioni multimodali: Utilizza informazioni testuali e immagini come input per generare modelli 3D composti da primitive parametrizzate in condizioni zero-shot.
Input: Descrizione testuale o singola immagine
Output: Modello 3D composto da primitive parametrizzate
Vincoli: Generazione zero-shot, miglioramento della qualità della superficie, riduzione dei costi di archiviazione
Il framework è diviso in tre fasi principali:
- Sintesi di Immagini di Profondità Multi-Vista:
- Utilizza il modello ImageDream pre-addestrato per generare immagini multi-vista del modello target
- Guida l'ottimizzazione del campo di radianza neurale tramite la funzione di perdita Score Distillation Sampling (SDS)
- Utilizza il metodo di campionamento NeRFStudio per campionare immagini di profondità da 48 diversi angoli di vista dal campo di radianza neurale implicito ottimizzato
- Adattamento Iterativo di Superquadriche:
- Costruisce un campo di distanza con segno troncato (TSDF)
- Definisce una sequenza di soglie di distanza con segno decrescenti: Tc={t1c,t2c,...,tmc,tm+1c}
- Impostazione della soglia iniziale: t1c=minxi∈Vt(xi), formula di decadimento: tm+1c=αtmc
- Parametri della superquadrica: θ=(ε1,ε2,T,R,S)
- Equazione implicita: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
In base ai parametri di forma della superquadrica ε1 e ε2, vengono divisi in tre intervalli numerici:
- (0,0,5): Caratteristiche cilindriche
- [0,5,2]: Caratteristiche ellissoidali
- (2,+∞): Caratteristiche stellari
Combinando le caratteristiche di forma nella direzione z e nel piano xy, si formano 9 diversi tipi di superquadriche.
Utilizza l'equazione in coordinate polari per rappresentare le primitive parametrizzate:
- Direzione z: coordinate cilindriche, coordinate sferiche, equazione polare della curva stellare
- Piano xy: base rettangolare, base ellittica, base stellare in coordinate polari
Combinando il vettore di rotazione R e il vettore di traslazione T della superquadrica, esegue trasformazioni di traslazione e rotazione per ottimizzare l'adattamento e l'abbinamento del modello 3D target.
- Analisi delle Caratteristiche di Forma: Attraverso l'analisi sistematica dell'influenza dei parametri della superquadrica sulla forma, stabilisce la relazione di mappatura dalle superquadriche alle primitive parametrizzate.
- Rappresentazione Parametrizzata: Realizza l'archiviazione del modello conservando solo i parametri primitivi (parametri di dimensione S, parametri di forma ε1 e ε2, vettore di traslazione T, vettore di rotazione R).
- Generazione Zero-Shot: Combina modelli di diffusione implicita e decomposizione primitiva per realizzare la generazione 3D zero-shot multimodale.
- Dataset di Scene Virtuali:
- Principalmente basato sul dataset ShapeNet, contenente oltre 3000 categorie di oggetti e 220000 modelli
- Contiene immagini di test e testo da modelli come ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR
- Dataset di Scene Reali:
- Principalmente basato sul dataset CO3D, fornendo dati 3D ricchi del mondo reale
- Contiene immagini parziali da AKB-48 e OmniObject 3D
- Distanza di Chamfer (CD): Misura la similarità tra due nuvole di punti
- Intersezione Volumetrica su Unione (VIoU): Valuta il grado di sovrapposizione del modello 3D
- F1-Score: Considera in modo integrato la precisione e il richiamo della ricostruzione della superficie
- Coerenza Normale (NC): Valuta la coerenza dei vettori normali della superficie
- EMS
- SuperDec
- Marching-Primitives (MP)
- Ambiente Hardware: CPU AMD Ryzen 7 9700X, NVIDIA GeForce RTX 5060Ti
- Ambiente Software: Windows 11, Python 3.10
- Parametri TSDF: Dimensione dello spazio di voxel -13,13, 100 campioni uniformi per dimensione, totale 10⁶ voxel
- Risoluzione della mesh: 100
| Metodo | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13,1 | 0,218 | 0,8572 | 0,6607 |
| SuperDec | 6,38 | 0,246 | 0,8629 | 0,7101 |
| MP | 4,95 | 0,390 | 0,8193 | 0,7284 |
| Metodo Proposto | 3,09 | 0,545 | 0,9139 | 0,8369 |
Rispetto al metodo MP, il metodo proposto riduce il CD del 37,6%, aumenta il VIoU del 39,7%, aumenta l'F1-Score dell'11,5% e aumenta il NC del 14,9%.
| Metodo | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15,1 | 0,141 | 0,8917 | 0,7539 |
| SuperDec | 4,40 | 0,301 | 0,8383 | 0,6759 |
| MP | 4,32 | 0,492 | 0,7771 | 0,5882 |
| Metodo Proposto | 2,52 | 0,673 | 0,9183 | 0,7752 |
Nelle sei categorie di banco, tavolo, aereo, mobile, bottiglia e fucile, il metodo proposto ha una media di CD di 0,503×10⁻³, VIoU di 0,742, F1-Score di 0,8896, NC di 0,4511, con le migliori prestazioni in tutti gli indicatori.
| Tipo di Input | Capacità di Archiviazione della Mesh | Capacità di Archiviazione Primitiva |
|---|
| Testo | 4,56MB | 5KB |
| Immagine | 5,76MB | 6KB |
| Totale | 5,36MB | 6KB |
La capacità di archiviazione è stata ridotta di tre ordini di grandezza, da livello MB a livello KB.
L'esperimento di ablazione condotto sul dataset di scene reali dimostra che il metodo proposto ha le migliori prestazioni negli indicatori VIoU, F1-Score e NC, verificando l'efficacia delle quattro equazioni in coordinate polari.
Le prime tecniche di generazione di modelli 3D erano principalmente basate su apprendimento supervisionato, richiedendo grandi quantità di dati supervisionati. La proposta di modelli di diffusione implicita ha fornito nuove prospettive per la ricostruzione 3D da singola immagine, guidando l'ottimizzazione della rappresentazione 3D attraverso la tecnica Score Distillation Sampling e modelli di diffusione 2D pre-addestrati.
La ricerca esistente realizza principalmente la caratterizzazione della forma decomponendo modelli 3D in più primitive semplici, incluse superellissoidi, gaussiane anisotrope, inviluppi convessi e altri. Metodi correlati come Marching-Primitives hanno esteso l'intervallo di modelli generabili attraverso l'adattamento iterativo di campi di distanza con segno troncato.
Il framework di generazione di primitive parametrizzate multimodale multi-stadio proposto in questo articolo è in grado di:
- Generare modelli 3D di base diversificati in risposta a vari input condizionati
- Superare gli algoritmi all'avanguardia attuali negli indicatori CD, VIoU, F1-Score e NC
- Generare modelli sintetizzati da primitive parametrizzate più conformi ai requisiti estetici
- Realizzare risparmi significativi nello spazio di archiviazione
- Problema di Adattamento del Cilindro Toroidale: Poiché la superquadrica non ha una superficie penetrante, il metodo non può abbinare o adattare efficacemente cilindri toroidali
- Vantaggi della Rappresentazione Parametrizzata: Non riesce a dimostrare pienamente i vantaggi rispetto ad alternative come NURBS
- Qualità del Modello Complesso: Limitata dalla qualità della generazione multi-vista, la qualità del modello negli angoli di vista non visibili dei modelli complessi è limitata
- Utilizzare autoencodificatori variazionali per codificare nuvole di punti di primitive complesse, per l'abbinamento di primitive di cilindri toroidali
- Utilizzare altri tipi di modelli di adattamento di superficie per componenti del modello, dimostrando i vantaggi della rappresentazione parametrizzata
- Sfruttare simultaneamente informazioni da diverse modalità per descrivere meglio le caratteristiche del modello target, o eseguire training di fine-tuning in compiti downstream
- Forte Innovazione del Metodo: Propone per la prima volta un metodo di mappatura sistematica dalle superquadriche alle primitive parametrizzate
- Sperimentazione Completa: Verifica completa su dataset di scene virtuali e reali
- Alto Valore Pratico: Riduce significativamente i requisiti di archiviazione, adatto per la prototipazione rapida
- Chiara Linea Tecnica: Il design del framework in tre fasi è ragionevole, con funzioni di moduli chiaramente definite
- Ambito di Applicabilità Limitato: Principalmente applicabile a modelli semplici, con capacità limitata di gestire strutture topologiche complesse
- Dipendenza da Modelli Pre-Addestrati: Dipende dalla qualità di modelli pre-addestrati come ImageDream
- Analisi Teorica Insufficiente: Manca l'analisi teorica della capacità di rappresentazione delle primitive parametrizzate
- Limitazioni delle Metriche di Valutazione: Si concentra principalmente sulla similarità geometrica, mancando valutazioni soggettive della qualità visiva
- Contributo Accademico: Fornisce nuove prospettive di rappresentazione parametrizzata al campo della generazione 3D
- Valore Pratico: Miglioramenti significativi nell'efficienza di archiviazione e nella qualità della superficie
- Riproducibilità: Descrizione dettagliata del metodo, configurazione sperimentale chiara
- Prototipazione rapida nella progettazione industriale
- Generazione di asset 3D semplici nello sviluppo di videogiochi
- Creazione di contenuti 3D leggeri in scene di realtà virtuale
- Archiviazione e trasmissione di modelli 3D su dispositivi mobili
L'articolo cita 37 lavori correlati, coprendo aree chiave come generazione 3D, modelli di diffusione implicita, decomposizione primitiva e altri, fornendo una base teorica solida per questa ricerca.