2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.
Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
academic

Un Framework di Generazione 3D dalla Modalità Incrociata alla Primitiva Parametrizzata

Informazioni Fondamentali

  • ID Articolo: 2510.08656
  • Titolo: A 3D Generation Framework from Cross Modality to Parameterized Primitive
  • Autori: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Università di Zhejiang)
  • Classificazione: cs.GR (Grafica Computazionale), cs.AI (Intelligenza Artificiale), cs.CV (Visione Artificiale)
  • Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.08656

Riassunto

Questo articolo propone un framework di generazione 3D multi-stadio basato su primitive parametrizzate per affrontare le sfide relative alla qualità della superficie e ai costi di archiviazione nella generazione di modelli 3D guidata dall'IA. Il framework è in grado di generare modelli 3D composti da primitive parametrizzate in base a input testuali e immagini, sostituendo gli elementi originali con primitive parametrizzate di qualità superiore identificando le caratteristiche di forma degli elementi costitutivi del modello. I risultati sperimentali dimostrano prestazioni eccellenti su dataset di scene virtuali e reali, con una distanza di Chamfer di 3,092×10⁻³, VIoU di 0,545, F1-Score di 0,9139, NC di 0,8369 e dimensione del file dei parametri primitivi di circa 6KB.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le tecniche tradizionali di generazione di modelli 3D affrontano due sfide fondamentali:

  1. Elevati Requisiti di Archiviazione: I metodi esistenti estraggono tipicamente rappresentazioni di mesh esplicite da rappresentazioni 3D implicite utilizzando l'algoritmo Marching Cubes, determinando enormi requisiti di archiviazione. Ad esempio, una griglia di voxel 256³ richiede l'archiviazione di oltre 16 milioni di informazioni di voxel, con un'occupazione di memoria di 0,54GB.
  2. Qualità della Superficie del Modello: Limitata dalla risoluzione e dai vincoli della struttura topologica, i voxel a bassa risoluzione (come 32³) causano perdita di dettagli, mentre i metodi basati su mesh dipendono dalla deformazione di template iniziali e non possono gestire in modo flessibile topologie complesse.

Motivazione della Ricerca

Con il rapido sviluppo della tecnologia di generazione IA e della grafica computazionale, la tecnologia di rappresentazione dei modelli 3D ha applicazioni diffuse in realtà virtuale, elaborazione di immagini mediche, progettazione e produzione industriale, sviluppo di videogiochi e altri campi. I metodi tradizionali richiedono tipicamente una vasta conoscenza preliminare e ipotesi, limitando l'applicabilità in scenari reali. Pertanto, è urgentemente necessario un metodo di generazione che possa migliorare la qualità della superficie del modello riducendo al contempo i requisiti di archiviazione.

Contributi Fondamentali

  1. Propone algoritmi di adattamento e abbinamento di primitive: In grado di sostituire gli elementi di superquadriche che costituiscono il modello con geometrie parametrizzate di qualità superficiale superiore, migliorando così la qualità complessiva del modello 3D.
  2. Propone un metodo di archiviazione di modelli 3D: Riduce i requisiti di archiviazione del modello conservando solo i parametri degli elementi primitivi, realizzando una riduzione dello spazio di archiviazione di tre ordini di grandezza.
  3. Costruisce un metodo di generazione di modelli 3D in tre fasi basato su informazioni multimodali: Utilizza informazioni testuali e immagini come input per generare modelli 3D composti da primitive parametrizzate in condizioni zero-shot.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Descrizione testuale o singola immagine Output: Modello 3D composto da primitive parametrizzate Vincoli: Generazione zero-shot, miglioramento della qualità della superficie, riduzione dei costi di archiviazione

Architettura del Modello

Il framework è diviso in tre fasi principali:

Prima Fase: Sintesi di Immagini di Profondità Multi-Vista e Adattamento Iterativo di Superquadriche

  1. Sintesi di Immagini di Profondità Multi-Vista:
    • Utilizza il modello ImageDream pre-addestrato per generare immagini multi-vista del modello target
    • Guida l'ottimizzazione del campo di radianza neurale tramite la funzione di perdita Score Distillation Sampling (SDS)
    • Utilizza il metodo di campionamento NeRFStudio per campionare immagini di profondità da 48 diversi angoli di vista dal campo di radianza neurale implicito ottimizzato
  2. Adattamento Iterativo di Superquadriche:
    • Costruisce un campo di distanza con segno troncato (TSDF)
    • Definisce una sequenza di soglie di distanza con segno decrescenti: Tc={t1c,t2c,...,tmc,tm+1c}T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}
    • Impostazione della soglia iniziale: t1c=minxiVt(xi)t_1^c = \min_{x_i \in V} t(x_i), formula di decadimento: tm+1c=αtmct_{m+1}^c = \alpha t_m^c
    • Parametri della superquadrica: θ=(ε1,ε2,T,R,S)\theta = (\varepsilon_1, \varepsilon_2, T, R, S)
    • Equazione implicita: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1

Seconda Fase: Ricerca di Primitive Parametrizzate Simili

In base ai parametri di forma della superquadrica ε1\varepsilon_1 e ε2\varepsilon_2, vengono divisi in tre intervalli numerici:

  • (0,0,5)(0, 0,5): Caratteristiche cilindriche
  • [0,5,2][0,5, 2]: Caratteristiche ellissoidali
  • (2,+)(2, +\infty): Caratteristiche stellari

Combinando le caratteristiche di forma nella direzione z e nel piano xy, si formano 9 diversi tipi di superquadriche.

Terza Fase: Algoritmo di Adattamento e Abbinamento di Primitive

Utilizza l'equazione in coordinate polari per rappresentare le primitive parametrizzate:

  • Direzione z: coordinate cilindriche, coordinate sferiche, equazione polare della curva stellare
  • Piano xy: base rettangolare, base ellittica, base stellare in coordinate polari

Combinando il vettore di rotazione R e il vettore di traslazione T della superquadrica, esegue trasformazioni di traslazione e rotazione per ottimizzare l'adattamento e l'abbinamento del modello 3D target.

Punti di Innovazione Tecnica

  1. Analisi delle Caratteristiche di Forma: Attraverso l'analisi sistematica dell'influenza dei parametri della superquadrica sulla forma, stabilisce la relazione di mappatura dalle superquadriche alle primitive parametrizzate.
  2. Rappresentazione Parametrizzata: Realizza l'archiviazione del modello conservando solo i parametri primitivi (parametri di dimensione S, parametri di forma ε1\varepsilon_1 e ε2\varepsilon_2, vettore di traslazione T, vettore di rotazione R).
  3. Generazione Zero-Shot: Combina modelli di diffusione implicita e decomposizione primitiva per realizzare la generazione 3D zero-shot multimodale.

Configurazione Sperimentale

Dataset

  1. Dataset di Scene Virtuali:
    • Principalmente basato sul dataset ShapeNet, contenente oltre 3000 categorie di oggetti e 220000 modelli
    • Contiene immagini di test e testo da modelli come ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR
  2. Dataset di Scene Reali:
    • Principalmente basato sul dataset CO3D, fornendo dati 3D ricchi del mondo reale
    • Contiene immagini parziali da AKB-48 e OmniObject 3D

Metriche di Valutazione

  • Distanza di Chamfer (CD): Misura la similarità tra due nuvole di punti
  • Intersezione Volumetrica su Unione (VIoU): Valuta il grado di sovrapposizione del modello 3D
  • F1-Score: Considera in modo integrato la precisione e il richiamo della ricostruzione della superficie
  • Coerenza Normale (NC): Valuta la coerenza dei vettori normali della superficie

Metodi di Confronto

  • EMS
  • SuperDec
  • Marching-Primitives (MP)

Dettagli di Implementazione

  • Ambiente Hardware: CPU AMD Ryzen 7 9700X, NVIDIA GeForce RTX 5060Ti
  • Ambiente Software: Windows 11, Python 3.10
  • Parametri TSDF: Dimensione dello spazio di voxel -13,13, 100 campioni uniformi per dimensione, totale 10⁶ voxel
  • Risoluzione della mesh: 100

Risultati Sperimentali

Risultati Principali

Risultati del Dataset di Scene Virtuali

MetodoCD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS13,10,2180,85720,6607
SuperDec6,380,2460,86290,7101
MP4,950,3900,81930,7284
Metodo Proposto3,090,5450,91390,8369

Rispetto al metodo MP, il metodo proposto riduce il CD del 37,6%, aumenta il VIoU del 39,7%, aumenta l'F1-Score dell'11,5% e aumenta il NC del 14,9%.

Risultati del Dataset di Scene Reali

MetodoCD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS15,10,1410,89170,7539
SuperDec4,400,3010,83830,6759
MP4,320,4920,77710,5882
Metodo Proposto2,520,6730,91830,7752

Risultati Dettagliati del Dataset ShapeNet

Nelle sei categorie di banco, tavolo, aereo, mobile, bottiglia e fucile, il metodo proposto ha una media di CD di 0,503×10⁻³, VIoU di 0,742, F1-Score di 0,8896, NC di 0,4511, con le migliori prestazioni in tutti gli indicatori.

Esperimento di Confronto della Capacità di Archiviazione

Tipo di InputCapacità di Archiviazione della MeshCapacità di Archiviazione Primitiva
Testo4,56MB5KB
Immagine5,76MB6KB
Totale5,36MB6KB

La capacità di archiviazione è stata ridotta di tre ordini di grandezza, da livello MB a livello KB.

Esperimento di Ablazione

L'esperimento di ablazione condotto sul dataset di scene reali dimostra che il metodo proposto ha le migliori prestazioni negli indicatori VIoU, F1-Score e NC, verificando l'efficacia delle quattro equazioni in coordinate polari.

Lavori Correlati

Modelli di Diffusione Implicita

Le prime tecniche di generazione di modelli 3D erano principalmente basate su apprendimento supervisionato, richiedendo grandi quantità di dati supervisionati. La proposta di modelli di diffusione implicita ha fornito nuove prospettive per la ricostruzione 3D da singola immagine, guidando l'ottimizzazione della rappresentazione 3D attraverso la tecnica Score Distillation Sampling e modelli di diffusione 2D pre-addestrati.

Modelli 3D Sintetizzati da Primitive

La ricerca esistente realizza principalmente la caratterizzazione della forma decomponendo modelli 3D in più primitive semplici, incluse superellissoidi, gaussiane anisotrope, inviluppi convessi e altri. Metodi correlati come Marching-Primitives hanno esteso l'intervallo di modelli generabili attraverso l'adattamento iterativo di campi di distanza con segno troncato.

Conclusioni e Discussione

Conclusioni Principali

Il framework di generazione di primitive parametrizzate multimodale multi-stadio proposto in questo articolo è in grado di:

  1. Generare modelli 3D di base diversificati in risposta a vari input condizionati
  2. Superare gli algoritmi all'avanguardia attuali negli indicatori CD, VIoU, F1-Score e NC
  3. Generare modelli sintetizzati da primitive parametrizzate più conformi ai requisiti estetici
  4. Realizzare risparmi significativi nello spazio di archiviazione

Limitazioni

  1. Problema di Adattamento del Cilindro Toroidale: Poiché la superquadrica non ha una superficie penetrante, il metodo non può abbinare o adattare efficacemente cilindri toroidali
  2. Vantaggi della Rappresentazione Parametrizzata: Non riesce a dimostrare pienamente i vantaggi rispetto ad alternative come NURBS
  3. Qualità del Modello Complesso: Limitata dalla qualità della generazione multi-vista, la qualità del modello negli angoli di vista non visibili dei modelli complessi è limitata

Direzioni Future

  1. Utilizzare autoencodificatori variazionali per codificare nuvole di punti di primitive complesse, per l'abbinamento di primitive di cilindri toroidali
  2. Utilizzare altri tipi di modelli di adattamento di superficie per componenti del modello, dimostrando i vantaggi della rappresentazione parametrizzata
  3. Sfruttare simultaneamente informazioni da diverse modalità per descrivere meglio le caratteristiche del modello target, o eseguire training di fine-tuning in compiti downstream

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione del Metodo: Propone per la prima volta un metodo di mappatura sistematica dalle superquadriche alle primitive parametrizzate
  2. Sperimentazione Completa: Verifica completa su dataset di scene virtuali e reali
  3. Alto Valore Pratico: Riduce significativamente i requisiti di archiviazione, adatto per la prototipazione rapida
  4. Chiara Linea Tecnica: Il design del framework in tre fasi è ragionevole, con funzioni di moduli chiaramente definite

Insufficienze

  1. Ambito di Applicabilità Limitato: Principalmente applicabile a modelli semplici, con capacità limitata di gestire strutture topologiche complesse
  2. Dipendenza da Modelli Pre-Addestrati: Dipende dalla qualità di modelli pre-addestrati come ImageDream
  3. Analisi Teorica Insufficiente: Manca l'analisi teorica della capacità di rappresentazione delle primitive parametrizzate
  4. Limitazioni delle Metriche di Valutazione: Si concentra principalmente sulla similarità geometrica, mancando valutazioni soggettive della qualità visiva

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive di rappresentazione parametrizzata al campo della generazione 3D
  2. Valore Pratico: Miglioramenti significativi nell'efficienza di archiviazione e nella qualità della superficie
  3. Riproducibilità: Descrizione dettagliata del metodo, configurazione sperimentale chiara

Scenari Applicabili

  • Prototipazione rapida nella progettazione industriale
  • Generazione di asset 3D semplici nello sviluppo di videogiochi
  • Creazione di contenuti 3D leggeri in scene di realtà virtuale
  • Archiviazione e trasmissione di modelli 3D su dispositivi mobili

Bibliografia

L'articolo cita 37 lavori correlati, coprendo aree chiave come generazione 3D, modelli di diffusione implicita, decomposizione primitiva e altri, fornendo una base teorica solida per questa ricerca.