2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

Ein 3D-Generierungsrahmen von Cross-Modality zu parametrisierten Primitiven

Grundlegende Informationen

Paper-ID: 2510.08656
Titel: A 3D Generation Framework from Cross Modality to Parameterized Primitive
Autoren: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Zhejiang-Universität)
Klassifizierung: cs.GR (Computergrafik), cs.AI (Künstliche Intelligenz), cs.CV (Computervision)
Veröffentlichungsdatum: 9. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.08656

Zusammenfassung

Dieses Paper adressiert die Herausforderungen der Oberflächenqualität und des Speicheraufwands bei der KI-gesteuerten 3D-Modellgenerierung und schlägt einen mehrstufigen 3D-Generierungsrahmen basierend auf parametrisierten Primitiven vor. Der Rahmen kann 3D-Modelle, die aus parametrisierten Primitiven bestehen, basierend auf Text- und Bildeingaben generieren, indem er die Formmerkmale der Modellelemente identifiziert und diese durch parametrisierte Primitive mit hochqualitativen Oberflächen ersetzt. Die experimentellen Ergebnisse zeigen hervorragende Leistung auf virtuellen und realen Szenen-Datensätzen mit einer Chamfer-Distanz von 3,092×10⁻³, VIoU von 0,545, F1-Score von 0,9139, NC von 0,8369 und einer Primitivparameter-Dateigröße von etwa 6KB.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle 3D-Modellgenerierungstechniken sehen sich zwei Kernherausforderungen gegenüber:

Hohe Speicheranforderungen: Bestehende Methoden extrahieren typischerweise explizite Netzdarstellungen aus impliziten 3D-Darstellungen mittels des Marching-Cubes-Algorithmus, was zu enormen Speicheranforderungen führt. Beispielsweise benötigt ein 256³-Voxel-Gitter die Speicherung von über 16 Millionen Voxel-Informationen mit einem Speicherverbrauch von 0,54GB.
Oberflächenqualität des Modells: Begrenzt durch Auflösungs- und Topologiestruktureinschränkungen führen niedrig aufgelöste Voxel (wie 32³) zu Detailverlust, während netzbasierte Methoden von anfänglicher Schablonenverformung abhängen und komplexe Topologien nicht flexibel handhaben können.

Forschungsmotivation

Mit der rasanten Entwicklung von KI-Generierungstechnologie und Computergrafik hat die 3D-Modelldarstellungstechnik breite Anwendungen in virtueller Realität, medizinischer Bildverarbeitung, industriellem Design und Fertigung sowie Spieleentwicklung. Traditionelle Methoden erfordern typischerweise umfangreiches Vorwissen und Annahmen, was ihre Anwendbarkeit in realen Szenen einschränkt. Daher besteht ein dringender Bedarf an einer Generierungsmethode, die die Oberflächenqualität des Modells verbessert und gleichzeitig die Speicheranforderungen reduziert.

Kernbeiträge

Vorschlag von Primitive-Anpassungs- und Matching-Algorithmen: Diese können die Superquadrik-Elemente, die das Modell bilden, durch parametrisierte geometrische Körper mit höherer Oberflächenqualität ersetzen und damit die Gesamtqualität des 3D-Modells verbessern.
Vorschlag einer 3D-Modellspeichermethode: Durch die Beibehaltung nur der Parameter der Primitive-Elemente wird der Speicherbedarf des Modells reduziert, was eine Reduktion des Speicherplatzes um drei Größenordnungen ermöglicht.
Konstruktion einer dreistufigen 3D-Modellgenerierungsmethode basierend auf multimodalen Informationen: Mit Text- und Bildinformationen als Eingabe werden 3D-Modelle, die aus parametrisierten Primitiven bestehen, unter Zero-Shot-Bedingungen generiert.

Methodische Details

Aufgabendefinition

Eingabe: Textbeschreibung oder einzelnes Bild Ausgabe: 3D-Modell bestehend aus parametrisierten Primitiven Einschränkungen: Zero-Shot-Generierung, verbesserte Oberflächenqualität, reduzierter Speicheraufwand

Modellarchitektur

Der Rahmen besteht aus drei Hauptstufen:

Erste Stufe: Mehrblick-Tiefenbildsynthese und iterative Superquadrik-Anpassung

Mehrblick-Tiefenbildsynthese:
- Verwendung des vortrainierten ImageDream-Modells zur Generierung von Mehrblick-Bildern des Zielmodells
- Lenkung der Optimierung des neuronalen Strahlungsfeldes durch Score Distillation Sampling (SDS)-Verlustfunktion
- Verwendung der NeRFStudio-Sampling-Methode zum Sampling von 48 Tiefenbildern aus verschiedenen Blickwinkeln aus dem optimierten impliziten neuronalen Strahlungsfeld
Iterative Superquadrik-Anpassung:
- Konstruktion eines abgeschnittenen Signed Distance Field (TSDF)
- Definition einer abnehmenden Signed-Distance-Schwellenwertsequenz: $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- Anfängliche Schwellenwerteinstellung: $t_1^c = \min_{x_i \in V} t(x_i)$ , Abklingformel: $t_{m+1}^c = \alpha t_m^c$
- Superquadrik-Parameter: $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- Implizite Gleichung: $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

Zweite Stufe: Suche nach ähnlichen parametrisierten Primitiven

Basierend auf den Formparametern $\varepsilon_1$ und $\varepsilon_2$ der Superquadrik werden diese in drei numerische Intervalle unterteilt:

$(0, 0,5)$ : Zylindrische Merkmale
$[0,5, 2]$ : Ellipsoidale Merkmale
$(2, +\infty)$ : Sternförmige Merkmale

Durch Kombination der Formmerkmale in z-Richtung und xy-Ebene entstehen 9 verschiedene Superquadrik-Typen.

Dritte Stufe: Primitive-Anpassungs- und Matching-Algorithmus

Verwendung der Polarkoordinatengleichung zur Darstellung parametrisierter Primitive:

z-Richtung: Zylinderkoordinaten, Kugelkoordinaten, Polarkoordinatengleichung von Sternlinien
xy-Ebene: Rechteckbasis, elliptische Basis, Sternbasis in Polarkoordinaten

Kombiniert mit dem Rotationsvektor R und Translationsvektor T der Superquadrik wird eine Translations- und Rotationstransformation durchgeführt, um das Ziel-3D-Modell optimal anzupassen und zu matching.

Technische Innovationspunkte

Formmerkmalsanalyse: Durch systematische Analyse des Einflusses von Superquadrik-Parametern auf die Form wird eine Abbildungsbeziehung zwischen Superquadriken und parametrisierten Primitiven etabliert.
Parametrisierte Darstellung: Nur die Speicherung von Primitive-Parametern (Größenparameter S, Formparameter $\varepsilon_1$ und $\varepsilon_2$ , Translationsvektor T, Rotationsvektor R) ermöglicht die Modellspeicherung.
Zero-Shot-Generierung: Durch Kombination von impliziten Diffusionsmodellen und Primitive-Zerlegung wird die Cross-Modality-Zero-Shot-3D-Generierung ermöglicht.

Experimentelle Einrichtung

Datensätze

Datensatz für virtuelle Szenen:
- Hauptsächlich basierend auf dem ShapeNet-Datensatz mit über 3000 Objektklassen und 220.000 Modellen
- Enthält Test-Bilder und Texte von ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR und anderen Modellen
Datensatz für reale Szenen:
- Hauptsächlich basierend auf dem CO3D-Datensatz mit umfangreichen realen 3D-Daten
- Enthält Teile von Bildern aus AKB-48 und OmniObject 3D

Bewertungsmetriken

Chamfer Distance (CD): Misst die Ähnlichkeit zwischen zwei Punktwolken
Volumetric Intersection over Union (VIoU): Bewertet den Überlappungsgrad von 3D-Modellen
F1-Score: Berücksichtigt umfassend die Genauigkeit und den Recall der Oberflächenrekonstruktion
Normal Consistency (NC): Bewertet die Konsistenz der Oberflächennormalen

Vergleichsmethoden

EMS
SuperDec
Marching-Primitives (MP)

Implementierungsdetails

Hardware-Umgebung: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
Software-Umgebung: Windows 11, Python 3.10
TSDF-Parameter: Voxel-Raumgröße -13,13, 100 gleichmäßige Abtastungen pro Dimension, insgesamt 10⁶ Voxel
Netzauflösung: 100

Experimentelle Ergebnisse

Hauptergebnisse

Ergebnisse auf dem Datensatz für virtuelle Szenen

Methode	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	13,1	0,218	0,8572	0,6607
SuperDec	6,38	0,246	0,8629	0,7101
MP	4,95	0,390	0,8193	0,7284
Diese Methode	3,09	0,545	0,9139	0,8369

Im Vergleich zur MP-Methode reduziert diese Methode CD um 37,6%, erhöht VIoU um 39,7%, F1-Score um 11,5% und NC um 14,9%.

Ergebnisse auf dem Datensatz für reale Szenen

Methode	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	15,1	0,141	0,8917	0,7539
SuperDec	4,40	0,301	0,8383	0,6759
MP	4,32	0,492	0,7771	0,5882
Diese Methode	2,52	0,673	0,9183	0,7752

Detaillierte Ergebnisse auf dem ShapeNet-Datensatz

In den sechs Kategorien Bench, Table, Plane, Cabinet, Bottle und Rifle erreicht diese Methode durchschnittlich CD von 0,503×10⁻³, VIoU von 0,742, F1-Score von 0,8896 und NC von 0,4511, mit bester Leistung bei allen Metriken.

Vergleichsexperiment zur Speicherkapazität

Eingabetyp	Netzwerk-Speicherkapazität	Primitive-Speicherkapazität
Text	4,56MB	5KB
Bild	5,76MB	6KB
Alle	5,36MB	6KB

Die Speicherkapazität wurde um drei Größenordnungen reduziert, von MB-Ebene auf KB-Ebene.

Ablationsstudie

Die auf dem Datensatz für reale Szenen durchgeführte Ablationsstudie zeigt, dass diese Methode bei den Metriken VIoU, F1-Score und NC am besten abschneidet, was die Effektivität der vier Polarkoordinatengleichungen validiert.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Der vorgeschlagene mehrstufige Cross-Modality-Parametrisierte-Primitive-Generierungsrahmen kann:

Diverse 3D-Basismodelle generieren, die auf verschiedene Bedingungseingaben reagieren
Bei den Metriken CD, VIoU, F1-Score und NC bestehende State-of-the-Art-Algorithmen übertreffen
ästhetisch ansprechendere parametrisierte Primitive-Synthesemodelle generieren
erhebliche Speicherplatzersparnisse erzielen

Einschränkungen

Problem der Toruszylinderanpassung: Da Superquadriken keine durchdringenden Oberflächen haben, kann die Methode Toruszylinder nicht effektiv matching oder anpassen.
Vorteile der parametrisierten Darstellung: Können die Vorteile gegenüber alternativen Lösungen wie NURBS nicht vollständig demonstrieren.
Qualität komplexer Modelle: Begrenzt durch die Qualität der Mehrblick-Generierung, ist die Modellqualität unsichtbarer Blickwinkel komplexer Modelle begrenzt.

Zukünftige Richtungen

Verwendung von Variational Autoencodern zur Kodierung von Punktwolken komplexer Primitive für Primitive-Matching von Toruszylindern
Verwendung anderer Oberflächenanpassungsmodelle zur Anpassung von Modellkomponenten, um die Vorteile der parametrisierten Darstellung zu demonstrieren
Bessere Nutzung von Informationen verschiedener Modalitäten zur Beschreibung von Zielmodellmerkmalen oder Feinabstimmungstraining bei nachgelagerten Aufgaben

Tiefgreifende Bewertung

Stärken

Starke methodische Innovation: Erstmals wird eine systematische Abbildungsmethode von Superquadriken zu parametrisierten Primitiven vorgeschlagen
Umfassende Experimente: Vollständige Validierung auf virtuellen und realen Szenen-Datensätzen
Hoher praktischer Wert: Signifikante Reduktion der Speicheranforderungen, geeignet für schnelle Prototypenerstellung
Klare technische Route: Vernünftige Gestaltung des dreistufigen Rahmens mit klaren Modulfunktionen

Mängel

Begrenzte Anwendbarkeit: Hauptsächlich für einfache Modelle geeignet, begrenzte Fähigkeit zur Handhabung komplexer Topologiestrukturen
Abhängigkeit von vortrainierten Modellen: Abhängig von der Qualität vortrainierter Modelle wie ImageDream
Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Darstellungsfähigkeit parametrisierter Primitive
Begrenzte Bewertungsmetriken: Hauptsächlich fokussiert auf geometrische Ähnlichkeit, mangelnde subjektive Bewertung der visuellen Qualität

Einflussfaktor

Akademischer Beitrag: Bietet neue Gedanken zur parametrisierten Darstellung für das 3D-Generierungsfeld
Praktischer Wert: Signifikante Verbesserungen bei Speichereffizienz und Oberflächenqualität
Reproduzierbarkeit: Detaillierte Methodenbeschreibung, klare experimentelle Einrichtung

Anwendungsszenarien

Schnelle Prototypenerstellung im Industriedesign
Generierung einfacher 3D-Assets in der Spieleentwicklung
Leichte 3D-Inhaltserstellung für virtuelle Realitätsszenen
3D-Modellspeicherung und -übertragung auf mobilen Geräten

Referenzen

Das Paper zitiert 38 verwandte Literaturquellen, die wichtige Arbeiten in den Schlüsselbereichen 3D-Generierung, implizite Diffusionsmodelle und Primitive-Zerlegung abdecken und eine solide theoretische Grundlage für diese Forschung bieten.