Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- Paper-ID: 2510.08656
- Titel: A 3D Generation Framework from Cross Modality to Parameterized Primitive
- Autoren: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Zhejiang-Universität)
- Klassifizierung: cs.GR (Computergrafik), cs.AI (Künstliche Intelligenz), cs.CV (Computervision)
- Veröffentlichungsdatum: 9. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.08656
Dieses Paper adressiert die Herausforderungen der Oberflächenqualität und des Speicheraufwands bei der KI-gesteuerten 3D-Modellgenerierung und schlägt einen mehrstufigen 3D-Generierungsrahmen basierend auf parametrisierten Primitiven vor. Der Rahmen kann 3D-Modelle, die aus parametrisierten Primitiven bestehen, basierend auf Text- und Bildeingaben generieren, indem er die Formmerkmale der Modellelemente identifiziert und diese durch parametrisierte Primitive mit hochqualitativen Oberflächen ersetzt. Die experimentellen Ergebnisse zeigen hervorragende Leistung auf virtuellen und realen Szenen-Datensätzen mit einer Chamfer-Distanz von 3,092×10⁻³, VIoU von 0,545, F1-Score von 0,9139, NC von 0,8369 und einer Primitivparameter-Dateigröße von etwa 6KB.
Traditionelle 3D-Modellgenerierungstechniken sehen sich zwei Kernherausforderungen gegenüber:
- Hohe Speicheranforderungen: Bestehende Methoden extrahieren typischerweise explizite Netzdarstellungen aus impliziten 3D-Darstellungen mittels des Marching-Cubes-Algorithmus, was zu enormen Speicheranforderungen führt. Beispielsweise benötigt ein 256³-Voxel-Gitter die Speicherung von über 16 Millionen Voxel-Informationen mit einem Speicherverbrauch von 0,54GB.
- Oberflächenqualität des Modells: Begrenzt durch Auflösungs- und Topologiestruktureinschränkungen führen niedrig aufgelöste Voxel (wie 32³) zu Detailverlust, während netzbasierte Methoden von anfänglicher Schablonenverformung abhängen und komplexe Topologien nicht flexibel handhaben können.
Mit der rasanten Entwicklung von KI-Generierungstechnologie und Computergrafik hat die 3D-Modelldarstellungstechnik breite Anwendungen in virtueller Realität, medizinischer Bildverarbeitung, industriellem Design und Fertigung sowie Spieleentwicklung. Traditionelle Methoden erfordern typischerweise umfangreiches Vorwissen und Annahmen, was ihre Anwendbarkeit in realen Szenen einschränkt. Daher besteht ein dringender Bedarf an einer Generierungsmethode, die die Oberflächenqualität des Modells verbessert und gleichzeitig die Speicheranforderungen reduziert.
- Vorschlag von Primitive-Anpassungs- und Matching-Algorithmen: Diese können die Superquadrik-Elemente, die das Modell bilden, durch parametrisierte geometrische Körper mit höherer Oberflächenqualität ersetzen und damit die Gesamtqualität des 3D-Modells verbessern.
- Vorschlag einer 3D-Modellspeichermethode: Durch die Beibehaltung nur der Parameter der Primitive-Elemente wird der Speicherbedarf des Modells reduziert, was eine Reduktion des Speicherplatzes um drei Größenordnungen ermöglicht.
- Konstruktion einer dreistufigen 3D-Modellgenerierungsmethode basierend auf multimodalen Informationen: Mit Text- und Bildinformationen als Eingabe werden 3D-Modelle, die aus parametrisierten Primitiven bestehen, unter Zero-Shot-Bedingungen generiert.
Eingabe: Textbeschreibung oder einzelnes Bild
Ausgabe: 3D-Modell bestehend aus parametrisierten Primitiven
Einschränkungen: Zero-Shot-Generierung, verbesserte Oberflächenqualität, reduzierter Speicheraufwand
Der Rahmen besteht aus drei Hauptstufen:
- Mehrblick-Tiefenbildsynthese:
- Verwendung des vortrainierten ImageDream-Modells zur Generierung von Mehrblick-Bildern des Zielmodells
- Lenkung der Optimierung des neuronalen Strahlungsfeldes durch Score Distillation Sampling (SDS)-Verlustfunktion
- Verwendung der NeRFStudio-Sampling-Methode zum Sampling von 48 Tiefenbildern aus verschiedenen Blickwinkeln aus dem optimierten impliziten neuronalen Strahlungsfeld
- Iterative Superquadrik-Anpassung:
- Konstruktion eines abgeschnittenen Signed Distance Field (TSDF)
- Definition einer abnehmenden Signed-Distance-Schwellenwertsequenz: Tc={t1c,t2c,...,tmc,tm+1c}
- Anfängliche Schwellenwerteinstellung: t1c=minxi∈Vt(xi), Abklingformel: tm+1c=αtmc
- Superquadrik-Parameter: θ=(ε1,ε2,T,R,S)
- Implizite Gleichung: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
Basierend auf den Formparametern ε1 und ε2 der Superquadrik werden diese in drei numerische Intervalle unterteilt:
- (0,0,5): Zylindrische Merkmale
- [0,5,2]: Ellipsoidale Merkmale
- (2,+∞): Sternförmige Merkmale
Durch Kombination der Formmerkmale in z-Richtung und xy-Ebene entstehen 9 verschiedene Superquadrik-Typen.
Verwendung der Polarkoordinatengleichung zur Darstellung parametrisierter Primitive:
- z-Richtung: Zylinderkoordinaten, Kugelkoordinaten, Polarkoordinatengleichung von Sternlinien
- xy-Ebene: Rechteckbasis, elliptische Basis, Sternbasis in Polarkoordinaten
Kombiniert mit dem Rotationsvektor R und Translationsvektor T der Superquadrik wird eine Translations- und Rotationstransformation durchgeführt, um das Ziel-3D-Modell optimal anzupassen und zu matching.
- Formmerkmalsanalyse: Durch systematische Analyse des Einflusses von Superquadrik-Parametern auf die Form wird eine Abbildungsbeziehung zwischen Superquadriken und parametrisierten Primitiven etabliert.
- Parametrisierte Darstellung: Nur die Speicherung von Primitive-Parametern (Größenparameter S, Formparameter ε1 und ε2, Translationsvektor T, Rotationsvektor R) ermöglicht die Modellspeicherung.
- Zero-Shot-Generierung: Durch Kombination von impliziten Diffusionsmodellen und Primitive-Zerlegung wird die Cross-Modality-Zero-Shot-3D-Generierung ermöglicht.
- Datensatz für virtuelle Szenen:
- Hauptsächlich basierend auf dem ShapeNet-Datensatz mit über 3000 Objektklassen und 220.000 Modellen
- Enthält Test-Bilder und Texte von ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR und anderen Modellen
- Datensatz für reale Szenen:
- Hauptsächlich basierend auf dem CO3D-Datensatz mit umfangreichen realen 3D-Daten
- Enthält Teile von Bildern aus AKB-48 und OmniObject 3D
- Chamfer Distance (CD): Misst die Ähnlichkeit zwischen zwei Punktwolken
- Volumetric Intersection over Union (VIoU): Bewertet den Überlappungsgrad von 3D-Modellen
- F1-Score: Berücksichtigt umfassend die Genauigkeit und den Recall der Oberflächenrekonstruktion
- Normal Consistency (NC): Bewertet die Konsistenz der Oberflächennormalen
- EMS
- SuperDec
- Marching-Primitives (MP)
- Hardware-Umgebung: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
- Software-Umgebung: Windows 11, Python 3.10
- TSDF-Parameter: Voxel-Raumgröße -13,13, 100 gleichmäßige Abtastungen pro Dimension, insgesamt 10⁶ Voxel
- Netzauflösung: 100
| Methode | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13,1 | 0,218 | 0,8572 | 0,6607 |
| SuperDec | 6,38 | 0,246 | 0,8629 | 0,7101 |
| MP | 4,95 | 0,390 | 0,8193 | 0,7284 |
| Diese Methode | 3,09 | 0,545 | 0,9139 | 0,8369 |
Im Vergleich zur MP-Methode reduziert diese Methode CD um 37,6%, erhöht VIoU um 39,7%, F1-Score um 11,5% und NC um 14,9%.
| Methode | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15,1 | 0,141 | 0,8917 | 0,7539 |
| SuperDec | 4,40 | 0,301 | 0,8383 | 0,6759 |
| MP | 4,32 | 0,492 | 0,7771 | 0,5882 |
| Diese Methode | 2,52 | 0,673 | 0,9183 | 0,7752 |
In den sechs Kategorien Bench, Table, Plane, Cabinet, Bottle und Rifle erreicht diese Methode durchschnittlich CD von 0,503×10⁻³, VIoU von 0,742, F1-Score von 0,8896 und NC von 0,4511, mit bester Leistung bei allen Metriken.
| Eingabetyp | Netzwerk-Speicherkapazität | Primitive-Speicherkapazität |
|---|
| Text | 4,56MB | 5KB |
| Bild | 5,76MB | 6KB |
| Alle | 5,36MB | 6KB |
Die Speicherkapazität wurde um drei Größenordnungen reduziert, von MB-Ebene auf KB-Ebene.
Die auf dem Datensatz für reale Szenen durchgeführte Ablationsstudie zeigt, dass diese Methode bei den Metriken VIoU, F1-Score und NC am besten abschneidet, was die Effektivität der vier Polarkoordinatengleichungen validiert.
Frühe 3D-Modellgenerierungstechniken basierten hauptsächlich auf überwachtem Lernen und erforderten große Mengen überwachter Daten. Implizite Diffusionsmodelle bieten neue Ansätze für die 3D-Rekonstruktion aus einzelnen Bildern durch Score Distillation Sampling-Technologie und Lenkung der 3D-Darstellungsoptimierung durch vortrainierte 2D-Diffusionsmodelle.
Bestehende Forschungen realisieren Formdarstellung hauptsächlich durch Zerlegung von 3D-Modellen in mehrere einfache Primitive, einschließlich Superellipsoide, anisotrope Gaußsche und konvexe Hüllen. Verwandte Methoden wie Marching-Primitives erweitern den Bereich generierbarer Modelle durch iterative Anpassung abgeschnittener Signed Distance Fields.
Der vorgeschlagene mehrstufige Cross-Modality-Parametrisierte-Primitive-Generierungsrahmen kann:
- Diverse 3D-Basismodelle generieren, die auf verschiedene Bedingungseingaben reagieren
- Bei den Metriken CD, VIoU, F1-Score und NC bestehende State-of-the-Art-Algorithmen übertreffen
- ästhetisch ansprechendere parametrisierte Primitive-Synthesemodelle generieren
- erhebliche Speicherplatzersparnisse erzielen
- Problem der Toruszylinderanpassung: Da Superquadriken keine durchdringenden Oberflächen haben, kann die Methode Toruszylinder nicht effektiv matching oder anpassen.
- Vorteile der parametrisierten Darstellung: Können die Vorteile gegenüber alternativen Lösungen wie NURBS nicht vollständig demonstrieren.
- Qualität komplexer Modelle: Begrenzt durch die Qualität der Mehrblick-Generierung, ist die Modellqualität unsichtbarer Blickwinkel komplexer Modelle begrenzt.
- Verwendung von Variational Autoencodern zur Kodierung von Punktwolken komplexer Primitive für Primitive-Matching von Toruszylindern
- Verwendung anderer Oberflächenanpassungsmodelle zur Anpassung von Modellkomponenten, um die Vorteile der parametrisierten Darstellung zu demonstrieren
- Bessere Nutzung von Informationen verschiedener Modalitäten zur Beschreibung von Zielmodellmerkmalen oder Feinabstimmungstraining bei nachgelagerten Aufgaben
- Starke methodische Innovation: Erstmals wird eine systematische Abbildungsmethode von Superquadriken zu parametrisierten Primitiven vorgeschlagen
- Umfassende Experimente: Vollständige Validierung auf virtuellen und realen Szenen-Datensätzen
- Hoher praktischer Wert: Signifikante Reduktion der Speicheranforderungen, geeignet für schnelle Prototypenerstellung
- Klare technische Route: Vernünftige Gestaltung des dreistufigen Rahmens mit klaren Modulfunktionen
- Begrenzte Anwendbarkeit: Hauptsächlich für einfache Modelle geeignet, begrenzte Fähigkeit zur Handhabung komplexer Topologiestrukturen
- Abhängigkeit von vortrainierten Modellen: Abhängig von der Qualität vortrainierter Modelle wie ImageDream
- Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Darstellungsfähigkeit parametrisierter Primitive
- Begrenzte Bewertungsmetriken: Hauptsächlich fokussiert auf geometrische Ähnlichkeit, mangelnde subjektive Bewertung der visuellen Qualität
- Akademischer Beitrag: Bietet neue Gedanken zur parametrisierten Darstellung für das 3D-Generierungsfeld
- Praktischer Wert: Signifikante Verbesserungen bei Speichereffizienz und Oberflächenqualität
- Reproduzierbarkeit: Detaillierte Methodenbeschreibung, klare experimentelle Einrichtung
- Schnelle Prototypenerstellung im Industriedesign
- Generierung einfacher 3D-Assets in der Spieleentwicklung
- Leichte 3D-Inhaltserstellung für virtuelle Realitätsszenen
- 3D-Modellspeicherung und -übertragung auf mobilen Geräten
Das Paper zitiert 38 verwandte Literaturquellen, die wichtige Arbeiten in den Schlüsselbereichen 3D-Generierung, implizite Diffusionsmodelle und Primitive-Zerlegung abdecken und eine solide theoretische Grundlage für diese Forschung bieten.