2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

Un Cadre de Génération 3D de la Modalité Croisée à la Primitive Paramétrée

Informations Fondamentales

ID de l'article : 2510.08656
Titre : A 3D Generation Framework from Cross Modality to Parameterized Primitive
Auteurs : Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Université Zhejiang)
Classification : cs.GR (Infographie), cs.AI (Intelligence Artificielle), cs.CV (Vision par Ordinateur)
Date de Publication : 9 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.08656

Résumé

Cet article propose un cadre de génération 3D multi-étapes basé sur des primitives paramétrées pour relever les défis de la qualité de surface et des frais de stockage dans la génération de modèles 3D pilotée par l'IA. Le cadre peut générer des modèles 3D composés de primitives paramétrées à partir d'entrées textuelles et d'images, en remplaçant les éléments originaux par des primitives paramétrées de haute qualité en identifiant les caractéristiques de forme des éléments constitutifs du modèle. Les résultats expérimentaux démontrent des performances exceptionnelles sur les ensembles de données de scènes virtuelles et réelles, avec une distance de Chamfer de 3,092×10⁻³, un VIoU de 0,545, un F1-Score de 0,9139, un NC de 0,8369, et une taille de fichier de paramètres primitifs d'environ 6 KB.

Contexte et Motivation de la Recherche

Définition du Problème

Les techniques traditionnelles de génération de modèles 3D font face à deux défis fondamentaux :

Exigences de Stockage Élevées : Les méthodes existantes extraient généralement des représentations de maillage explicites à partir de représentations 3D implicites en utilisant l'algorithme Marching Cubes, ce qui entraîne des besoins de stockage considérables. Par exemple, une grille de voxels 256³ nécessite de stocker plus de 16 millions d'informations de voxels, avec une occupation mémoire atteignant 0,54 GB.
Qualité de Surface du Modèle : Limitée par la résolution et les contraintes de structure topologique, les voxels de basse résolution (tels que 32³) entraînent une perte de détails, et les méthodes basées sur le maillage dépendent de la déformation de modèles initiaux, incapables de gérer flexiblement les topologies complexes.

Motivation de la Recherche

Avec le développement rapide de la technologie de génération par IA et de l'infographie, la technologie de représentation des modèles 3D a des applications largement répandues dans la réalité virtuelle, le traitement d'images médicales, la conception et la fabrication industrielles, le développement de jeux, etc. Les méthodes traditionnelles nécessitent généralement de nombreuses connaissances préalables et hypothèses, limitant leur applicabilité dans les scènes réelles. Par conséquent, il est urgent de développer une méthode de génération capable d'améliorer la qualité de surface du modèle tout en réduisant les besoins de stockage.

Contributions Principales

Proposition d'algorithmes d'ajustement et d'appariement de primitives : Capable de remplacer les éléments de superquadriques constituant le modèle par des géométries paramétrées de qualité de surface supérieure, améliorant ainsi la qualité globale du modèle 3D.
Proposition d'une méthode de stockage de modèles 3D : En conservant uniquement les paramètres des éléments primitifs, la méthode réduit les besoins de stockage du modèle de trois ordres de grandeur.
Construction d'une méthode de génération de modèles 3D en trois étapes basée sur les informations multimodales : Prenant en entrée des informations textuelles et d'images, générant des modèles 3D composés de primitives paramétrées dans des conditions sans exemple.

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Description textuelle ou image unique Sortie : Modèle 3D composé de primitives paramétrées Contraintes : Génération sans exemple, amélioration de la qualité de surface, réduction des frais de stockage

Architecture du Modèle

Le cadre se compose de trois étapes principales :

Première Étape : Synthèse d'Images de Profondeur Multi-Vues et Ajustement Itératif de Superquadriques

Synthèse d'Images de Profondeur Multi-Vues :
- Utilisation du modèle ImageDream pré-entraîné pour générer des images multi-vues du modèle cible
- Optimisation du champ de rayonnement neuronal guidée par la fonction de perte Score Distillation Sampling (SDS)
- Utilisation de la méthode d'échantillonnage NeRFStudio pour échantillonner 48 images de profondeur sous différents angles à partir du champ de rayonnement neuronal implicite optimisé
Ajustement Itératif de Superquadriques :
- Construction d'un champ de distance signée tronquée (TSDF)
- Définition d'une séquence de seuils de distance signée décroissants : $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- Seuil initial : $t_1^c = \min_{x_i \in V} t(x_i)$ , formule d'atténuation : $t_{m+1}^c = \alpha t_m^c$
- Paramètres de superquadriques : $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- Équation implicite : $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

Deuxième Étape : Recherche de Primitives Paramétrées Similaires

Selon les paramètres de forme de la superquadrique $\varepsilon_1$ et $\varepsilon_2$ , classification en trois intervalles numériques :

$(0, 0,5)$ : Caractéristiques cylindriques
$[0,5, 2]$ : Caractéristiques ellipsoïdales
$(2, +\infty)$ : Caractéristiques en étoile

En combinant les caractéristiques de forme dans la direction z et le plan xy, formation de 9 types différents de superquadriques.

Troisième Étape : Algorithme d'Ajustement et d'Appariement de Primitives

Utilisation de l'équation polaire pour représenter les primitives paramétrées :

Direction z : équations polaires du système de coordonnées cylindriques, du système de coordonnées sphériques, de la courbe étoilée
Plan xy : équations polaires de base rectangulaire, base elliptique, base en étoile

En combinant le vecteur de rotation R et le vecteur de translation T de la superquadrique, exécution de transformations de translation et rotation pour optimiser l'ajustement et l'appariement du modèle 3D cible.

Points d'Innovation Technique

Analyse des Caractéristiques de Forme : Par analyse systématique de l'influence des paramètres de superquadriques sur la forme, établissement d'une relation de correspondance entre les superquadriques et les primitives paramétrées.
Représentation Paramétrée : Réalisation du stockage du modèle en conservant uniquement les paramètres primitifs (paramètres de taille S, paramètres de forme $\varepsilon_1$ et $\varepsilon_2$ , vecteur de translation T, vecteur de rotation R).
Génération Sans Exemple : Combinaison de modèles de diffusion implicites et de décomposition primitive pour réaliser la génération 3D sans exemple entre modalités.

Configuration Expérimentale

Ensembles de Données

Ensemble de Données de Scènes Virtuelles :
- Principalement basé sur l'ensemble de données ShapeNet, contenant plus de 3000 catégories d'objets et 220 000 modèles
- Contenant des images de test et du texte provenant de modèles tels que ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR
Ensemble de Données de Scènes Réelles :
- Principalement basé sur l'ensemble de données CO3D, fournissant des données 3D riches du monde réel
- Contenant des images partielles d'AKB-48 et d'OmniObject 3D

Métriques d'Évaluation

Distance de Chamfer (CD) : Mesure la similarité entre deux nuages de points
Intersection sur Union Volumétrique (VIoU) : Évalue le degré de chevauchement des modèles 3D
F1-Score : Considère globalement la précision et le rappel de la reconstruction de surface
Cohérence Normale (NC) : Évalue la cohérence des vecteurs normaux de surface

Méthodes de Comparaison

EMS
SuperDec
Marching-Primitives (MP)

Détails d'Implémentation

Environnement matériel : CPU AMD Ryzen 7 9700X, NVIDIA GeForce RTX 5060Ti
Environnement logiciel : Windows 11, Python 3.10
Paramètres TSDF : Taille de l'espace de voxels -13,13, 100 échantillons uniformes par dimension, total de 10⁶ voxels
Résolution du maillage : 100

Résultats Expérimentaux

Résultats Principaux

Résultats sur l'Ensemble de Données de Scènes Virtuelles

Méthode	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	13,1	0,218	0,8572	0,6607
SuperDec	6,38	0,246	0,8629	0,7101
MP	4,95	0,390	0,8193	0,7284
Méthode Proposée	3,09	0,545	0,9139	0,8369

Comparée à la méthode MP, la méthode proposée réduit le CD de 37,6 %, augmente le VIoU de 39,7 %, augmente le F1-Score de 11,5 %, et augmente le NC de 14,9 %.

Résultats sur l'Ensemble de Données de Scènes Réelles

Méthode	CD(×10⁻³)↓	VIoU↑	F1-Score↑	NC↑
EMS	15,1	0,141	0,8917	0,7539
SuperDec	4,40	0,301	0,8383	0,6759
MP	4,32	0,492	0,7771	0,5882
Méthode Proposée	2,52	0,673	0,9183	0,7752

Résultats Détaillés sur l'Ensemble de Données ShapeNet

Sur six catégories (banc, table, avion, armoire, bouteille, fusil), la méthode proposée atteint une CD moyenne de 0,503×10⁻³, un VIoU de 0,742, un F1-Score de 0,8896, un NC de 0,4511, avec les meilleures performances sur tous les indicateurs.

Expérience de Comparaison de Capacité de Stockage

Type d'Entrée	Capacité de Stockage du Maillage	Capacité de Stockage des Primitives
Texte	4,56 MB	5 KB
Image	5,76 MB	6 KB
Tous	5,36 MB	6 KB

La capacité de stockage est réduite de trois ordres de grandeur, passant du niveau MB au niveau KB.

Expérience d'Ablation

L'expérience d'ablation menée sur l'ensemble de données de scènes réelles montre que la méthode proposée obtient les meilleures performances sur les indicateurs VIoU, F1-Score et NC, validant l'efficacité des quatre équations polaires.

Travaux Connexes

Modèles de Diffusion Implicites

Les techniques de génération de modèles 3D précoces étaient principalement basées sur l'apprentissage supervisé, nécessitant de grandes quantités de données supervisées. La proposition de modèles de diffusion implicites a fourni une nouvelle perspective pour la reconstruction 3D à partir d'une seule image, en guidant l'optimisation de la représentation 3D par la technologie Score Distillation Sampling et les modèles de diffusion 2D pré-entraînés.

Modèles 3D Synthétisés par Primitives

Les recherches existantes réalisent principalement la caractérisation de forme en décomposant les modèles 3D en plusieurs primitives simples, incluant les superellipsoïdes, les gaussiennes anisotropes, les enveloppes convexes, etc. Les méthodes connexes telles que Marching-Primitives ont étendu la plage de modèles générables par ajustement itératif du champ de distance signée tronquée.

Conclusion et Discussion

Conclusions Principales

Le cadre de génération de primitives paramétrées multi-étapes entre modalités proposé dans cet article peut :

Générer des modèles 3D fondamentaux diversifiés répondant à diverses entrées conditionnelles
Surpasser les algorithmes de pointe existants sur les indicateurs CD, VIoU, F1-Score et NC
Générer des modèles synthétisés par primitives paramétrées plus conformes aux exigences esthétiques
Réaliser des économies d'espace de stockage significatives

Limitations

Problème d'Ajustement de Cylindre Toroïdal : En raison de l'absence de surface perforante dans les superquadriques, la méthode ne peut pas efficacement correspondre ou ajuster les cylindres toroïdaux
Avantages de la Représentation Paramétrée : Incapacité à démontrer pleinement les avantages par rapport à d'autres solutions alternatives telles que les NURBS
Qualité des Modèles Complexes : Limitée par la qualité de la génération multi-vues, la qualité des modèles sous angles non visibles est limitée pour les modèles complexes

Directions Futures

Utilisation d'autoencodeurs variationnels pour encoder les nuages de points de primitives complexes, pour l'appariement de primitives de cylindres toroïdaux
Utilisation d'autres types de modèles d'ajustement de surface pour les composants du modèle, démontrant les avantages de la représentation paramétrée
Exploitation simultanée des informations de différentes modalités pour mieux décrire les caractéristiques du modèle cible, ou affinage de l'entraînement sur des tâches en aval

Évaluation Approfondie

Points Forts

Forte Innovativité Méthodologique : Première proposition d'une méthode de correspondance systématique entre superquadriques et primitives paramétrées
Expérimentation Complète : Validation complète sur les ensembles de données de scènes virtuelles et réelles
Valeur Pratique Élevée : Réduction significative des besoins de stockage, adaptée à la conception rapide de prototypes
Ligne Technique Claire : Conception du cadre en trois étapes rationnelle, fonctions des modules claires

Insuffisances

Portée d'Application Limitée : Principalement applicable aux modèles simples, capacité limitée à traiter les structures topologiques complexes
Dépendance aux Modèles Pré-Entraînés : Dépendance de la qualité des modèles pré-entraînés tels que ImageDream
Analyse Théorique Insuffisante : Manque d'analyse théorique de la capacité de représentation des primitives paramétrées
Limitations des Métriques d'Évaluation : Accent principal sur la similarité géométrique, manque d'évaluation subjective de la qualité visuelle

Impact

Contribution Académique : Fournit une nouvelle perspective de représentation paramétrée pour le domaine de la génération 3D
Valeur Pratique : Améliorations significatives en efficacité de stockage et qualité de surface
Reproductibilité : Description détaillée de la méthode, configuration expérimentale claire

Scénarios d'Application

Conception rapide de prototypes en conception industrielle
Génération d'actifs 3D simples en développement de jeux
Création de contenu 3D léger pour scènes de réalité virtuelle
Stockage et transmission de modèles 3D sur appareils mobiles

Références

L'article cite 38 références connexes, couvrant les travaux importants dans les domaines clés de la génération 3D, des modèles de diffusion implicites, et de la décomposition primitive, fournissant une base théorique solide pour cette recherche.