Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- ID de l'article : 2510.08656
- Titre : A 3D Generation Framework from Cross Modality to Parameterized Primitive
- Auteurs : Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Université Zhejiang)
- Classification : cs.GR (Infographie), cs.AI (Intelligence Artificielle), cs.CV (Vision par Ordinateur)
- Date de Publication : 9 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.08656
Cet article propose un cadre de génération 3D multi-étapes basé sur des primitives paramétrées pour relever les défis de la qualité de surface et des frais de stockage dans la génération de modèles 3D pilotée par l'IA. Le cadre peut générer des modèles 3D composés de primitives paramétrées à partir d'entrées textuelles et d'images, en remplaçant les éléments originaux par des primitives paramétrées de haute qualité en identifiant les caractéristiques de forme des éléments constitutifs du modèle. Les résultats expérimentaux démontrent des performances exceptionnelles sur les ensembles de données de scènes virtuelles et réelles, avec une distance de Chamfer de 3,092×10⁻³, un VIoU de 0,545, un F1-Score de 0,9139, un NC de 0,8369, et une taille de fichier de paramètres primitifs d'environ 6 KB.
Les techniques traditionnelles de génération de modèles 3D font face à deux défis fondamentaux :
- Exigences de Stockage Élevées : Les méthodes existantes extraient généralement des représentations de maillage explicites à partir de représentations 3D implicites en utilisant l'algorithme Marching Cubes, ce qui entraîne des besoins de stockage considérables. Par exemple, une grille de voxels 256³ nécessite de stocker plus de 16 millions d'informations de voxels, avec une occupation mémoire atteignant 0,54 GB.
- Qualité de Surface du Modèle : Limitée par la résolution et les contraintes de structure topologique, les voxels de basse résolution (tels que 32³) entraînent une perte de détails, et les méthodes basées sur le maillage dépendent de la déformation de modèles initiaux, incapables de gérer flexiblement les topologies complexes.
Avec le développement rapide de la technologie de génération par IA et de l'infographie, la technologie de représentation des modèles 3D a des applications largement répandues dans la réalité virtuelle, le traitement d'images médicales, la conception et la fabrication industrielles, le développement de jeux, etc. Les méthodes traditionnelles nécessitent généralement de nombreuses connaissances préalables et hypothèses, limitant leur applicabilité dans les scènes réelles. Par conséquent, il est urgent de développer une méthode de génération capable d'améliorer la qualité de surface du modèle tout en réduisant les besoins de stockage.
- Proposition d'algorithmes d'ajustement et d'appariement de primitives : Capable de remplacer les éléments de superquadriques constituant le modèle par des géométries paramétrées de qualité de surface supérieure, améliorant ainsi la qualité globale du modèle 3D.
- Proposition d'une méthode de stockage de modèles 3D : En conservant uniquement les paramètres des éléments primitifs, la méthode réduit les besoins de stockage du modèle de trois ordres de grandeur.
- Construction d'une méthode de génération de modèles 3D en trois étapes basée sur les informations multimodales : Prenant en entrée des informations textuelles et d'images, générant des modèles 3D composés de primitives paramétrées dans des conditions sans exemple.
Entrée : Description textuelle ou image unique
Sortie : Modèle 3D composé de primitives paramétrées
Contraintes : Génération sans exemple, amélioration de la qualité de surface, réduction des frais de stockage
Le cadre se compose de trois étapes principales :
- Synthèse d'Images de Profondeur Multi-Vues :
- Utilisation du modèle ImageDream pré-entraîné pour générer des images multi-vues du modèle cible
- Optimisation du champ de rayonnement neuronal guidée par la fonction de perte Score Distillation Sampling (SDS)
- Utilisation de la méthode d'échantillonnage NeRFStudio pour échantillonner 48 images de profondeur sous différents angles à partir du champ de rayonnement neuronal implicite optimisé
- Ajustement Itératif de Superquadriques :
- Construction d'un champ de distance signée tronquée (TSDF)
- Définition d'une séquence de seuils de distance signée décroissants : Tc={t1c,t2c,...,tmc,tm+1c}
- Seuil initial : t1c=minxi∈Vt(xi), formule d'atténuation : tm+1c=αtmc
- Paramètres de superquadriques : θ=(ε1,ε2,T,R,S)
- Équation implicite : f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
Selon les paramètres de forme de la superquadrique ε1 et ε2, classification en trois intervalles numériques :
- (0,0,5) : Caractéristiques cylindriques
- [0,5,2] : Caractéristiques ellipsoïdales
- (2,+∞) : Caractéristiques en étoile
En combinant les caractéristiques de forme dans la direction z et le plan xy, formation de 9 types différents de superquadriques.
Utilisation de l'équation polaire pour représenter les primitives paramétrées :
- Direction z : équations polaires du système de coordonnées cylindriques, du système de coordonnées sphériques, de la courbe étoilée
- Plan xy : équations polaires de base rectangulaire, base elliptique, base en étoile
En combinant le vecteur de rotation R et le vecteur de translation T de la superquadrique, exécution de transformations de translation et rotation pour optimiser l'ajustement et l'appariement du modèle 3D cible.
- Analyse des Caractéristiques de Forme : Par analyse systématique de l'influence des paramètres de superquadriques sur la forme, établissement d'une relation de correspondance entre les superquadriques et les primitives paramétrées.
- Représentation Paramétrée : Réalisation du stockage du modèle en conservant uniquement les paramètres primitifs (paramètres de taille S, paramètres de forme ε1 et ε2, vecteur de translation T, vecteur de rotation R).
- Génération Sans Exemple : Combinaison de modèles de diffusion implicites et de décomposition primitive pour réaliser la génération 3D sans exemple entre modalités.
- Ensemble de Données de Scènes Virtuelles :
- Principalement basé sur l'ensemble de données ShapeNet, contenant plus de 3000 catégories d'objets et 220 000 modèles
- Contenant des images de test et du texte provenant de modèles tels que ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR
- Ensemble de Données de Scènes Réelles :
- Principalement basé sur l'ensemble de données CO3D, fournissant des données 3D riches du monde réel
- Contenant des images partielles d'AKB-48 et d'OmniObject 3D
- Distance de Chamfer (CD) : Mesure la similarité entre deux nuages de points
- Intersection sur Union Volumétrique (VIoU) : Évalue le degré de chevauchement des modèles 3D
- F1-Score : Considère globalement la précision et le rappel de la reconstruction de surface
- Cohérence Normale (NC) : Évalue la cohérence des vecteurs normaux de surface
- EMS
- SuperDec
- Marching-Primitives (MP)
- Environnement matériel : CPU AMD Ryzen 7 9700X, NVIDIA GeForce RTX 5060Ti
- Environnement logiciel : Windows 11, Python 3.10
- Paramètres TSDF : Taille de l'espace de voxels -13,13, 100 échantillons uniformes par dimension, total de 10⁶ voxels
- Résolution du maillage : 100
| Méthode | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13,1 | 0,218 | 0,8572 | 0,6607 |
| SuperDec | 6,38 | 0,246 | 0,8629 | 0,7101 |
| MP | 4,95 | 0,390 | 0,8193 | 0,7284 |
| Méthode Proposée | 3,09 | 0,545 | 0,9139 | 0,8369 |
Comparée à la méthode MP, la méthode proposée réduit le CD de 37,6 %, augmente le VIoU de 39,7 %, augmente le F1-Score de 11,5 %, et augmente le NC de 14,9 %.
| Méthode | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15,1 | 0,141 | 0,8917 | 0,7539 |
| SuperDec | 4,40 | 0,301 | 0,8383 | 0,6759 |
| MP | 4,32 | 0,492 | 0,7771 | 0,5882 |
| Méthode Proposée | 2,52 | 0,673 | 0,9183 | 0,7752 |
Sur six catégories (banc, table, avion, armoire, bouteille, fusil), la méthode proposée atteint une CD moyenne de 0,503×10⁻³, un VIoU de 0,742, un F1-Score de 0,8896, un NC de 0,4511, avec les meilleures performances sur tous les indicateurs.
| Type d'Entrée | Capacité de Stockage du Maillage | Capacité de Stockage des Primitives |
|---|
| Texte | 4,56 MB | 5 KB |
| Image | 5,76 MB | 6 KB |
| Tous | 5,36 MB | 6 KB |
La capacité de stockage est réduite de trois ordres de grandeur, passant du niveau MB au niveau KB.
L'expérience d'ablation menée sur l'ensemble de données de scènes réelles montre que la méthode proposée obtient les meilleures performances sur les indicateurs VIoU, F1-Score et NC, validant l'efficacité des quatre équations polaires.
Les techniques de génération de modèles 3D précoces étaient principalement basées sur l'apprentissage supervisé, nécessitant de grandes quantités de données supervisées. La proposition de modèles de diffusion implicites a fourni une nouvelle perspective pour la reconstruction 3D à partir d'une seule image, en guidant l'optimisation de la représentation 3D par la technologie Score Distillation Sampling et les modèles de diffusion 2D pré-entraînés.
Les recherches existantes réalisent principalement la caractérisation de forme en décomposant les modèles 3D en plusieurs primitives simples, incluant les superellipsoïdes, les gaussiennes anisotropes, les enveloppes convexes, etc. Les méthodes connexes telles que Marching-Primitives ont étendu la plage de modèles générables par ajustement itératif du champ de distance signée tronquée.
Le cadre de génération de primitives paramétrées multi-étapes entre modalités proposé dans cet article peut :
- Générer des modèles 3D fondamentaux diversifiés répondant à diverses entrées conditionnelles
- Surpasser les algorithmes de pointe existants sur les indicateurs CD, VIoU, F1-Score et NC
- Générer des modèles synthétisés par primitives paramétrées plus conformes aux exigences esthétiques
- Réaliser des économies d'espace de stockage significatives
- Problème d'Ajustement de Cylindre Toroïdal : En raison de l'absence de surface perforante dans les superquadriques, la méthode ne peut pas efficacement correspondre ou ajuster les cylindres toroïdaux
- Avantages de la Représentation Paramétrée : Incapacité à démontrer pleinement les avantages par rapport à d'autres solutions alternatives telles que les NURBS
- Qualité des Modèles Complexes : Limitée par la qualité de la génération multi-vues, la qualité des modèles sous angles non visibles est limitée pour les modèles complexes
- Utilisation d'autoencodeurs variationnels pour encoder les nuages de points de primitives complexes, pour l'appariement de primitives de cylindres toroïdaux
- Utilisation d'autres types de modèles d'ajustement de surface pour les composants du modèle, démontrant les avantages de la représentation paramétrée
- Exploitation simultanée des informations de différentes modalités pour mieux décrire les caractéristiques du modèle cible, ou affinage de l'entraînement sur des tâches en aval
- Forte Innovativité Méthodologique : Première proposition d'une méthode de correspondance systématique entre superquadriques et primitives paramétrées
- Expérimentation Complète : Validation complète sur les ensembles de données de scènes virtuelles et réelles
- Valeur Pratique Élevée : Réduction significative des besoins de stockage, adaptée à la conception rapide de prototypes
- Ligne Technique Claire : Conception du cadre en trois étapes rationnelle, fonctions des modules claires
- Portée d'Application Limitée : Principalement applicable aux modèles simples, capacité limitée à traiter les structures topologiques complexes
- Dépendance aux Modèles Pré-Entraînés : Dépendance de la qualité des modèles pré-entraînés tels que ImageDream
- Analyse Théorique Insuffisante : Manque d'analyse théorique de la capacité de représentation des primitives paramétrées
- Limitations des Métriques d'Évaluation : Accent principal sur la similarité géométrique, manque d'évaluation subjective de la qualité visuelle
- Contribution Académique : Fournit une nouvelle perspective de représentation paramétrée pour le domaine de la génération 3D
- Valeur Pratique : Améliorations significatives en efficacité de stockage et qualité de surface
- Reproductibilité : Description détaillée de la méthode, configuration expérimentale claire
- Conception rapide de prototypes en conception industrielle
- Génération d'actifs 3D simples en développement de jeux
- Création de contenu 3D léger pour scènes de réalité virtuelle
- Stockage et transmission de modèles 3D sur appareils mobiles
L'article cite 38 références connexes, couvrant les travaux importants dans les domaines clés de la génération 3D, des modèles de diffusion implicites, et de la décomposition primitive, fournissant une base théorique solide pour cette recherche.