Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
- ID статьи: 2510.08656
- Название: A 3D Generation Framework from Cross Modality to Parameterized Primitive
- Авторы: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (Чжэцзянский университет)
- Категория: cs.GR (компьютерная графика), cs.AI (искусственный интеллект), cs.CV (компьютерное зрение)
- Дата публикации: 9 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.08656
В данной работе предлагается многоэтапный фреймворк трёхмерной генерации на основе параметризованных примитивов для решения проблем качества поверхности и затрат на хранение при генерации трёхмерных моделей, управляемой искусственным интеллектом. Фреймворк способен генерировать трёхмерные модели, состоящие из параметризованных примитивов, на основе текстовых и изображений входных данных, путём замены исходных элементов параметризованными примитивами с высококачественной поверхностью посредством определения характеристик формы элементов модели. Экспериментальные результаты демонстрируют превосходную производительность на наборах данных виртуальных и реальных сцен: расстояние Chamfer составляет 3,092×10⁻³, VIoU равен 0,545, F1-Score равен 0,9139, NC равен 0,8369, размер файла параметров примитива составляет примерно 6 КБ.
Традиционные технологии генерации трёхмерных моделей сталкиваются с двумя основными вызовами:
- Высокие требования к хранению: Существующие методы обычно извлекают явное сеточное представление из неявного трёхмерного представления с помощью алгоритма Marching Cubes, что приводит к огромным требованиям к хранению. Например, сетка вокселей размером 256³ требует хранения более 16 миллионов информационных элементов вокселей, занимая 0,54 ГБ памяти.
- Качество поверхности модели: Ограничения разрешения и топологической структуры приводят к потере деталей при низком разрешении вокселей (например, 32³), методы на основе сеток зависят от деформации исходного шаблона и не могут гибко обрабатывать сложные топологии.
С быстрым развитием технологий генерации искусственного интеллекта и компьютерной графики технология представления трёхмерных моделей находит широкое применение в виртуальной реальности, медицинской обработке изображений, промышленном дизайне и производстве, разработке игр и других областях. Традиционные методы обычно требуют большого объёма априорных знаний и предположений, что ограничивает их применимость в реальных сценариях. Поэтому существует острая необходимость в методе генерации, который может повысить качество поверхности модели при одновременном снижении требований к хранению.
- Предложены алгоритмы подгонки и сопоставления примитивов: Способны заменять суперквадратичные элементы, составляющие модель, параметризованными геометрическими телами с более высоким качеством поверхности, тем самым повышая общее качество трёхмерной модели.
- Предложен метод хранения трёхмерной модели: Путём сохранения только параметров элементов примитивов достигается сокращение требований к хранению модели на три порядка величины.
- Разработан трёхэтапный метод генерации трёхмерной модели на основе мультимодальной информации: Принимает текстовые и изображения входные данные и генерирует трёхмерные модели, состоящие из параметризованных примитивов, в условиях нулевого обучения.
Входные данные: Текстовое описание или одиночное изображение
Выходные данные: Трёхмерная модель, состоящая из параметризованных примитивов
Ограничения: Генерация без обучения, повышение качества поверхности, снижение затрат на хранение
Фреймворк состоит из трёх основных этапов:
- Синтез многовидового изображения глубины:
- Использование предварительно обученной модели ImageDream для генерации многовидовых изображений целевой модели
- Оптимизация нейрального поля излучения под руководством функции потерь Score Distillation Sampling (SDS)
- Использование метода выборки NeRFStudio для выборки 48 изображений глубины с различных точек зрения из оптимизированного неявного нейрального поля излучения
- Итеративная подгонка суперквадратичных поверхностей:
- Построение усечённого поля знаковых расстояний (TSDF)
- Определение убывающей последовательности порогов знакового расстояния: Tc={t1c,t2c,...,tmc,tm+1c}
- Установка начального порога: t1c=minxi∈Vt(xi), формула затухания: tm+1c=αtmc
- Параметры суперквадратичной поверхности: θ=(ε1,ε2,T,R,S)
- Неявное уравнение: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1
На основе параметров формы суперквадратичной поверхности ε1 и ε2 они разделяются на три числовых интервала:
- (0,0,5): цилиндрические характеристики
- [0,5,2]: эллипсоидальные характеристики
- (2,+∞): звездообразные характеристики
Путём комбинирования характеристик формы в направлении z и плоскости xy формируются 9 различных типов суперквадратичных поверхностей.
Использование полярного уравнения для представления параметризованных примитивов:
- Направление z: полярные уравнения цилиндрической системы координат, сферической системы координат, звездообразной линии
- Плоскость xy: полярные уравнения прямоугольного основания, эллиптического основания, звездообразного основания
Комбинирование вектора поворота R и вектора трансляции T суперквадратичной поверхности, выполнение преобразований трансляции и поворота для оптимизации подгонки и сопоставления целевой трёхмерной модели.
- Анализ характеристик формы: Путём систематического анализа влияния параметров суперквадратичной поверхности на форму устанавливается отношение отображения от суперквадратичной поверхности к параметризованному примитиву.
- Параметризованное представление: Сохранение только параметров примитивов (параметры размера S, параметры формы ε1 и ε2, вектор трансляции T, вектор поворота R) для хранения модели.
- Генерация без обучения: Комбинирование неявной модели диффузии и разложения примитивов для реализации кроссмодальной генерации трёхмерных моделей без обучения.
- Набор данных виртуальных сцен:
- Основан главным образом на наборе данных ShapeNet, содержащем более 3000 категорий объектов и 220000 моделей
- Включает тестовые изображения и текст из моделей ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR и других
- Набор данных реальных сцен:
- Основан главным образом на наборе данных CO3D, предоставляющем богатые трёхмерные данные реального мира
- Включает часть изображений из AKB-48 и OmniObject 3D
- Chamfer Distance (CD): Измеряет сходство между двумя облаками точек
- Volumetric Intersection over Union (VIoU): Оценивает степень перекрытия трёхмерной модели
- F1-Score: Комплексно учитывает точность и полноту восстановления поверхности
- Normal Consistency (NC): Оценивает согласованность векторов нормалей поверхности
- EMS
- SuperDec
- Marching-Primitives (MP)
- Аппаратное обеспечение: процессор AMD Ryzen 7 9700X, видеокарта NVIDIA GeForce RTX 5060Ti
- Программное обеспечение: Windows 11, Python 3.10
- Параметры TSDF: размер пространства вокселей -13,13, равномерная выборка 100 на каждое измерение, всего 10⁶ вокселей
- Разрешение сетки: 100
| Метод | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 13,1 | 0,218 | 0,8572 | 0,6607 |
| SuperDec | 6,38 | 0,246 | 0,8629 | 0,7101 |
| MP | 4,95 | 0,390 | 0,8193 | 0,7284 |
| Предложенный метод | 3,09 | 0,545 | 0,9139 | 0,8369 |
По сравнению с методом MP предложенный метод снижает CD на 37,6%, повышает VIoU на 39,7%, повышает F1-Score на 11,5%, повышает NC на 14,9%.
| Метод | CD(×10⁻³)↓ | VIoU↑ | F1-Score↑ | NC↑ |
|---|
| EMS | 15,1 | 0,141 | 0,8917 | 0,7539 |
| SuperDec | 4,40 | 0,301 | 0,8383 | 0,6759 |
| MP | 4,32 | 0,492 | 0,7771 | 0,5882 |
| Предложенный метод | 2,52 | 0,673 | 0,9183 | 0,7752 |
На шести категориях (скамья, стол, самолёт, шкаф, бутылка, винтовка) предложенный метод достигает среднего CD 0,503×10⁻³, VIoU 0,742, F1-Score 0,8896, NC 0,4511, показывая лучшую производительность по всем метрикам.
| Тип входных данных | Ёмкость хранения сетки | Ёмкость хранения примитивов |
|---|
| Текст | 4,56 МБ | 5 КБ |
| Изображение | 5,76 МБ | 6 КБ |
| Все | 5,36 МБ | 6 КБ |
Ёмкость хранения сокращена на три порядка величины, с уровня МБ до уровня КБ.
Абляционный эксперимент, проведённый на наборе данных реальных сцен, показывает, что предложенный метод демонстрирует лучшую производительность по метрикам VIoU, F1-Score и NC, подтверждая эффективность четырёх полярных уравнений.
Ранние технологии генерации трёхмерных моделей были основаны главным образом на контролируемом обучении, требующем большого объёма контролируемых данных. Предложение неявных моделей диффузии открыло новые возможности для восстановления трёхмерной модели по одиночному изображению, направляя оптимизацию трёхмерного представления посредством технологии Score Distillation Sampling и предварительно обученных двумерных моделей диффузии.
Существующие исследования главным образом реализуют представление формы путём разложения трёхмерной модели на несколько простых примитивов, включая суперэллипсоиды, анизотропные гауссианы, выпуклые оболочки и другие. Соответствующие методы, такие как Marching-Primitives, расширили диапазон генерируемых моделей посредством итеративной подгонки усечённого поля знаковых расстояний.
Предложенный в данной работе многоэтапный фреймворк кроссмодальной генерации параметризованных примитивов способен:
- Генерировать разнообразные трёхмерные базовые модели в ответ на различные условные входные данные
- Превосходить существующие передовые алгоритмы по метрикам CD, VIoU, F1-Score и NC
- Генерировать параметризованные синтезированные модели примитивов, более соответствующие эстетическим требованиям
- Достигать значительной экономии пространства хранения
- Проблема подгонки кольцевого цилиндра: Поскольку суперквадратичная поверхность не имеет пронизывающей поверхности, метод не может эффективно сопоставлять или подгонять кольцевые цилиндры
- Преимущества параметризованного представления: Не удалось полностью продемонстрировать преимущества по сравнению с альтернативными решениями, такими как NURBS
- Качество сложных моделей: Качество модели в невидимых ракурсах сложных моделей ограничено качеством многовидовой генерации
- Использование вариационного автокодировщика для кодирования облаков точек сложных примитивов для сопоставления примитивов кольцевых цилиндров
- Использование других типов моделей подгонки поверхности для компонентов модели, демонстрирующих преимущества параметризованного представления
- Одновременное использование информации различных модальностей для лучшего описания характеристик целевой модели или проведение тонкой настройки обучения на нижестоящих задачах
- Сильная инновационность метода: Впервые предложен систематический метод отображения от суперквадратичной поверхности к параметризованному примитиву
- Полные эксперименты: Проведена комплексная проверка на наборах данных виртуальных и реальных сцен
- Высокая практическая ценность: Значительно снижает требования к хранению, подходит для быстрого прототипирования
- Чёткая техническая схема: Разумный дизайн трёхэтапного фреймворка, чёткие функции каждого модуля
- Ограниченная область применения: Главным образом применим к простым моделям, ограниченная способность обработки сложных топологических структур
- Зависимость от предварительно обученных моделей: Зависит от качества предварительно обученных моделей, таких как ImageDream
- Недостаточный теоретический анализ: Отсутствует теоретический анализ способности представления параметризованных примитивов
- Ограничения метрик оценки: Главным образом сосредоточены на геометрическом сходстве, отсутствует субъективная оценка визуального качества
- Академический вклад: Предоставляет новую идею параметризованного представления для области генерации трёхмерных моделей
- Практическая ценность: Значительное улучшение в эффективности хранения и качестве поверхности
- Воспроизводимость: Подробное описание метода, чёткая установка экспериментов
- Быстрое прототипирование в промышленном дизайне
- Генерация простых трёхмерных ресурсов в разработке игр
- Создание облегчённого трёхмерного контента для сцен виртуальной реальности
- Хранение и передача трёхмерных моделей на мобильных устройствах
Статья цитирует 38 соответствующих источников, охватывающих важные работы в ключевых областях трёхмерной генерации, неявных моделей диффузии, разложения примитивов и других, обеспечивая прочную теоретическую основу для данного исследования.