2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.

Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.

academic

교차 모달리티에서 매개변수화된 기본 요소로의 3D 생성 프레임워크

기본 정보

논문 ID: 2510.08656
제목: A 3D Generation Framework from Cross Modality to Parameterized Primitive
저자: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (저장성대학교)
분류: cs.GR (컴퓨터 그래픽스), cs.AI (인공지능), cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 9일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.08656

초록

본 논문은 AI 기반 3D 모델 생성에서 표면 품질 및 저장 오버헤드의 과제를 해결하기 위해 매개변수화된 기본 요소 기반의 다단계 3D 생성 프레임워크를 제안합니다. 본 프레임워크는 텍스트 및 이미지 입력에 따라 매개변수화된 기본 요소로 구성된 3D 모델을 생성할 수 있으며, 모델 구성 요소의 형태 특성을 식별하여 원래 요소를 고품질 표면의 매개변수화된 기본 요소로 대체합니다. 실험 결과는 본 방법이 가상 장면 및 실제 장면 데이터셋에서 우수한 성능을 달성했음을 보여주며, Chamfer 거리는 3.092×10⁻³, VIoU는 0.545, F1-Score는 0.9139, NC는 0.8369이며, 기본 요소 매개변수 파일 크기는 약 6KB입니다.

연구 배경 및 동기

문제 정의

기존 3D 모델 생성 기술은 두 가지 핵심 과제에 직면해 있습니다:

높은 저장 요구사항: 기존 방법은 일반적으로 Marching Cubes 알고리즘을 통해 암시적 3D 표현에서 명시적 메시 표현을 추출하므로 저장 요구사항이 매우 큽니다. 예를 들어, 256³ 복셀 그리드는 1,600만 개 이상의 복셀 정보를 저장해야 하며, 메모리 점유율은 0.54GB에 달합니다.
모델 표면 품질: 해상도 및 위상 구조 제약으로 인해 저해상도 복셀(예: 32³)은 세부 정보 손실을 초래하며, 메시 기반 방법은 초기 템플릿 변형에 의존하므로 복잡한 위상을 유연하게 처리할 수 없습니다.

연구 동기

AI 생성 기술과 컴퓨터 그래픽스의 빠른 발전에 따라 3D 모델 표현 기술은 가상 현실, 의료 영상 처리, 산업 설계 제조, 게임 개발 등 다양한 분야에서 광범위하게 적용되고 있습니다. 기존 방법은 일반적으로 많은 사전 지식과 가정이 필요하므로 실제 장면에서의 적용성이 제한됩니다. 따라서 모델 표면 품질을 향상시키면서 동시에 저장 요구사항을 줄일 수 있는 생성 방법이 시급합니다.

핵심 기여

기본 요소 피팅 및 매칭 알고리즘 제안: 모델을 구성하는 초이차 곡면 요소를 더 높은 표면 품질을 가진 매개변수화된 기하학적 형태로 대체하여 3D 모델의 전체 품질을 향상시킬 수 있습니다.
3D 모델 저장 방법 제안: 기본 요소의 매개변수만 보존하여 모델의 저장 요구사항을 줄이고, 저장 공간을 3자리 수 감소시킵니다.
다중 모달 정보 기반의 3단계 3D 모델 생성 방법 구축: 텍스트 및 이미지 정보를 입력으로 하여 제로샷 조건에서 매개변수화된 기본 요소로 구성된 3D 모델을 생성합니다.

방법 상세 설명

작업 정의

입력: 텍스트 설명 또는 단일 이미지 출력: 매개변수화된 기본 요소로 구성된 3D 모델 제약: 제로샷 생성, 표면 품질 향상, 저장 오버헤드 감소

모델 아키텍처

본 프레임워크는 3개의 주요 단계로 구성됩니다:

1단계: 다중 시점 깊이 이미지 합성 및 초이차 곡면 반복 피팅

다중 시점 깊이 이미지 합성:
- 사전 학습된 ImageDream 모델을 사용하여 대상 모델의 다중 시점 이미지 생성
- Score Distillation Sampling (SDS) 손실 함수를 통해 신경 방사 필드 최적화 지도
- NeRFStudio 샘플링 방법을 사용하여 최적화된 암시적 신경 방사 필드에서 48개의 서로 다른 시점의 깊이 이미지 샘플링
초이차 곡면 반복 피팅:
- 절단된 부호 있는 거리 필드(TSDF) 구축
- 감소하는 부호 있는 거리 임계값 수열 정의: $T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}$
- 초기 임계값 설정: $t_1^c = \min_{x_i \in V} t(x_i)$ , 감소 공식: $t_{m+1}^c = \alpha t_m^c$
- 초이차 곡면 매개변수: $\theta = (\varepsilon_1, \varepsilon_2, T, R, S)$
- 암시적 방정식: $f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1$

2단계: 유사 매개변수화 기본 요소 검색

초이차 곡면의 형태 매개변수 $\varepsilon_1$ 과 $\varepsilon_2$ 에 따라 3개의 수치 구간으로 분류:

$(0, 0.5)$ : 원통형 특성
$[0.5, 2]$ : 타원체 특성
$(2, +\infty)$ : 별 모양 특성

z 방향과 xy 평면의 형태 특성을 조합하여 9가지 서로 다른 형태의 초이차 곡면 유형을 형성합니다.

3단계: 기본 요소 피팅 및 매칭 알고리즘

극좌표 방정식을 사용하여 매개변수화된 기본 요소 표현:

z 방향: 원통 좌표계, 구면 좌표계, 별선의 극좌표 방정식
xy 평면: 직사각형 밑면, 타원형 밑면, 별 모양 밑면의 극좌표 방정식

초이차 곡면의 회전 벡터 R과 평행이동 벡터 T를 결합하여 평행이동 회전 변환을 수행하고, 대상 3D 모델에 대한 최적화 피팅 및 매칭을 실행합니다.

기술 혁신점

형태 특성 분석: 초이차 곡면 매개변수가 형태에 미치는 영향을 체계적으로 분석하여 초이차 곡면에서 매개변수화된 기본 요소로의 매핑 관계를 수립합니다.
매개변수화 표현: 기본 요소 매개변수(크기 매개변수 S, 형태 매개변수 $\varepsilon_1$ 과 $\varepsilon_2$ , 평행이동 벡터 T, 회전 벡터 R)만 저장하여 모델 저장을 구현합니다.
제로샷 생성: 암시적 확산 모델과 기본 요소 분해를 결합하여 교차 모달리티의 제로샷 3D 생성을 구현합니다.

실험 설정

데이터셋

가상 장면 데이터셋:
- 주로 ShapeNet 데이터셋 기반으로 3,000개 이상의 객체 범주와 220,000개의 모델 포함
- ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR 등 모델의 테스트 이미지 및 텍스트 포함
실제 장면 데이터셋:
- 주로 CO3D 데이터셋 기반으로 풍부한 실제 3D 데이터 제공
- AKB-48 및 OmniObject 3D의 일부 이미지 포함