2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.
Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
academic

교차 모달리티에서 매개변수화된 기본 요소로의 3D 생성 프레임워크

기본 정보

  • 논문 ID: 2510.08656
  • 제목: A 3D Generation Framework from Cross Modality to Parameterized Primitive
  • 저자: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (저장성대학교)
  • 분류: cs.GR (컴퓨터 그래픽스), cs.AI (인공지능), cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 9일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.08656

초록

본 논문은 AI 기반 3D 모델 생성에서 표면 품질 및 저장 오버헤드의 과제를 해결하기 위해 매개변수화된 기본 요소 기반의 다단계 3D 생성 프레임워크를 제안합니다. 본 프레임워크는 텍스트 및 이미지 입력에 따라 매개변수화된 기본 요소로 구성된 3D 모델을 생성할 수 있으며, 모델 구성 요소의 형태 특성을 식별하여 원래 요소를 고품질 표면의 매개변수화된 기본 요소로 대체합니다. 실험 결과는 본 방법이 가상 장면 및 실제 장면 데이터셋에서 우수한 성능을 달성했음을 보여주며, Chamfer 거리는 3.092×10⁻³, VIoU는 0.545, F1-Score는 0.9139, NC는 0.8369이며, 기본 요소 매개변수 파일 크기는 약 6KB입니다.

연구 배경 및 동기

문제 정의

기존 3D 모델 생성 기술은 두 가지 핵심 과제에 직면해 있습니다:

  1. 높은 저장 요구사항: 기존 방법은 일반적으로 Marching Cubes 알고리즘을 통해 암시적 3D 표현에서 명시적 메시 표현을 추출하므로 저장 요구사항이 매우 큽니다. 예를 들어, 256³ 복셀 그리드는 1,600만 개 이상의 복셀 정보를 저장해야 하며, 메모리 점유율은 0.54GB에 달합니다.
  2. 모델 표면 품질: 해상도 및 위상 구조 제약으로 인해 저해상도 복셀(예: 32³)은 세부 정보 손실을 초래하며, 메시 기반 방법은 초기 템플릿 변형에 의존하므로 복잡한 위상을 유연하게 처리할 수 없습니다.

연구 동기

AI 생성 기술과 컴퓨터 그래픽스의 빠른 발전에 따라 3D 모델 표현 기술은 가상 현실, 의료 영상 처리, 산업 설계 제조, 게임 개발 등 다양한 분야에서 광범위하게 적용되고 있습니다. 기존 방법은 일반적으로 많은 사전 지식과 가정이 필요하므로 실제 장면에서의 적용성이 제한됩니다. 따라서 모델 표면 품질을 향상시키면서 동시에 저장 요구사항을 줄일 수 있는 생성 방법이 시급합니다.

핵심 기여

  1. 기본 요소 피팅 및 매칭 알고리즘 제안: 모델을 구성하는 초이차 곡면 요소를 더 높은 표면 품질을 가진 매개변수화된 기하학적 형태로 대체하여 3D 모델의 전체 품질을 향상시킬 수 있습니다.
  2. 3D 모델 저장 방법 제안: 기본 요소의 매개변수만 보존하여 모델의 저장 요구사항을 줄이고, 저장 공간을 3자리 수 감소시킵니다.
  3. 다중 모달 정보 기반의 3단계 3D 모델 생성 방법 구축: 텍스트 및 이미지 정보를 입력으로 하여 제로샷 조건에서 매개변수화된 기본 요소로 구성된 3D 모델을 생성합니다.

방법 상세 설명

작업 정의

입력: 텍스트 설명 또는 단일 이미지 출력: 매개변수화된 기본 요소로 구성된 3D 모델 제약: 제로샷 생성, 표면 품질 향상, 저장 오버헤드 감소

모델 아키텍처

본 프레임워크는 3개의 주요 단계로 구성됩니다:

1단계: 다중 시점 깊이 이미지 합성 및 초이차 곡면 반복 피팅

  1. 다중 시점 깊이 이미지 합성:
    • 사전 학습된 ImageDream 모델을 사용하여 대상 모델의 다중 시점 이미지 생성
    • Score Distillation Sampling (SDS) 손실 함수를 통해 신경 방사 필드 최적화 지도
    • NeRFStudio 샘플링 방법을 사용하여 최적화된 암시적 신경 방사 필드에서 48개의 서로 다른 시점의 깊이 이미지 샘플링
  2. 초이차 곡면 반복 피팅:
    • 절단된 부호 있는 거리 필드(TSDF) 구축
    • 감소하는 부호 있는 거리 임계값 수열 정의: Tc={t1c,t2c,...,tmc,tm+1c}T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}
    • 초기 임계값 설정: t1c=minxiVt(xi)t_1^c = \min_{x_i \in V} t(x_i), 감소 공식: tm+1c=αtmct_{m+1}^c = \alpha t_m^c
    • 초이차 곡면 매개변수: θ=(ε1,ε2,T,R,S)\theta = (\varepsilon_1, \varepsilon_2, T, R, S)
    • 암시적 방정식: f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1

2단계: 유사 매개변수화 기본 요소 검색

초이차 곡면의 형태 매개변수 ε1\varepsilon_1ε2\varepsilon_2에 따라 3개의 수치 구간으로 분류:

  • (0,0.5)(0, 0.5): 원통형 특성
  • [0.5,2][0.5, 2]: 타원체 특성
  • (2,+)(2, +\infty): 별 모양 특성

z 방향과 xy 평면의 형태 특성을 조합하여 9가지 서로 다른 형태의 초이차 곡면 유형을 형성합니다.

3단계: 기본 요소 피팅 및 매칭 알고리즘

극좌표 방정식을 사용하여 매개변수화된 기본 요소 표현:

  • z 방향: 원통 좌표계, 구면 좌표계, 별선의 극좌표 방정식
  • xy 평면: 직사각형 밑면, 타원형 밑면, 별 모양 밑면의 극좌표 방정식

초이차 곡면의 회전 벡터 R과 평행이동 벡터 T를 결합하여 평행이동 회전 변환을 수행하고, 대상 3D 모델에 대한 최적화 피팅 및 매칭을 실행합니다.

기술 혁신점

  1. 형태 특성 분석: 초이차 곡면 매개변수가 형태에 미치는 영향을 체계적으로 분석하여 초이차 곡면에서 매개변수화된 기본 요소로의 매핑 관계를 수립합니다.
  2. 매개변수화 표현: 기본 요소 매개변수(크기 매개변수 S, 형태 매개변수 ε1\varepsilon_1ε2\varepsilon_2, 평행이동 벡터 T, 회전 벡터 R)만 저장하여 모델 저장을 구현합니다.
  3. 제로샷 생성: 암시적 확산 모델과 기본 요소 분해를 결합하여 교차 모달리티의 제로샷 3D 생성을 구현합니다.

실험 설정

데이터셋

  1. 가상 장면 데이터셋:
    • 주로 ShapeNet 데이터셋 기반으로 3,000개 이상의 객체 범주와 220,000개의 모델 포함
    • ImageDream, One-2-3-45++, Wonder3D, MVDream, TripoSR 등 모델의 테스트 이미지 및 텍스트 포함
  2. 실제 장면 데이터셋:
    • 주로 CO3D 데이터셋 기반으로 풍부한 실제 3D 데이터 제공
    • AKB-48 및 OmniObject 3D의 일부 이미지 포함

평가 지표

  • Chamfer Distance (CD): 두 점 구름 간의 유사성 측정
  • Volumetric Intersection over Union (VIoU): 3D 모델의 겹침 정도 평가
  • F1-Score: 표면 재구성 정밀도 및 재현율을 종합적으로 고려
  • Normal Consistency (NC): 표면 법선 벡터의 일관성 평가

비교 방법

  • EMS
  • SuperDec
  • Marching-Primitives (MP)

구현 세부사항

  • 하드웨어 환경: AMD Ryzen 7 9700X CPU, NVIDIA GeForce RTX 5060Ti
  • 소프트웨어 환경: Windows 11, Python 3.10
  • TSDF 매개변수: 복셀 공간 크기-13,13, 각 차원당 100개의 균등 샘플링, 총 10⁶개 복셀
  • 메시 해상도: 100

실험 결과

주요 결과

가상 장면 데이터셋 결과

방법CD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS13.10.2180.85720.6607
SuperDec6.380.2460.86290.7101
MP4.950.3900.81930.7284
본 방법3.090.5450.91390.8369

MP 방법과 비교하여 본 방법은 CD를 37.6% 감소, VIoU를 39.7% 증가, F1-Score를 11.5% 증가, NC를 14.9% 증가시켰습니다.

실제 장면 데이터셋 결과

방법CD(×10⁻³)↓VIoU↑F1-Score↑NC↑
EMS15.10.1410.89170.7539
SuperDec4.400.3010.83830.6759
MP4.320.4920.77710.5882
본 방법2.520.6730.91830.7752

ShapeNet 데이터셋 상세 결과

벤치, 테이블, 비행기, 캐비닛, 병, 소총 6개 범주에서 본 방법의 평균 CD는 0.503×10⁻³, VIoU는 0.742, F1-Score는 0.8896, NC는 0.4511이며, 모든 지표에서 최고의 성능을 보입니다.

저장 용량 비교 실험

입력 유형메시 저장 용량기본 요소 저장 용량
텍스트4.56MB5KB
이미지5.76MB6KB
전체5.36MB6KB

저장 용량이 3자리 수 감소하여 MB 수준에서 KB 수준으로 감소했습니다.

절제 실험

실제 장면 데이터셋에서 수행한 절제 실험은 본 방법이 VIoU, F1-Score 및 NC 지표에서 최고의 성능을 보이며, 4개의 극좌표 방정식의 유효성을 검증합니다.

관련 연구

암시적 확산 모델

초기 3D 모델 생성 기술은 주로 감독 학습을 기반으로 하며 많은 감독 데이터가 필요합니다. 암시적 확산 모델의 제안은 단일 이미지 3D 재구성에 새로운 사고를 제공하며, Score Distillation Sampling 기술과 사전 학습된 2D 확산 모델을 통해 3D 표현 최적화를 지도합니다.

기본 요소 합성의 3D 모델

기존 연구는 주로 3D 모델을 여러 단순 기본 요소로 분해하여 형태를 표현하며, 초타원체, 이방성 가우시안, 볼록껍질 등을 포함합니다. Marching-Primitives와 같은 관련 방법은 절단된 부호 있는 거리 필드의 반복 피팅을 통해 생성 가능한 모델의 범위를 확장했습니다.

결론 및 논의

주요 결론

본 논문에서 제안한 다단계 교차 모달리티 매개변수화 기본 요소 생성 프레임워크는 다음을 수행할 수 있습니다:

  1. 다양한 조건 입력에 응답하는 다양한 3D 기초 모델 생성
  2. CD, VIoU, F1-Score 및 NC 지표에서 기존 최첨단 알고리즘 초과
  3. 미학적 요구사항을 더 잘 충족하는 매개변수화 기본 요소 합성 모델 생성
  4. 상당한 저장 공간 절감 달성

제한사항

  1. 환형 원통 피팅 문제: 초이차 곡면이 표면을 관통하지 않으므로 방법은 환형 원통을 효과적으로 매칭하거나 피팅할 수 없습니다.
  2. 매개변수화 표현 장점: NURBS 등 다른 대체 방안과 비교하여 장점을 충분히 보여주지 못했습니다.
  3. 복잡 모델 품질: 다중 시점 생성 품질의 제한으로 인해 복잡 모델의 보이지 않는 시점의 모델 품질이 제한됩니다.

향후 방향

  1. 변분 자동 인코더를 사용하여 복잡한 기본 요소의 점 구름을 인코딩하여 환형 원통의 기본 요소 매칭에 사용
  2. 다른 유형의 표면 피팅 모델을 사용하여 모델 구성 요소를 표현하고 매개변수화 표현의 장점을 보여줌
  3. 서로 다른 모달리티 정보를 동시에 활용하여 대상 모델 특성을 더 잘 설명하거나 다운스트림 작업에서 미세 조정 학습 수행

심층 평가

장점

  1. 방법 혁신성 강함: 초이차 곡면에서 매개변수화된 기본 요소로의 체계적 매핑 방법을 처음으로 제안
  2. 실험 충분함: 가상 및 실제 장면 데이터셋에서 포괄적인 검증 수행
  3. 실용 가치 높음: 저장 요구사항을 현저히 감소시키며 빠른 프로토타입 제작에 적합
  4. 기술 경로 명확함: 3단계 프레임워크 설계가 합리적이며 각 모듈의 기능이 명확함

부족한 점

  1. 적용 범위 제한: 주로 단순 모델에 적용되며 복잡한 위상 구조 처리 능력이 제한됨
  2. 사전 학습 모델 의존: ImageDream 등 사전 학습 모델의 품질에 의존
  3. 이론 분석 부족: 매개변수화 기본 요소 표현 능력에 대한 이론 분석 부족
  4. 평가 지표 제한: 주로 기하학적 유사성에 중점을 두며 시각적 품질에 대한 주관적 평가 부족

영향력

  1. 학술 기여: 3D 생성 분야에 새로운 매개변수화 표현 사고 제공
  2. 실용 가치: 저장 효율성 및 표면 품질 측면에서 현저한 개선
  3. 재현성: 방법 설명이 상세하고 실험 설정이 명확함

적용 장면

  • 산업 설계의 빠른 프로토타입 제작
  • 게임 개발의 단순 3D 자산 생성
  • 가상 현실 장면의 경량화 3D 콘텐츠 생성
  • 모바일 장치의 3D 모델 저장 및 전송

참고 문헌

논문은 3D 생성, 암시적 확산 모델, 기본 요소 분해 등 핵심 분야의 중요한 작업을 포함하는 38편의 관련 문헌을 인용하여 본 연구에 견고한 이론적 기초를 제공합니다.