2025-11-11T15:34:09.265833

A 3D Generation Framework from Cross Modality to Parameterized Primitive

Liang, Yu, Wang et al.
Recent advancements in AI-driven 3D model generation have leveraged cross modality, yet generating models with smooth surfaces and minimizing storage overhead remain challenges. This paper introduces a novel multi-stage framework for generating 3D models composed of parameterized primitives, guided by textual and image inputs. In the framework, A model generation algorithm based on parameterized primitives, is proposed, which can identifies the shape features of the model constituent elements, and replace the elements with parameterized primitives with high quality surface. In addition, a corresponding model storage method is proposed, it can ensure the original surface quality of the model, while retaining only the parameters of parameterized primitives. Experiments on virtual scene dataset and real scene dataset demonstrate the effectiveness of our method, achieving a Chamfer Distance of 0.003092, a VIoU of 0.545, a F1-Score of 0.9139 and a NC of 0.8369, with primitive parameter files approximately 6KB in size. Our approach is particularly suitable for rapid prototyping of simple models.
academic

クロスモダリティからパラメータ化プリミティブへの3D生成フレームワーク

基本情報

  • 論文ID: 2510.08656
  • タイトル: A 3D Generation Framework from Cross Modality to Parameterized Primitive
  • 著者: Yiming Liang, Huan Yu, Zili Wang, Shuyou Zhang, Guodong Yi, Jin Wang, Jianrong Tan (浙江大学)
  • 分類: cs.GR (コンピュータグラフィックス), cs.AI (人工知能), cs.CV (コンピュータビジョン)
  • 発表日: 2025年10月9日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08656

要旨

本論文は、AI駆動の3Dモデル生成における表面品質とストレージオーバーヘッドの課題に対処するため、パラメータ化プリミティブに基づく多段階3D生成フレームワークを提案する。本フレームワークは、テキストおよび画像入力に基づいてパラメータ化プリミティブで構成される3Dモデルを生成でき、モデル構成要素の形状特性を識別することで、元の要素を高品質表面を有するパラメータ化プリミティブで置き換える。実験結果は、仮想シーンおよび実シーンデータセット上で優れた性能を示しており、Chamfer距離は3.092×10⁻³、VIoUは0.545、F1スコアは0.9139、NCは0.8369、プリミティブパラメータファイルサイズは約6KBである。

研究背景と動機

問題定義

従来の3Dモデル生成技術は、以下の2つの中核的課題に直面している:

  1. 高いストレージ要件:既存の手法は通常、Marching Cubesアルゴリズムを使用して暗黙的3D表現から明示的メッシュ表現を抽出するため、ストレージ要件が膨大である。例えば、256³ボクセルグリッドは1600万個以上のボクセル情報を保存する必要があり、メモリ占有率は0.54GBに達する。
  2. モデル表面品質:解像度とトポロジー構造の制約により、低解像度ボクセル(32³など)は詳細情報の喪失をもたらし、メッシュベースの手法は初期テンプレート変形に依存するため、複雑なトポロジーを柔軟に処理できない。

研究動機

AI生成技術とコンピュータグラフィックスの急速な発展に伴い、3Dモデル表現技術は仮想現実、医療画像処理、工業設計製造、ゲーム開発など多くの分野で広く応用されている。従来の手法は通常、大量の事前知識と仮定を必要とするため、実シーンでの適用性が制限されている。したがって、モデル表面品質を向上させながらストレージ要件を削減できる生成手法が急務である。

核心的貢献

  1. プリミティブフィッティングおよびマッチングアルゴリズムの提案:モデルを構成する超二次曲面要素をより高い表面品質を有するパラメータ化幾何体で置き換えることができ、3Dモデルの全体的品質を向上させる。
  2. 3Dモデルストレージ方法の提案:プリミティブ要素のパラメータのみを保持することでモデルのストレージ要件を削減し、ストレージスペースを3桁削減することを実現する。
  3. マルチモーダル情報に基づく3段階3Dモデル生成方法の構築:テキストおよび画像情報を入力として、ゼロショット条件下でパラメータ化プリミティブで構成される3Dモデルを生成する。

方法の詳細

タスク定義

入力:テキスト説明または単一画像 出力:パラメータ化プリミティブで構成される3Dモデル 制約:ゼロショット生成、表面品質の向上、ストレージオーバーヘッドの削減

モデルアーキテクチャ

本フレームワークは3つの主要段階で構成される:

第1段階:マルチビュー深度画像合成と超二次曲面反復フィッティング

  1. マルチビュー深度画像合成
    • 事前学習済みImageDreamモデルを使用して目標モデルのマルチビュー画像を生成
    • Score Distillation Sampling (SDS)損失関数を通じてニューラル放射場の最適化を指導
    • NeRFStudioサンプリング方法を使用して最適化された暗黙的ニューラル放射場から48個の異なる視点の深度画像をサンプリング
  2. 超二次曲面反復フィッティング
    • 切断符号距離場(TSDF)を構築
    • 減少する符号距離閾値シーケンスを定義:Tc={t1c,t2c,...,tmc,tm+1c}T^c = \{t_1^c, t_2^c, ..., t_m^c, t_{m+1}^c\}
    • 初期閾値設定:t1c=minxiVt(xi)t_1^c = \min_{x_i \in V} t(x_i)、減衰公式:tm+1c=αtmct_{m+1}^c = \alpha t_m^c
    • 超二次曲面パラメータ:θ=(ε1,ε2,T,R,S)\theta = (\varepsilon_1, \varepsilon_2, T, R, S)
    • 暗黙的方程式:f(x)=((x/a)2/ε2+(y/b)2/ε2)ε2/ε1+(z/c)2/ε1=1f(x) = \left((x/a)^{2/\varepsilon_2} + (y/b)^{2/\varepsilon_2}\right)^{\varepsilon_2/\varepsilon_1} + (z/c)^{2/\varepsilon_1} = 1

第2段階:類似パラメータ化プリミティブ検索

超二次曲面の形状パラメータε1\varepsilon_1およびε2\varepsilon_2に基づいて、以下の3つの数値区間に分類:

  • (0,0.5)(0, 0.5):円柱形特性
  • [0.5,2][0.5, 2]:楕円体特性
  • (2,+)(2, +\infty):星形特性

z方向とxy平面の形状特性を組み合わせることで、9種類の異なる形状の超二次曲面タイプを形成する。

第3段階:プリミティブフィッティングおよびマッチングアルゴリズム

極座標方程式を使用してパラメータ化プリミティブを表現:

  • z方向:円柱座標系、球座標系、星線の極座標方程式
  • xy平面:矩形底、楕円底、星底の極座標方程式

超二次曲面の回転ベクトルRと平行移動ベクトルTを組み合わせ、平行移動回転変換を実行して、目標3Dモデルの最適化フィッティングとマッチングを行う。

技術的革新点

  1. 形状特性分析:超二次曲面パラメータが形状に与える影響を体系的に分析することで、超二次曲面からパラメータ化プリミティブへのマッピング関係を確立。
  2. パラメータ化表現:プリミティブパラメータ(サイズパラメータS、形状パラメータε1\varepsilon_1およびε2\varepsilon_2、平行移動ベクトルT、回転ベクトルR)のみを保存することでモデルストレージを実現。
  3. ゼロショット生成:暗黙的拡散モデルとプリミティブ分解を組み合わせることで、クロスモダリティのゼロショット3D生成を実現。

実験設定

データセット

  1. 仮想シーンデータセット
    • 主にShapeNetデータセットに基づき、3000以上のオブジェクトカテゴリと220,000個のモデルを含む
    • ImageDream、One-2-3-45++、Wonder3D、MVDream、TripoSRなどのモデルからのテスト画像とテキストを含む
  2. 実シーンデータセット
    • 主にCO3Dデータセットに基づき、豊富な実世界3Dデータを提供
    • AKB-48およびOmniObject 3Dの一部画像を含む

評価指標

  • Chamfer Distance (CD):2つの点群間の類似性を測定
  • Volumetric Intersection over Union (VIoU):3Dモデルの重複程度を評価
  • F1スコア:表面再構成の精度と再現率を総合的に考慮
  • Normal Consistency (NC):表面法線ベクトルの一貫性を評価

比較手法

  • EMS
  • SuperDec
  • Marching-Primitives (MP)

実装詳細

  • ハードウェア環境:AMD Ryzen 7 9700X CPU、NVIDIA GeForce RTX 5060Ti
  • ソフトウェア環境:Windows 11、Python 3.10
  • TSDFパラメータ:ボクセル空間サイズ-13,13、各次元100個の均一サンプリング、合計10⁶個のボクセル
  • メッシュ解像度:100

実験結果

主要結果

仮想シーンデータセット結果

手法CD(×10⁻³)↓VIoU↑F1スコア↑NC↑
EMS13.10.2180.85720.6607
SuperDec6.380.2460.86290.7101
MP4.950.3900.81930.7284
本手法3.090.5450.91390.8369

MP手法と比較して、本手法はCD37.6%低下、VIoU39.7%向上、F1スコア11.5%向上、NC14.9%向上を実現。

実シーンデータセット結果

手法CD(×10⁻³)↓VIoU↑F1スコア↑NC↑
EMS15.10.1410.89170.7539
SuperDec4.400.3010.83830.6759
MP4.320.4920.77710.5882
本手法2.520.6730.91830.7752

ShapeNetデータセット詳細結果

ベンチ、テーブル、飛行機、キャビネット、ボトル、ライフルの6つのカテゴリにおいて、本手法の平均CDは0.503×10⁻³、VIoUは0.742、F1スコアは0.8896、NCは0.4511であり、すべての指標で最高の性能を示している。

ストレージ容量比較実験

入力タイプメッシュストレージ容量プリミティブストレージ容量
テキスト4.56MB5KB
画像5.76MB6KB
全体5.36MB6KB

ストレージ容量はMBレベルからKBレベルへと3桁削減された。

アブレーション実験

実シーンデータセット上で実施されたアブレーション実験は、本手法がVIoU、F1スコア、NC指標で最高の性能を示し、4つの極座標方程式の有効性を検証している。

関連研究

暗黙的拡散モデル

初期の3Dモデル生成技術は主に教師あり学習に基づいており、大量の教師データを必要とした。暗黙的拡散モデルの提案は単一画像3D再構成に新しい視点をもたらし、Score Distillation Sampling技術と事前学習済み2D拡散モデルを通じて3D表現の最適化を指導する。

プリミティブ合成による3Dモデル

既存の研究は主に3Dモデルを複数の単純なプリミティブに分解することで形状表現を実現しており、超楕円体、異方性ガウス、凸包などを含む。Marching-Primitivesなどの関連手法は、切断符号距離場の反復フィッティングを通じて生成可能なモデルの範囲を拡張した。

結論と考察

主要な結論

本論文で提案された多段階クロスモダリティパラメータ化プリミティブ生成フレームワークは以下を実現できる:

  1. 複数の条件入力に応答する多様な3D基礎モデルの生成
  2. CD、VIoU、F1スコア、NC指標において既存の最先端アルゴリズムを超える性能
  3. 美的要件をより満たすパラメータ化プリミティブ合成モデルの生成
  4. 顕著なストレージスペース節約の実現

制限事項

  1. 環状円柱フィッティングの問題:超二次曲面が表面を貫通しないため、本手法は環状円柱の効果的なマッチングまたはフィッティングができない
  2. パラメータ化表現の利点:NURBS等の他の代替案と比較した利点を十分に示すことができていない
  3. 複雑なモデルの品質:マルチビュー生成品質の制限により、複雑なモデルの不可視視点のモデル品質が限定される

今後の方向性

  1. 変分オートエンコーダを使用して複雑なプリミティブの点群をエンコードし、環状円柱のプリミティブマッチングに使用
  2. 他のタイプの表面フィッティングモデルを使用してモデルコンポーネントをフィッティングし、パラメータ化表現の利点を示す
  3. 異なるモダリティ情報をより効果的に利用して目標モデルの特性を記述するか、下流タスクでの微調整トレーニングを実施

深い評価

利点

  1. 方法の革新性が強い:超二次曲面からパラメータ化プリミティブへの体系的マッピング方法を初めて提案
  2. 実験が充分:仮想シーンおよび実シーンデータセット上で包括的な検証を実施
  3. 実用価値が高い:ストレージ要件を大幅に削減し、迅速なプロトタイピングに適している
  4. 技術ロードマップが明確:3段階フレームワーク設計が合理的で、各モジュールの機能が明確

不足点

  1. 適用範囲の制限:主に単純なモデルに適用でき、複雑なトポロジー構造の処理能力が限定される
  2. 事前学習モデルへの依存:ImageDreamなどの事前学習モデルの品質に依存
  3. 理論分析の不足:パラメータ化プリミティブ表現能力の理論分析が不足
  4. 評価指標の制限:主に幾何学的類似性に焦点を当てており、視覚品質の主観的評価が不足

影響力

  1. 学術的貢献:3D生成分野に新しいパラメータ化表現の思想をもたらす
  2. 実用価値:ストレージ効率と表面品質の面で顕著な改善を実現
  3. 再現性:方法説明が詳細で、実験設定が明確

適用シーン

  • 工業設計における迅速なプロトタイプ製作
  • ゲーム開発における単純な3Dアセット生成
  • 仮想現実シーンの軽量化3Dコンテンツ作成
  • モバイルデバイス上の3Dモデルストレージと転送

参考文献

本論文は3D生成、暗黙的拡散モデル、プリミティブ分解などの重要分野における38篇の関連文献を引用しており、本研究に堅実な理論的基礎を提供している。