We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- 論文ID: 2510.13978
- タイトル: Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
- 著者: 近藤成也、浅野勇人、落合陽一(筑波大学)
- 分類: cs.CG(コンピュータグラフィックス)
- 発表時期/会議: SUI '25(ACM Symposium on Spatial User Interaction)、2025年11月10~11日、カナダ・モントリオール
- 論文リンク: https://arxiv.org/abs/2510.13978
本論文は、リアルタイムクロスプラットフォーム3Dアバターシステムである「Instant Skinned Gaussian Avatars」を提案する。既存のガウシアンスプラッティングアニメーション手法は、通常、カメラアレイ、長時間の前処理、または高性能GPUを必要とする。メッシュベースの表現へのガウシアンスプラッティング変換を試みる手法も存在するが、軽量なパフォーマンスを実現する一方で、視覚的忠実度を犠牲にしている。これに対し、本システムは並列スプラット処理を通じてガウシアンスプラッティングを効率的にアニメーション化し、基礎となるスキンメッシュの動的変化にリアルタイムで追従しながら、高い視覚的忠実度を維持する。スマートフォンベースの3Dスキャンからデバイス上の前処理まで、全体プロセスはわずか約5分で完了し、アバター生成ステップ自体は約30秒で完了する。本システムにより、ユーザーは現実世界の外観を瞬時に3Dアバターに変換でき、ソーシャルメディアおよびメタバースアプリケーションとのシームレスな統合に非常に適している。
従来の3D人物アバター作成は、手動モデリングまたはフォトグラメトリパイプラインに依存しており、これらの手法は時間と労力がかかるか、専門的な機器を必要とするかのいずれかである。ガウシアンスプラッティング技術は高忠実度シーン再構成とリアルタイムレンダリングで優れた性能を示しているが、既存のガウシアンスプラッティングアニメーション手法には以下の制限がある:
- ハードウェア要件が高い:カメラアレイ、高性能GPUなどの高価な機器が必要
- 前処理時間が長い:ExAvatarは2~3時間の前処理時間を必要とする
- 視覚的忠実度の喪失:メッシュ表現への変換により表現力が低下
- アクセシビリティが低い:一般ユーザーの使用が困難
本研究は3Dアバター作成のアクセシビリティ問題を解決し、一般ユーザーが迅速かつ便利に高品質の3Dアバターを作成できるようにすることを目指しており、以下の点で重要である:
- ソーシャルメディアアプリケーションの普及
- メタバースプラットフォームのユーザー体験
- 仮想会議およびデジタルツイン応用
- モバイルデバイス上のAR/VR体験
- 高速アバター生成システム:スキャンからアバター作成までわずか5分で完了する完全なフローを提案し、コア生成ステップはわずか30秒
- 効率的なアニメーション手法:並列スプラット処理を通じてガウシアンスプラッティングのリアルタイムアニメーションを実現し、高い視覚的忠実度を維持
- クロスプラットフォーム互換性:WebXRベースの実装により、モバイルデバイス、VRヘッドセット、ウェブプラットフォームをサポート
- モバイルデバイス最適化:モバイルデバイスのパフォーマンス向けに特別に最適化され、iPhone 13 Proで40~50 fpsを達成
入力:単一カメラで撮影した短動画(Scaniverse アプリケーション経由)
出力:リアルタイムアニメーション可能な高忠実度3Dアバター
制約条件:
- モバイルデバイス互換性
- リアルタイムレンダリングパフォーマンス
- 視覚的忠実度の維持
システムの核心的な考え方は、ガウシアンスプラットが背景3Dメッシュの頂点運動に追従することである。前処理段階では、スプラットをメッシュ頂点に割り当て、相対変換関係を保存する。実行時には、背景メッシュをアニメーション化し、ガウシアンスプラット位置を並列更新することでリアルタイムアニメーションを実現する。
ステップ1:3Dスキャン
- Scaniverse アプリケーションを使用してガウシアンスプラッティング形式で被写体をキャプチャ
- 後続処理を簡素化するため、被写体がA-poseを採用していることが必要
ステップ2:点群フィルタリング
- 被写体に属さない点を除去
- ルールベースの水平および垂直フィルタリング
- スプラットの位置とスケールを正規化
ステップ3:姿勢推定とメッシュ配置
- 被写体の正面方向と肢体角度を推定
- 同じ位置、姿勢、スケールに背景3Dメッシュを配置
ステップ4:スプラット-頂点バインディング
- 最近傍探索を通じて各スプラットに最も近いメッシュ頂点を選択
- 相対変換関係を計算
ステップ5:データ出力
- 被写体姿勢、スケール、最近傍頂点インデックス、相対変換を出力
毎フレーム3つのステップ:
- メッシュアニメーション:背景スキンメッシュをアニメーション化
- スプラット更新:ガウシアンスプラットの位置と方向を並列更新
- 深度ソート:観察者の視点に基づいてスプラットをソート
従来の動的ガウシアンスプラッティングは毎フレーム位置データを更新する必要があり、パフォーマンスが大幅に低下する。本論文は並列スプラット処理によってこの問題を解決した。
ソートの計算コストを削減するため、グループ化ソート戦略を採用:
- スプラットをボーンレベルでグループ化
- 個別スプラットではなくグループレベルでソート
- グループ数とハードウェア能力のバランスを取得
- 32kポリゴンのVRM形式メッシュを使用
- JavaScriptおよびThree.jsベースのブラウザ実装
- モバイルGPU向けのパフォーマンス最適化
- 開発環境:JavaScript + Three.js(ブラウザアプリケーション)
- 3Dスキャン:Scaniverse アプリケーション
- 背景メッシュ:VRM形式、32kポリゴン、ニュートラル体型
- テストデバイス:iPhone 13 Pro、NVIDIA GeForce RTX 3060搭載ノートパソコン
- 総処理時間:約5分(スキャン含む)
- アバター生成時間:約30秒
- 3D再構成時間:約1分(Scaniverse)
- レンダリングフレームレート:モバイルデバイス40~50 fps、ノートパソコン240 fps
時間効率:
- 完全なフロー:~5分
- アバター生成:~30秒
- 3Dスキャン:~1分(iPhone 13 Pro)
レンダリングパフォーマンス:
- iPhone 13 Pro:40~50 fps
- RTX 3060ノートパソコン:240 fps(ディスプレイリフレッシュレート制限)
- 自動化度が高い:前処理ステップは完全に自動化
- クロスプラットフォーム互換:モバイルデバイス、VRヘッドセット、ウェブプラットフォームをサポート
- 標準形式サポート:VRM形式を使用し、既存アプリケーションとの統合が容易
- リアルタイムパフォーマンス:高い視覚品質を維持しながらリアルタイムレンダリングを実現
論文は複数の関連研究を引用している:
- GaussianAvatar1:単一動画から写実的な人物アバターを生成
- GauHuman2:リアルタイム3D人体レンダリング用の関節化ガウシアンスプラッティング
- HUGS4:人体ガウシアンスプラット
- ExAvatar6:表現力豊かな全身3Dガウシアンアバター
既存手法と比較して、本論文の主な利点は:
- 処理速度:ExAvatarの2~3時間に対し、本論文はわずか30秒
- デバイス要件:高性能GPUやカメラアレイが不要
- アクセシビリティ:完全にモバイルデバイスとブラウザベース
- 忠実度:ガウシアンスプラッティングの高い視覚品質を維持
- 高速で高品質の3Dアバター生成システムの実装に成功
- 並列処理とグループ化ソートを通じて動的ガウシアンスプラッティングのパフォーマンス問題を効果的に解決
- WebXRベースの実装によりクロスプラットフォーム互換性を確保
- モバイルデバイス最適化により、一般ユーザーが便利に使用可能
- 第三者アプリケーションへの依存:3Dスキャンにはscaniverse の使用が必要
- 姿勢制約:前処理時にA-poseが必要で、使用シーンが限定される
- メッシュ精度:背景メッシュの品質が最終結果に影響する可能性
- グループ化ソートのトレードオフ:モバイル互換性のため、レンダリング精度の一部を犠牲
- より多くの3Dスキャンソリューションを統合し、特定アプリケーションへの依存を削減
- より多様な初期姿勢をサポート
- グループ化ソートアルゴリズムを最適化し、レンダリング品質を向上
- より複雑なアニメーションシーンへの拡張
- 実際のユーザーニーズを解決
- 完全なエンドツーエンドソリューション
- 優れたユーザー体験設計
- 効果的な並列処理ソリューション
- 巧妙なグループ化ソート最適化
- モバイルデバイスパフォーマンス最適化
- 普及したモバイルデバイスベース
- ブラウザ実装、インストール不要
- 高速な処理時間
- VRM標準形式を使用
- 既存エコシステムとの統合が容易
- コア手法は比較的単純で、技術的深さが限定的
- 主にエンジニアリング最適化であり、アルゴリズム革新ではない
- 他の手法との定量的比較が欠如
- ユーザー研究または品質評価がない
- 異なるシーンでのテストが不足
- 第三者Scaniverse アプリケーションに依存
- 初期姿勢に要件がある
- グループ化ソートの具体的実装詳細が不十分
- 失敗ケース分析が欠如
- ガウシアンスプラッティングのモバイル応用に参考を提供
- 実用的システム設計の思考方法を示唆
- 高い実用価値、実際の展開に適している
- メタバースおよびソーシャルメディアアプリケーションに重要な意義
- 標準的な技術スタックに基づき、再現が容易
- オープンソース化の可能性が大きい
- ソーシャルメディアアプリケーション:個人化アバターの高速生成
- メタバースプラットフォーム:ユーザーアイデンティティ表現
- 仮想会議:臨場感の向上
- ゲームアプリケーション:キャラクターカスタマイズ
- AR/VR体験:個性化された仮想形象
論文は12篇の関連文献を引用しており、主に以下を網羅している:
- ガウシアンスプラッティング基礎技術3
- 人体アバター生成手法1,2,4,5,6,8,9,11,12
- 3D再構成技術10
- 商用スキャンアプリケーション7
これらの参考文献は関連研究分野を十分にカバーし、本論文の研究に充分な背景支援を提供している。
総合評価:これは実用性が非常に高いシステム論文であり、アルゴリズム革新の面では相対的に限定的であるが、実際の問題解決とアクセシビリティの向上の面で重要な貢献をしている。本システムの高速性とモバイル互換性により、実用的価値が非常に高く、実際のアプリケーションでの展開に適している。