2025-11-13T07:01:10.346871

Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications

Kondo, Asano, Ochiai
We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
academic

Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications

基本信息

  • 论文ID: 2510.13978
  • 标题: Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
  • 作者: Naruya Kondo, Yuto Asano, Yoichi Ochiai (University of Tsukuba)
  • 分类: cs.CG (Computer Graphics)
  • 发表时间/会议: SUI '25 (ACM Symposium on Spatial User Interaction), November 10–11, 2025, Montreal, QC, Canada
  • 论文链接: https://arxiv.org/abs/2510.13978

摘要

本文提出了Instant Skinned Gaussian Avatars,一个实时跨平台的3D化身系统。现有的Gaussian Splatting动画方法通常需要相机阵列、长时间预处理或高端GPU。一些方法试图将Gaussian Splatting转换为基于网格的表示,虽然实现了轻量级性能但牺牲了视觉保真度。相比之下,该系统通过并行splat处理来高效动画化Gaussian Splatting,实时跟随底层蒙皮网格的动态变化,同时保持高视觉保真度。从基于智能手机的3D扫描到设备端预处理,整个过程仅需约5分钟,其中化身生成步骤本身仅需约30秒。该系统使用户能够瞬间将真实世界的外观转换为3D化身,非常适合与社交媒体和元宇宙应用的无缝集成。

研究背景与动机

问题定义

传统的3D人物化身创建依赖于手动建模或摄影测量管道,这些方法要么耗时耗力,要么需要专业设备。虽然Gaussian Splatting技术在高保真场景重建和实时渲染方面表现出色,但现有的Gaussian Splatting动画方法存在以下局限性:

  1. 硬件要求高:需要相机阵列、高端GPU等昂贵设备
  2. 预处理时间长:如ExAvatar需要2-3小时的预处理时间
  3. 视觉保真度损失:转换为网格表示会降低表现力
  4. 可访问性差:普通用户难以使用

研究意义

该研究旨在解决3D化身创建的可访问性问题,使普通用户能够快速、便捷地创建高质量的3D化身,这对于:

  • 社交媒体应用的普及
  • 元宇宙平台的用户体验
  • 虚拟会议和数字孪生应用
  • 移动设备上的AR/VR体验

具有重要意义。

核心贡献

  1. 快速化身生成系统:提出了一个从扫描到化身创建仅需5分钟的完整流程,其中核心生成步骤仅需30秒
  2. 高效动画方法:通过并行splat处理实现Gaussian Splatting的实时动画,保持高视觉保真度
  3. 跨平台兼容性:基于WebXR的实现支持移动设备、VR头显和网页平台
  4. 移动设备优化:专门针对移动设备性能进行优化,在iPhone 13 Pro上达到40-50 fps

方法详解

任务定义

输入:使用单个相机拍摄的短视频(通过Scaniverse应用) 输出:可实时动画的高保真3D化身 约束条件

  • 移动设备兼容性
  • 实时渲染性能
  • 保持视觉保真度

系统架构

核心思想

系统的核心思想是让Gaussian splats跟随背景3D网格的顶点运动。在预处理阶段,将splats分配给网格顶点并存储相对变换关系。运行时,通过动画化背景网格、并行更新Gaussian splats位置来实现实时动画。

预处理流程

步骤1:3D扫描

  • 使用Scaniverse应用捕获Gaussian Splatting格式的主体
  • 要求主体采用A-pose以简化后续处理

步骤2:点云过滤

  • 移除不属于主体的点
  • 基于规则的水平和垂直过滤
  • 归一化splat的位置和尺度

步骤3:姿态估计与网格定位

  • 推断主体的正面方向和肢体角度
  • 在相同位置、姿态和尺度放置背景3D网格

步骤4:Splat-顶点绑定

  • 通过最近邻搜索为每个splat选择最近的网格顶点
  • 计算相对变换关系

步骤5:数据输出

  • 输出主体姿态、尺度、最近顶点索引和相对变换

动画系统

每帧三个步骤

  1. 网格动画:动画化背景蒙皮网格
  2. Splat更新:并行更新Gaussian splats的位置和方向
  3. 深度排序:根据观察者视角对splats进行排序

技术创新点

1. 并行Splat处理

传统动态Gaussian Splatting需要每帧更新位置数据,导致性能严重下降。本文通过并行splat处理解决了这一问题。

2. 分组排序优化

为了降低排序的计算成本,采用分组排序策略:

  • 将splats按骨骼级别分组
  • 在组级别进行排序而非单个splat排序
  • 在分组数量和硬件能力之间取得平衡

3. 移动设备优化

  • 使用32k多边形的VRM格式网格
  • 基于JavaScript和Three.js的浏览器实现
  • 针对移动GPU的性能优化

实验设置

实现平台

  • 开发环境:JavaScript + Three.js(浏览器应用)
  • 3D扫描:Scaniverse应用
  • 背景网格:VRM格式,32k多边形,中性体型
  • 测试设备:iPhone 13 Pro, 配备NVIDIA GeForce RTX 3060的笔记本电脑

性能指标

  • 总处理时间:约5分钟(包含扫描)
  • 化身生成时间:约30秒
  • 3D重建时间:约1分钟(Scaniverse)
  • 渲染帧率:移动设备40-50 fps,笔记本电脑240 fps

实验结果

性能表现

时间效率

  • 完整流程:~5分钟
  • 化身生成:~30秒
  • 3D扫描:~1分钟(iPhone 13 Pro)

渲染性能

  • iPhone 13 Pro:40-50 fps
  • RTX 3060笔记本:240 fps(受显示器刷新率限制)

系统特性

  1. 自动化程度高:预处理步骤完全自动化
  2. 跨平台兼容:支持移动设备、VR头显、网页平台
  3. 标准格式支持:使用VRM格式,便于与现有应用集成
  4. 实时性能:保持实时渲染的同时维持高视觉质量

相关工作

Gaussian Splatting化身研究

论文引用了多个相关工作:

  • GaussianAvatar1:从单个视频生成写实人物化身
  • GauHuman2:关节化Gaussian Splatting用于实时3D人体渲染
  • HUGS4:人体Gaussian Splats
  • ExAvatar6:表现力丰富的全身3D Gaussian化身

本文优势

相比现有方法,本文的主要优势在于:

  1. 处理速度:相比ExAvatar的2-3小时,本文仅需30秒
  2. 设备要求:无需高端GPU或相机阵列
  3. 可访问性:完全基于移动设备和浏览器
  4. 保真度:保持Gaussian Splatting的高视觉质量

结论与讨论

主要结论

  1. 成功实现了快速、高质量的3D化身生成系统
  2. 通过并行处理和分组排序有效解决了动态Gaussian Splatting的性能问题
  3. 基于WebXR的实现确保了跨平台兼容性
  4. 移动设备优化使普通用户能够便捷使用

局限性

  1. 依赖第三方应用:需要使用Scaniverse进行3D扫描
  2. 姿态约束:预处理时需要A-pose,限制了使用场景
  3. 网格精度:背景网格的质量可能影响最终效果
  4. 分组排序权衡:为了移动兼容性牺牲了部分渲染精度

未来方向

  1. 集成更多3D扫描方案,减少对特定应用的依赖
  2. 支持更多样的初始姿态
  3. 优化分组排序算法,提高渲染质量
  4. 扩展到更复杂的动画场景

深度评价

优点

1. 实用性强

  • 解决了真实的用户需求
  • 完整的端到端解决方案
  • 良好的用户体验设计

2. 技术创新

  • 有效的并行处理方案
  • 巧妙的分组排序优化
  • 移动设备性能优化

3. 可访问性

  • 基于普及的移动设备
  • 浏览器实现,无需安装
  • 快速的处理时间

4. 标准兼容

  • 使用VRM标准格式
  • 便于与现有生态集成

不足

1. 方法简单性

  • 核心方法相对简单,技术深度有限
  • 主要是工程优化而非算法创新

2. 评估不充分

  • 缺乏与其他方法的定量比较
  • 没有用户研究或质量评估
  • 缺少不同场景下的测试

3. 依赖性问题

  • 依赖第三方Scaniverse应用
  • 对初始姿态有要求

4. 技术细节

  • 分组排序的具体实现细节不够详细
  • 缺少失败案例分析

影响力

1. 学术贡献

  • 为Gaussian Splatting在移动端的应用提供了参考
  • 展示了实用系统的设计思路

2. 实用价值

  • 高实用价值,适合实际部署
  • 对元宇宙和社交媒体应用有重要意义

3. 可复现性

  • 基于标准技术栈,易于复现
  • 开源潜力较大

适用场景

  1. 社交媒体应用:快速生成个人化身
  2. 元宇宙平台:用户身份表示
  3. 虚拟会议:提高临场感
  4. 游戏应用:角色定制
  5. AR/VR体验:个性化虚拟形象

参考文献

论文引用了12篇相关文献,主要涵盖:

  • Gaussian Splatting基础技术3
  • 人体化身生成方法1,2,4,5,6,8,9,11,12
  • 3D重建技术10
  • 商业扫描应用7

这些参考文献很好地覆盖了相关研究领域,为本文工作提供了充分的背景支撑。


总体评价:这是一篇实用性很强的系统论文,虽然在算法创新方面相对有限,但在解决实际问题、提高可访问性方面做出了重要贡献。该系统的快速性和移动兼容性使其具有很高的实用价值,适合在实际应用中部署。