2025-11-13T07:01:10.346871

Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications

Kondo, Asano, Ochiai
We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
academic

Avatares Gaussianos Instantáneos Articulados para Aplicaciones Web, Móviles y VR

Información Básica

  • ID del Artículo: 2510.13978
  • Título: Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
  • Autores: Naruya Kondo, Yuto Asano, Yoichi Ochiai (Universidad de Tsukuba)
  • Clasificación: cs.CG (Gráficos por Computadora)
  • Fecha de Publicación/Conferencia: SUI '25 (Simposio ACM sobre Interacción Espacial de Usuarios), 10–11 de noviembre de 2025, Montreal, QC, Canadá
  • Enlace del Artículo: https://arxiv.org/abs/2510.13978

Resumen

Este artículo propone Avatares Gaussianos Instantáneos Articulados, un sistema de avatares 3D en tiempo real multiplataforma. Los métodos existentes de animación de Gaussian Splatting generalmente requieren matrices de cámaras, preprocesamiento prolongado o GPU de gama alta. Algunos métodos intentan convertir Gaussian Splatting a representaciones basadas en mallas, logrando rendimiento ligero pero sacrificando fidelidad visual. En contraste, este sistema anima eficientemente Gaussian Splatting mediante procesamiento paralelo de splats, siguiendo en tiempo real los cambios dinámicos de la malla articulada subyacente, mientras mantiene alta fidelidad visual. Desde escaneo 3D basado en smartphone hasta preprocesamiento en dispositivo, todo el proceso requiere aproximadamente 5 minutos, siendo el paso de generación de avatar en sí mismo de solo aproximadamente 30 segundos. El sistema permite a los usuarios convertir instantáneamente la apariencia del mundo real en avatares 3D, siendo ideal para integración perfecta con aplicaciones de redes sociales y metaverso.

Antecedentes de Investigación y Motivación

Definición del Problema

La creación tradicional de avatares 3D de personajes depende de modelado manual o tuberías de fotogrametría, métodos que son o bien consumidores de tiempo y recursos, o requieren equipos profesionales. Aunque la tecnología Gaussian Splatting ha demostrado excelencia en reconstrucción de escenas de alta fidelidad y renderizado en tiempo real, los métodos existentes de animación de Gaussian Splatting presentan las siguientes limitaciones:

  1. Requisitos de hardware elevados: Necesitan matrices de cámaras, GPU de gama alta y otros equipos costosos
  2. Tiempo de preprocesamiento prolongado: ExAvatar requiere 2-3 horas de preprocesamiento
  3. Pérdida de fidelidad visual: La conversión a representación de malla reduce la expresividad
  4. Accesibilidad deficiente: Los usuarios ordinarios tienen dificultades para utilizarlo

Significado de la Investigación

Esta investigación tiene como objetivo resolver el problema de accesibilidad en la creación de avatares 3D, permitiendo que usuarios ordinarios creen rápida y convenientemente avatares 3D de alta calidad, lo cual es significativo para:

  • Popularización de aplicaciones de redes sociales
  • Experiencia de usuario en plataformas de metaverso
  • Conferencias virtuales y aplicaciones de gemelos digitales
  • Experiencias de AR/VR en dispositivos móviles

Contribuciones Principales

  1. Sistema de generación rápida de avatares: Propone un flujo completo de escaneo a creación de avatar en solo 5 minutos, siendo el paso de generación central de solo 30 segundos
  2. Método de animación eficiente: Logra animación en tiempo real de Gaussian Splatting mediante procesamiento paralelo de splats, manteniendo alta fidelidad visual
  3. Compatibilidad multiplataforma: La implementación basada en WebXR soporta dispositivos móviles, auriculares VR y plataformas web
  4. Optimización para dispositivos móviles: Optimizado específicamente para rendimiento en dispositivos móviles, logrando 40-50 fps en iPhone 13 Pro

Explicación Detallada del Método

Definición de la Tarea

Entrada: Video corto capturado con una sola cámara (mediante aplicación Scaniverse) Salida: Avatar 3D de alta fidelidad animable en tiempo real Restricciones:

  • Compatibilidad con dispositivos móviles
  • Rendimiento de renderizado en tiempo real
  • Mantenimiento de fidelidad visual

Arquitectura del Sistema

Idea Central

La idea central del sistema es permitir que los splats gaussianos sigan el movimiento de vértices de la malla 3D de fondo. Durante la fase de preprocesamiento, se asignan splats a vértices de malla y se almacenan relaciones de transformación relativa. En tiempo de ejecución, se logra animación en tiempo real animando la malla de fondo y actualizando paralelamente las posiciones de los splats gaussianos.

Flujo de Preprocesamiento

Paso 1: Escaneo 3D

  • Captura del sujeto en formato Gaussian Splatting usando la aplicación Scaniverse
  • Se requiere que el sujeto adopte pose A para simplificar el procesamiento posterior

Paso 2: Filtrado de Nube de Puntos

  • Eliminación de puntos que no pertenecen al sujeto
  • Filtrado horizontal y vertical basado en reglas
  • Normalización de posición y escala de splats

Paso 3: Estimación de Pose y Localización de Malla

  • Inferencia de dirección frontal del sujeto y ángulos de extremidades
  • Colocación de malla 3D de fondo en posición, pose y escala idénticas

Paso 4: Vinculación Splat-Vértice

  • Selección del vértice de malla más cercano para cada splat mediante búsqueda de vecino más cercano
  • Cálculo de relaciones de transformación relativa

Paso 5: Salida de Datos

  • Salida de pose del sujeto, escala, índices de vértice más cercano y transformaciones relativas

Sistema de Animación

Tres pasos por fotograma:

  1. Animación de Malla: Animación de la malla articulada de fondo
  2. Actualización de Splats: Actualización paralela de posiciones y orientaciones de splats gaussianos
  3. Ordenamiento por Profundidad: Ordenamiento de splats según perspectiva del observador

Puntos de Innovación Técnica

1. Procesamiento Paralelo de Splats

El Gaussian Splatting dinámico tradicional requiere actualizar datos de posición cada fotograma, causando degradación severa del rendimiento. Este artículo resuelve este problema mediante procesamiento paralelo de splats.

2. Optimización de Ordenamiento por Grupos

Para reducir el costo computacional del ordenamiento, se adopta una estrategia de ordenamiento por grupos:

  • Agrupación de splats por nivel de hueso
  • Ordenamiento a nivel de grupo en lugar de splat individual
  • Equilibrio entre cantidad de grupos y capacidades de hardware

3. Optimización para Dispositivos Móviles

  • Uso de malla formato VRM con 32k polígonos
  • Implementación en navegador basada en JavaScript y Three.js
  • Optimización de rendimiento para GPU móvil

Configuración Experimental

Plataforma de Implementación

  • Entorno de Desarrollo: JavaScript + Three.js (aplicación de navegador)
  • Escaneo 3D: Aplicación Scaniverse
  • Malla de Fondo: Formato VRM, 32k polígonos, tipo de cuerpo neutral
  • Dispositivos de Prueba: iPhone 13 Pro, computadora portátil con NVIDIA GeForce RTX 3060

Métricas de Rendimiento

  • Tiempo de procesamiento total: Aproximadamente 5 minutos (incluyendo escaneo)
  • Tiempo de generación de avatar: Aproximadamente 30 segundos
  • Tiempo de reconstrucción 3D: Aproximadamente 1 minuto (Scaniverse)
  • Velocidad de fotogramas de renderizado: 40-50 fps en dispositivo móvil, 240 fps en computadora portátil

Resultados Experimentales

Desempeño

Eficiencia Temporal:

  • Flujo completo: ~5 minutos
  • Generación de avatar: ~30 segundos
  • Escaneo 3D: ~1 minuto (iPhone 13 Pro)

Rendimiento de Renderizado:

  • iPhone 13 Pro: 40-50 fps
  • Computadora portátil RTX 3060: 240 fps (limitada por tasa de refresco del monitor)

Características del Sistema

  1. Alto grado de automatización: Pasos de preprocesamiento completamente automatizados
  2. Compatibilidad multiplataforma: Soporta dispositivos móviles, auriculares VR, plataformas web
  3. Soporte de formato estándar: Uso de formato VRM, facilitando integración con aplicaciones existentes
  4. Rendimiento en tiempo real: Mantiene renderizado en tiempo real mientras preserva alta calidad visual

Trabajos Relacionados

Investigación de Avatares Gaussian Splatting

El artículo cita múltiples trabajos relacionados:

  • GaussianAvatar1: Generación de avatares de personajes realistas a partir de video único
  • GauHuman2: Gaussian Splatting articulado para renderizado 3D de cuerpo humano en tiempo real
  • HUGS4: Splats Gaussianos de Cuerpo Humano
  • ExAvatar6: Avatares 3D Gaussian de cuerpo completo expresivos

Ventajas de Este Artículo

Comparado con métodos existentes, las principales ventajas de este artículo son:

  1. Velocidad de procesamiento: Solo 30 segundos comparado con 2-3 horas de ExAvatar
  2. Requisitos de dispositivo: Sin necesidad de GPU de gama alta o matrices de cámaras
  3. Accesibilidad: Completamente basado en dispositivos móviles y navegador
  4. Fidelidad: Mantiene alta calidad visual de Gaussian Splatting

Conclusiones y Discusión

Conclusiones Principales

  1. Implementación exitosa de un sistema rápido y de alta calidad para generación de avatares 3D
  2. Resolución efectiva de problemas de rendimiento en Gaussian Splatting dinámico mediante procesamiento paralelo y ordenamiento por grupos
  3. Implementación basada en WebXR asegura compatibilidad multiplataforma
  4. Optimización para dispositivos móviles permite que usuarios ordinarios utilicen convenientemente el sistema

Limitaciones

  1. Dependencia de aplicaciones de terceros: Requiere usar Scaniverse para escaneo 3D
  2. Restricciones de pose: Requiere pose A durante preprocesamiento, limitando casos de uso
  3. Precisión de malla: La calidad de la malla de fondo puede afectar el resultado final
  4. Compensación de ordenamiento por grupos: Sacrifica parte de la precisión de renderizado por compatibilidad móvil

Direcciones Futuras

  1. Integración de más soluciones de escaneo 3D, reduciendo dependencia de aplicaciones específicas
  2. Soporte para poses iniciales más diversas
  3. Optimización del algoritmo de ordenamiento por grupos, mejorando calidad de renderizado
  4. Extensión a escenarios de animación más complejos

Evaluación Profunda

Fortalezas

1. Practicidad Fuerte

  • Resuelve necesidades reales de usuarios
  • Solución completa de extremo a extremo
  • Diseño de experiencia de usuario adecuado

2. Innovación Técnica

  • Solución de procesamiento paralelo efectiva
  • Optimización inteligente de ordenamiento por grupos
  • Optimización de rendimiento para dispositivos móviles

3. Accesibilidad

  • Basado en dispositivos móviles ampliamente disponibles
  • Implementación en navegador, sin necesidad de instalación
  • Tiempo de procesamiento rápido

4. Compatibilidad Estándar

  • Uso de formato estándar VRM
  • Facilita integración con ecosistema existente

Insuficiencias

1. Simplicidad del Método

  • Método central relativamente simple, profundidad técnica limitada
  • Principalmente optimización de ingeniería en lugar de innovación algorítmica

2. Evaluación Insuficiente

  • Falta de comparación cuantitativa con otros métodos
  • Ausencia de investigación de usuarios o evaluación de calidad
  • Falta de pruebas en diferentes escenarios

3. Problemas de Dependencia

  • Dependencia de aplicación Scaniverse de terceros
  • Requisitos para pose inicial específica

4. Detalles Técnicos

  • Detalles de implementación del ordenamiento por grupos insuficientemente detallados
  • Falta de análisis de casos de fallo

Impacto

1. Contribución Académica

  • Proporciona referencia para aplicación de Gaussian Splatting en dispositivos móviles
  • Demuestra enfoque de diseño de sistemas prácticos

2. Valor Práctico

  • Alto valor práctico, adecuado para despliegue real
  • Significancia importante para aplicaciones de metaverso y redes sociales

3. Reproducibilidad

  • Basado en stack tecnológico estándar, fácil de reproducir
  • Potencial de código abierto considerable

Escenarios Aplicables

  1. Aplicaciones de Redes Sociales: Generación rápida de avatares personalizados
  2. Plataformas de Metaverso: Representación de identidad de usuario
  3. Conferencias Virtuales: Mejora de presencia
  4. Aplicaciones de Juegos: Personalización de personajes
  5. Experiencias AR/VR: Imágenes virtuales personalizadas

Referencias

El artículo cita 12 referencias relacionadas, cubriendo principalmente:

  • Tecnología fundamental de Gaussian Splatting3
  • Métodos de generación de avatares humanos1,2,4,5,6,8,9,11,12
  • Tecnología de reconstrucción 3D10
  • Aplicaciones comerciales de escaneo7

Estas referencias cubren bien el campo de investigación relacionado, proporcionando soporte de antecedentes suficiente para este trabajo.


Evaluación General: Este es un artículo de sistema con gran practicidad. Aunque es relativamente limitado en innovación algorítmica, hace contribuciones importantes en la resolución de problemas prácticos y mejora de accesibilidad. La rapidez del sistema y compatibilidad móvil le otorgan alto valor práctico, siendo adecuado para despliegue en aplicaciones reales.