We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- ID de l'article : 2510.13978
- Titre : Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
- Auteurs : Naruya Kondo, Yuto Asano, Yoichi Ochiai (Université de Tsukuba)
- Classification : cs.CG (Infographie)
- Date de publication/Conférence : SUI '25 (Symposium ACM sur l'Interaction Spatiale Utilisateur), 10-11 novembre 2025, Montréal, QC, Canada
- Lien de l'article : https://arxiv.org/abs/2510.13978
Cet article propose les Avatars Gaussiens Skinés Instantanés, un système d'avatars 3D temps réel multiplateforme. Les méthodes d'animation Gaussian Splatting existantes nécessitent généralement des réseaux de caméras, un long prétraitement ou des GPU haut de gamme. Certaines approches tentent de convertir Gaussian Splatting en représentations basées sur des mailles, ce qui réalise des performances légères mais sacrifie la fidélité visuelle. En contraste, ce système anime efficacement Gaussian Splatting par traitement parallèle des splats, suivant en temps réel les changements dynamiques de la maille skinée sous-jacente, tout en maintenant une haute fidélité visuelle. Du balayage 3D basé sur smartphone au prétraitement sur appareil, l'ensemble du processus ne nécessite qu'environ 5 minutes, l'étape de génération d'avatar elle-même ne prenant qu'environ 30 secondes. Ce système permet aux utilisateurs de convertir instantanément l'apparence du monde réel en avatars 3D, idéal pour une intégration transparente avec les applications de médias sociaux et métavers.
La création traditionnelle d'avatars 3D personnalisés dépend de la modélisation manuelle ou de pipelines de photogrammétrie, méthodes qui sont soit chronophages, soit nécessitent des équipements professionnels. Bien que la technologie Gaussian Splatting se soit avérée excellente pour la reconstruction de scènes haute fidélité et le rendu temps réel, les méthodes d'animation Gaussian Splatting existantes présentent les limitations suivantes :
- Exigences matérielles élevées : nécessitent des réseaux de caméras, des GPU haut de gamme et autres équipements coûteux
- Temps de prétraitement long : ExAvatar nécessite 2-3 heures de prétraitement
- Perte de fidélité visuelle : la conversion en représentation maillée réduit l'expressivité
- Accessibilité faible : difficile à utiliser pour les utilisateurs ordinaires
Cette recherche vise à résoudre le problème d'accessibilité de la création d'avatars 3D, permettant aux utilisateurs ordinaires de créer rapidement et facilement des avatars 3D de haute qualité. Ceci est important pour :
- la popularisation des applications de médias sociaux
- l'expérience utilisateur des plateformes métavers
- les conférences virtuelles et les applications de jumeaux numériques
- les expériences AR/VR sur appareils mobiles
- Système de génération d'avatar rapide : propose un processus complet de balayage à création d'avatar ne nécessitant que 5 minutes, l'étape de génération principale ne prenant que 30 secondes
- Méthode d'animation efficace : réalise l'animation temps réel de Gaussian Splatting par traitement parallèle des splats, maintenant une haute fidélité visuelle
- Compatibilité multiplateforme : l'implémentation basée sur WebXR supporte les appareils mobiles, les casques VR et les plateformes web
- Optimisation pour appareils mobiles : optimisée spécifiquement pour les performances des appareils mobiles, atteignant 40-50 fps sur iPhone 13 Pro
Entrée : vidéo courte capturée avec une seule caméra (via l'application Scaniverse)
Sortie : avatar 3D haute fidélité animable en temps réel
Contraintes :
- Compatibilité avec appareils mobiles
- Performance de rendu temps réel
- Maintien de la fidélité visuelle
L'idée centrale du système est de faire suivre les splats Gaussiens par le mouvement des sommets de la maille 3D d'arrière-plan. Lors de la phase de prétraitement, les splats sont assignés aux sommets de la maille et les relations de transformation relative sont stockées. À l'exécution, l'animation de la maille d'arrière-plan et la mise à jour parallèle des positions des splats Gaussiens réalisent l'animation temps réel.
Étape 1 : Balayage 3D
- Capture du sujet au format Gaussian Splatting à l'aide de l'application Scaniverse
- Le sujet doit adopter une pose A pour simplifier le traitement ultérieur
Étape 2 : Filtrage du Nuage de Points
- Suppression des points n'appartenant pas au sujet
- Filtrage horizontal et vertical basé sur des règles
- Normalisation de la position et de l'échelle des splats
Étape 3 : Estimation de Pose et Localisation de Maille
- Déduction de la direction frontale du sujet et des angles des membres
- Placement de la maille 3D d'arrière-plan à la même position, pose et échelle
Étape 4 : Liaison Splat-Sommet
- Sélection du sommet de maille le plus proche pour chaque splat par recherche du plus proche voisin
- Calcul des relations de transformation relative
Étape 5 : Sortie des Données
- Sortie de la pose du sujet, de l'échelle, des indices de sommet les plus proches et des transformations relatives
Trois étapes par image :
- Animation de Maille : animation de la maille skinée d'arrière-plan
- Mise à Jour des Splats : mise à jour parallèle des positions et orientations des splats Gaussiens
- Tri en Profondeur : tri des splats selon la perspective de l'observateur
Le Gaussian Splatting dynamique traditionnel nécessite la mise à jour des données de position à chaque image, causant une baisse sévère de performance. Cet article résout ce problème par traitement parallèle des splats.
Pour réduire le coût computationnel du tri, une stratégie de tri groupé est adoptée :
- Groupage des splats au niveau des os
- Tri au niveau des groupes plutôt que des splats individuels
- Équilibre entre le nombre de groupes et les capacités matérielles
- Utilisation de mailles au format VRM avec 32k polygones
- Implémentation basée sur JavaScript et Three.js dans le navigateur
- Optimisations de performance pour GPU mobile
- Environnement de développement : JavaScript + Three.js (application navigateur)
- Balayage 3D : application Scaniverse
- Maille d'arrière-plan : format VRM, 32k polygones, morphologie neutre
- Appareils de test : iPhone 13 Pro, ordinateur portable équipé d'NVIDIA GeForce RTX 3060
- Temps de traitement total : environ 5 minutes (incluant le balayage)
- Temps de génération d'avatar : environ 30 secondes
- Temps de reconstruction 3D : environ 1 minute (Scaniverse)
- Fréquence d'images de rendu : 40-50 fps sur appareil mobile, 240 fps sur ordinateur portable
Efficacité Temporelle :
- Processus complet : ~5 minutes
- Génération d'avatar : ~30 secondes
- Balayage 3D : ~1 minute (iPhone 13 Pro)
Performance de Rendu :
- iPhone 13 Pro : 40-50 fps
- Ordinateur portable RTX 3060 : 240 fps (limité par le taux de rafraîchissement de l'écran)
- Haut degré d'automatisation : étapes de prétraitement entièrement automatisées
- Compatibilité multiplateforme : support des appareils mobiles, casques VR, plateformes web
- Support des formats standards : utilisation du format VRM, facilitant l'intégration avec les applications existantes
- Performance temps réel : maintien du rendu temps réel tout en préservant une haute qualité visuelle
L'article cite plusieurs travaux connexes :
- GaussianAvatar1 : génération d'avatars personnalisés réalistes à partir d'une vidéo unique
- GauHuman2 : Gaussian Splatting articulé pour rendu 3D du corps humain en temps réel
- HUGS4 : Splats Gaussiens du corps humain
- ExAvatar6 : avatars 3D Gaussiens expressifs en corps entier
Par rapport aux méthodes existantes, les principaux avantages de cet article sont :
- Vitesse de traitement : seulement 30 secondes contre 2-3 heures pour ExAvatar
- Exigences matérielles : pas besoin de GPU haut de gamme ou de réseau de caméras
- Accessibilité : entièrement basé sur appareils mobiles et navigateur
- Fidélité : maintien de la haute qualité visuelle de Gaussian Splatting
- Implémentation réussie d'un système de génération d'avatars 3D rapide et de haute qualité
- Résolution efficace des problèmes de performance du Gaussian Splatting dynamique par traitement parallèle et tri groupé
- L'implémentation basée sur WebXR assure la compatibilité multiplateforme
- L'optimisation pour appareils mobiles permet aux utilisateurs ordinaires une utilisation pratique
- Dépendance à une application tierce : nécessite l'utilisation de Scaniverse pour le balayage 3D
- Contrainte de pose : nécessite une pose A lors du prétraitement, limitant les cas d'usage
- Précision de la maille : la qualité de la maille d'arrière-plan peut affecter le résultat final
- Compromis du tri groupé : sacrifice de la précision de rendu pour la compatibilité mobile
- Intégration de plus de solutions de balayage 3D, réduisant la dépendance à une application spécifique
- Support de poses initiales plus variées
- Optimisation de l'algorithme de tri groupé pour améliorer la qualité de rendu
- Extension à des scènes d'animation plus complexes
- Résout des besoins utilisateurs réels
- Solution complète de bout en bout
- Conception d'expérience utilisateur de qualité
- Solution de traitement parallèle efficace
- Optimisation intelligente du tri groupé
- Optimisation de performance pour appareils mobiles
- Basé sur appareils mobiles largement disponibles
- Implémentation navigateur, pas d'installation nécessaire
- Temps de traitement rapide
- Utilisation du format standard VRM
- Facilite l'intégration avec l'écosystème existant
- Méthode centrale relativement simple, profondeur technique limitée
- Principalement optimisation d'ingénierie plutôt qu'innovation algorithmique
- Manque de comparaison quantitative avec d'autres méthodes
- Absence d'études utilisateur ou d'évaluation de qualité
- Manque de tests dans différents scénarios
- Dépendance à l'application tierce Scaniverse
- Exigences concernant la pose initiale
- Détails d'implémentation du tri groupé insuffisamment détaillés
- Manque d'analyse des cas d'échec
- Fournit une référence pour l'application de Gaussian Splatting sur appareils mobiles
- Démontre l'approche de conception de systèmes pratiques
- Haute valeur pratique, adaptée au déploiement réel
- Importance significative pour les applications métavers et médias sociaux
- Basé sur pile technologique standard, facile à reproduire
- Potentiel d'open-source important
- Applications de Médias Sociaux : génération rapide d'avatars personnalisés
- Plateformes Métavers : représentation d'identité utilisateur
- Conférences Virtuelles : amélioration de la présence
- Applications de Jeux : personnalisation de caractères
- Expériences AR/VR : images virtuelles personnalisées
L'article cite 12 références connexes, couvrant principalement :
- Technologie fondamentale Gaussian Splatting3
- Méthodes de génération d'avatars humains1,2,4,5,6,8,9,11,12
- Technologie de reconstruction 3D10
- Applications commerciales de balayage7
Ces références couvrent bien le domaine de recherche connexe, fournissant un soutien contextuel suffisant au travail présenté.
Évaluation Globale : Ceci est un article de système très pratique qui, bien que relativement limité en innovation algorithmique, apporte des contributions importantes à la résolution de problèmes pratiques et à l'amélioration de l'accessibilité. La rapidité et la compatibilité mobile du système lui confèrent une très haute valeur pratique, le rendant adapté au déploiement dans des applications réelles.