We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- Paper-ID: 2510.13978
- Titel: Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
- Autoren: Naruya Kondo, Yuto Asano, Yoichi Ochiai (Universität Tsukuba)
- Klassifizierung: cs.CG (Computergrafik)
- Veröffentlichungszeitpunkt/Konferenz: SUI '25 (ACM Symposium on Spatial User Interaction), 10.–11. November 2025, Montreal, QC, Kanada
- Paper-Link: https://arxiv.org/abs/2510.13978
In diesem Papier wird Instant Skinned Gaussian Avatars vorgestellt, ein Echtzeit-Plattformübergreifendes 3D-Avatar-System. Bestehende Animationsmethoden für Gaussian Splatting erfordern typischerweise Kamera-Arrays, lange Vorverarbeitungszeiten oder High-End-GPUs. Einige Methoden versuchen, Gaussian Splatting in netzbasierte Darstellungen umzuwandeln, was zwar leichte Leistung ermöglicht, aber die visuelle Wiedergabetreue beeinträchtigt. Im Gegensatz dazu animiert dieses System Gaussian Splatting durch parallele Splat-Verarbeitung effizient und folgt in Echtzeit den dynamischen Veränderungen des zugrunde liegenden Skinning-Netzes, während es hohe visuelle Wiedergabetreue beibehält. Der gesamte Prozess vom smartphone-basierten 3D-Scan bis zur On-Device-Vorverarbeitung dauert nur etwa 5 Minuten, wobei der Avatar-Generierungsschritt selbst nur etwa 30 Sekunden dauert. Das System ermöglicht es Benutzern, das Erscheinungsbild der realen Welt sofort in einen 3D-Avatar umzuwandeln, was sich ideal für die nahtlose Integration mit Social-Media- und Metaverse-Anwendungen eignet.
Die traditionelle Erstellung von 3D-Charakter-Avataren ist abhängig von manueller Modellierung oder Photogrammetrie-Pipelines, die entweder zeitaufwändig oder ressourcenintensiv sind oder spezialisierte Ausrüstung erfordern. Obwohl die Gaussian-Splatting-Technologie bei hochauflösender Szenenrekonstruktion und Echtzeit-Rendering hervorragende Ergebnisse zeigt, weisen bestehende Animationsmethoden für Gaussian Splatting folgende Einschränkungen auf:
- Hohe Hardwareanforderungen: Erfordern Kamera-Arrays, High-End-GPUs und andere teure Geräte
- Lange Vorverarbeitungszeiten: ExAvatar benötigt beispielsweise 2–3 Stunden Vorverarbeitungszeit
- Verlust der visuellen Wiedergabetreue: Die Umwandlung in Netzdarstellung reduziert die Ausdruckskraft
- Schlechte Zugänglichkeit: Schwierig für Durchschnittsbenutzer zu verwenden
Diese Forschung zielt darauf ab, das Zugänglichkeitsproblem bei der Erstellung von 3D-Avataren zu lösen und es Durchschnittsbenutzern zu ermöglichen, schnell und bequem hochwertige 3D-Avatare zu erstellen. Dies ist wichtig für:
- Die Verbreitung von Social-Media-Anwendungen
- Die Benutzererfahrung auf Metaverse-Plattformen
- Virtuelle Konferenzen und Digital-Twin-Anwendungen
- AR/VR-Erlebnisse auf mobilen Geräten
- Schnelles Avatar-Generierungssystem: Präsentation eines vollständigen Workflows, der von der Erfassung bis zur Avatar-Erstellung nur 5 Minuten dauert, wobei der Kerngenerierschritt nur 30 Sekunden dauert
- Effiziente Animationsmethode: Realisierung von Echtzeit-Animation für Gaussian Splatting durch parallele Splat-Verarbeitung unter Beibehaltung hoher visueller Wiedergabetreue
- Plattformübergreifende Kompatibilität: WebXR-basierte Implementierung unterstützt mobile Geräte, VR-Headsets und Web-Plattformen
- Optimierung für mobile Geräte: Speziell für mobile Geräte optimiert, erreicht 40–50 fps auf iPhone 13 Pro
Eingabe: Kurzvideo, das mit einer einzelnen Kamera aufgenommen wurde (über die Scaniverse-Anwendung)
Ausgabe: Hochauflösender 3D-Avatar mit Echtzeit-Animation
Einschränkungen:
- Kompatibilität mit mobilen Geräten
- Echtzeit-Rendering-Leistung
- Beibehaltung der visuellen Wiedergabetreue
Die Kernidee des Systems besteht darin, dass Gaussian Splats der Bewegung der Eckpunkte des Hintergrund-3D-Netzes folgen. In der Vorverarbeitungsphase werden Splats Netzeckpunkten zugeordnet und relative Transformationsbeziehungen gespeichert. Zur Laufzeit wird Echtzeit-Animation durch Animation des Hintergrund-Netzes und parallele Aktualisierung der Gaussian-Splat-Positionen erreicht.
Schritt 1: 3D-Erfassung
- Erfassung des Subjekts im Gaussian-Splatting-Format mit der Scaniverse-Anwendung
- Das Subjekt muss sich in A-Pose befinden, um die nachfolgende Verarbeitung zu vereinfachen
Schritt 2: Punktwolken-Filterung
- Entfernung von Punkten, die nicht zum Subjekt gehören
- Regelbasierte horizontale und vertikale Filterung
- Normalisierung der Splat-Positionen und -Größen
Schritt 3: Pose-Schätzung und Netz-Ausrichtung
- Inferenz der Vorderseite des Subjekts und der Gliedmaßenwinkel
- Platzierung des Hintergrund-3D-Netzes an derselben Position, Pose und Größe
Schritt 4: Splat-Vertex-Bindung
- Auswahl des nächsten Netzeckpunkts für jeden Splat durch Nearest-Neighbor-Suche
- Berechnung der relativen Transformationsbeziehungen
Schritt 5: Datenausgabe
- Ausgabe der Subjekt-Pose, Größe, nächster Vertex-Indizes und relativer Transformationen
Drei Schritte pro Frame:
- Netz-Animation: Animation des Hintergrund-Skinning-Netzes
- Splat-Aktualisierung: Parallele Aktualisierung der Positionen und Orientierungen der Gaussian Splats
- Tiefensortierung: Sortierung der Splats gemäß der Beobachterperspektive
Traditionelle dynamische Gaussian-Splatting-Methoden erfordern die Aktualisierung von Positionsdaten in jedem Frame, was zu erheblichen Leistungseinbußen führt. Dieses Papier löst dieses Problem durch parallele Splat-Verarbeitung.
Um die Berechnungskosten der Sortierung zu reduzieren, wird eine Gruppensortierungsstrategie verwendet:
- Gruppierung von Splats auf Skelett-Ebene
- Sortierung auf Gruppenebene statt einzelner Splats
- Ausgleich zwischen Gruppenzahl und Hardware-Kapazität
- Verwendung von VRM-Format-Netzen mit 32k Polygonen
- Browser-Implementierung basierend auf JavaScript und Three.js
- Leistungsoptimierung für mobile GPUs
- Entwicklungsumgebung: JavaScript + Three.js (Browser-Anwendung)
- 3D-Erfassung: Scaniverse-Anwendung
- Hintergrund-Netz: VRM-Format, 32k Polygone, neutraler Körpertyp
- Test-Geräte: iPhone 13 Pro, Laptop mit NVIDIA GeForce RTX 3060
- Gesamtverarbeitungszeit: ca. 5 Minuten (einschließlich Erfassung)
- Avatar-Generierungszeit: ca. 30 Sekunden
- 3D-Rekonstruktionszeit: ca. 1 Minute (Scaniverse)
- Rendering-Bildrate: 40–50 fps auf mobilen Geräten, 240 fps auf Laptop
Zeiteffizienz:
- Vollständiger Workflow: ~5 Minuten
- Avatar-Generierung: ~30 Sekunden
- 3D-Erfassung: ~1 Minute (iPhone 13 Pro)
Rendering-Leistung:
- iPhone 13 Pro: 40–50 fps
- RTX 3060 Laptop: 240 fps (begrenzt durch Monitor-Bildwiederholfrequenz)
- Hoher Automatisierungsgrad: Vorverarbeitungsschritte sind vollständig automatisiert
- Plattformübergreifende Kompatibilität: Unterstützt mobile Geräte, VR-Headsets und Web-Plattformen
- Unterstützung von Standardformaten: Verwendung des VRM-Formats für einfache Integration mit bestehenden Anwendungen
- Echtzeit-Leistung: Beibehaltung von Echtzeit-Rendering bei gleichzeitiger Aufrechterhaltung hoher visueller Qualität
Das Papier zitiert mehrere verwandte Arbeiten:
- GaussianAvatar1: Generierung realistischer Charakter-Avatare aus einzelnen Videos
- GauHuman2: Artikuliertes Gaussian Splatting für Echtzeit-3D-Körper-Rendering
- HUGS4: Human Gaussian Splats
- ExAvatar6: Ausdrucksstarke vollständige 3D-Gaussian-Avatare
Die Hauptvorteile gegenüber bestehenden Methoden sind:
- Verarbeitungsgeschwindigkeit: Im Gegensatz zu ExAvatar mit 2–3 Stunden benötigt dieses Papier nur 30 Sekunden
- Geräte-Anforderungen: Keine High-End-GPU oder Kamera-Arrays erforderlich
- Zugänglichkeit: Vollständig basierend auf mobilen Geräten und Browsern
- Wiedergabetreue: Beibehaltung der hohen visuellen Qualität von Gaussian Splatting
- Erfolgreiche Realisierung eines schnellen und hochqualitativen 3D-Avatar-Generierungssystems
- Effektive Lösung der Leistungsprobleme dynamischer Gaussian-Splatting durch parallele Verarbeitung und Gruppensortierung
- WebXR-basierte Implementierung gewährleistet plattformübergreifende Kompatibilität
- Mobile Geräte-Optimierung ermöglicht es Durchschnittsbenutzern, das System bequem zu nutzen
- Abhängigkeit von Drittanbieter-Anwendungen: Erfordert die Verwendung von Scaniverse für 3D-Erfassung
- Pose-Einschränkungen: Vorverarbeitung erfordert A-Pose, was die Anwendungsszenarien einschränkt
- Netz-Genauigkeit: Die Qualität des Hintergrund-Netzes kann das Endergebnis beeinflussen
- Gruppensortierungs-Kompromiss: Opferung von Rendering-Präzision für mobile Kompatibilität
- Integration weiterer 3D-Erfassungslösungen zur Verringerung der Abhängigkeit von spezifischen Anwendungen
- Unterstützung vielfältigerer Anfangsposen
- Optimierung des Gruppensortierungs-Algorithmus zur Verbesserung der Rendering-Qualität
- Erweiterung auf komplexere Animations-Szenarien
- Lösung echter Benutzeranforderungen
- Vollständige End-to-End-Lösung
- Gutes Benutzerfahrts-Design
- Effektive Parallelverarbeitungslösung
- Clevere Gruppensortierungs-Optimierung
- Mobile Geräte-Leistungsoptimierung
- Basierend auf weit verbreiteten mobilen Geräten
- Browser-Implementierung ohne Installation erforderlich
- Schnelle Verarbeitungszeit
- Verwendung des VRM-Standardformats
- Einfache Integration mit bestehenden Ökosystemen
- Relativ einfache Kernmethode mit begrenzter technischer Tiefe
- Hauptsächlich Ingenieur-Optimierung statt Algorithmus-Innovation
- Fehlende quantitative Vergleiche mit anderen Methoden
- Keine Benutzerforschung oder Qualitätsbewertung
- Mangelnde Tests in verschiedenen Szenarien
- Abhängigkeit von der Drittanbieter-Anwendung Scaniverse
- Anforderungen an die Anfangspose
- Unzureichend detaillierte Implementierungsdetails der Gruppensortierung
- Fehlende Analyse von Fehlerfällen
- Bietet Referenzen für die Anwendung von Gaussian Splatting auf mobilen Geräten
- Zeigt Designgedanken für praktische Systeme
- Hoher praktischer Wert, geeignet für tatsächliche Bereitstellung
- Wichtig für Metaverse- und Social-Media-Anwendungen
- Basierend auf Standard-Technologie-Stack, leicht zu reproduzieren
- Großes Open-Source-Potenzial
- Social-Media-Anwendungen: Schnelle Generierung personalisierter Avatare
- Metaverse-Plattformen: Benutzer-Identitätsdarstellung
- Virtuelle Konferenzen: Verbesserung des Präsenzgefühls
- Spiele-Anwendungen: Charakter-Anpassung
- AR/VR-Erlebnisse: Personalisierte virtuelle Erscheinungsbilder
Das Papier zitiert 12 verwandte Literaturquellen, die hauptsächlich folgende Bereiche abdecken:
- Grundlegende Gaussian-Splatting-Technologie3
- Methoden zur Generierung von Körper-Avataren1,2,4,5,6,8,9,11,12
- 3D-Rekonstruktionstechnologie10
- Kommerzielle Erfassungsanwendungen7
Diese Literaturverweise decken das relevante Forschungsgebiet gut ab und bieten ausreichende Hintergrundinformationen für diese Arbeit.
Gesamtbewertung: Dies ist ein äußerst praktisches Systemarbeit-Papier, das zwar in Bezug auf Algorithmus-Innovation relativ begrenzt ist, aber wichtige Beiträge zur Lösung praktischer Probleme und zur Verbesserung der Zugänglichkeit leistet. Die Schnelligkeit und mobile Kompatibilität des Systems verleihen ihm hohen praktischen Wert und machen es für die Bereitstellung in realen Anwendungen geeignet.