We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- ID статьи: 2510.13978
- Название: Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
- Авторы: Naruya Kondo, Yuto Asano, Yoichi Ochiai (Университет Цукуба)
- Категория: cs.CG (Компьютерная графика)
- Дата публикации/конференция: SUI '25 (ACM Symposium on Spatial User Interaction), 10–11 ноября 2025 г., Монреаль, QC, Канада
- Ссылка на статью: https://arxiv.org/abs/2510.13978
В данной работе предлагается система Instant Skinned Gaussian Avatars — кроссплатформенная система трёхмерных аватаров в реальном времени. Существующие методы анимации Gaussian Splatting обычно требуют массивов камер, длительной предварительной обработки или высокопроизводительных GPU. Некоторые методы пытаются преобразовать Gaussian Splatting в представление на основе сетки, что обеспечивает лёгкую производительность, но жертвует визуальной точностью. В отличие от этого, предложенная система эффективно анимирует Gaussian Splatting посредством параллельной обработки сплатов, следуя в реальном времени динамическим изменениям базовой скелетированной сетки, сохраняя при этом высокую визуальную точность. От трёхмерного сканирования на основе смартфона до предварительной обработки на устройстве весь процесс занимает примерно 5 минут, при этом сам этап генерации аватара требует всего около 30 секунд. Система позволяет пользователям мгновенно преобразовать реальный внешний вид в трёхмерный аватар, что идеально подходит для беспрепятственной интеграции с приложениями социальных сетей и метавселенной.
Традиционное создание трёхмерных аватаров персонажей зависит от ручного моделирования или конвейеров фотограмметрии, которые либо требуют много времени и усилий, либо нуждаются в специализированном оборудовании. Хотя технология Gaussian Splatting показала отличные результаты в высокоточной реконструкции сцен и рендеринге в реальном времени, существующие методы анимации Gaussian Splatting имеют следующие ограничения:
- Высокие требования к оборудованию: необходимы массивы камер, высокопроизводительные GPU и другое дорогостоящее оборудование
- Длительное время предварительной обработки: например, ExAvatar требует 2–3 часов предварительной обработки
- Потеря визуальной точности: преобразование в представление на основе сетки снижает выразительность
- Плохая доступность: обычные пользователи испытывают трудности при использовании
Данное исследование направлено на решение проблемы доступности создания трёхмерных аватаров, позволяя обычным пользователям быстро и удобно создавать высококачественные трёхмерные аватары, что имеет важное значение для:
- Распространения приложений социальных сетей
- Улучшения пользовательского опыта на платформах метавселенной
- Виртуальных конференций и приложений цифровых двойников
- Опыта AR/VR на мобильных устройствах
- Система быстрой генерации аватаров: предложен полный конвейер от сканирования до создания аватара, занимающий всего 5 минут, при этом основной этап генерации требует 30 секунд
- Эффективный метод анимации: реализована анимация Gaussian Splatting в реальном времени посредством параллельной обработки сплатов с сохранением высокой визуальной точности
- Кроссплатформенная совместимость: реализация на основе WebXR поддерживает мобильные устройства, VR-гарнитуры и веб-платформы
- Оптимизация для мобильных устройств: специальная оптимизация для производительности мобильных устройств достигает 40–50 fps на iPhone 13 Pro
Входные данные: короткое видео, снятое одной камерой (через приложение Scaniverse)
Выходные данные: высокоточный трёхмерный аватар, поддающийся анимации в реальном времени
Ограничения:
- Совместимость с мобильными устройствами
- Производительность рендеринга в реальном времени
- Сохранение визуальной точности
Основная идея системы заключается в том, чтобы позволить гауссовым сплатам следовать за движением вершин фоновой трёхмерной сетки. На этапе предварительной обработки сплаты назначаются вершинам сетки и сохраняются относительные преобразования. Во время выполнения анимация фоновой сетки и параллельное обновление позиций гауссовых сплатов обеспечивают анимацию в реальном времени.
Шаг 1: трёхмерное сканирование
- Захват объекта в формате Gaussian Splatting с использованием приложения Scaniverse
- Требуется, чтобы объект находился в позе A для упрощения последующей обработки
Шаг 2: фильтрация облака точек
- Удаление точек, не принадлежащих объекту
- Фильтрация на основе правил по горизонтали и вертикали
- Нормализация позиции и масштаба сплатов
Шаг 3: оценка позы и локализация сетки
- Определение фронтального направления объекта и углов конечностей
- Размещение фоновой трёхмерной сетки в той же позиции, позе и масштабе
Шаг 4: привязка сплата к вершине
- Выбор ближайшей вершины сетки для каждого сплата посредством поиска ближайшего соседа
- Вычисление относительных преобразований
Шаг 5: вывод данных
- Вывод позы объекта, масштаба, индексов ближайших вершин и относительных преобразований
Три шага на каждый кадр:
- Анимация сетки: анимация фоновой скелетированной сетки
- Обновление сплатов: параллельное обновление позиций и ориентации гауссовых сплатов
- Сортировка по глубине: сортировка сплатов в соответствии с точкой зрения наблюдателя
Традиционное динамическое Gaussian Splatting требует обновления данных позиции на каждом кадре, что приводит к серьёзному снижению производительности. В данной работе эта проблема решена посредством параллельной обработки сплатов.
Для снижения вычислительных затрат на сортировку применяется стратегия сортировки по группам:
- Группировка сплатов на уровне костей
- Сортировка на уровне групп, а не отдельных сплатов
- Достижение баланса между количеством групп и возможностями оборудования
- Использование сетки формата VRM с 32 тысячами полигонов
- Реализация на основе JavaScript и Three.js в браузере
- Оптимизация производительности для мобильных GPU
- Среда разработки: JavaScript + Three.js (веб-приложение)
- Трёхмерное сканирование: приложение Scaniverse
- Фоновая сетка: формат VRM, 32 тысячи полигонов, нейтральный тип телосложения
- Тестовые устройства: iPhone 13 Pro, ноутбук с NVIDIA GeForce RTX 3060
- Общее время обработки: примерно 5 минут (включая сканирование)
- Время генерации аватара: примерно 30 секунд
- Время трёхмерной реконструкции: примерно 1 минута (Scaniverse)
- Частота кадров рендеринга: 40–50 fps на мобильных устройствах, 240 fps на ноутбуке
Временная эффективность:
- Полный конвейер: ~5 минут
- Генерация аватара: ~30 секунд
- Трёхмерное сканирование: ~1 минута (iPhone 13 Pro)
Производительность рендеринга:
- iPhone 13 Pro: 40–50 fps
- Ноутбук RTX 3060: 240 fps (ограничено частотой обновления дисплея)
- Высокая степень автоматизации: этапы предварительной обработки полностью автоматизированы
- Кроссплатформенная совместимость: поддержка мобильных устройств, VR-гарнитур и веб-платформ
- Поддержка стандартных форматов: использование формата VRM для удобной интеграции с существующими приложениями
- Производительность в реальном времени: сохранение рендеринга в реальном времени при поддержании высокого визуального качества
Статья ссылается на несколько связанных работ:
- GaussianAvatar1: генерация реалистичных аватаров персонажей из одного видео
- GauHuman2: сочленённое Gaussian Splatting для рендеринга трёхмерного человеческого тела в реальном времени
- HUGS4: человеческие гауссовы сплаты
- ExAvatar6: выразительные полнотелесные трёхмерные гауссовы аватары
По сравнению с существующими методами основные преимущества данной работы заключаются в:
- Скорость обработки: всего 30 секунд вместо 2–3 часов для ExAvatar
- Требования к устройству: не требуется высокопроизводительный GPU или массив камер
- Доступность: полностью основано на мобильных устройствах и браузере
- Точность: сохранение высокого визуального качества Gaussian Splatting
- Успешно реализована система быстрой генерации высококачественных трёхмерных аватаров
- Посредством параллельной обработки и сортировки по группам эффективно решена проблема производительности динамического Gaussian Splatting
- Реализация на основе WebXR обеспечивает кроссплатформенную совместимость
- Оптимизация для мобильных устройств позволяет обычным пользователям удобно использовать систему
- Зависимость от приложения третьей стороны: требуется использование Scaniverse для трёхмерного сканирования
- Ограничения позы: предварительная обработка требует позы A, что ограничивает сценарии использования
- Точность сетки: качество фоновой сетки может повлиять на окончательный результат
- Компромисс сортировки по группам: для совместимости с мобильными устройствами пожертвована часть точности рендеринга
- Интеграция большего количества решений трёхмерного сканирования для снижения зависимости от конкретных приложений
- Поддержка более разнообразных начальных поз
- Оптимизация алгоритма сортировки по группам для повышения качества рендеринга
- Расширение на более сложные сценарии анимации
- Решение реальных потребностей пользователей
- Полное комплексное решение
- Хороший дизайн пользовательского опыта
- Эффективное решение параллельной обработки
- Умная оптимизация сортировки по группам
- Оптимизация производительности для мобильных устройств
- Основано на распространённых мобильных устройствах
- Реализация в браузере без необходимости установки
- Быстрое время обработки
- Использование стандартного формата VRM
- Удобство интеграции с существующей экосистемой
- Относительно простой основной метод с ограниченной технической глубиной
- В основном инженерная оптимизация, а не алгоритмическая инновация
- Отсутствие количественного сравнения с другими методами
- Отсутствие исследований пользователей или оценки качества
- Недостаток тестирования в различных сценариях
- Зависимость от приложения Scaniverse третьей стороны
- Требования к начальной позе
- Недостаточно подробное описание деталей реализации сортировки по группам
- Отсутствие анализа случаев отказа
- Предоставление справочной информации для применения Gaussian Splatting на мобильных устройствах
- Демонстрация подхода к проектированию практических систем
- Высокая практическая ценность, пригодна для реального развёртывания
- Важное значение для приложений метавселенной и социальных сетей
- Основано на стандартных технологических стеках, легко воспроизводится
- Большой потенциал для открытого исходного кода
- Приложения социальных сетей: быстрая генерация персонализированных аватаров
- Платформы метавселенной: представление пользовательской идентичности
- Виртуальные конференции: повышение присутствия
- Игровые приложения: кастомизация персонажей
- Опыт AR/VR: персонализированные виртуальные образы
Статья ссылается на 12 связанных работ, охватывающих в основном:
- Базовые технологии Gaussian Splatting3
- Методы генерации аватаров человека1,2,4,5,6,8,9,11,12
- Технологии трёхмерной реконструкции10
- Коммерческие приложения сканирования7
Эти ссылки хорошо охватывают соответствующие области исследований и обеспечивают достаточную основу для данной работы.
Общая оценка: Это практичная системная статья с ограниченными алгоритмическими инновациями, но с важными вкладами в решение практических проблем и повышение доступности. Быстродействие и мобильная совместимость системы обеспечивают высокую практическую ценность, что делает её пригодной для развёртывания в реальных приложениях.