We present Instant Skinned Gaussian Avatars, a real-time and cross-platform 3D avatar system. Many approaches have been proposed to animate Gaussian Splatting, but they often require camera arrays, long preprocessing times, or high-end GPUs. Some methods attempt to convert Gaussian Splatting into mesh-based representations, achieving lightweight performance but sacrificing visual fidelity. In contrast, our system efficiently animates Gaussian Splatting by leveraging parallel splat-wise processing to dynamically follow the underlying skinned mesh in real time while preserving high visual fidelity. From smartphone-based 3D scanning to on-device preprocessing, the entire process takes just around five minutes, with the avatar generation step itself completed in only about 30 seconds. Our system enables users to instantly transform their real-world appearance into a 3D avatar, making it ideal for seamless integration with social media and metaverse applications. Website: https://sites.google.com/view/gaussian-vrm
- 논문 ID: 2510.13978
- 제목: Instant Skinned Gaussian Avatars for Web, Mobile and VR Applications
- 저자: Naruya Kondo, Yuto Asano, Yoichi Ochiai (University of Tsukuba)
- 분류: cs.CG (컴퓨터 그래픽스)
- 발표 시간/학회: SUI '25 (ACM Symposium on Spatial User Interaction), 2025년 11월 10-11일, 몬트리올, QC, 캐나다
- 논문 링크: https://arxiv.org/abs/2510.13978
본 논문은 실시간 크로스 플랫폼 3D 아바타 시스템인 Instant Skinned Gaussian Avatars를 제안한다. 기존의 가우시안 스플래팅 애니메이션 방법은 일반적으로 카메라 어레이, 장시간의 전처리 또는 고사양 GPU를 필요로 한다. 일부 방법은 가우시안 스플래팅을 메시 기반 표현으로 변환하여 경량 성능을 달성하지만 시각적 충실도를 희생한다. 이와 대조적으로, 본 시스템은 병렬 스플래트 처리를 통해 가우시안 스플래팅을 효율적으로 애니메이션화하며, 기저 스킨 메시의 동적 변화를 실시간으로 추적하면서 높은 시각적 충실도를 유지한다. 스마트폰 기반 3D 스캔에서 온디바이스 전처리까지 전체 프로세스는 약 5분만 소요되며, 아바타 생성 단계 자체는 약 30초만 필요하다. 본 시스템은 사용자가 실제 세계의 외관을 즉시 3D 아바타로 변환할 수 있게 하며, 소셜 미디어 및 메타버스 애플리케이션과의 원활한 통합에 매우 적합하다.
전통적인 3D 인물 아바타 생성은 수동 모델링 또는 포토그래메트리 파이프라인에 의존하며, 이러한 방법은 시간과 비용이 많이 들거나 전문 장비를 필요로 한다. 가우시안 스플래팅 기술이 고충실도 장면 재구성 및 실시간 렌더링에서 우수한 성능을 보이지만, 기존의 가우시안 스플래팅 애니메이션 방법은 다음과 같은 제한사항이 있다:
- 높은 하드웨어 요구사항: 카메라 어레이, 고사양 GPU 등 비용이 많이 드는 장비 필요
- 긴 전처리 시간: ExAvatar의 경우 2-3시간의 전처리 시간 필요
- 시각적 충실도 손실: 메시 표현으로의 변환은 표현력 감소
- 낮은 접근성: 일반 사용자의 사용 어려움
본 연구는 3D 아바타 생성의 접근성 문제를 해결하여 일반 사용자가 빠르고 편리하게 고품질 3D 아바타를 생성할 수 있도록 하는 것을 목표로 하며, 이는 다음에 중요한 의미를 갖는다:
- 소셜 미디어 애플리케이션의 보급
- 메타버스 플랫폼의 사용자 경험
- 가상 회의 및 디지털 트윈 애플리케이션
- 모바일 디바이스에서의 AR/VR 경험
- 빠른 아바타 생성 시스템: 스캔에서 아바타 생성까지 5분만 소요되는 완전한 프로세스 제안, 핵심 생성 단계는 30초만 필요
- 효율적인 애니메이션 방법: 병렬 스플래트 처리를 통해 가우시안 스플래팅의 실시간 애니메이션 구현, 높은 시각적 충실도 유지
- 크로스 플랫폼 호환성: WebXR 기반 구현으로 모바일 디바이스, VR 헤드셋 및 웹 플랫폼 지원
- 모바일 디바이스 최적화: 모바일 디바이스 성능을 위해 특별히 최적화되어 iPhone 13 Pro에서 40-50 fps 달성
입력: 단일 카메라로 촬영한 짧은 비디오 (Scaniverse 애플리케이션을 통해)
출력: 실시간 애니메이션 가능한 고충실도 3D 아바타
제약 조건:
- 모바일 디바이스 호환성
- 실시간 렌더링 성능
- 시각적 충실도 유지
시스템의 핵심 개념은 가우시안 스플래트가 배경 3D 메시의 정점 운동을 따르도록 하는 것이다. 전처리 단계에서 스플래트를 메시 정점에 할당하고 상대 변환 관계를 저장한다. 런타임에 배경 메시를 애니메이션화하고 가우시안 스플래트 위치를 병렬로 업데이트하여 실시간 애니메이션을 구현한다.
단계 1: 3D 스캔
- Scaniverse 애플리케이션을 사용하여 가우시안 스플래팅 형식의 주체 캡처
- 후속 처리를 단순화하기 위해 A-pose 필요
단계 2: 점군 필터링
- 주체에 속하지 않는 점 제거
- 규칙 기반 수평 및 수직 필터링
- 스플래트의 위치 및 스케일 정규화
단계 3: 자세 추정 및 메시 정렬
- 주체의 정면 방향 및 사지 각도 추론
- 동일한 위치, 자세 및 스케일에 배경 3D 메시 배치
단계 4: 스플래트-정점 바인딩
- 최근접 이웃 검색을 통해 각 스플래트에 대해 가장 가까운 메시 정점 선택
- 상대 변환 관계 계산
단계 5: 데이터 출력
- 주체 자세, 스케일, 가장 가까운 정점 인덱스 및 상대 변환 출력
매 프레임 세 가지 단계:
- 메시 애니메이션: 배경 스킨 메시 애니메이션화
- 스플래트 업데이트: 가우시안 스플래트의 위치 및 방향을 병렬로 업데이트
- 깊이 정렬: 관찰자 시점에 따라 스플래트 정렬
전통적인 동적 가우시안 스플래팅은 매 프레임 위치 데이터를 업데이트해야 하므로 성능이 심각하게 저하된다. 본 논문은 병렬 스플래트 처리를 통해 이 문제를 해결한다.
정렬의 계산 비용을 줄이기 위해 그룹 정렬 전략을 채택한다:
- 스플래트를 뼈 수준별로 그룹화
- 개별 스플래트 정렬이 아닌 그룹 수준에서 정렬
- 그룹 수량과 하드웨어 능력 사이의 균형 유지
- 32k 다각형의 VRM 형식 메시 사용
- JavaScript 및 Three.js 기반 브라우저 구현
- 모바일 GPU를 위한 성능 최적화
- 개발 환경: JavaScript + Three.js (브라우저 애플리케이션)
- 3D 스캔: Scaniverse 애플리케이션
- 배경 메시: VRM 형식, 32k 다각형, 중성 체형
- 테스트 디바이스: iPhone 13 Pro, NVIDIA GeForce RTX 3060이 탑재된 노트북 컴퓨터
- 총 처리 시간: 약 5분 (스캔 포함)
- 아바타 생성 시간: 약 30초
- 3D 재구성 시간: 약 1분 (Scaniverse)
- 렌더링 프레임 레이트: 모바일 디바이스 40-50 fps, 노트북 컴퓨터 240 fps
시간 효율성:
- 완전한 프로세스: ~5분
- 아바타 생성: ~30초
- 3D 스캔: ~1분 (iPhone 13 Pro)
렌더링 성능:
- iPhone 13 Pro: 40-50 fps
- RTX 3060 노트북: 240 fps (디스플레이 새로고침 빈도로 제한)
- 높은 자동화 수준: 전처리 단계 완전 자동화
- 크로스 플랫폼 호환: 모바일 디바이스, VR 헤드셋, 웹 플랫폼 지원
- 표준 형식 지원: VRM 형식 사용으로 기존 애플리케이션과의 통합 용이
- 실시간 성능: 실시간 렌더링을 유지하면서 높은 시각적 품질 유지
논문은 여러 관련 연구를 인용한다:
- GaussianAvatar1: 단일 비디오에서 사실적인 인물 아바타 생성
- GauHuman2: 실시간 3D 인체 렌더링을 위한 관절화된 가우시안 스플래팅
- HUGS4: 인체 가우시안 스플래트
- ExAvatar6: 표현력 풍부한 전신 3D 가우시안 아바타
기존 방법과 비교하여 본 논문의 주요 장점은:
- 처리 속도: ExAvatar의 2-3시간 대비 30초만 소요
- 디바이스 요구사항: 고사양 GPU나 카메라 어레이 불필요
- 접근성: 완전히 모바일 디바이스 및 브라우저 기반
- 충실도: 가우시안 스플래팅의 높은 시각적 품질 유지
- 빠르고 고품질의 3D 아바타 생성 시스템 구현 성공
- 병렬 처리 및 그룹 정렬을 통해 동적 가우시안 스플래팅의 성능 문제 효과적 해결
- WebXR 기반 구현으로 크로스 플랫폼 호환성 확보
- 모바일 디바이스 최적화로 일반 사용자의 편리한 사용 가능
- 제3자 애플리케이션 의존: 3D 스캔을 위해 Scaniverse 사용 필요
- 자세 제약: 전처리 시 A-pose 필요로 사용 사례 제한
- 메시 정확도: 배경 메시의 품질이 최종 결과에 영향 가능
- 그룹 정렬 트레이드오프: 모바일 호환성을 위해 일부 렌더링 정확도 희생
- 더 많은 3D 스캔 솔루션 통합으로 특정 애플리케이션 의존성 감소
- 더 다양한 초기 자세 지원
- 그룹 정렬 알고리즘 최적화로 렌더링 품질 향상
- 더 복잡한 애니메이션 장면으로 확장
- 실제 사용자 요구사항 해결
- 완전한 엔드-투-엔드 솔루션
- 우수한 사용자 경험 설계
- 효과적인 병렬 처리 방안
- 영리한 그룹 정렬 최적화
- 모바일 디바이스 성능 최적화
- 널리 보급된 모바일 디바이스 기반
- 브라우저 구현으로 설치 불필요
- 빠른 처리 시간
- VRM 표준 형식 사용
- 기존 생태계와의 통합 용이
- 핵심 방법이 상대적으로 단순하며 기술 깊이 제한적
- 주로 알고리즘 혁신보다는 공학적 최적화
- 다른 방법과의 정량적 비교 부재
- 사용자 연구 또는 품질 평가 없음
- 다양한 시나리오에서의 테스트 부족
- 제3자 Scaniverse 애플리케이션에 의존
- 초기 자세에 대한 요구사항
- 그룹 정렬의 구체적인 구현 세부사항 부족
- 실패 사례 분석 부재
- 모바일 환경에서 가우시안 스플래팅 응용에 대한 참고 자료 제공
- 실용 시스템의 설계 사고 제시
- 높은 실용적 가치로 실제 배포에 적합
- 메타버스 및 소셜 미디어 애플리케이션에 중요한 의미
- 표준 기술 스택 기반으로 재현 용이
- 오픈소스 가능성 높음
- 소셜 미디어 애플리케이션: 개인화된 아바타 빠른 생성
- 메타버스 플랫폼: 사용자 신원 표현
- 가상 회의: 임장감 향상
- 게임 애플리케이션: 캐릭터 커스터마이제이션
- AR/VR 경험: 개인화된 가상 형상
논문은 12편의 관련 문헌을 인용하며, 주로 다음을 포함한다:
- 가우시안 스플래팅 기초 기술3
- 인체 아바타 생성 방법1,2,4,5,6,8,9,11,12
- 3D 재구성 기술10
- 상용 스캔 애플리케이션7
이러한 참고문헌은 관련 연구 분야를 잘 다루고 있으며 본 논문 작업에 충분한 배경 지원을 제공한다.
종합 평가: 이는 실용성이 매우 높은 시스템 논문으로, 알고리즘 혁신 측면에서는 상대적으로 제한적이지만 실제 문제 해결 및 접근성 향상 측면에서 중요한 기여를 한다. 본 시스템의 빠른 속도와 모바일 호환성은 높은 실용적 가치를 가지며 실제 애플리케이션에 배포하기에 적합하다.