2025-11-17T02:58:13.321681

Image-based Facial Rig Inversion

Yang, Volino, Mustafa et al.

We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.

academic

이미지 기반 얼굴 리그 역변환

기본 정보

논문 ID: 2510.13933
제목: Image-based Facial Rig Inversion
저자: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
기관: University of Surrey & Humain Ltd.
분류: eess.IV (이미지 및 비디오 처리)
발표 시간: 2025년 10월 15일
논문 링크: https://arxiv.org/abs/2510.13933v1

초록

본 논문은 RGB 외관 이미지와 RGB 인코딩 법선 맵 두 가지 모달리티를 활용하는 이미지 기반 얼굴 리그 역변환 프레임워크를 제안한다. 각 모달리티는 독립적인 Hiera 트랜스포머 백본 네트워크를 통해 처리되며, 추출된 특징은 융합되어 102개의 얼굴 동작 코딩 시스템(FACS) 기반 리그 파라미터를 회귀한다. 합성 및 스캔 데이터셋에 대한 실험은 이 방법이 스캔 데이터로 일반화되고 충실한 재구성 결과를 생성할 수 있음을 보여준다.

연구 배경 및 동기

문제 정의

얼굴 리그 역변환(Facial Rig Inversion)은 시각적 입력으로부터 리그 제어 파라미터를 정확하게 복구하는 과정으로, 애니메이션 제작, 가상 아바타, 모션 캡처 파이프라인에서 핵심적인 역할을 하며 제작 자산을 직접 제어할 수 있게 한다.

연구의 중요성

애니메이션 제작 수요: 현대 애니메이션 제작에서 얼굴 표정의 정밀한 제어는 사실적인 캐릭터 애니메이션 구현의 핵심
가상 아바타 응용: 메타버스 및 가상 현실 기술 발전에 따라 실시간 정확한 얼굴 표정 캡처의 중요성 증가
모션 캡처 파이프라인: 영화, 게임 등 엔터테인먼트 산업을 위한 고품질 얼굴 애니메이션 제작 도구 제공

기존 방법의 한계

초기 방법: 통계 또는 회귀 모델에 의존하며, 애니메이터가 생성한 데이터로 훈련되어 일반화 능력이 제한적
메시 기반 방법: 정보가 풍부하지만 구조화된 위상에만 제한되며, 스캔 데이터에 대한 적응성이 낮음
이미지 도메인 탐색 부족: 대부분의 선행 연구는 메시 수준 특징에 의존하며, 이미지 입력 기반 접근 방식은 충분히 탐색되지 않음

연구 동기

이미지 도메인 입력은 스캔 데이터로의 일반화 장점을 제공하며, 이 방향은 중요한 실용적 가치가 있지만 연구가 부족하므로, 본 논문은 이미지 기반 얼굴 리그 역변환 방법 개발에 중점을 둔다.

핵심 기여

이중 모달리티 이미지 처리 프레임워크: RGB 외관 이미지와 RGB 인코딩 법선 맵을 결합하는 이중 분기 네트워크 아키텍처를 최초로 제안
Hiera 트랜스포머 응용: 최신 Hiera 비전 트랜스포머를 얼굴 리그 역변환 작업에 적용
다중 감독 학습 전략: 리그 파라미터 공간과 3D 메시 공간에서 동시에 감독하여 수치 정확성과 기하학적 일관성 보장
스캔 데이터 일반화: 실제 스캔 데이터에 대한 방법의 일반화 능력을 검증하여 연구 공백 해소

방법 상세 설명

작업 정의

외관 이미지 $I_a$ 와 법선 맵 $I_n$ 이 주어졌을 때, 함수 $f_θ : (I_a, I_n) → p ∈ R^{102}$ 를 학습하며, 여기서 $p$ 는 대상 리그의 제어 파라미터를 나타낸다.

모델 아키텍처

전체 설계

그림 1에 나타난 제안된 이중 분기 네트워크 아키텍처는 다음의 핵심 구성 요소를 포함한다:

이중 분기 특징 추출:
- RGB 분기는 외관 이미지를 처리하여 텍스처 및 조명 정보 캡처
- 법선 맵 분기는 기하학적 정보를 처리하여 각 픽셀의 표면 방향 설명
Hiera 백본 네트워크:
- 각 분기는 독립적인 Hiera 트랜스포머 백본 네트워크 사용
- 입력 해상도를 사전 훈련된 224×224에서 512×512로 향상시켜 세밀한 얼굴 특징 보존
- 처음 세 개의 인코딩 단계는 저수준 특징 보존을 위해 동결, 마지막 단계는 훈련 가능
특징 융합 및 회귀:
- 추출된 특징을 연결하여 다층 퍼셉트론(MLP) 회귀 헤드에 입력
- 102개의 FACS 파생 리그 제어 파라미터 출력
절차적 리그 디코딩:
- PyTorch로 구현된 절차적 리그를 사용하여 파라미터를 3D 메시로 디코딩
- 사용자 정의 Maya 얼굴 리그를 반영하여 메시 재구성 수행

기술 세부 사항

이미지 전처리: 모든 이미지를 512×512 픽셀로 조정하고, 중앙 자르기 및 ImageNet 통계량으로 정규화
법선 맵 인코딩: 접선 공간에서 인코딩하여 -1,1 범위의 표면 법선을 0,255 RGB 범위로 매핑
렌더링 설정: 고정 해상도, 일정한 카메라 자세 및 일관된 3점 조명

기술 혁신점

다중 모달리티 융합 전략: 외관과 기하학적 정보를 교묘하게 결합하여 상호 보완성 강화
고해상도 처리: 512×512 입력은 미세한 표정 변화 캡처에 필요한 세밀한 텍스처 및 기하학적 단서 보존
부분 동결 전략: 사전 훈련된 모델의 저수준 특징 계층을 동결하여 범용 시각 표현을 보존하면서 특정 작업에 적응
이중 감독 메커니즘: 파라미터 공간과 메시 공간의 결합 감독으로 예측의 합리성 보장

실험 설정

데이터셋

훈련 집합

합성 데이터: 변형 전달(DT) 혼합 형태 리그를 사용하여 생성
파라미터 활성화 전략: 각 리그 파라미터를 독립적으로 활성화하고, 20개의 수동으로 조합된 표준 표정 추가
데이터 증강:
- 파라미터 무작위 드롭, 추가 또는 교체로 실제 성능 변화 모의
- 정규 분포에서 파라미터 값을 샘플링하여 다양한 강도 생성
- 강체 변환 증강으로 스캔 데이터의 미묘한 정렬 오류에 대한 견고성 향상
규모: 22,575개 훈련 샘플

검증 집합

실제 스캔 데이터: 배우가 20가지 표정을 수행하는 스캔 시퀀스 포함
용도: 실제 데이터에 대한 모델의 일반화 능력 평가

훈련 세부 사항

최적화기: AdamW, 학습률 1×10^-4
훈련 에포크: 200 에포크, 배치 크기 32
하드웨어: 단일 NVIDIA 4080 Laptop GPU
훈련 단계: 약 141k 단계(에포크당 706 반복)

손실 함수

결합 손실 함수는 다음을 포함한다:

파라미터 공간 손실: 예측과 실제 리그 파라미터 간의 평균 제곱 오차(MSE)
메시 공간 손실: 절차적 리그를 통해 재구성된 메시의 L1 손실

실험 결과

주요 결과

스캔 데이터에서 모델을 평가하며, 예측 파라미터는 훈련 중 사용된 DT 혼합 형태 리그에 적용되어 메시 재구성을 수행한다.

재구성 품질 분석

그림 2에 나타난 재구성 결과는 다음을 보여준다:

입 영역 우수한 성능: 예측이 입 영역에서 특히 강하여 복잡한 입 표정을 정확하게 캡처
눈 운동 도전: 위, 아래 또는 측면 응시 방향은 리그 역변환에 상대적으로 더 도전적
전체적 충실도: 재구성 결과는 입력 스캔 표정에 시각적으로 충실

일반화 능력

실험은 합성 훈련 데이터에서 실제 스캔 데이터로의 우수한 일반화 능력을 입증하며, 이는 메시 기반 방법에 비한 이미지 기반 방법의 중요한 장점이다.

결론 및 논의

주요 결론

유효성 검증: 이미지 기반 얼굴 리그 역변환 프레임워크는 외관 및 법선 입력을 효과적으로 결합하여 리그 파라미터를 복구할 수 있음
일반화 능력: 방법은 스캔 데이터로 성공적으로 일반화되어 충실한 재구성 결과 생성
실용적 가치: 애니메이션 제작 및 모션 캡처를 위한 새로운 기술 경로 제공

한계

부분 동결 전략: 현재의 부분 동결 전략은 모델의 적응 능력을 제한할 수 있음
응시 방향 도전: 복잡한 눈 운동은 여전히 도전적
데이터 의존성: 방법의 성능은 훈련 데이터의 품질 및 다양성에 의존

향후 방향

논문은 미세 조정 전략을 전체 네트워크로 확장하면 리그 역변환 설정에 대한 적응성을 더욱 개선할 수 있음을 명확히 제시한다.

심층 평가

장점

기술 혁신성:
- 이미지 기반 얼굴 리그 역변환을 최초로 체계적으로 탐색
- 교묘한 이중 모달리티 융합 설계
- 고해상도 처리로 세부 정보 보존
실험의 충분성:
- 합성 및 실제 데이터의 포괄적 평가
- 명확한 실험 설정 및 구현 세부 사항
- 다양한 얼굴 영역 성능의 세밀한 분석
실용적 가치:
- 산업계의 실제 수요 해결
- 이미지에서 리그 파라미터로의 엔드-투-엔드 솔루션 제공
- 우수한 스캔 데이터 일반화 능력

부족한 점

정량적 평가 부재: 논문에 상세한 정량적 평가 지표 및 수치 결과 부족
비교 실험 부족: 다른 기준 방법과의 충분한 비교 미실시
소거 실험 부족: 각 구성 요소의 기여도에 대한 상세한 분석 없음
데이터셋 규모: 검증 집합의 규모 및 다양성이 제한적일 수 있음

영향력

학술적 기여: 이미지 기반 얼굴 리그 역변환의 새로운 방향 개척
산업 응용: 애니메이션, 게임, 가상 현실 등 산업에 실용적 기술 제공
기술 추진: Hiera 트랜스포머의 전문 분야 성공 응용 사례

적용 시나리오

애니메이션 제작: 참고 이미지에서 빠른 얼굴 애니메이션 생성
모션 캡처: 실시간 얼굴 표정 캡처 및 재구성
가상 아바타: 사용자 표정에서 가상 캐릭터로의 실시간 매핑
영화 후반 작업: 얼굴 표정의 정밀한 제어 및 조정

참고 문헌

주요 참고 문헌은 다음을 포함한다:

Bolduc & Phan (2022): 미분 가능 리그 함수 훈련의 리그 역변환 방법
Hatamizadeh et al. (2023): Hiera 계층적 비전 트랜스포머
Sumner & Popović (2004): 삼각형 메시 변형 전달의 고전적 방법
Holden et al. (2015): 캐릭터 자세 역 운동학 학습
Rackovic et al. (2021): 관절 캐릭터의 신경 리그 RigNet

전체 평가: 이는 얼굴 리그 역변환 분야에서 개척적 의미를 가진 논문으로, 실험 평가의 완전성 측면에서 개선의 여지가 있지만, 기술 혁신성과 실용적 가치로 인해 해당 분야의 중요한 기여가 된다. 논문은 이미지 기반 얼굴 애니메이션 제작을 위한 새로운 기술 경로를 제공하며, 우수한 산업 응용 전망을 가진다.