2025-11-17T02:58:13.321681

Image-based Facial Rig Inversion

Yang, Volino, Mustafa et al.

We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.

academic

Инверсия лицевого риггинга на основе изображений

Основная информация

ID статьи: 2510.13933
Название: Image-based Facial Rig Inversion
Авторы: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
Учреждения: University of Surrey & Humain Ltd.
Классификация: eess.IV (Обработка изображений и видео)
Дата публикации: 15 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.13933v1

Аннотация

В данной работе предложена структура инверсии лицевого риггинга на основе изображений, использующая два модальности: RGB-изображения внешнего вида и RGB-кодированные карты нормалей. Каждая модальность обрабатывается независимым трансформатором Hiera, извлеченные признаки объединяются для регрессии 102 параметров риггинга на основе системы кодирования лицевых действий (FACS). Эксперименты на синтетических и отсканированных наборах данных демонстрируют, что метод обобщается на отсканированные данные и дает точные результаты реконструкции.

Исследовательский контекст и мотивация

Определение проблемы

Инверсия лицевого риггинга — это процесс точного восстановления параметров управления риггингом из визуального входа, который играет ключевую роль в анимации, виртуальных аватарах и конвейерах захвата движения, обеспечивая прямое управление производственными активами.

Значимость исследования

Потребности анимации: В современной анимации точное управление лицевыми выражениями является ключом к достижению реалистичной анимации персонажей
Приложения виртуальных аватаров: С развитием метавселенной и технологий виртуальной реальности захват лицевых выражений в реальном времени становится все более важным
Конвейер захвата движения: Предоставление высококачественных инструментов для создания лицевой анимации для кино, игр и других отраслей развлечений

Ограничения существующих методов

Ранние методы: Зависят от статистических или регрессионных моделей, обучаемых на данных, созданных аниматорами, с ограниченной способностью к обобщению
Методы на основе сеток: Хотя и информативны, ограничены хорошо структурированной топологией и плохо адаптируются к отсканированным данным
Недостаток исследований в области изображений: Большинство предыдущих работ полагаются на признаки уровня сетки, тогда как направление на основе входных изображений остается недостаточно изученным

Исследовательская мотивация

Входные данные в области изображений обеспечивают преимущество обобщения на отсканированные данные, это направление имеет важную практическую ценность, но недостаточно изучено, поэтому данная работа сосредоточена на разработке метода инверсии лицевого риггинга на основе изображений.

Основные вклады

Двухмодальная структура обработки изображений: Впервые предложена двухветвевая архитектура сети, объединяющая RGB-изображения внешнего вида и RGB-кодированные карты нормалей
Применение трансформатора Hiera: Применение современного визуального трансформатора Hiera к задаче инверсии лицевого риггинга
Многоуровневая стратегия обучения с контролем: Одновременный контроль в пространстве параметров риггинга и пространстве 3D-сетки для обеспечения численной точности и геометрической согласованности
Обобщение на отсканированные данные: Проверка способности метода обобщаться на реальные отсканированные данные, заполнение пробела в исследованиях

Подробное описание метода

Определение задачи

Дано изображение внешнего вида $I_a$ и карта нормалей $I_n$ , необходимо изучить функцию $f_θ : (I_a, I_n) → p ∈ R^{102}$ , где $p$ обозначает параметры управления целевым риггингом.

Архитектура модели

Общий дизайн

Как показано на рисунке 1, предложенная двухветвевая архитектура сети содержит следующие основные компоненты:

Двухветвевое извлечение признаков:
- RGB-ветвь обрабатывает изображения внешнего вида, захватывая информацию о текстуре и освещении
- Ветвь карты нормалей обрабатывает геометрическую информацию, описывая направление поверхности каждого пикселя
Костяк сети Hiera:
- Каждая ветвь использует независимый трансформатор Hiera в качестве костяка
- Входное разрешение увеличено с предварительно обученного 224×224 до 512×512, сохраняя мелкозернистые черты лица
- Первые три этапа кодирования заморожены для сохранения низкоуровневых признаков, последний этап обучаемый
Объединение признаков и регрессия:
- Извлеченные признаки объединяются и передаются в многослойный персептрон (MLP) для регрессии
- Выходные данные содержат 102 параметра управления риггингом, производные от FACS
Процедурное декодирование риггинга:
- Использование процедурного риггинга, реализованного на PyTorch, для декодирования параметров в 3D-сетку
- Отражение пользовательского лицевого риггинга Maya для реконструкции сетки

Технические детали

Предварительная обработка изображений: Все изображения изменены до размера 512×512 пикселей, центрально обрезаны и нормализованы с использованием статистики ImageNet
Кодирование карты нормалей: Кодируется в касательном пространстве, отображая нормали поверхности в диапазоне -1,1 в диапазон RGB 0,255
Параметры рендеринга: Фиксированное разрешение, постоянная поза камеры и согласованное трехточечное освещение

Технические инновации

Стратегия многомодального объединения: Умелое объединение информации о внешнем виде и геометрии с сильной дополнительностью
Обработка высокого разрешения: Входные данные 512×512 сохраняют мелкозернистые текстуры и геометрические подсказки, необходимые для захвата тонких изменений выражения
Стратегия частичного замораживания: Замораживание низкоуровневых слоев предварительно обученной модели, сохранение универсальных визуальных представлений при адаптации к конкретной задаче
Двойной механизм контроля: Совместный контроль в пространстве параметров и пространстве сетки обеспечивает разумность предсказаний

Экспериментальная установка

Наборы данных

Набор для обучения

Синтетические данные: Созданы с использованием смешанного риггинга с деформационной передачей (DT)
Стратегия активации параметров: Каждый параметр риггинга активируется независимо, плюс 20 вручную составленных стандартных выражений
Увеличение данных:
- Случайное отбрасывание, добавление или замена параметров для моделирования реальных вариаций производительности
- Выборка значений параметров из нормального распределения для создания различных интенсивностей
- Увеличение жесткого преобразования для повышения устойчивости к тонким смещениям в отсканированных данных
Масштаб: 22 575 обучающих образцов

Набор для валидации

Реальные отсканированные данные: Содержит последовательности сканирования актеров, выполняющих 20 выражений
Назначение: Оценка способности модели обобщаться на реальные данные

Детали обучения

Оптимизатор: AdamW, скорость обучения 1×10^-4
Количество эпох: 200, размер пакета 32
Оборудование: Одна видеокарта NVIDIA 4080 Laptop GPU
Шаги обучения: Примерно 141k шагов (706 итераций за эпоху)

Функция потерь

Комбинированная функция потерь включает:

Потеря в пространстве параметров: Среднеквадратичная ошибка (MSE) между предсказанными и истинными параметрами риггинга
Потеря в пространстве сетки: L1-потеря реконструированной сетки через процедурный риггинг

Результаты экспериментов

Основные результаты

Модель оценивается на отсканированных данных, предсказанные параметры применяются к смешанному риггингу DT, используемому во время обучения для реконструкции сетки.

Анализ качества реконструкции

Как показано на рисунке 2, результаты реконструкции демонстрируют:

Отличная производительность в области рта: Предсказания особенно сильны в области рта, точно захватывая сложные выражения рта
Вызовы движения глаз: Направления взгляда вверх, вниз или в стороны относительно более сложны для инверсии риггинга
Общая точность: Результаты реконструкции визуально верны отсканированным выражениям на входе

Способность к обобщению

Эксперименты демонстрируют хорошую способность метода обобщаться от синтетических обучающих данных к реальным отсканированным данным, что является важным преимуществом методов на основе изображений по сравнению с методами на основе сеток.

Связанные работы

Традиционные методы

Статистические регрессионные модели: Ранние методы полагались на статистические или регрессионные модели, обученные на данных, созданных аниматорами
Обучение обратной кинематике персонажей: Методы обучения обратной кинематике позы персонажей, предложенные Holden и др.
Нейронный риггинг: Методы нейронного риггинга, такие как RigNet, обеспечивающие автоматический риггинг для суставных персонажей

Современные методы обучения

Дифференцируемый риггинг: Инверсия риггинга путем обучения дифференцируемых функций риггинга, предложенная Bolduc и Phan
Контроль на уровне сетки: Методы обучения с контролем на уровне сетки через приближение дифференцируемого риггинга
Визуальные трансформаторы: Применение иерархических визуальных трансформаторов, таких как Hiera, в компьютерном зрении

Позиционирование вклада данной работы

Данная работа является первым систематическим исследованием методов инверсии лицевого риггинга на основе изображений, заполняя важный пробел в этой области.

Заключение и обсуждение

Основные выводы

Проверка эффективности: Структура инверсии лицевого риггинга на основе изображений эффективно объединяет входные данные внешнего вида и нормалей для восстановления параметров риггинга
Способность к обобщению: Метод успешно обобщается на отсканированные данные, дающие точные результаты реконструкции
Практическая ценность: Предоставляет новый технологический путь для анимации и захвата движения

Ограничения

Стратегия частичного замораживания: Текущая стратегия частичного замораживания может ограничить адаптивность модели
Вызовы движения глаз: Сложные движения глаз остаются сложными
Зависимость от данных: Производительность метода зависит от качества и разнообразия обучающих данных

Будущие направления

Статья явно предлагает расширение стратегии тонкой настройки на всю сеть для дальнейшего улучшения адаптивности к параметрам инверсии риггинга.

Глубокая оценка

Преимущества

Техническая инновативность:
- Первое систематическое исследование инверсии лицевого риггинга на основе изображений
- Умелый дизайн двухмодального объединения
- Обработка высокого разрешения сохраняет детальную информацию
Полнота экспериментов:
- Комплексная оценка синтетических и реальных данных
- Четкие параметры экспериментов и детали реализации
- Детальный анализ производительности различных областей лица
Практическая ценность:
- Решение реальных потребностей промышленности
- Предоставление сквозного решения от изображения к параметрам риггинга
- Хорошая способность к обобщению на отсканированные данные

Недостатки

Отсутствие количественной оценки: Статья не содержит подробных количественных показателей оценки и численных результатов
Недостаточно сравнительных экспериментов: Отсутствует достаточное сравнение с другими базовыми методами
Недостаток абляционных исследований: Нет детального анализа вклада каждого компонента
Масштаб набора данных: Масштаб и разнообразие набора валидации могут быть ограничены

Влияние

Академический вклад: Открытие нового направления инверсии лицевого риггинга на основе изображений
Промышленное применение: Предоставление практической технологии для анимации, игр, виртуальной реальности и других отраслей
Продвижение технологии: Успешный пример применения визуального трансформатора Hiera в специализированных областях

Применимые сценарии

Создание анимации: Быстрое создание лицевой анимации из справочных изображений
Захват движения: Захват и реконструкция лицевых выражений в реальном времени
Виртуальные аватары: Отображение выражений пользователя на виртуального персонажа в реальном времени
Постпроизводство фильмов: Точное управление и регулировка лицевых выражений

Библиография

Ключевые ссылки включают:

Bolduc & Phan (2022): Метод инверсии риггинга путем обучения дифференцируемых функций риггинга
Hatamizadeh et al. (2023): Иерархический визуальный трансформатор Hiera
Sumner & Popović (2004): Классический метод деформационной передачи треугольных сеток
Holden et al. (2015): Обучение обратной кинематике позы персонажей
Rackovic et al. (2021): Нейронный риггинг RigNet для суставных персонажей

Общая оценка: Это пионерская работа в области инверсии лицевого риггинга, которая, хотя и требует улучшения в полноте экспериментальной оценки, представляет собой важный вклад в эту область благодаря своей технической инновативности и практической ценности. Статья предоставляет новый технологический путь для создания лицевой анимации на основе изображений и имеет хорошие перспективы промышленного применения.