We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
- ID статьи: 2510.13933
- Название: Image-based Facial Rig Inversion
- Авторы: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
- Учреждения: University of Surrey & Humain Ltd.
- Классификация: eess.IV (Обработка изображений и видео)
- Дата публикации: 15 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.13933v1
В данной работе предложена структура инверсии лицевого риггинга на основе изображений, использующая два модальности: RGB-изображения внешнего вида и RGB-кодированные карты нормалей. Каждая модальность обрабатывается независимым трансформатором Hiera, извлеченные признаки объединяются для регрессии 102 параметров риггинга на основе системы кодирования лицевых действий (FACS). Эксперименты на синтетических и отсканированных наборах данных демонстрируют, что метод обобщается на отсканированные данные и дает точные результаты реконструкции.
Инверсия лицевого риггинга — это процесс точного восстановления параметров управления риггингом из визуального входа, который играет ключевую роль в анимации, виртуальных аватарах и конвейерах захвата движения, обеспечивая прямое управление производственными активами.
- Потребности анимации: В современной анимации точное управление лицевыми выражениями является ключом к достижению реалистичной анимации персонажей
- Приложения виртуальных аватаров: С развитием метавселенной и технологий виртуальной реальности захват лицевых выражений в реальном времени становится все более важным
- Конвейер захвата движения: Предоставление высококачественных инструментов для создания лицевой анимации для кино, игр и других отраслей развлечений
- Ранние методы: Зависят от статистических или регрессионных моделей, обучаемых на данных, созданных аниматорами, с ограниченной способностью к обобщению
- Методы на основе сеток: Хотя и информативны, ограничены хорошо структурированной топологией и плохо адаптируются к отсканированным данным
- Недостаток исследований в области изображений: Большинство предыдущих работ полагаются на признаки уровня сетки, тогда как направление на основе входных изображений остается недостаточно изученным
Входные данные в области изображений обеспечивают преимущество обобщения на отсканированные данные, это направление имеет важную практическую ценность, но недостаточно изучено, поэтому данная работа сосредоточена на разработке метода инверсии лицевого риггинга на основе изображений.
- Двухмодальная структура обработки изображений: Впервые предложена двухветвевая архитектура сети, объединяющая RGB-изображения внешнего вида и RGB-кодированные карты нормалей
- Применение трансформатора Hiera: Применение современного визуального трансформатора Hiera к задаче инверсии лицевого риггинга
- Многоуровневая стратегия обучения с контролем: Одновременный контроль в пространстве параметров риггинга и пространстве 3D-сетки для обеспечения численной точности и геометрической согласованности
- Обобщение на отсканированные данные: Проверка способности метода обобщаться на реальные отсканированные данные, заполнение пробела в исследованиях
Дано изображение внешнего вида Ia и карта нормалей In, необходимо изучить функцию fθ:(Ia,In)→p∈R102, где p обозначает параметры управления целевым риггингом.
Как показано на рисунке 1, предложенная двухветвевая архитектура сети содержит следующие основные компоненты:
- Двухветвевое извлечение признаков:
- RGB-ветвь обрабатывает изображения внешнего вида, захватывая информацию о текстуре и освещении
- Ветвь карты нормалей обрабатывает геометрическую информацию, описывая направление поверхности каждого пикселя
- Костяк сети Hiera:
- Каждая ветвь использует независимый трансформатор Hiera в качестве костяка
- Входное разрешение увеличено с предварительно обученного 224×224 до 512×512, сохраняя мелкозернистые черты лица
- Первые три этапа кодирования заморожены для сохранения низкоуровневых признаков, последний этап обучаемый
- Объединение признаков и регрессия:
- Извлеченные признаки объединяются и передаются в многослойный персептрон (MLP) для регрессии
- Выходные данные содержат 102 параметра управления риггингом, производные от FACS
- Процедурное декодирование риггинга:
- Использование процедурного риггинга, реализованного на PyTorch, для декодирования параметров в 3D-сетку
- Отражение пользовательского лицевого риггинга Maya для реконструкции сетки
- Предварительная обработка изображений: Все изображения изменены до размера 512×512 пикселей, центрально обрезаны и нормализованы с использованием статистики ImageNet
- Кодирование карты нормалей: Кодируется в касательном пространстве, отображая нормали поверхности в диапазоне -1,1 в диапазон RGB 0,255
- Параметры рендеринга: Фиксированное разрешение, постоянная поза камеры и согласованное трехточечное освещение
- Стратегия многомодального объединения: Умелое объединение информации о внешнем виде и геометрии с сильной дополнительностью
- Обработка высокого разрешения: Входные данные 512×512 сохраняют мелкозернистые текстуры и геометрические подсказки, необходимые для захвата тонких изменений выражения
- Стратегия частичного замораживания: Замораживание низкоуровневых слоев предварительно обученной модели, сохранение универсальных визуальных представлений при адаптации к конкретной задаче
- Двойной механизм контроля: Совместный контроль в пространстве параметров и пространстве сетки обеспечивает разумность предсказаний
- Синтетические данные: Созданы с использованием смешанного риггинга с деформационной передачей (DT)
- Стратегия активации параметров: Каждый параметр риггинга активируется независимо, плюс 20 вручную составленных стандартных выражений
- Увеличение данных:
- Случайное отбрасывание, добавление или замена параметров для моделирования реальных вариаций производительности
- Выборка значений параметров из нормального распределения для создания различных интенсивностей
- Увеличение жесткого преобразования для повышения устойчивости к тонким смещениям в отсканированных данных
- Масштаб: 22 575 обучающих образцов
- Реальные отсканированные данные: Содержит последовательности сканирования актеров, выполняющих 20 выражений
- Назначение: Оценка способности модели обобщаться на реальные данные
- Оптимизатор: AdamW, скорость обучения 1×10^-4
- Количество эпох: 200, размер пакета 32
- Оборудование: Одна видеокарта NVIDIA 4080 Laptop GPU
- Шаги обучения: Примерно 141k шагов (706 итераций за эпоху)
Комбинированная функция потерь включает:
- Потеря в пространстве параметров: Среднеквадратичная ошибка (MSE) между предсказанными и истинными параметрами риггинга
- Потеря в пространстве сетки: L1-потеря реконструированной сетки через процедурный риггинг
Модель оценивается на отсканированных данных, предсказанные параметры применяются к смешанному риггингу DT, используемому во время обучения для реконструкции сетки.
Как показано на рисунке 2, результаты реконструкции демонстрируют:
- Отличная производительность в области рта: Предсказания особенно сильны в области рта, точно захватывая сложные выражения рта
- Вызовы движения глаз: Направления взгляда вверх, вниз или в стороны относительно более сложны для инверсии риггинга
- Общая точность: Результаты реконструкции визуально верны отсканированным выражениям на входе
Эксперименты демонстрируют хорошую способность метода обобщаться от синтетических обучающих данных к реальным отсканированным данным, что является важным преимуществом методов на основе изображений по сравнению с методами на основе сеток.
- Статистические регрессионные модели: Ранние методы полагались на статистические или регрессионные модели, обученные на данных, созданных аниматорами
- Обучение обратной кинематике персонажей: Методы обучения обратной кинематике позы персонажей, предложенные Holden и др.
- Нейронный риггинг: Методы нейронного риггинга, такие как RigNet, обеспечивающие автоматический риггинг для суставных персонажей
- Дифференцируемый риггинг: Инверсия риггинга путем обучения дифференцируемых функций риггинга, предложенная Bolduc и Phan
- Контроль на уровне сетки: Методы обучения с контролем на уровне сетки через приближение дифференцируемого риггинга
- Визуальные трансформаторы: Применение иерархических визуальных трансформаторов, таких как Hiera, в компьютерном зрении
Данная работа является первым систематическим исследованием методов инверсии лицевого риггинга на основе изображений, заполняя важный пробел в этой области.
- Проверка эффективности: Структура инверсии лицевого риггинга на основе изображений эффективно объединяет входные данные внешнего вида и нормалей для восстановления параметров риггинга
- Способность к обобщению: Метод успешно обобщается на отсканированные данные, дающие точные результаты реконструкции
- Практическая ценность: Предоставляет новый технологический путь для анимации и захвата движения
- Стратегия частичного замораживания: Текущая стратегия частичного замораживания может ограничить адаптивность модели
- Вызовы движения глаз: Сложные движения глаз остаются сложными
- Зависимость от данных: Производительность метода зависит от качества и разнообразия обучающих данных
Статья явно предлагает расширение стратегии тонкой настройки на всю сеть для дальнейшего улучшения адаптивности к параметрам инверсии риггинга.
- Техническая инновативность:
- Первое систематическое исследование инверсии лицевого риггинга на основе изображений
- Умелый дизайн двухмодального объединения
- Обработка высокого разрешения сохраняет детальную информацию
- Полнота экспериментов:
- Комплексная оценка синтетических и реальных данных
- Четкие параметры экспериментов и детали реализации
- Детальный анализ производительности различных областей лица
- Практическая ценность:
- Решение реальных потребностей промышленности
- Предоставление сквозного решения от изображения к параметрам риггинга
- Хорошая способность к обобщению на отсканированные данные
- Отсутствие количественной оценки: Статья не содержит подробных количественных показателей оценки и численных результатов
- Недостаточно сравнительных экспериментов: Отсутствует достаточное сравнение с другими базовыми методами
- Недостаток абляционных исследований: Нет детального анализа вклада каждого компонента
- Масштаб набора данных: Масштаб и разнообразие набора валидации могут быть ограничены
- Академический вклад: Открытие нового направления инверсии лицевого риггинга на основе изображений
- Промышленное применение: Предоставление практической технологии для анимации, игр, виртуальной реальности и других отраслей
- Продвижение технологии: Успешный пример применения визуального трансформатора Hiera в специализированных областях
- Создание анимации: Быстрое создание лицевой анимации из справочных изображений
- Захват движения: Захват и реконструкция лицевых выражений в реальном времени
- Виртуальные аватары: Отображение выражений пользователя на виртуального персонажа в реальном времени
- Постпроизводство фильмов: Точное управление и регулировка лицевых выражений
Ключевые ссылки включают:
- Bolduc & Phan (2022): Метод инверсии риггинга путем обучения дифференцируемых функций риггинга
- Hatamizadeh et al. (2023): Иерархический визуальный трансформатор Hiera
- Sumner & Popović (2004): Классический метод деформационной передачи треугольных сеток
- Holden et al. (2015): Обучение обратной кинематике позы персонажей
- Rackovic et al. (2021): Нейронный риггинг RigNet для суставных персонажей
Общая оценка: Это пионерская работа в области инверсии лицевого риггинга, которая, хотя и требует улучшения в полноте экспериментальной оценки, представляет собой важный вклад в эту область благодаря своей технической инновативности и практической ценности. Статья предоставляет новый технологический путь для создания лицевой анимации на основе изображений и имеет хорошие перспективы промышленного применения.