We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
- 論文ID: 2510.13933
- タイトル: Image-based Facial Rig Inversion
- 著者: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
- 所属機関: University of Surrey & Humain Ltd.
- 分類: eess.IV (画像およびビデオ処理)
- 発表日: 2025年10月15日
- 論文リンク: https://arxiv.org/abs/2510.13933v1
本論文は、RGB外観画像とRGBエンコード法線図の2つのモダリティを活用した画像ベース顔部リグ逆変換フレームワークを提案する。各モダリティは独立したHiera transformerバックボーンネットワークで処理され、抽出された特徴は融合後、顔面動作符号化システム(FACS)に基づく102個のリグパラメータに回帰される。合成およびスキャンデータセット上の実験により、本手法がスキャンデータへの汎化能力を有し、忠実な再構成結果を生成することが実証される。
顔部リグ逆変換(Facial Rig Inversion)は、視覚入力からリグ制御パラメータを正確に復元するプロセスであり、アニメーション制作、仮想アバター、モーションキャプチャパイプラインにおいて重要な役割を果たし、制作資産の直接制御を可能にする。
- アニメーション制作の需要: 現代のアニメーション制作において、顔表情の正確な制御はリアルなキャラクターアニメーション実現の鍵である
- 仮想アバター応用: メタバースおよび仮想現実技術の発展に伴い、リアルタイムで正確な顔表情キャプチャがますます重要になっている
- モーションキャプチャパイプライン: 映画やゲームなどのエンターテインメント産業に高品質の顔アニメーション制作ツールを提供する
- 初期手法: 統計的またはリグレッションモデルに依存し、アニメータが作成したデータで訓練されるため、汎化能力が限定的である
- メッシュベース手法: 情報が豊富である一方、構造化されたトポロジーに限定され、スキャンデータへの適応性が低い
- 画像領域の探索不足: 先行研究の大多数はメッシュレベルの特徴に依存しており、画像入力に基づくアプローチはまだ十分に探索されていない
画像領域入力はスキャンデータへの汎化という利点を提供し、この方向は重要な実用的価値を有しながらも研究が不足しているため、本論文は画像ベース顔部リグ逆変換手法の開発に焦点を当てる。
- デュアルモダリティ画像処理フレームワーク: RGB外観画像とRGBエンコード法線図を組み合わせたデュアルブランチネットワークアーキテクチャを初めて提案
- Hiera transformerの応用: 最新のHiera視覚transformerを顔部リグ逆変換タスクに適用
- マルチ監督学習戦略: リグパラメータ空間と3Dメッシュ空間の両方で監督を実施し、数値精度と幾何学的一貫性を確保
- スキャンデータへの汎化: 実スキャンデータ上での手法の汎化能力を検証し、研究ギャップを埋める
外観画像Iaと法線図Inが与えられたとき、関数fθ:(Ia,In)→p∈R102を学習する。ここでpはターゲットリグの制御パラメータを表す。
図1に示すように、提案されたデュアルブランチネットワークアーキテクチャは以下の核心コンポーネントを含む:
- デュアルブランチ特徴抽出:
- RGBブランチは外観画像を処理し、テクスチャと照明情報をキャプチャ
- 法線図ブランチは幾何情報を処理し、各ピクセルの表面方向を記述
- Hieraバックボーンネットワーク:
- 各ブランチは独立したHiera transformerバックボーンネットワークを使用
- 入力解像度は事前訓練の224×224から512×512に向上し、細粒度の顔特徴を保持
- 最初の3つのエンコーディング段階は低レベル特徴を保持するため固定、最終段階は訓練可能
- 特徴融合と回帰:
- 抽出された特徴は連結後、多層パーセプトロン(MLP)回帰ヘッドに入力
- 102個のFACS派生リグ制御パラメータを出力
- プログラマティックリグデコーディング:
- PyTorchで実装されたプログラマティックリグがパラメータを3Dメッシュにデコード
- カスタムMaya顔部リグを反映してメッシュ再構成を実施
- 画像前処理: すべての画像を512×512ピクセルに調整、中央クロップしImageNet統計量で正規化
- 法線図エンコーディング: 接線空間でエンコード、-1,1範囲の表面法線を0,255 RGB範囲にマッピング
- レンダリング設定: 固定解像度、一定のカメラ姿勢、一貫した3点照明
- マルチモダリティ融合戦略: 外観と幾何情報を巧みに組み合わせ、相補性が強い
- 高解像度処理: 512×512入力は微妙な表情変化をキャプチャするために必要な細粒度テクスチャと幾何学的手がかりを保持
- 部分的固定戦略: 事前訓練モデルの低レベル特徴層を固定し、汎用視覚表現を保持しながらタスク固有の適応を実現
- デュアル監督メカニズム: パラメータ空間とメッシュ空間の結合監督により、予測の妥当性を確保
- 合成データ: 変形転送(DT)ブレンド形状リグを使用して生成
- パラメータ活性化戦略: 各リグパラメータを独立に活性化、加えて20個の手動で組み合わせた標準表情を追加
- データ拡張:
- パラメータのランダムドロップ、追加、置換により実際のパフォーマンス変化をシミュレート
- 正規分布からパラメータ値をサンプリングして異なる強度を作成
- 剛体変換拡張によりスキャンデータの微妙なミスアライメントへの堅牢性を向上
- 規模: 22,575個の訓練サンプル
- 実スキャンデータ: 俳優が20種類の表情を演じるスキャンシーケンスを含む
- 用途: 実データ上でのモデルの汎化能力を評価
- 最適化器: AdamW、学習率1×10^-4
- 訓練エポック: 200エポック、バッチサイズ32
- ハードウェア: 単一のNVIDIA 4080 Laptop GPU
- 訓練ステップ数: 約141kステップ(エポックあたり706回の反復)
複合損失関数は以下を含む:
- パラメータ空間損失: 予測と真実のリグパラメータ間の平均二乗誤差(MSE)
- メッシュ空間損失: プログラマティックリグを通じて再構成されたメッシュのL1損失
スキャンデータ上でモデルを評価し、予測パラメータは訓練時に使用されたDTブレンド形状リグに適用されてメッシュ再構成を実施。
図2に示される再構成結果は以下を示唆:
- 口部領域の優れた性能: 予測は口部領域で特に強く、複雑な口の表情を正確にキャプチャ可能
- 眼球運動の課題: 上向き、下向き、または側向きの視線方向は、リグ逆変換にとって相対的により挑戦的
- 全体的な忠実度: 再構成結果は視覚的に入力スキャン表情に忠実
実験は合成訓練データから実スキャンデータへの良好な汎化能力を実証し、これはメッシュベース手法に対する画像ベース手法の重要な利点である。
- 統計的リグレッションモデル: 初期手法はアニメータが作成したデータで訓練された統計的またはリグレッションモデルに依存
- 逆運動学学習: Holdenらによるキャラクター姿勢逆運動学学習手法
- ニューラルリグ: RigNetなどのニューラルリグ手法は関節キャラクターに自動リグを提供
- 微分可能リグ: Bolduc and Phanによる微分可能リグ関数の訓練を通じたリグ逆変換
- メッシュレベル監督: 微分可能リグ近似を通じたメッシュレベル監督の学習手法
- 視覚transformer: Hieraなどの階層的視覚transformerのコンピュータビジョンへの応用
本論文は画像ベース顔部リグ逆変換手法の初の体系的探索であり、本領域の重要なギャップを埋める。
- 有効性の検証: 画像ベース顔部リグ逆変換フレームワークは外観と法線入力を効果的に組み合わせてリグパラメータを復元可能
- 汎化能力: 手法はスキャンデータへの汎化に成功し、忠実な再構成結果を生成
- 実用的価値: アニメーション制作とモーションキャプチャに新しい技術経路を提供
- 部分的固定戦略: 現在の部分的固定戦略はモデルの適応能力を制限する可能性がある
- 視線方向の課題: 複雑な眼球運動は依然として挑戦的である
- データ依存性: 手法の性能は訓練データの品質と多様性に依存
論文は全ネットワークへの微調整戦略の拡張がリグ逆変換設定への適応性をさらに改善する可能性があることを明確に提案している。
- 技術的革新性:
- 画像ベース顔部リグ逆変換の初の体系的探索
- 巧妙なデュアルモダリティ融合設計
- 高解像度処理により詳細情報を保持
- 実験の充実性:
- 合成および実データの包括的評価
- 明確な実験設定と実装詳細
- 異なる顔領域の性能に対する細致な分析
- 実用的価値:
- 業界の実際のニーズに対応
- 画像からリグパラメータへのエンドツーエンドソリューションを提供
- スキャンデータへの良好な汎化能力
- 定量的評価の欠如: 論文は詳細な定量的評価指標と数値結果が不足
- 比較実験の不足: 他のベースライン手法との十分な比較がない
- アブレーション実験の欠如: 各コンポーネントの貢献に対する詳細な分析がない
- データセット規模: 検証セットの規模と多様性が限定的である可能性
- 学術的貢献: 画像ベース顔部リグ逆変換の新しい方向を開拓
- 産業応用: アニメーション、ゲーム、仮想現実などの業界に実用的技術を提供
- 技術推進: Hiera transformerの専門領域での成功応用事例
- アニメーション制作: 参照画像から顔アニメーションを迅速に生成
- モーションキャプチャ: リアルタイム顔表情キャプチャと再構成
- 仮想アバター: ユーザー表情から仮想キャラクターへのリアルタイムマッピング
- 映画後処理: 顔表情の正確な制御と調整
主要な参考文献は以下を含む:
- Bolduc & Phan (2022): 微分可能リグ関数訓練によるリグ逆変換手法
- Hatamizadeh et al. (2023): Hiera階層的視覚transformer
- Sumner & Popović (2004): 三角メッシュ変形転送の古典的手法
- Holden et al. (2015): キャラクター姿勢逆運動学学習
- Rackovic et al. (2021): 関節キャラクターのニューラルリグRigNet
総合評価: これは顔部リグ逆変換領域において開創的意義を有する論文であり、実験評価の完全性に改善の余地があるものの、その技術的革新と実用的価値により本領域の重要な貢献となっている。論文は画像ベース顔アニメーション制作に新しい技術経路を提供し、優れた産業応用の見通しを有する。