We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
- ID Articolo: 2510.13933
- Titolo: Image-based Facial Rig Inversion
- Autori: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
- Istituzioni: University of Surrey & Humain Ltd.
- Classificazione: eess.IV (Elaborazione di Immagini e Video)
- Data di Pubblicazione: 15 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.13933v1
Questo articolo propone un framework di inversione del rigging facciale basato su immagini, che sfrutta due modalità: immagini RGB di apparenza e mappe normali codificate in RGB. Ogni modalità viene elaborata attraverso una rete backbone Hiera transformer indipendente, e le caratteristiche estratte vengono fuse per regredire 102 parametri di rigging basati sul sistema di codifica delle azioni facciali (FACS). Gli esperimenti su dataset sintetici e acquisiti dimostrano che il metodo generalizza ai dati acquisiti e produce ricostruzioni fedeli.
L'inversione del rigging facciale è il processo di recupero accurato dei parametri di controllo del rigging da input visivi, che svolge un ruolo cruciale nella produzione di animazioni, avatar virtuali e pipeline di motion capture, consentendo il controllo diretto degli asset di produzione.
- Esigenze di Produzione Animata: Nel cinema d'animazione moderno, il controllo preciso delle espressioni facciali è fondamentale per realizzare animazioni di personaggi realistiche
- Applicazioni di Avatar Virtuali: Con lo sviluppo del metaverso e della tecnologia di realtà virtuale, la cattura accurata e in tempo reale delle espressioni facciali diventa sempre più importante
- Pipeline di Motion Capture: Fornisce strumenti di produzione di animazioni facciali di alta qualità per l'industria dell'intrattenimento, film e videogiochi
- Metodi Precedenti: Dipendono da modelli statistici o di regressione, addestrati su dati creati da animatori, con capacità di generalizzazione limitata
- Metodi Basati su Mesh: Sebbene ricchi di informazioni, sono limitati a topologie ben strutturate e hanno scarsa adattabilità ai dati acquisiti
- Esplorazione Insufficiente del Dominio Immagine: La maggior parte dei lavori precedenti si basa su caratteristiche a livello di mesh, mentre l'approccio basato su input di immagini rimane insufficientemente esplorato
L'input nel dominio immagine offre il vantaggio di generalizzare ai dati acquisiti, una direzione di importanza pratica significativa ma insufficientemente studiata. Pertanto, questo articolo si concentra sullo sviluppo di metodi di inversione del rigging facciale basati su immagini.
- Framework di Elaborazione Bimodale: Primo a proporre un'architettura di rete a due rami che combina immagini RGB di apparenza e mappe normali codificate in RGB
- Applicazione di Hiera Transformer: Applica il più recente visual transformer gerarchico Hiera al compito di inversione del rigging facciale
- Strategia di Apprendimento Multi-Supervisionato: Supervisione simultanea nello spazio dei parametri di rigging e nello spazio della mesh 3D, garantendo accuratezza numerica e coerenza geometrica
- Generalizzazione ai Dati Acquisiti: Verifica la capacità di generalizzazione del metodo su dati acquisiti reali, colmando un vuoto di ricerca
Dato un'immagine di apparenza Ia e una mappa normale In, apprendere la funzione fθ:(Ia,In)→p∈R102, dove p rappresenta i parametri di controllo del rigging target.
Come mostrato nella Figura 1, l'architettura di rete a due rami proposta contiene i seguenti componenti principali:
- Estrazione di Caratteristiche a Due Rami:
- Il ramo RGB elabora l'immagine di apparenza, catturando informazioni di texture e illuminazione
- Il ramo della mappa normale elabora informazioni geometriche, descrivendo l'orientamento della superficie per ogni pixel
- Rete Backbone Hiera:
- Ogni ramo utilizza una rete backbone Hiera transformer indipendente
- La risoluzione di input viene aumentata da 224×224 preaddestrato a 512×512, preservando caratteristiche facciali a grana fine
- I primi tre stadi di codifica vengono congelati per preservare caratteristiche di basso livello, l'ultimo stadio è addestrabile
- Fusione di Caratteristiche e Regressione:
- Le caratteristiche estratte vengono concatenate e inserite nella testa di regressione del perceptron multistrato (MLP)
- Output di 102 parametri di controllo del rigging derivati da FACS
- Decodifica Procedurale del Rigging:
- Utilizza un rigging procedurale implementato in PyTorch per decodificare i parametri in mesh 3D
- Riflette il rigging facciale Maya personalizzato per la ricostruzione della mesh
- Preprocessing Immagini: Tutte le immagini vengono ridimensionate a 512×512 pixel, ritagliate al centro e normalizzate utilizzando statistiche ImageNet
- Codifica Mappa Normale: Codificata nello spazio tangente, mappando le normali di superficie nell'intervallo -1,1 all'intervallo RGB 0,255
- Impostazioni di Rendering: Risoluzione fissa, posa della telecamera costante e illuminazione a tre punti coerente
- Strategia di Fusione Multimodale: Combina abilmente informazioni di apparenza e geometria con forte complementarità
- Elaborazione ad Alta Risoluzione: Input 512×512 preserva indizi di texture e geometria a grana fine necessari per catturare cambiamenti di espressione sottili
- Strategia di Congelamento Parziale: Congela gli strati di caratteristiche di basso livello del modello preaddestrato, preservando rappresentazioni visive generiche adattandosi al compito specifico
- Meccanismo di Supervisione Doppia: La supervisione congiunta nello spazio dei parametri e nello spazio della mesh garantisce la ragionevolezza delle previsioni
- Dati Sintetici: Generati utilizzando rigging a forma mista con trasferimento di deformazione (DT)
- Strategia di Attivazione dei Parametri: Ogni parametro di rigging viene attivato indipendentemente, più 20 espressioni standard combinate manualmente
- Aumento dei Dati:
- Eliminazione casuale, aggiunta o sostituzione di parametri per simulare variazioni di performance reali
- Campionamento di valori di parametri da distribuzione normale per creare intensità diverse
- Aumento di trasformazione rigida per migliorare la robustezza ai disallineamenti sottili nei dati acquisiti
- Scala: 22.575 campioni di addestramento
- Dati Acquisiti Reali: Contiene sequenze acquisite di attori che eseguono 20 espressioni
- Scopo: Valutare la capacità di generalizzazione del modello su dati reali
- Ottimizzatore: AdamW, tasso di apprendimento 1×10^-4
- Epoche di Addestramento: 200 epoche, dimensione batch 32
- Hardware: Singola GPU NVIDIA 4080 Laptop
- Passi di Addestramento: Circa 141k passi (706 iterazioni per epoca)
La funzione di perdita combinata contiene:
- Perdita nello Spazio dei Parametri: Errore quadratico medio (MSE) tra parametri di rigging predetti e reali
- Perdita nello Spazio della Mesh: Perdita L1 della mesh ricostruita tramite rigging procedurale
Il modello viene valutato su dati acquisiti, con parametri predetti applicati al rigging a forma mista DT utilizzato durante l'addestramento per la ricostruzione della mesh.
I risultati di ricostruzione mostrati nella Figura 2 indicano:
- Performance Eccellente nell'Area della Bocca: Le previsioni sono particolarmente forti nell'area della bocca, catturando accuratamente espressioni orali complesse
- Sfide nel Movimento degli Occhi: Le direzioni dello sguardo verso l'alto, verso il basso o laterali presentano sfide relative maggiori per l'inversione del rigging
- Fedeltà Complessiva: I risultati di ricostruzione sono visivamente fedeli alle espressioni acquisite di input
Gli esperimenti dimostrano la buona capacità di generalizzazione del metodo dai dati di addestramento sintetici ai dati acquisiti reali, un vantaggio importante dei metodi basati su immagini rispetto ai metodi basati su mesh.
- Modelli di Regressione Statistica: I metodi precedenti si basano su modelli statistici o di regressione addestrati su dati creati da animatori
- Apprendimento della Cinematica Inversa: Metodi di apprendimento della cinematica inversa per pose di personaggi di Holden et al.
- Rigging Neurale: Metodi di rigging neurale come RigNet forniscono rigging automatico per personaggi articolati
- Rigging Differenziabile: Inversione del rigging attraverso l'addestramento di funzioni di rigging differenziabili di Bolduc e Phan
- Supervisione a Livello di Mesh: Metodi di apprendimento con supervisione a livello di mesh realizzata tramite approssimazione di rigging differenziabile
- Visual Transformer: Applicazioni di visual transformer gerarchici come Hiera nella visione artificiale
Questo articolo è il primo a esplorare sistematicamente metodi di inversione del rigging facciale basati su immagini, colmando un importante vuoto nel campo.
- Validazione dell'Efficacia: Il framework di inversione del rigging facciale basato su immagini può efficacemente combinare input di apparenza e normali per recuperare parametri di rigging
- Capacità di Generalizzazione: Il metodo generalizza con successo ai dati acquisiti, producendo risultati di ricostruzione fedeli
- Valore Pratico: Fornisce un nuovo percorso tecnologico per la produzione di animazioni e il motion capture
- Strategia di Congelamento Parziale: L'attuale strategia di congelamento parziale potrebbe limitare la capacità di adattamento del modello
- Sfide nel Movimento degli Occhi: I movimenti oculari complessi rimangono sfidanti
- Dipendenza dai Dati: Le prestazioni del metodo dipendono dalla qualità e dalla diversità dei dati di addestramento
L'articolo identifica chiaramente che l'estensione della strategia di fine-tuning all'intera rete potrebbe migliorare ulteriormente l'adattabilità alle impostazioni di inversione del rigging.
- Innovazione Tecnica:
- Prima esplorazione sistematica dell'inversione del rigging facciale basata su immagini
- Design di fusione bimodale intelligente
- L'elaborazione ad alta risoluzione preserva informazioni dettagliate
- Completezza Sperimentale:
- Valutazione completa su dati sintetici e reali
- Impostazione sperimentale chiara e dettagli di implementazione
- Analisi dettagliata delle prestazioni in diverse regioni facciali
- Valore Pratico:
- Risolve esigenze pratiche dell'industria
- Fornisce una soluzione end-to-end da immagine a parametri di rigging
- Buona capacità di generalizzazione ai dati acquisiti
- Mancanza di Valutazione Quantitativa: L'articolo manca di metriche di valutazione quantitativa dettagliate e risultati numerici
- Esperimenti Comparativi Insufficienti: Mancano confronti adeguati con altri metodi baseline
- Mancanza di Esperimenti di Ablazione: Nessuna analisi dettagliata del contributo di ogni componente
- Scala del Dataset: La scala e la diversità del set di validazione potrebbero essere limitate
- Contributo Accademico: Apre una nuova direzione nell'inversione del rigging facciale basata su immagini
- Applicazione Industriale: Fornisce tecnologia pratica per animazione, videogiochi, realtà virtuale e altri settori
- Promozione Tecnologica: Caso di applicazione di successo di Hiera transformer in ambiti professionali
- Produzione Animata: Generazione rapida di animazioni facciali da immagini di riferimento
- Motion Capture: Cattura e ricostruzione di espressioni facciali in tempo reale
- Avatar Virtuali: Mappatura in tempo reale delle espressioni dell'utente ai personaggi virtuali
- Post-Produzione Cinematografica: Controllo e regolazione precisa delle espressioni facciali
I riferimenti bibliografici chiave includono:
- Bolduc & Phan (2022): Metodo di inversione del rigging attraverso l'addestramento di funzioni di rigging differenziabili
- Hatamizadeh et al. (2023): Visual transformer gerarchico Hiera
- Sumner & Popović (2004): Metodo classico di trasferimento di deformazione per mesh triangolari
- Holden et al. (2015): Apprendimento della cinematica inversa per pose di personaggi
- Rackovic et al. (2021): RigNet per il rigging neurale di personaggi articolati
Valutazione Complessiva: Questo è un lavoro di importanza pioneristico nel campo dell'inversione del rigging facciale. Sebbene vi sia margine di miglioramento nella completezza della valutazione sperimentale, la sua innovazione tecnica e il valore pratico lo rendono un contributo significativo al campo. L'articolo fornisce un nuovo percorso tecnologico per la produzione di animazioni facciali basata su immagini, con buone prospettive di applicazione industriale.