We present an image-based rig inversion framework that leverages two modalities: RGB appearance and RGB-encoded normal maps. Each modality is processed by an independent Hiera transformer backbone, and the extracted features are fused to regress 102 rig parameters derived from the Facial Action Coding System (FACS). Experiments on synthetic and scanned datasets demonstrate that the method generalizes to scanned data, producing faithful reconstructions.
- Paper-ID: 2510.13933
- Titel: Image-based Facial Rig Inversion
- Autoren: Tianxiang Yang, Marco Volino, Armin Mustafa, Greg Maguire, Robert Kosk
- Institution: University of Surrey & Humain Ltd.
- Klassifizierung: eess.IV (Bild- und Videoverarbeitung)
- Veröffentlichungsdatum: 15. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.13933v1
Dieses Paper präsentiert ein bildbasiertes Gesichtsrig-Inversionsframework, das zwei Modalitäten nutzt: RGB-Erscheinungsbilder und RGB-kodierte Normalenvektorkarten. Jede Modalität wird durch ein unabhängiges Hiera-Transformer-Backbone-Netzwerk verarbeitet. Die extrahierten Merkmale werden fusioniert, um 102 auf dem Facial Action Coding System (FACS) basierende Rig-Parameter zu regredieren. Experimente auf synthetischen und gescannten Datensätzen zeigen, dass die Methode auf Scandaten generalisiert und treue Rekonstruktionsergebnisse erzeugt.
Die Gesichtsrig-Inversion ist der Prozess der genauen Wiederherstellung von Rig-Kontrollparametern aus visuellen Eingaben. Dies spielt eine Schlüsselrolle in Animation, virtuellen Avataren und Performance-Capture-Pipelines und ermöglicht die direkte Kontrolle von Produktionsressourcen.
- Animationsanforderungen: In der modernen Animation ist die präzise Kontrolle von Gesichtsausdrücken entscheidend für realistische Charakteranimation
- Anwendungen virtueller Avatare: Mit der Entwicklung von Metaverse und Virtual-Reality-Technologien wird die Echtzeit-Erfassung von Gesichtsausdrücken zunehmend wichtig
- Performance-Capture-Pipeline: Bereitstellung hochwertiger Werkzeuge zur Gesichtsanimation für Film-, Spiele- und Unterhaltungsindustrie
- Frühe Methoden: Basieren auf statistischen oder Regressionsmodellen, trainiert auf von Animatoren erstellten Daten mit begrenzter Generalisierungsfähigkeit
- Netzwerk-basierte Methoden: Obwohl informationsreich, sind sie auf gut strukturierte Topologien beschränkt und passen sich schlecht an Scandaten an
- Mangelnde Bildbereichserkundung: Die meisten bisherigen Arbeiten basieren auf Netzwerk-Level-Merkmalen, während bildbasierte Eingaberichtungen noch unzureichend erforscht sind
Bildbereichseingaben bieten Vorteile bei der Generalisierung auf Scandaten. Diese Richtung hat wichtigen praktischen Wert, ist aber untererforscht. Daher konzentriert sich dieses Paper auf die Entwicklung bildbasierter Gesichtsrig-Inversionsmethoden.
- Dual-Modalitäts-Bildverarbeitungsframework: Erstmals wird eine Dual-Branch-Netzwerkarchitektur vorgeschlagen, die RGB-Erscheinungsbilder und RGB-kodierte Normalenvektorkarten kombiniert
- Hiera-Transformer-Anwendung: Wendet den neuesten Hiera-Vision-Transformer auf die Gesichtsrig-Inversionsaufgabe an
- Multi-Supervision-Lernstrategie: Gleichzeitige Supervision im Rig-Parameterraum und 3D-Netzwerk-Raum für numerische Genauigkeit und geometrische Konsistenz
- Scandaten-Generalisierung: Validiert die Generalisierungsfähigkeit der Methode auf echten Scandaten und füllt eine Forschungslücke
Gegeben ein Erscheinungsbild Ia und eine Normalenvektorkarte In, wird eine Funktion fθ:(Ia,In)→p∈R102 gelernt, wobei p die Kontrollparameter des Ziel-Rigs darstellt.
Wie in Abbildung 1 gezeigt, umfasst die vorgeschlagene Dual-Branch-Netzwerkarchitektur folgende Kernkomponenten:
- Dual-Branch-Merkmalsextraktion:
- RGB-Branch verarbeitet Erscheinungsbilder und erfasst Textur- und Beleuchtungsinformationen
- Normalenvektorkarten-Branch verarbeitet geometrische Informationen und beschreibt die Oberflächenausrichtung pro Pixel
- Hiera-Backbone-Netzwerk:
- Jeder Branch nutzt ein unabhängiges Hiera-Transformer-Backbone-Netzwerk
- Eingabeauflösung wird von vortrainierten 224×224 auf 512×512 erhöht, um feinkörnige Gesichtsmerkmale zu bewahren
- Die ersten drei Encoder-Stufen sind eingefroren, um niedrigstufige Merkmale zu bewahren; die letzte Stufe ist trainierbar
- Merkmalsfusion und Regression:
- Extrahierte Merkmale werden verkettet und in einen Multi-Layer-Perceptron (MLP)-Regressionskopf eingegeben
- Ausgabe von 102 FACS-abgeleiteten Rig-Kontrollparametern
- Programmgesteuerte Rig-Dekodierung:
- Verwendet eine in PyTorch implementierte programmgesteuerte Rig zur Dekodierung von Parametern in 3D-Netzwerke
- Spiegelt benutzerdefinierte Maya-Gesichtsrigs für Netzwerk-Rekonstruktion wider
- Bildvorverarbeitung: Alle Bilder werden auf 512×512 Pixel angepasst, zentral zugeschnitten und mit ImageNet-Statistiken normalisiert
- Normalenvektorkarten-Kodierung: Im Tangentenraum kodiert, wobei Oberflächennormalenvektoren im Bereich -1,1 auf den RGB-Bereich 0,255 abgebildet werden
- Rendering-Einstellungen: Feste Auflösung, konstante Kameraposition und konsistente Drei-Punkt-Beleuchtung
- Multi-Modalitäts-Fusionsstrategie: Geschickte Kombination von Erscheinungs- und Geometrieinformationen mit starker Komplementarität
- Hochauflösungsverarbeitung: 512×512-Eingaben bewahren feinkörnige Textur- und Geometriehinweise, die zur Erfassung subtiler Ausdrucksveränderungen erforderlich sind
- Teilweise Einfrierungsstrategie: Friert niedrigstufige Merkmalschichten des vortrainierten Modells ein, um allgemeine visuelle Darstellungen zu bewahren und gleichzeitig sich an spezifische Aufgaben anzupassen
- Dual-Supervision-Mechanismus: Gemeinsame Supervision im Parameter- und Netzwerk-Raum gewährleistet die Plausibilität von Vorhersagen
- Synthetische Daten: Generiert mit Deformation Transfer (DT) Blend-Shape-Rig
- Parameteraktivierungsstrategie: Jeder Rig-Parameter wird unabhängig aktiviert, plus 20 manuell kombinierte Standardausdrücke
- Datenerweiterung:
- Zufälliges Löschen, Hinzufügen oder Ersetzen von Parametern zur Simulation echter Performance-Variationen
- Sampling von Parameterwerten aus Normalverteilungen zur Erzeugung unterschiedlicher Intensitäten
- Starre Transformationserweiterung zur Verbesserung der Robustheit gegenüber subtilen Fehlausrichtungen in Scandaten
- Umfang: 22.575 Trainingsmuster
- Echte Scandaten: Enthält Scan-Sequenzen von Schauspielern, die 20 verschiedene Ausdrücke aufführen
- Zweck: Bewertung der Generalisierungsfähigkeit des Modells auf echten Daten
- Optimierer: AdamW, Lernrate 1×10^-4
- Trainingsepochen: 200 Epochen, Batch-Größe 32
- Hardware: Einzelne NVIDIA 4080 Laptop GPU
- Trainingsschritte: Etwa 141k Schritte (706 Iterationen pro Epoche)
Die kombinierte Verlustfunktion enthält:
- Parameterraum-Verlust: Mittlerer quadratischer Fehler (MSE) zwischen vorhergesagten und echten Rig-Parametern
- Netzwerk-Raum-Verlust: L1-Verlust des durch programmgesteuerte Rig rekonstruierten Netzwerks
Das Modell wird auf Scandaten evaluiert, wobei vorhergesagte Parameter auf das beim Training verwendete DT-Blend-Shape-Rig angewendet werden zur Netzwerk-Rekonstruktion.
Wie in Abbildung 2 gezeigt, zeigen die Rekonstruktionsergebnisse:
- Ausgezeichnete Mundbereichsleistung: Vorhersagen sind besonders stark im Mundbereich und erfassen komplexe Mundausdrücke genau
- Augenbewegungsherausforderungen: Aufwärts-, Abwärts- oder seitliche Blickrichtungen stellen relative Herausforderungen für die Rig-Inversion dar
- Gesamttreue: Rekonstruktionsergebnisse sind visuell treu zu den Eingabe-Scan-Ausdrücken
Experimente demonstrieren die gute Generalisierungsfähigkeit der Methode von synthetischen Trainingsdaten zu echten Scandaten, was ein wichtiger Vorteil bildbasierter Methoden gegenüber netzwerk-basierten Methoden ist.
- Statistische Regressionsmodelle: Frühe Methoden basieren auf statistischen oder Regressionsmodellen, trainiert auf von Animatoren erstellten Daten
- Inverse Kinematik-Lernen: Holden et al. Methoden zum Lernen inverser Kinematik für Charakterposen
- Neurale Rigs: Neurale Rig-Methoden wie RigNet bieten automatische Rigging für Skelett-Charaktere
- Differenzierbare Rigs: Bolduc und Phan erreichen Rig-Inversion durch Training differenzierbarer Rig-Funktionen
- Netzwerk-Level-Supervision: Lernmethoden mit Netzwerk-Level-Supervision durch differenzierbare Rig-Approximation
- Vision-Transformer: Anwendungen hierarchischer Vision-Transformer wie Hiera in der Computervision
Dieses Paper ist die erste systematische Erkundung bildbasierter Gesichtsrig-Inversionsmethoden und füllt eine wichtige Forschungslücke.
- Validierung der Wirksamkeit: Das bildbasierte Gesichtsrig-Inversionsframework kann effektiv Erscheinungs- und Normalenvektoreingaben kombinieren, um Rig-Parameter wiederherzustellen
- Generalisierungsfähigkeit: Die Methode generalisiert erfolgreich auf Scandaten und erzeugt treue Rekonstruktionsergebnisse
- Praktischer Wert: Bietet einen neuen technologischen Weg für Animation und Performance-Capture
- Teilweise Einfrierungsstrategie: Die aktuelle teilweise Einfrierungsstrategie kann die Adaptionsfähigkeit des Modells einschränken
- Augenbewegungsherausforderungen: Komplexe Augenbewegungen stellen weiterhin Herausforderungen dar
- Datenabhängigkeit: Die Modellleistung hängt von der Qualität und Vielfalt der Trainingsdaten ab
Das Paper schlägt explizit vor, dass die Erweiterung der Feinabstimmungsstrategie auf das gesamte Netzwerk die Anpassung an Rig-Inversionseinstellungen weiter verbessern könnte.
- Technische Innovativität:
- Erste systematische Erkundung bildbasierter Gesichtsrig-Inversion
- Geschicktes Dual-Modalitäts-Fusionsdesign
- Hochauflösungsverarbeitung bewahrt Detailinformationen
- Experimentelle Vollständigkeit:
- Umfassende Bewertung mit synthetischen und echten Daten
- Klare experimentelle Einrichtung und Implementierungsdetails
- Detaillierte Analyse der Leistung verschiedener Gesichtsbereiche
- Praktischer Wert:
- Löst tatsächliche Anforderungen der Industrie
- Bietet End-to-End-Lösung direkt von Bildern zu Rig-Parametern
- Gute Generalisierungsfähigkeit auf Scandaten
- Fehlende quantitative Bewertung: Paper fehlen detaillierte quantitative Bewertungsmetriken und numerische Ergebnisse
- Unzureichende Vergleichsexperimente: Keine ausreichende Vergleiche mit anderen Baseline-Methoden
- Mangelnde Ablationsstudien: Keine detaillierte Analyse der Beiträge einzelner Komponenten
- Datensatzgröße: Umfang und Vielfalt des Validierungssatzes könnten begrenzt sein
- Akademischer Beitrag: Eröffnet neue Richtung für bildbasierte Gesichtsrig-Inversion
- Industrielle Anwendung: Bietet praktische Technologie für Animation, Spiele, Virtual Reality und andere Branchen
- Technologietransfer: Erfolgreiche Anwendungsfall für Hiera-Transformer in professionellen Bereichen
- Animation: Schnelle Generierung von Gesichtsanimation aus Referenzbildern
- Performance-Capture: Echtzeit-Erfassung und Rekonstruktion von Gesichtsausdrücken
- Virtuelle Avatare: Echtzeit-Zuordnung von Benutzerausdrücken zu virtuellen Charakteren
- Filmpostproduktion: Präzise Kontrolle und Anpassung von Gesichtsausdrücken
Wichtige Referenzen umfassen:
- Bolduc & Phan (2022): Rig-Inversions-Methoden durch Training differenzierbarer Rig-Funktionen
- Hatamizadeh et al. (2023): Hiera hierarchische Vision-Transformer
- Sumner & Popović (2004): Klassische Methode zur Deformation Transfer für Dreiecksnetzwerke
- Holden et al. (2015): Lernen inverser Kinematik für Charakterposen
- Rackovic et al. (2021): Neurale Rigs RigNet für Skelett-Charaktere
Gesamtbewertung: Dies ist eine bahnbrechende Arbeit im Bereich der Gesichtsrig-Inversion. Obwohl die Vollständigkeit der experimentellen Bewertung verbessert werden könnte, machen ihre technische Innovation und praktischer Wert sie zu einem wichtigen Beitrag auf diesem Gebiet. Das Paper bietet einen neuen technologischen Weg für bildbasierte Gesichtsanimation mit guten Aussichten für industrielle Anwendungen.