2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic

Gelina: Einheitliche Sprach- und Gestensynthese durch verschachtelte Token-Vorhersage

Grundinformationen

  • Paper-ID: 2510.12834
  • Titel: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
  • Autoren: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
  • Klassifizierung: cs.SD cs.AI eess.AS
  • Einreichungsdatum: 13. Oktober 2025 bei arXiv eingereicht
  • Paper-Link: https://arxiv.org/abs/2510.12834v1

Zusammenfassung

Menschliche Kommunikation ist von Natur aus multimodal, wobei Sprache und Gesten eng gekoppelt sind. Allerdings verwenden die meisten rechnergestützten Methoden zur Generierung von Sprache und Gesten sequenzielle Synthese, was die Synchronisation und die Prosodie-Ausrichtung beeinträchtigt. Dieser Artikel stellt Gelina vor, ein einheitliches Framework, das Sprache und ko-verbale Gesten gemeinsam aus Text synthetisiert, indem verschachtelte Token-Sequenzen in einem diskreten autoregressiven Backbone-Netzwerk mit modalitätsspezifischen Decodern kombiniert werden. Gelina unterstützt Multi-Sprecher- und Multi-Stil-Klonen sowie die Möglichkeit, nur Gesten aus Spracheingaben zu synthetisieren. Subjektive und objektive Bewertungen zeigen, dass Gelina im Vergleich zu unimodalen Baselines wettbewerbsfähige Sprachqualität und verbesserte Gestengenerierungsfähigkeiten aufweist.

Forschungshintergrund und Motivation

Kernprobleme

Die meisten bestehenden multimodalen Systeme verwenden kaskadierende Designs, die zuerst Sprache generieren und dann Gesten hinzufügen. Diese Methode weist folgende Probleme auf:

  1. Geschwächte Synchronisation: Der Sprachgenerierungsprozess berücksichtigt nicht den Gestentyp und das Timing
  2. Begrenzte Prosodie-Ausrichtung: Mangelnde Koordination zwischen Sprache und Gesten
  3. Reduzierte Ausdruckskraft: Widerspricht psycholinguistischen Erkenntnissen über die gemeinsame Planung von Sprache und Gesten

Forschungsbedeutung

  1. Theoretische Bedeutung: Übereinstimmung mit psycholinguistischen Theorien wie der Growth Point Hypothesis
  2. Praktischer Wert: Bereitstellung natürlicherer multimodaler Verhaltensintegration für virtuelle Gesprächsagenten und Sozialroboter
  3. Technologischer Durchbruch: Verbesserte Effizienz durch einheitliches Framework, direkter Zugriff des Gestenmodells auf Sprach-Prosodie-Merkmale

Einschränkungen bestehender Methoden

  1. Datenmangel: Mangel an großflächigen gepaarten Korpora
  2. Unimodale Datensatz-Beschränkungen: Aufbau nur auf einzelnen modalen Datensätzen für Sprache oder Gesten
  3. Kaskadierende Design-Mängel: Sprachgenerierungsprozess ist nicht sensibel für Gesteninformationen

Kernbeiträge

  1. Erste verschachtelte Token-autoregressives Architektur: Vorschlag der ersten verschachtelte Token-autoregressiven Architektur für Sprach-Gesten-Synthese, die Modalitäten innerhalb eines einheitlichen Backbone-Netzwerks ausrichtet
  2. Innovative Trainings-Strategie: Entwicklung einer Trainings-Strategie, die große unimodale Text-Sprach-Datensätze nutzt, um die Generalisierung bei knappen gepaarten Daten zu verbessern
  3. Flexible Eingabemodi: Unterstützung von nur-Text-Sprach- und Gestengenerierung oder nur-Gesten-Synthese aus Text und Sprache
  4. Bimodales Stil-Klonen: Gemeinsames Klonen von Sprache und Gesten durch Sequenzfortsetzung ohne explizite Sprecher-Embeddings

Methodische Details

Aufgabendefinition

Eingabe: Textsequenz (optional: Sprach-Referenz) Ausgabe: Synchronisierte Sprachform und 3D-Körpergestensequenz (SMPL-X-Format) Einschränkungen: Unterstützung von Multi-Sprecher, Multi-Stil, Beibehaltung der Sprach-Gesten-Zeitsynchronisation

Modellarchitektur

Gelina besteht aus drei Kernkomponenten:

1. Tokenisierungsmodul

  • Sprach-Tokenisierung: Verwendung von WavTokenizer zur Umwandlung von 24-kHz-Sprache in diskrete Token mit 75 Hz
  • Gesten-Tokenisierung: Einsatz von Residual Vector Quantization Variational Autoencoder (RVQ-VAE), Umwandlung kontinuierlicher Bewegungssequenzen in hierarchische diskrete Token mit 5 Hz
  • Text-Tokenisierung: Standard-Byte-Pair-Encoding (BPE)-Algorithmus

2. Autoregressives Backbone-Netzwerk

Erweiterung basierend auf Lina-Speech-Architektur:

  • Modale Verschachtelungs-Schema: Einfügung von 1 Gesten-Token nach jedem 15. Sprach-Token (reflektiert das Kodierungsrate-Verhältnis von 75 Hz zu 5 Hz)
  • Unabhängige Embeddings: Separate Eingabe-Embeddings und Ausgabe-Projektionen für jede Modalität
  • Zweistufiges Training:
    • Vortraining: Training auf großflächigen Text-Sprach-Datensätzen, Gesten-Token durch zufällige Token ersetzt
    • Feinabstimmung: Feinabstimmung auf gepaarten Text-Sprach-Gesten-Daten

3. Bedingter Flow-Matching-Decoder

Optimiert für Gestenqualität:

  • Motivation: Direktes RVQ-VAE-Decoding ist empfindlich gegenüber verrauschten Gesten-Token-Sequenzen
  • Architektur: 1D-Faltungs-Transformer UNet basierend auf Matcha-TTS
  • Trainings-Ziel:
    L = LFM + λvel*Lvel + λgeo*Lgeo
    
    einschließlich Flow-Matching-Verlust, Geschwindigkeits-Konsistenz-Term und Geodäten-Verlust für Gelenkrotationen

Technische Innovationen

  1. Verschachtelte Token-Design: Innovative zeitliche Verschachtelung von Sprach- und Gesten-Tokens zur Gewährleistung zeitlicher Ausrichtung zwischen Modalitäten
  2. Zweistufige Trainings-Strategie: Zunächst Text-Sprach-Ausrichtung auf großflächigen unimodalen Daten etablieren, dann multimodale Synchronisation auf gepaarten Daten erlernen
  3. Flow-Matching-Decoding: Nutzung des semantisch reichhaltigen Embedding-Raums des autoregressiven Backbone zur Verbesserung der Gestenqualität durch bedingtes Flow-Matching

Experimentelle Einrichtung

Datensätze

  • Vortraining: GigaSpeech, LibriTTS, MLS-10k, insgesamt 18.190 Stunden
  • Feinabstimmung: BEAT2-Datensatz (größter Multi-Sprecher-Sprach-Gesten-Datensatz)
  • Datenverarbeitung:
    • Neutranskription von Audio mit Whisper-large-v3
    • Gesten als SMPL-X-Bewegungssequenzen dargestellt (25 Gelenke, Finger-Gelenke entfernt)
    • Umwandlung in Rot6D-Darstellung mit Translation und Fuß-Kontakt-Informationen

Bewertungsmetriken

  • Gestenqualität:
    • FGD-B (Fréchet Gesture Distance-Body): Abstand zwischen generierter und menschlicher Gesten-Verteilung
    • BC (Beat Consistency): Zeitliche Ausrichtung von Gesten-Schlägen mit Audio-Schlägen
    • L1-Diversity: Variabilität der generierten Gestensequenz
  • Sprachqualität:
    • WER (Word Error Rate): Verständlichkeit
    • NMOS (Natural MOS): Vorhersage der Natürlichkeit
    • SS (Speaker Similarity): Sprecher-Ähnlichkeit

Vergleichsmethoden

  • Gesten-Baselines: CAMN, EMAGE, RAG-Gesture
  • Sprach-Baselines: Lina-Speech, CosyVoice-2
  • Ablationsstudien: Gelina - Flow (ohne Flow-Matching-Decoder), Tokenizers (direkte Encoder-Decoder-Rekonstruktion)

Implementierungsdetails

  • RVQ-VAE: 6 Residual-Layer, 512-Eintrag-Codebook, 512-dimensionaler latenter Raum
  • AR-Backbone: 168M Parameter, 6-schichtiger Text-Encoder, 12-schichtiger kausaler Decoder
  • Gesten-Decoder: 11,5M Parameter U-Net, λvel=0,05, λgeo=0,8
  • Training: 100k Schritte Vortraining, 5k Schritte Feinabstimmung, 300k Schritte Flow-Matching-Training

Experimentelle Ergebnisse

Hauptergebnisse

ModellFGD-B↓BC∼Div.∼WER↓NMOS↑SS
Human0,00,6844,146,5±0,543,72±0,0469,1
Gelina Clon.0,08390,7383,159,2±0,843,21±0,0461,3
RAG0,17810,7005,13---
EMAGE0,16790,7663,92---
Lina-Speech---10,9±0,92,98±0,0560,1
CosyVoice-2---3,5±0,53,70±0,0463,9

Wichtigste Erkenntnisse

  1. Gestenqualität: Gelina Cloning zeigt beste Leistung bei FGD-B (0,0839), deutlich überlegen gegenüber anderen Gesten-Generierungs-Baselines
  2. Sprachqualität: Im Vergleich zu Lina-Speech, WER von 10,9% auf 9,2% reduziert, NMOS von 2,98 auf 3,21 verbessert
  3. Betriebseffizienz: RTF von 1,47 auf A5000 GPU, nahezu Echtzeit, während beide Modalitäten synthetisiert werden

Benutzerforschung

Großflächige Benutzerforschung mit 96 Teilnehmern:

  • Sprach-Menschenähnlichkeit: Gelina deutlich überlegen gegenüber Lina-Speech
  • Gesten-Menschenähnlichkeit: Gelina vergleichbar mit RAG, deutlich überlegen gegenüber EMAGE und CAMN
  • Synchronisation: Gelina und RAG ohne signifikante Unterschiede, beide deutlich überlegen gegenüber anderen Baselines

Ablationsstudien

  • Wichtigkeit des Flow-Matching-Decoders: Entfernung des Flow-Matching verschlechtert FGD-B von 0,0839 auf 0,6107
  • Tokenizer-Qualität: Direkte Tokenizer-Rekonstruktion zeigt Leistungsobergrenze des Encoders-Decoders

Verwandte Arbeiten

Ko-verbale Gestensynthese

  • Frühe Methoden: Autoregressives Sequenzmodellieren (CAMN etc.)
  • Aktuelle Mainstream: Diffusions-basierte Generatoren (EMAGE etc.)
  • Diskrete Darstellungen: Kontrollierbarere Synthese (BEAT2 etc.)

Text-zu-Sprache

  • Entwicklungstrend: Übergang zu datengesteuerten Methoden
  • Diskrete Kodierungs-Modellierung: Verwendung großer vortrainierter Encoder-Decoder
  • Multi-Sprecher-Synthese: Sprecher-Klonen durch kurze Referenz-Äußerungen

Einheitliche Sprach-Gesten-Synthese

  • Frühe Versuche: Neuronale Methoden wie Tacotron-ISG
  • Neuere Arbeiten: Diffusions-Frameworks wie Diff-TTSG, Match-TTSG
  • Einschränkungen: Meist auf Einzelsprecher oder synthetische Daten beschränkt

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität des einheitlichen Frameworks: Gelina beweist, dass gemeinsame Sprach-Gesten-Generierung wettbewerbsfähig bleibt und sogar unimodale Baselines übertreffen kann
  2. Vorteile der verschachtelten Token: Durch gemeinsame Generierung von Sprach- und Gesten-Tokens in einem einzigen autoregressiven Strom wird synchronisierte multimodale Ausgabe gewährleistet
  3. Erfolg der Trainings-Strategie: Zweistufiges Training nutzt effektiv vorhandene unimodale und bimodale Datenressourcen

Einschränkungen

  1. Gesten-Abdeckungsbereich: Derzeit nur Körpergesten modelliert, keine Finger- und Gesichtsausdrücke
  2. Sprach-Qualitäts-Einschränkungen: Begrenzt durch Tokenizer-Qualität
  3. Sequenzlänge: Aktuelle Version mit begrenzter Unterstützung für lange Sequenzgenerierung

Zukünftige Richtungen

  1. Verbesserte Tokenizer: Erhöhung der Sprach-Kodierungs-Qualität
  2. Erweiterte Gesten-Abdeckung: Einbeziehung von Finger- und Gesichtsausdrücken
  3. Unterstützung langer Sequenzen: Ermöglichung längerer Sequenzgenerierung
  4. Mehrsprachige Erweiterung: Erweiterung auf mehrsprachige Szenarien

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste Vorschlag einer verschachtelten Token-autoregressiven Architektur, neuartige technische Route
  2. Umfassende Experimente: Objektive Metriken und großflächige Benutzerforschung, umfassende Bewertung
  3. Hoher praktischer Wert: Unterstützung von Multi-Sprecher, Multi-Stil, gute Anwendungsaussichten
  4. Solide theoretische Grundlagen: Übereinstimmung mit psycholinguistischen Theorien

Mängel

  1. Begrenzte Vergleichsbaselines: Aufgrund von Datensatz-Unterschieden keine direkten Vergleiche mit allen verwandten Arbeiten möglich
  2. Rechnerische Effizienz: Höherer Rechenaufwand im Vergleich zu spezialisierten Sprachsynthese-Modellen
  3. Vereinfachte Gesten-Darstellung: Entfernung von Finger-Gelenken könnte die Ausdrucksvollständigkeit beeinträchtigen

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neues technisches Paradigma für multimodale Synthese
  2. Praktischer Wert: Wichtige Anwendungswerte in virtuellen Personen, Sozialrobotern etc.
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Demo-Website bereitgestellt

Anwendungsszenarien

  1. Virtuelle Gesprächsagenten: Anwendungen, die natürliche Sprach- und Gesten-Interaktion erfordern
  2. Digitale Menschenherstellung: Charakter-Animation in Film, Spielen etc.
  3. Hilfstechnologie: Gebärdensprachen-Generierung für Gehörlose
  4. Bildung und Training: Multimodale Rückmeldung beim Sprachenlernen

Referenzen

Das Paper zitiert 67 verwandte Literaturquellen, die wichtige Arbeiten in Gestensynthese, Sprachsynthese, multimodalem Lernen und anderen Bereichen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein Paper mit bedeutender Innovationskraft im Bereich der multimodalen Synthese. Gelina realisiert durch verschachtelte Token-Vorhersage eine echte einheitliche Sprach-Gesten-Synthese mit neuartiger technischer Route, umfassender experimenteller Bewertung und wichtigem akademischen Wert sowie Anwendungspotenzial. Trotz einiger Einschränkungen bietet es wertvolle neue Perspektiven für die Entwicklung dieses Forschungsbereichs.