Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
Gelina: Einheitliche Sprach- und Gestensynthese durch verschachtelte Token-Vorhersage
Menschliche Kommunikation ist von Natur aus multimodal, wobei Sprache und Gesten eng gekoppelt sind. Allerdings verwenden die meisten rechnergestützten Methoden zur Generierung von Sprache und Gesten sequenzielle Synthese, was die Synchronisation und die Prosodie-Ausrichtung beeinträchtigt. Dieser Artikel stellt Gelina vor, ein einheitliches Framework, das Sprache und ko-verbale Gesten gemeinsam aus Text synthetisiert, indem verschachtelte Token-Sequenzen in einem diskreten autoregressiven Backbone-Netzwerk mit modalitätsspezifischen Decodern kombiniert werden. Gelina unterstützt Multi-Sprecher- und Multi-Stil-Klonen sowie die Möglichkeit, nur Gesten aus Spracheingaben zu synthetisieren. Subjektive und objektive Bewertungen zeigen, dass Gelina im Vergleich zu unimodalen Baselines wettbewerbsfähige Sprachqualität und verbesserte Gestengenerierungsfähigkeiten aufweist.
Die meisten bestehenden multimodalen Systeme verwenden kaskadierende Designs, die zuerst Sprache generieren und dann Gesten hinzufügen. Diese Methode weist folgende Probleme auf:
Geschwächte Synchronisation: Der Sprachgenerierungsprozess berücksichtigt nicht den Gestentyp und das Timing
Begrenzte Prosodie-Ausrichtung: Mangelnde Koordination zwischen Sprache und Gesten
Reduzierte Ausdruckskraft: Widerspricht psycholinguistischen Erkenntnissen über die gemeinsame Planung von Sprache und Gesten
Erste verschachtelte Token-autoregressives Architektur: Vorschlag der ersten verschachtelte Token-autoregressiven Architektur für Sprach-Gesten-Synthese, die Modalitäten innerhalb eines einheitlichen Backbone-Netzwerks ausrichtet
Innovative Trainings-Strategie: Entwicklung einer Trainings-Strategie, die große unimodale Text-Sprach-Datensätze nutzt, um die Generalisierung bei knappen gepaarten Daten zu verbessern
Flexible Eingabemodi: Unterstützung von nur-Text-Sprach- und Gestengenerierung oder nur-Gesten-Synthese aus Text und Sprache
Bimodales Stil-Klonen: Gemeinsames Klonen von Sprache und Gesten durch Sequenzfortsetzung ohne explizite Sprecher-Embeddings
Sprach-Tokenisierung: Verwendung von WavTokenizer zur Umwandlung von 24-kHz-Sprache in diskrete Token mit 75 Hz
Gesten-Tokenisierung: Einsatz von Residual Vector Quantization Variational Autoencoder (RVQ-VAE), Umwandlung kontinuierlicher Bewegungssequenzen in hierarchische diskrete Token mit 5 Hz
Verschachtelte Token-Design: Innovative zeitliche Verschachtelung von Sprach- und Gesten-Tokens zur Gewährleistung zeitlicher Ausrichtung zwischen Modalitäten
Zweistufige Trainings-Strategie: Zunächst Text-Sprach-Ausrichtung auf großflächigen unimodalen Daten etablieren, dann multimodale Synchronisation auf gepaarten Daten erlernen
Flow-Matching-Decoding: Nutzung des semantisch reichhaltigen Embedding-Raums des autoregressiven Backbone zur Verbesserung der Gestenqualität durch bedingtes Flow-Matching
Effektivität des einheitlichen Frameworks: Gelina beweist, dass gemeinsame Sprach-Gesten-Generierung wettbewerbsfähig bleibt und sogar unimodale Baselines übertreffen kann
Vorteile der verschachtelten Token: Durch gemeinsame Generierung von Sprach- und Gesten-Tokens in einem einzigen autoregressiven Strom wird synchronisierte multimodale Ausgabe gewährleistet
Erfolg der Trainings-Strategie: Zweistufiges Training nutzt effektiv vorhandene unimodale und bimodale Datenressourcen
Das Paper zitiert 67 verwandte Literaturquellen, die wichtige Arbeiten in Gestensynthese, Sprachsynthese, multimodalem Lernen und anderen Bereichen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein Paper mit bedeutender Innovationskraft im Bereich der multimodalen Synthese. Gelina realisiert durch verschachtelte Token-Vorhersage eine echte einheitliche Sprach-Gesten-Synthese mit neuartiger technischer Route, umfassender experimenteller Bewertung und wichtigem akademischen Wert sowie Anwendungspotenzial. Trotz einiger Einschränkungen bietet es wertvolle neue Perspektiven für die Entwicklung dieses Forschungsbereichs.