Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
Gelina: Sintesi Unificata di Linguaggio e Gesti mediante Predizione di Token Intercalati
La comunicazione umana è intrinsecamente multimodale, con il linguaggio e i gesti strettamente accoppiati; tuttavia, la maggior parte dei metodi computazionali per la generazione di linguaggio e gesti utilizza la sintesi sequenziale, il che compromette la sincronizzazione e l'allineamento prosodico. Questo articolo introduce Gelina, un framework unificato che sintetizza congiuntamente il linguaggio e i gesti co-verbali dal testo mediante sequenze di token intercalati in un backbone autoregressivo discreto, combinato con decoder specifici per ogni modalità. Gelina supporta la clonazione multi-parlante e multi-stile, ed è in grado di eseguire la sintesi di soli gesti da input vocale. Le valutazioni soggettive e oggettive dimostrano che Gelina presenta una qualità vocale competitiva rispetto ai baseline unimodali e capacità di generazione di gesti migliorate.
I sistemi multimodali esistenti adottano principalmente un design a cascata, generando prima il linguaggio e poi aggiungendo i gesti. Questo approccio presenta i seguenti problemi:
Sincronizzazione Compromessa: Il processo di generazione vocale non è consapevole del tipo e della tempistica dei gesti
Allineamento Prosodico Limitato: Mancanza di coordinamento tra linguaggio e gesti
Espressività Ridotta: Contraddice le evidenze psicolinguistiche che mostrano la pianificazione congiunta di linguaggio e gesti
Significato Teorico: Allineamento con teorie psicolinguistiche come l'ipotesi del punto di crescita
Valore Pratico: Fornisce integrazione multimodale più naturale per agenti conversazionali virtuali e robot sociali
Avanzamento Tecnologico: Migliora l'efficienza attraverso un framework unificato, consentendo ai modelli di gesti di accedere direttamente alle caratteristiche linguistico-prosodiche
Primo Architettura Autoregressiva con Token Intercalati: Propone il primo architettura autoregressiva con token intercalati per la sintesi linguaggio-gesti, allineando le modalità all'interno di un backbone unificato
Strategia di Addestramento Innovativa: Propone una strategia di addestramento che sfrutta grandi dataset di testo-linguaggio unimodali per migliorare la generalizzazione con dati appaiati scarsi
Modalità di Input Flessibili: Supporta la generazione di linguaggio + gesti da solo testo, o la generazione di soli gesti da testo + linguaggio
Clonazione di Stile Bimodale: Realizza la clonazione congiunta di linguaggio e gesti mediante continuazione di sequenza, senza richiedere embedding espliciti del parlante
Input: Sequenza di testo (opzionale: riferimento vocale)
Output: Forma d'onda vocale sincronizzata e sequenza di gesti corporei 3D (formato SMPL-X)
Vincoli: Supporto multi-parlante, multi-stile, mantenimento della sincronizzazione temporale linguaggio-gesti
Tokenizzazione Vocale: Utilizza WavTokenizer per convertire il linguaggio a 24kHz in token discreti a 75Hz
Tokenizzazione dei Gesti: Impiega un autoencoder variazionale con quantizzazione vettoriale residua (RVQ-VAE) per convertire sequenze di movimento continuo in token discreti gerarchici a 5Hz
Tokenizzazione del Testo: Algoritmo standard di codifica a coppie di byte (BPE)
Design di Token Intercalati: Dispone innovativamente i token di linguaggio e gesti in modo intercalato nella dimensione temporale, garantendo l'allineamento temporale tra modalità
Strategia di Addestramento in Due Fasi: Stabilisce prima l'allineamento testo-linguaggio su dati unimodali su larga scala, quindi apprende la sincronizzazione multimodale su dati appaiati
Decodifica con Flusso di Corrispondenza: Sfrutta lo spazio di embedding semanticamente ricco del backbone autoregressivo per migliorare la qualità dei gesti mediante flusso di corrispondenza condizionato
Qualità dei Gesti: Gelina Cloning mostra le migliori prestazioni in FGD-B (0.0839), significativamente superiore agli altri baseline di generazione di gesti
Qualità Vocale: Rispetto a Lina-Speech, WER diminuisce dal 10.9% al 9.2%, NMOS migliora da 2.98 a 3.21
Efficienza di Esecuzione: RTF di 1.47 su GPU A5000, prossimo al tempo reale, sintetizzando simultaneamente due modalità
Efficacia del Framework Unificato: Gelina dimostra che la generazione congiunta linguaggio-gesti può mantenere competitività, persino superare i baseline unimodali
Vantaggi dell'Intercalamento di Token: Generando congiuntamente token di linguaggio e gesti in un singolo flusso autoregressivo, garantisce output multimodale sincronizzato
Successo della Strategia di Addestramento: L'addestramento in due fasi sfrutta efficacemente le risorse di dati unimodali e bimodali disponibili
L'articolo cita 67 riferimenti correlati, coprendo importanti lavori in sintesi di gesti, sintesi vocale, apprendimento multimodale e altri campi, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di importante significato innovativo nel campo della sintesi multimodale. Gelina realizza la vera sintesi unificata linguaggio-gesti mediante predizione di token intercalati, con un percorso tecnico innovativo, valutazione sperimentale completa, e importante valore accademico e prospettive di applicazione. Nonostante alcune limitazioni, fornisce nuove prospettive preziose per lo sviluppo del settore.