2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic

Gelina: Sintesi Unificata di Linguaggio e Gesti mediante Predizione di Token Intercalati

Informazioni Fondamentali

  • ID Articolo: 2510.12834
  • Titolo: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
  • Autori: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
  • Classificazione: cs.SD cs.AI eess.AS
  • Data di Pubblicazione: Sottomesso ad arXiv il 13 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.12834v1

Riassunto

La comunicazione umana è intrinsecamente multimodale, con il linguaggio e i gesti strettamente accoppiati; tuttavia, la maggior parte dei metodi computazionali per la generazione di linguaggio e gesti utilizza la sintesi sequenziale, il che compromette la sincronizzazione e l'allineamento prosodico. Questo articolo introduce Gelina, un framework unificato che sintetizza congiuntamente il linguaggio e i gesti co-verbali dal testo mediante sequenze di token intercalati in un backbone autoregressivo discreto, combinato con decoder specifici per ogni modalità. Gelina supporta la clonazione multi-parlante e multi-stile, ed è in grado di eseguire la sintesi di soli gesti da input vocale. Le valutazioni soggettive e oggettive dimostrano che Gelina presenta una qualità vocale competitiva rispetto ai baseline unimodali e capacità di generazione di gesti migliorate.

Contesto di Ricerca e Motivazione

Problema Centrale

I sistemi multimodali esistenti adottano principalmente un design a cascata, generando prima il linguaggio e poi aggiungendo i gesti. Questo approccio presenta i seguenti problemi:

  1. Sincronizzazione Compromessa: Il processo di generazione vocale non è consapevole del tipo e della tempistica dei gesti
  2. Allineamento Prosodico Limitato: Mancanza di coordinamento tra linguaggio e gesti
  3. Espressività Ridotta: Contraddice le evidenze psicolinguistiche che mostrano la pianificazione congiunta di linguaggio e gesti

Significato della Ricerca

  1. Significato Teorico: Allineamento con teorie psicolinguistiche come l'ipotesi del punto di crescita
  2. Valore Pratico: Fornisce integrazione multimodale più naturale per agenti conversazionali virtuali e robot sociali
  3. Avanzamento Tecnologico: Migliora l'efficienza attraverso un framework unificato, consentendo ai modelli di gesti di accedere direttamente alle caratteristiche linguistico-prosodiche

Limitazioni dei Metodi Esistenti

  1. Scarsità di Dati: Mancanza di corpora di grandi dimensioni con dati appaiati
  2. Vincoli di Dataset Unimodali: Costruiti su dataset con una sola modalità (solo linguaggio o solo gesti)
  3. Difetti del Design a Cascata: Il processo di generazione vocale non è sensibile alle informazioni sui gesti

Contributi Principali

  1. Primo Architettura Autoregressiva con Token Intercalati: Propone il primo architettura autoregressiva con token intercalati per la sintesi linguaggio-gesti, allineando le modalità all'interno di un backbone unificato
  2. Strategia di Addestramento Innovativa: Propone una strategia di addestramento che sfrutta grandi dataset di testo-linguaggio unimodali per migliorare la generalizzazione con dati appaiati scarsi
  3. Modalità di Input Flessibili: Supporta la generazione di linguaggio + gesti da solo testo, o la generazione di soli gesti da testo + linguaggio
  4. Clonazione di Stile Bimodale: Realizza la clonazione congiunta di linguaggio e gesti mediante continuazione di sequenza, senza richiedere embedding espliciti del parlante

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Sequenza di testo (opzionale: riferimento vocale) Output: Forma d'onda vocale sincronizzata e sequenza di gesti corporei 3D (formato SMPL-X) Vincoli: Supporto multi-parlante, multi-stile, mantenimento della sincronizzazione temporale linguaggio-gesti

Architettura del Modello

Gelina è composta da tre componenti principali:

1. Modulo di Tokenizzazione

  • Tokenizzazione Vocale: Utilizza WavTokenizer per convertire il linguaggio a 24kHz in token discreti a 75Hz
  • Tokenizzazione dei Gesti: Impiega un autoencoder variazionale con quantizzazione vettoriale residua (RVQ-VAE) per convertire sequenze di movimento continuo in token discreti gerarchici a 5Hz
  • Tokenizzazione del Testo: Algoritmo standard di codifica a coppie di byte (BPE)

2. Backbone Autoregressivo

Estensione dell'architettura Lina-Speech:

  • Schema di Intercalamento Modale: Inserisce 1 token di gesto ogni 15 token vocali (riflettendo i rapporti di codifica 75Hz e 5Hz)
  • Embedding Indipendenti: Mantiene embedding di input e proiezioni di output indipendenti per ogni modalità
  • Addestramento in Due Fasi:
    • Preaddestramento: Addestramento su dataset testo-linguaggio su larga scala, con token di gesti sostituiti da token casuali
    • Messa a punto: Messa a punto su dati appaiati testo-linguaggio-gesti

3. Decoder con Flusso Condizionato

Ottimizzato per la qualità dei gesti:

  • Motivazione: La decodifica diretta da RVQ-VAE è sensibile alle sequenze di token di gesti rumorose
  • Architettura: UNet 1D basato su Matcha-TTS con convoluzione e Transformer
  • Obiettivo di Addestramento:
    L = LFM + λvel*Lvel + λgeo*Lgeo
    
    dove include perdita di flusso di corrispondenza, termine di coerenza della velocità e perdita geodetica per rotazioni articolari

Punti di Innovazione Tecnica

  1. Design di Token Intercalati: Dispone innovativamente i token di linguaggio e gesti in modo intercalato nella dimensione temporale, garantendo l'allineamento temporale tra modalità
  2. Strategia di Addestramento in Due Fasi: Stabilisce prima l'allineamento testo-linguaggio su dati unimodali su larga scala, quindi apprende la sincronizzazione multimodale su dati appaiati
  3. Decodifica con Flusso di Corrispondenza: Sfrutta lo spazio di embedding semanticamente ricco del backbone autoregressivo per migliorare la qualità dei gesti mediante flusso di corrispondenza condizionato

Configurazione Sperimentale

Dataset

  • Preaddestramento: GigaSpeech, LibriTTS, MLS-10k, totale 18.190 ore
  • Messa a Punto: Dataset BEAT2 (il più grande dataset multi-parlante linguaggio-gesti)
  • Elaborazione dei Dati:
    • Riscrittura audio utilizzando Whisper-large-v3
    • Rappresentazione dei gesti come sequenze di movimento SMPL-X (25 articolazioni, escludendo articolazioni delle dita)
    • Conversione in rappresentazione Rot6D, includendo traslazione e informazioni di contatto del piede

Metriche di Valutazione

  • Qualità dei Gesti:
    • FGD-B (Fréchet Gesture Distance-Body): Distanza tra la distribuzione dei gesti generati e quella umana
    • BC (Beat Consistency): Allineamento temporale tra ritmo dei gesti e ritmo audio
    • L1-Diversity: Variabilità della sequenza di gesti generata
  • Qualità Vocale:
    • WER (Word Error Rate): Intelligibilità
    • NMOS (Natural MOS): Previsione di naturalezza
    • SS (Speaker Similarity): Somiglianza del parlante

Metodi di Confronto

  • Baseline per Gesti: CAMN, EMAGE, RAG-Gesture
  • Baseline Vocali: Lina-Speech, CosyVoice-2
  • Studi di Ablazione: Gelina - Flow (senza decodifica con flusso), Tokenizers (ricostruzione diretta del codec)

Dettagli di Implementazione

  • RVQ-VAE: 6 strati residui, codebook con 512 voci, spazio latente 512-dimensionale
  • Backbone AR: 168M parametri, 6 strati di encoder di testo, 12 strati di decoder causale
  • Decoder di Gesti: U-Net 11.5M parametri, λvel=0.05, λgeo=0.8
  • Addestramento: 100k step di preaddestramento, 5k step di messa a punto, 300k step di addestramento con flusso di corrispondenza

Risultati Sperimentali

Risultati Principali

ModelloFGD-B↓BC∼Div.∼WER↓NMOS↑SS
Umano0.00.6844.146.5±0.543.72±0.0469.1
Gelina Clon.0.08390.7383.159.2±0.843.21±0.0461.3
RAG0.17810.7005.13---
EMAGE0.16790.7663.92---
Lina-Speech---10.9±0.92.98±0.0560.1
CosyVoice-2---3.5±0.53.70±0.0463.9

Scoperte Chiave

  1. Qualità dei Gesti: Gelina Cloning mostra le migliori prestazioni in FGD-B (0.0839), significativamente superiore agli altri baseline di generazione di gesti
  2. Qualità Vocale: Rispetto a Lina-Speech, WER diminuisce dal 10.9% al 9.2%, NMOS migliora da 2.98 a 3.21
  3. Efficienza di Esecuzione: RTF di 1.47 su GPU A5000, prossimo al tempo reale, sintetizzando simultaneamente due modalità

Ricerca Utente

Risultati di uno studio utente su larga scala con 96 partecipanti:

  • Somiglianza Vocale Umana: Gelina significativamente superiore a Lina-Speech
  • Somiglianza dei Gesti Umani: Gelina con prestazioni equivalenti a RAG, significativamente superiore a EMAGE e CAMN
  • Sincronizzazione: Gelina e RAG senza differenze significative, entrambi significativamente superiori agli altri baseline

Esperimenti di Ablazione

  • Importanza della Decodifica con Flusso di Corrispondenza: La rimozione del flusso di corrispondenza peggiora FGD-B da 0.0839 a 0.6107
  • Qualità dei Tokenizer: La ricostruzione diretta del tokenizer mostra il limite superiore delle prestazioni del codec

Lavori Correlati

Sintesi di Gesti Co-verbali

  • Metodi Precoci: Modellazione di sequenze autoregressiva (CAMN, ecc.)
  • Tendenza Attuale: Generatori basati su diffusione (EMAGE, ecc.)
  • Rappresentazioni Discrete: Sintesi più controllabile (BEAT2, ecc.)

Sintesi da Testo a Linguaggio

  • Tendenza di Sviluppo: Transizione verso metodi guidati dai dati
  • Modellazione di Codifica Discreta: Utilizzo di codec preaddestrati su larga scala
  • Sintesi Multi-Parlante: Clonazione del parlante mediante brevi enunciati di riferimento

Sintesi Unificata Linguaggio-Gesti

  • Tentativi Precoci: Metodi neurali come Tacotron-ISG
  • Lavori Recenti: Framework basati su diffusione come Diff-TTSG, Match-TTSG
  • Limitazioni: La maggior parte limitata a parlanti singoli o dati sintetici

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Framework Unificato: Gelina dimostra che la generazione congiunta linguaggio-gesti può mantenere competitività, persino superare i baseline unimodali
  2. Vantaggi dell'Intercalamento di Token: Generando congiuntamente token di linguaggio e gesti in un singolo flusso autoregressivo, garantisce output multimodale sincronizzato
  3. Successo della Strategia di Addestramento: L'addestramento in due fasi sfrutta efficacemente le risorse di dati unimodali e bimodali disponibili

Limitazioni

  1. Copertura dei Gesti: Attualmente modella solo gesti corporei, escludendo dita e espressioni facciali
  2. Vincoli di Qualità Vocale: Limitati dalla qualità del tokenizer
  3. Lunghezza della Sequenza: La versione attuale ha supporto limitato per la generazione di sequenze lunghe

Direzioni Future

  1. Miglioramento dei Tokenizer: Migliorare la qualità del codec vocale
  2. Estensione della Copertura dei Gesti: Includere dita ed espressioni facciali
  3. Supporto per Sequenze Lunghe: Supportare la generazione di sequenze più lunghe
  4. Estensione Multilingue: Estendere a scenari multilingui

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a proporre un'architettura autoregressiva con token intercalati, con percorso tecnico innovativo
  2. Esperimenti Completi: Include metriche oggettive e ricerca utente su larga scala, valutazione comprensiva
  3. Alto Valore Pratico: Supporta multi-parlante e multi-stile, con buone prospettive di applicazione
  4. Fondamento Teorico Solido: Allineamento con teorie psicolinguistiche

Insufficienze

  1. Limitazioni dei Baseline di Confronto: Impossibilità di confronto diretto con tutti i lavori correlati a causa di differenze nei dataset
  2. Efficienza Computazionale: Sovraccarico computazionale maggiore rispetto ai modelli di sintesi vocale specializzati
  3. Semplificazione della Rappresentazione dei Gesti: La rimozione delle articolazioni delle dita potrebbe influire sulla completezza dell'espressione

Impatto

  1. Contributo Accademico: Fornisce un nuovo paradigma tecnologico per la sintesi multimodale
  2. Valore Pratico: Importante valore applicativo in campi come persone virtuali e robot sociali
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e sito web dimostrativo

Scenari Applicabili

  1. Agenti Conversazionali Virtuali: Applicazioni che richiedono interazione naturale tra linguaggio e gesti
  2. Produzione di Persone Digitali: Animazione di caratteri in film, giochi e altri settori
  3. Tecnologie Assistive: Supporto per la generazione di linguaggio dei segni per persone sorde
  4. Educazione e Formazione: Feedback multimodale nell'apprendimento linguistico

Riferimenti Bibliografici

L'articolo cita 67 riferimenti correlati, coprendo importanti lavori in sintesi di gesti, sintesi vocale, apprendimento multimodale e altri campi, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di importante significato innovativo nel campo della sintesi multimodale. Gelina realizza la vera sintesi unificata linguaggio-gesti mediante predizione di token intercalati, con un percorso tecnico innovativo, valutazione sperimentale completa, e importante valore accademico e prospettive di applicazione. Nonostante alcune limitazioni, fornisce nuove prospettive preziose per lo sviluppo del settore.