2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.

Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.

academic

Gelina: Síntesis Unificada de Voz y Gesto mediante Predicción de Tokens Intercalados

Información Básica

ID del Artículo: 2510.12834
Título: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Autores: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
Clasificación: cs.SD cs.AI eess.AS
Fecha de Publicación: Enviado a arXiv el 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12834v1

Resumen

La comunicación humana es inherentemente multimodal, con voz y gestos estrechamente acoplados; sin embargo, la mayoría de los métodos computacionales para generar voz y gestos emplean síntesis secuencial, lo que debilita la sincronización y la alineación prosódica. Este artículo presenta Gelina, un marco unificado que sintetiza conjuntamente voz y gestos coverbales a partir de texto mediante secuencias de tokens intercalados en una columna vertebral autoregresiva discreta, combinada con decodificadores específicos para cada modalidad. Gelina admite clonación multilocutor y multiestilo, y es capaz de realizar síntesis de gestos únicamente a partir de entrada de voz. Las evaluaciones subjetivas y objetivas demuestran que Gelina presenta calidad de voz competitiva en comparación con líneas base unimodales y capacidades mejoradas de generación de gestos.

Antecedentes de Investigación y Motivación

Problema Central

La mayoría de los sistemas multimodales existentes adoptan diseños en cascada, generando primero la voz y luego añadiendo gestos. Este enfoque presenta los siguientes problemas:

Sincronización debilitada: El proceso de generación de voz no tiene conocimiento del tipo y tiempo de los gestos
Alineación prosódica limitada: Falta de coordinación entre voz y gestos
Expresividad reducida: Contradice la evidencia psicolingüística que muestra que la voz y los gestos se planifican conjuntamente

Significado de la Investigación

Significado teórico: Alineación con teorías psicolingüísticas como la hipótesis del punto de crecimiento de la comunicación
Valor práctico: Proporciona integración de comportamiento multimodal más natural para agentes conversacionales virtuales y robots sociales
Avance tecnológico: Mejora la eficiencia mediante un marco unificado, permitiendo que el modelo de gestos acceda directamente a características de lenguaje-prosodia

Limitaciones de Métodos Existentes

Escasez de datos: Falta de corpus emparejados a gran escala
Restricciones de conjuntos de datos unimodales: Construcción basada únicamente en conjuntos de datos de modalidad única de voz o gestos
Defectos del diseño en cascada: El proceso de generación de voz es insensible a la información de gestos

Contribuciones Principales

Arquitectura autoregresiva de tokens intercalados pionera: Propone la primera arquitectura autoregresiva de tokens intercalados para síntesis de voz-gesto, alineando modalidades dentro de una columna vertebral unificada
Estrategia de entrenamiento innovadora: Propone una estrategia de entrenamiento que aprovecha grandes conjuntos de datos de texto-voz unimodales para mejorar la generalización bajo datos emparejados escasos
Modos de entrada flexibles: Admite generación de voz + gesto solo de texto, o síntesis de gesto solo de texto + voz
Clonación de estilo bimodal: Logra clonación conjunta de voz y gestos mediante continuación de secuencia, sin necesidad de incrustaciones explícitas de locutor

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de texto (opcional: referencia de voz) Salida: Forma de onda de voz sincronizada y secuencia de gestos corporales 3D (formato SMPL-X) Restricciones: Admite multilocutor, multiestilo, manteniendo sincronización temporal voz-gesto

Arquitectura del Modelo

Gelina consta de tres componentes principales:

1. Módulo de Tokenización

Tokenización de voz: Utiliza WavTokenizer para convertir voz de 24 kHz en tokens discretos a 75 Hz
Tokenización de gestos: Emplea cuantificación vectorial residual con autoencodificador variacional (RVQ-VAE), convirtiendo secuencias de movimiento continuo en tokens discretos jerárquicos a 5 Hz
Tokenización de texto: Algoritmo estándar de codificación de pares de bytes (BPE)

2. Red Autoregresiva Troncal

Extensión basada en la arquitectura Lina-Speech:

Esquema de intercalación modal: Se inserta 1 token de gesto cada 15 tokens de voz (reflejando la proporción de velocidad de codificación de 75 Hz a 5 Hz)
Incrustaciones independientes: Se mantienen incrustaciones de entrada y proyecciones de salida independientes para cada modalidad
Entrenamiento en dos etapas:
- Preentrenamiento: Entrenamiento en conjunto de datos de texto-voz a gran escala, con tokens de gesto reemplazados por tokens aleatorios
- Ajuste fino: Ajuste fino en datos emparejados de texto-voz-gesto

3. Decodificador de Coincidencia de Flujo Condicional

Optimizado para calidad de gestos:

Motivación: La decodificación directa de RVQ-VAE es sensible a secuencias de tokens de gesto ruidosas
Arquitectura: UNet 1D basado en Matcha-TTS con convolución-Transformer
Objetivo de entrenamiento:
```
L = LFM + λvel*Lvel + λgeo*Lgeo
```
donde se incluyen pérdida de coincidencia de flujo, término de consistencia de velocidad y pérdida geodésica para rotación de articulaciones

Puntos de Innovación Técnica

Diseño de tokens intercalados: Disposición innovadora de tokens de voz y gesto intercalados en la dimensión temporal, asegurando alineación temporal entre modalidades
Estrategia de entrenamiento en dos etapas: Primero establece alineación texto-voz en datos unimodales a gran escala, luego aprende sincronización multimodal en datos emparejados
Decodificación de coincidencia de flujo: Aprovecha el espacio de incrustación semánticamente rico de la columna vertebral autoregresiva para mejorar la calidad de gestos mediante coincidencia de flujo condicional

Configuración Experimental

Conjuntos de Datos

Preentrenamiento: GigaSpeech, LibriTTS, MLS-10k, total de 18,190 horas
Ajuste fino: Conjunto de datos BEAT2 (conjunto de datos multilocutor voz-gesto más grande)
Procesamiento de datos:
- Retranscripción de audio utilizando Whisper-large-v3
- Representación de gestos como secuencias de movimiento SMPL-X (25 articulaciones, sin articulaciones de dedos)
- Conversión a representación Rot6D, incluyendo traslación e información de contacto de pies

Métricas de Evaluación

Calidad de gestos:
- FGD-B (Fréchet Gesture Distance-Body): Distancia entre distribución de gestos generados y gestos humanos
- BC (Beat Consistency): Alineación temporal entre ritmo de gesto y ritmo de audio
- L1-Diversity: Variabilidad de secuencia de gestos generados
Calidad de voz:
- WER (Word Error Rate): Inteligibilidad
- NMOS (Natural MOS): Predicción de naturalidad
- SS (Speaker Similarity): Similitud de locutor

Métodos de Comparación

Líneas base de gestos: CAMN, EMAGE, RAG-Gesture
Líneas base de voz: Lina-Speech, CosyVoice-2
Estudios de ablación: Gelina - Flow (sin decodificación de coincidencia de flujo), Tokenizers (reconstrucción directa de codificador-decodificador)

Detalles de Implementación

RVQ-VAE: 6 capas residuales, 512 códigos, espacio latente de 512 dimensiones
Columna vertebral AR: 168M parámetros, 6 capas de codificador de texto, 12 capas de decodificador causal
Decodificador de gestos: U-Net de 11.5M parámetros, λvel=0.05, λgeo=0.8
Entrenamiento: 100k pasos de preentrenamiento, 5k pasos de ajuste fino, 300k pasos de entrenamiento de coincidencia de flujo

Resultados Experimentales

Resultados Principales

Modelo	FGD-B↓	BC∼	Div.∼	WER↓	NMOS↑	SS
Humano	0.0	0.684	4.14	6.5±0.54	3.72±0.04	69.1
Gelina Clon.	0.0839	0.738	3.15	9.2±0.84	3.21±0.04	61.3
RAG	0.1781	0.700	5.13	-	-	-
EMAGE	0.1679	0.766	3.92	-	-	-
Lina-Speech	-	-	-	10.9±0.9	2.98±0.05	60.1
CosyVoice-2	-	-	-	3.5±0.5	3.70±0.04	63.9

Hallazgos Clave

Calidad de gestos: Gelina Cloning muestra el mejor desempeño en FGD-B (0.0839), superando significativamente otras líneas base de generación de gestos
Calidad de voz: En comparación con Lina-Speech, WER disminuye de 10.9% a 9.2%, NMOS mejora de 2.98 a 3.21
Eficiencia operativa: RTF de 1.47 en GPU A5000, cercano al tiempo real, sintetizando ambas modalidades simultáneamente

Investigación de Usuarios

Resultados de investigación de usuarios a gran escala con 96 participantes:

Similitud de voz con humanos: Gelina supera significativamente a Lina-Speech
Similitud de gestos con humanos: Desempeño de Gelina comparable a RAG, superando significativamente a EMAGE y CAMN
Sincronización: Gelina y RAG sin diferencias significativas, ambos superan significativamente otras líneas base

Experimentos de Ablación

Importancia de decodificación de coincidencia de flujo: Eliminación de coincidencia de flujo degrada FGD-B de 0.0839 a 0.6107
Calidad de tokenizador: Reconstrucción directa de tokenizador muestra el límite de desempeño del codificador-decodificador

Trabajo Relacionado

Síntesis de Gestos Coverbales

Métodos tempranos: Modelado de secuencia autoregresiva (CAMN, etc.)
Tendencia actual: Generadores basados en difusión (EMAGE, etc.)
Representación discreta: Síntesis más controlable (BEAT2, etc.)

Conversión de Texto a Voz

Tendencia de desarrollo: Transición hacia métodos impulsados por datos
Modelado de codificación discreta: Uso de codificadores-decodificadores preentrenados a gran escala
Síntesis multilocutor: Clonación de locutor mediante enunciados de referencia breves

Síntesis Unificada de Voz y Gestos

Intentos tempranos: Métodos neurales como Tacotron-ISG
Trabajo reciente: Marcos de difusión como Diff-TTSG, Match-TTSG
Limitaciones: La mayoría limitada a locutor único o datos sintéticos

Conclusiones y Discusión

Conclusiones Principales

Efectividad del marco unificado: Gelina demuestra que la generación conjunta de voz-gesto puede mantener competitividad, incluso superando líneas base unimodales
Ventajas de tokens intercalados: Mediante la generación conjunta de tokens de voz y gesto en un único flujo autoregresivo, se asegura salida multimodal sincronizada
Éxito de la estrategia de entrenamiento: El entrenamiento en dos etapas aprovecha efectivamente los recursos de datos unimodales y bimodales existentes

Limitaciones

Cobertura de gestos: Actualmente solo modela gestos corporales, sin incluir expresiones de dedos y faciales
Restricción de calidad de voz: Limitada por la calidad del tokenizador
Longitud de secuencia: La versión actual tiene soporte limitado para generación de secuencias largas

Direcciones Futuras

Mejora de tokenizadores: Mejorar la calidad de codificación de voz
Expansión de cobertura de gestos: Incluir expresiones de dedos y faciales
Soporte de secuencias largas: Permitir generación de secuencias más largas
Extensión multilingüe: Expandir a escenarios multilingües

Evaluación Profunda

Fortalezas

Fuerte innovación: Primera arquitectura autoregresiva de tokens intercalados propuesta, ruta técnica novedosa
Experimentación completa: Incluye métricas objetivas e investigación de usuarios a gran escala, evaluación integral
Alto valor práctico: Admite multilocutor y multiestilo, con buenas perspectivas de aplicación
Base teórica sólida: Alineación con teoría psicolingüística

Deficiencias

Limitación de líneas base de comparación: Imposibilidad de comparación directa con todos los trabajos relacionados debido a diferencias de conjuntos de datos
Eficiencia computacional: Mayor carga computacional en comparación con modelos de síntesis de voz especializados
Simplificación de representación de gestos: La eliminación de articulaciones de dedos puede afectar la completitud de la expresión

Impacto

Contribución académica: Proporciona nuevo paradigma técnico para síntesis multimodal
Valor práctico: Tiene importante valor de aplicación en campos como personas virtuales y robots sociales
Reproducibilidad: Proporciona detalles de implementación detallados y sitio web de demostración

Escenarios Aplicables

Agentes conversacionales virtuales: Aplicaciones que requieren interacción natural de voz y gestos
Producción de personas digitales: Animación de caracteres en cine, videojuegos y otros campos
Tecnología de asistencia: Apoyo en generación de lenguaje de signos para personas sordas
Educación y capacitación: Retroalimentación multimodal en aprendizaje de idiomas

Referencias

El artículo cita 67 referencias relacionadas, cubriendo múltiples campos incluyendo síntesis de gestos, síntesis de voz y aprendizaje multimodal, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo con importante significado innovador en el campo de la síntesis multimodal. Gelina logra síntesis verdaderamente unificada de voz-gesto mediante predicción de tokens intercalados, con ruta técnica novedosa, evaluación experimental completa, y tiene importante valor académico y perspectivas de aplicación. A pesar de algunas limitaciones, proporciona nuevas ideas valiosas para el desarrollo del campo.