Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
Gelina: Síntesis Unificada de Voz y Gesto mediante Predicción de Tokens Intercalados
La comunicación humana es inherentemente multimodal, con voz y gestos estrechamente acoplados; sin embargo, la mayoría de los métodos computacionales para generar voz y gestos emplean síntesis secuencial, lo que debilita la sincronización y la alineación prosódica. Este artículo presenta Gelina, un marco unificado que sintetiza conjuntamente voz y gestos coverbales a partir de texto mediante secuencias de tokens intercalados en una columna vertebral autoregresiva discreta, combinada con decodificadores específicos para cada modalidad. Gelina admite clonación multilocutor y multiestilo, y es capaz de realizar síntesis de gestos únicamente a partir de entrada de voz. Las evaluaciones subjetivas y objetivas demuestran que Gelina presenta calidad de voz competitiva en comparación con líneas base unimodales y capacidades mejoradas de generación de gestos.
La mayoría de los sistemas multimodales existentes adoptan diseños en cascada, generando primero la voz y luego añadiendo gestos. Este enfoque presenta los siguientes problemas:
Sincronización debilitada: El proceso de generación de voz no tiene conocimiento del tipo y tiempo de los gestos
Alineación prosódica limitada: Falta de coordinación entre voz y gestos
Expresividad reducida: Contradice la evidencia psicolingüística que muestra que la voz y los gestos se planifican conjuntamente
Significado teórico: Alineación con teorías psicolingüísticas como la hipótesis del punto de crecimiento de la comunicación
Valor práctico: Proporciona integración de comportamiento multimodal más natural para agentes conversacionales virtuales y robots sociales
Avance tecnológico: Mejora la eficiencia mediante un marco unificado, permitiendo que el modelo de gestos acceda directamente a características de lenguaje-prosodia
Arquitectura autoregresiva de tokens intercalados pionera: Propone la primera arquitectura autoregresiva de tokens intercalados para síntesis de voz-gesto, alineando modalidades dentro de una columna vertebral unificada
Estrategia de entrenamiento innovadora: Propone una estrategia de entrenamiento que aprovecha grandes conjuntos de datos de texto-voz unimodales para mejorar la generalización bajo datos emparejados escasos
Modos de entrada flexibles: Admite generación de voz + gesto solo de texto, o síntesis de gesto solo de texto + voz
Clonación de estilo bimodal: Logra clonación conjunta de voz y gestos mediante continuación de secuencia, sin necesidad de incrustaciones explícitas de locutor
Entrada: Secuencia de texto (opcional: referencia de voz)
Salida: Forma de onda de voz sincronizada y secuencia de gestos corporales 3D (formato SMPL-X)
Restricciones: Admite multilocutor, multiestilo, manteniendo sincronización temporal voz-gesto
Tokenización de voz: Utiliza WavTokenizer para convertir voz de 24 kHz en tokens discretos a 75 Hz
Tokenización de gestos: Emplea cuantificación vectorial residual con autoencodificador variacional (RVQ-VAE), convirtiendo secuencias de movimiento continuo en tokens discretos jerárquicos a 5 Hz
Tokenización de texto: Algoritmo estándar de codificación de pares de bytes (BPE)
Esquema de intercalación modal: Se inserta 1 token de gesto cada 15 tokens de voz (reflejando la proporción de velocidad de codificación de 75 Hz a 5 Hz)
Incrustaciones independientes: Se mantienen incrustaciones de entrada y proyecciones de salida independientes para cada modalidad
Entrenamiento en dos etapas:
Preentrenamiento: Entrenamiento en conjunto de datos de texto-voz a gran escala, con tokens de gesto reemplazados por tokens aleatorios
Ajuste fino: Ajuste fino en datos emparejados de texto-voz-gesto
Diseño de tokens intercalados: Disposición innovadora de tokens de voz y gesto intercalados en la dimensión temporal, asegurando alineación temporal entre modalidades
Estrategia de entrenamiento en dos etapas: Primero establece alineación texto-voz en datos unimodales a gran escala, luego aprende sincronización multimodal en datos emparejados
Decodificación de coincidencia de flujo: Aprovecha el espacio de incrustación semánticamente rico de la columna vertebral autoregresiva para mejorar la calidad de gestos mediante coincidencia de flujo condicional
Efectividad del marco unificado: Gelina demuestra que la generación conjunta de voz-gesto puede mantener competitividad, incluso superando líneas base unimodales
Ventajas de tokens intercalados: Mediante la generación conjunta de tokens de voz y gesto en un único flujo autoregresivo, se asegura salida multimodal sincronizada
Éxito de la estrategia de entrenamiento: El entrenamiento en dos etapas aprovecha efectivamente los recursos de datos unimodales y bimodales existentes
Limitación de líneas base de comparación: Imposibilidad de comparación directa con todos los trabajos relacionados debido a diferencias de conjuntos de datos
Eficiencia computacional: Mayor carga computacional en comparación con modelos de síntesis de voz especializados
Simplificación de representación de gestos: La eliminación de articulaciones de dedos puede afectar la completitud de la expresión
El artículo cita 67 referencias relacionadas, cubriendo múltiples campos incluyendo síntesis de gestos, síntesis de voz y aprendizaje multimodal, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo con importante significado innovador en el campo de la síntesis multimodal. Gelina logra síntesis verdaderamente unificada de voz-gesto mediante predicción de tokens intercalados, con ruta técnica novedosa, evaluación experimental completa, y tiene importante valor académico y perspectivas de aplicación. A pesar de algunas limitaciones, proporciona nuevas ideas valiosas para el desarrollo del campo.