2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic

Gelina: Síntesis Unificada de Voz y Gesto mediante Predicción de Tokens Intercalados

Información Básica

  • ID del Artículo: 2510.12834
  • Título: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
  • Autores: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
  • Clasificación: cs.SD cs.AI eess.AS
  • Fecha de Publicación: Enviado a arXiv el 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.12834v1

Resumen

La comunicación humana es inherentemente multimodal, con voz y gestos estrechamente acoplados; sin embargo, la mayoría de los métodos computacionales para generar voz y gestos emplean síntesis secuencial, lo que debilita la sincronización y la alineación prosódica. Este artículo presenta Gelina, un marco unificado que sintetiza conjuntamente voz y gestos coverbales a partir de texto mediante secuencias de tokens intercalados en una columna vertebral autoregresiva discreta, combinada con decodificadores específicos para cada modalidad. Gelina admite clonación multilocutor y multiestilo, y es capaz de realizar síntesis de gestos únicamente a partir de entrada de voz. Las evaluaciones subjetivas y objetivas demuestran que Gelina presenta calidad de voz competitiva en comparación con líneas base unimodales y capacidades mejoradas de generación de gestos.

Antecedentes de Investigación y Motivación

Problema Central

La mayoría de los sistemas multimodales existentes adoptan diseños en cascada, generando primero la voz y luego añadiendo gestos. Este enfoque presenta los siguientes problemas:

  1. Sincronización debilitada: El proceso de generación de voz no tiene conocimiento del tipo y tiempo de los gestos
  2. Alineación prosódica limitada: Falta de coordinación entre voz y gestos
  3. Expresividad reducida: Contradice la evidencia psicolingüística que muestra que la voz y los gestos se planifican conjuntamente

Significado de la Investigación

  1. Significado teórico: Alineación con teorías psicolingüísticas como la hipótesis del punto de crecimiento de la comunicación
  2. Valor práctico: Proporciona integración de comportamiento multimodal más natural para agentes conversacionales virtuales y robots sociales
  3. Avance tecnológico: Mejora la eficiencia mediante un marco unificado, permitiendo que el modelo de gestos acceda directamente a características de lenguaje-prosodia

Limitaciones de Métodos Existentes

  1. Escasez de datos: Falta de corpus emparejados a gran escala
  2. Restricciones de conjuntos de datos unimodales: Construcción basada únicamente en conjuntos de datos de modalidad única de voz o gestos
  3. Defectos del diseño en cascada: El proceso de generación de voz es insensible a la información de gestos

Contribuciones Principales

  1. Arquitectura autoregresiva de tokens intercalados pionera: Propone la primera arquitectura autoregresiva de tokens intercalados para síntesis de voz-gesto, alineando modalidades dentro de una columna vertebral unificada
  2. Estrategia de entrenamiento innovadora: Propone una estrategia de entrenamiento que aprovecha grandes conjuntos de datos de texto-voz unimodales para mejorar la generalización bajo datos emparejados escasos
  3. Modos de entrada flexibles: Admite generación de voz + gesto solo de texto, o síntesis de gesto solo de texto + voz
  4. Clonación de estilo bimodal: Logra clonación conjunta de voz y gestos mediante continuación de secuencia, sin necesidad de incrustaciones explícitas de locutor

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de texto (opcional: referencia de voz) Salida: Forma de onda de voz sincronizada y secuencia de gestos corporales 3D (formato SMPL-X) Restricciones: Admite multilocutor, multiestilo, manteniendo sincronización temporal voz-gesto

Arquitectura del Modelo

Gelina consta de tres componentes principales:

1. Módulo de Tokenización

  • Tokenización de voz: Utiliza WavTokenizer para convertir voz de 24 kHz en tokens discretos a 75 Hz
  • Tokenización de gestos: Emplea cuantificación vectorial residual con autoencodificador variacional (RVQ-VAE), convirtiendo secuencias de movimiento continuo en tokens discretos jerárquicos a 5 Hz
  • Tokenización de texto: Algoritmo estándar de codificación de pares de bytes (BPE)

2. Red Autoregresiva Troncal

Extensión basada en la arquitectura Lina-Speech:

  • Esquema de intercalación modal: Se inserta 1 token de gesto cada 15 tokens de voz (reflejando la proporción de velocidad de codificación de 75 Hz a 5 Hz)
  • Incrustaciones independientes: Se mantienen incrustaciones de entrada y proyecciones de salida independientes para cada modalidad
  • Entrenamiento en dos etapas:
    • Preentrenamiento: Entrenamiento en conjunto de datos de texto-voz a gran escala, con tokens de gesto reemplazados por tokens aleatorios
    • Ajuste fino: Ajuste fino en datos emparejados de texto-voz-gesto

3. Decodificador de Coincidencia de Flujo Condicional

Optimizado para calidad de gestos:

  • Motivación: La decodificación directa de RVQ-VAE es sensible a secuencias de tokens de gesto ruidosas
  • Arquitectura: UNet 1D basado en Matcha-TTS con convolución-Transformer
  • Objetivo de entrenamiento:
    L = LFM + λvel*Lvel + λgeo*Lgeo
    
    donde se incluyen pérdida de coincidencia de flujo, término de consistencia de velocidad y pérdida geodésica para rotación de articulaciones

Puntos de Innovación Técnica

  1. Diseño de tokens intercalados: Disposición innovadora de tokens de voz y gesto intercalados en la dimensión temporal, asegurando alineación temporal entre modalidades
  2. Estrategia de entrenamiento en dos etapas: Primero establece alineación texto-voz en datos unimodales a gran escala, luego aprende sincronización multimodal en datos emparejados
  3. Decodificación de coincidencia de flujo: Aprovecha el espacio de incrustación semánticamente rico de la columna vertebral autoregresiva para mejorar la calidad de gestos mediante coincidencia de flujo condicional

Configuración Experimental

Conjuntos de Datos

  • Preentrenamiento: GigaSpeech, LibriTTS, MLS-10k, total de 18,190 horas
  • Ajuste fino: Conjunto de datos BEAT2 (conjunto de datos multilocutor voz-gesto más grande)
  • Procesamiento de datos:
    • Retranscripción de audio utilizando Whisper-large-v3
    • Representación de gestos como secuencias de movimiento SMPL-X (25 articulaciones, sin articulaciones de dedos)
    • Conversión a representación Rot6D, incluyendo traslación e información de contacto de pies

Métricas de Evaluación

  • Calidad de gestos:
    • FGD-B (Fréchet Gesture Distance-Body): Distancia entre distribución de gestos generados y gestos humanos
    • BC (Beat Consistency): Alineación temporal entre ritmo de gesto y ritmo de audio
    • L1-Diversity: Variabilidad de secuencia de gestos generados
  • Calidad de voz:
    • WER (Word Error Rate): Inteligibilidad
    • NMOS (Natural MOS): Predicción de naturalidad
    • SS (Speaker Similarity): Similitud de locutor

Métodos de Comparación

  • Líneas base de gestos: CAMN, EMAGE, RAG-Gesture
  • Líneas base de voz: Lina-Speech, CosyVoice-2
  • Estudios de ablación: Gelina - Flow (sin decodificación de coincidencia de flujo), Tokenizers (reconstrucción directa de codificador-decodificador)

Detalles de Implementación

  • RVQ-VAE: 6 capas residuales, 512 códigos, espacio latente de 512 dimensiones
  • Columna vertebral AR: 168M parámetros, 6 capas de codificador de texto, 12 capas de decodificador causal
  • Decodificador de gestos: U-Net de 11.5M parámetros, λvel=0.05, λgeo=0.8
  • Entrenamiento: 100k pasos de preentrenamiento, 5k pasos de ajuste fino, 300k pasos de entrenamiento de coincidencia de flujo

Resultados Experimentales

Resultados Principales

ModeloFGD-B↓BC∼Div.∼WER↓NMOS↑SS
Humano0.00.6844.146.5±0.543.72±0.0469.1
Gelina Clon.0.08390.7383.159.2±0.843.21±0.0461.3
RAG0.17810.7005.13---
EMAGE0.16790.7663.92---
Lina-Speech---10.9±0.92.98±0.0560.1
CosyVoice-2---3.5±0.53.70±0.0463.9

Hallazgos Clave

  1. Calidad de gestos: Gelina Cloning muestra el mejor desempeño en FGD-B (0.0839), superando significativamente otras líneas base de generación de gestos
  2. Calidad de voz: En comparación con Lina-Speech, WER disminuye de 10.9% a 9.2%, NMOS mejora de 2.98 a 3.21
  3. Eficiencia operativa: RTF de 1.47 en GPU A5000, cercano al tiempo real, sintetizando ambas modalidades simultáneamente

Investigación de Usuarios

Resultados de investigación de usuarios a gran escala con 96 participantes:

  • Similitud de voz con humanos: Gelina supera significativamente a Lina-Speech
  • Similitud de gestos con humanos: Desempeño de Gelina comparable a RAG, superando significativamente a EMAGE y CAMN
  • Sincronización: Gelina y RAG sin diferencias significativas, ambos superan significativamente otras líneas base

Experimentos de Ablación

  • Importancia de decodificación de coincidencia de flujo: Eliminación de coincidencia de flujo degrada FGD-B de 0.0839 a 0.6107
  • Calidad de tokenizador: Reconstrucción directa de tokenizador muestra el límite de desempeño del codificador-decodificador

Trabajo Relacionado

Síntesis de Gestos Coverbales

  • Métodos tempranos: Modelado de secuencia autoregresiva (CAMN, etc.)
  • Tendencia actual: Generadores basados en difusión (EMAGE, etc.)
  • Representación discreta: Síntesis más controlable (BEAT2, etc.)

Conversión de Texto a Voz

  • Tendencia de desarrollo: Transición hacia métodos impulsados por datos
  • Modelado de codificación discreta: Uso de codificadores-decodificadores preentrenados a gran escala
  • Síntesis multilocutor: Clonación de locutor mediante enunciados de referencia breves

Síntesis Unificada de Voz y Gestos

  • Intentos tempranos: Métodos neurales como Tacotron-ISG
  • Trabajo reciente: Marcos de difusión como Diff-TTSG, Match-TTSG
  • Limitaciones: La mayoría limitada a locutor único o datos sintéticos

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del marco unificado: Gelina demuestra que la generación conjunta de voz-gesto puede mantener competitividad, incluso superando líneas base unimodales
  2. Ventajas de tokens intercalados: Mediante la generación conjunta de tokens de voz y gesto en un único flujo autoregresivo, se asegura salida multimodal sincronizada
  3. Éxito de la estrategia de entrenamiento: El entrenamiento en dos etapas aprovecha efectivamente los recursos de datos unimodales y bimodales existentes

Limitaciones

  1. Cobertura de gestos: Actualmente solo modela gestos corporales, sin incluir expresiones de dedos y faciales
  2. Restricción de calidad de voz: Limitada por la calidad del tokenizador
  3. Longitud de secuencia: La versión actual tiene soporte limitado para generación de secuencias largas

Direcciones Futuras

  1. Mejora de tokenizadores: Mejorar la calidad de codificación de voz
  2. Expansión de cobertura de gestos: Incluir expresiones de dedos y faciales
  3. Soporte de secuencias largas: Permitir generación de secuencias más largas
  4. Extensión multilingüe: Expandir a escenarios multilingües

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Primera arquitectura autoregresiva de tokens intercalados propuesta, ruta técnica novedosa
  2. Experimentación completa: Incluye métricas objetivas e investigación de usuarios a gran escala, evaluación integral
  3. Alto valor práctico: Admite multilocutor y multiestilo, con buenas perspectivas de aplicación
  4. Base teórica sólida: Alineación con teoría psicolingüística

Deficiencias

  1. Limitación de líneas base de comparación: Imposibilidad de comparación directa con todos los trabajos relacionados debido a diferencias de conjuntos de datos
  2. Eficiencia computacional: Mayor carga computacional en comparación con modelos de síntesis de voz especializados
  3. Simplificación de representación de gestos: La eliminación de articulaciones de dedos puede afectar la completitud de la expresión

Impacto

  1. Contribución académica: Proporciona nuevo paradigma técnico para síntesis multimodal
  2. Valor práctico: Tiene importante valor de aplicación en campos como personas virtuales y robots sociales
  3. Reproducibilidad: Proporciona detalles de implementación detallados y sitio web de demostración

Escenarios Aplicables

  1. Agentes conversacionales virtuales: Aplicaciones que requieren interacción natural de voz y gestos
  2. Producción de personas digitales: Animación de caracteres en cine, videojuegos y otros campos
  3. Tecnología de asistencia: Apoyo en generación de lenguaje de signos para personas sordas
  4. Educación y capacitación: Retroalimentación multimodal en aprendizaje de idiomas

Referencias

El artículo cita 67 referencias relacionadas, cubriendo múltiples campos incluyendo síntesis de gestos, síntesis de voz y aprendizaje multimodal, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo con importante significado innovador en el campo de la síntesis multimodal. Gelina logra síntesis verdaderamente unificada de voz-gesto mediante predicción de tokens intercalados, con ruta técnica novedosa, evaluación experimental completa, y tiene importante valor académico y perspectivas de aplicación. A pesar de algunas limitaciones, proporciona nuevas ideas valiosas para el desarrollo del campo.