2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.

Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.

academic

Difusión de Token Continuo para TTS Referenciado por Hablante en LLMs Multimodales

Información Básica

ID del Artículo: 2510.12995
Título: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
Autores: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
Instituciones: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
Clasificación: eess.AS cs.SD
Conferencia de Publicación: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
Enlace del Artículo: https://arxiv.org/abs/2510.12995

Resumen

Las arquitecturas unificadas de modelos de lenguaje grandes multimodales (MLLM) muestran promesa en el manejo de tareas diversas dentro de un único marco. En tareas de conversión de texto a voz (TTS), los métodos actuales basados en MLLM dependen de representaciones de tokens discretos, lo que ignora la naturaleza continua inherente del habla y puede resultar en pérdida de información acústica de grano fino. Este trabajo investiga TTS utilizando representaciones de habla continua dentro del paradigma MLLM. Se diseña una arquitectura de doble cabeza e implementan dos estrategias de entrenamiento complementarias para construir un modelo robusto. El método logra rendimiento autoregresivo de última generación en LibriSpeech(PC) test-clean con WER de 1.95%, similitud de hablante de 0.54 y UTMOS de 4.00.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos actuales basados en MLLM para TTS presentan principalmente los siguientes problemas:

Pérdida por Discretización: Los métodos existentes convierten el habla en tokens discretos, ignorando la naturaleza continua del habla, lo que resulta en pérdida de información acústica de grano fino
Cuello de Botella de Cuantización: La cuantización discreta descarta detalles acústicos finos, limitando la naturalidad y fidelidad del habla
Falta de Marco Unificado: Ausencia de métodos efectivos para generar habla continua de alta calidad mientras se mantiene la capacidad multitarea del MLLM

Importancia de la Investigación

Necesidad Técnica: Con el desarrollo de la IA multimodal, existe la necesidad de procesar tareas de texto y habla dentro de un marco unificado
Mejora de Calidad: Las representaciones continuas pueden preservar mejor los atributos intrínsecos del habla, mejorando la calidad de síntesis
Valor de Aplicación: La tecnología de clonación de hablante de cero ejemplos tiene un valor de aplicación importante en síntesis de voz personalizada

Limitaciones de Métodos Existentes

Sistemas Multietapa: Métodos como VALL-E requieren múltiples etapas, aumentando la complejidad
Pérdida de Información: La codificación discreta pierde información acústica de grano fino
Inestabilidad de Entrenamiento: La optimización conjunta del modelo de difusión y LLM presenta problemas de desplazamiento de distribución

Contribuciones Principales

Arquitectura Innovadora: Se propone una cabeza de difusión de token continuo a nivel de fotograma, integrada en el marco MLLM autoregresivo, diferenciándose del diseño existente de múltiples fotogramas a nivel de bloque
Diseño de Doble Cabeza: Se diseña una arquitectura de doble cabeza que mantiene el marco multimodal unificado, con la cabeza LM que soporta síntesis de habla de longitud variable
Estrategia de Entrenamiento: Se mitiga el sesgo de exposición autoregresiva mediante entrenamiento con máscara, mejorando la consistencia temporal y robustez del modelo
Esquema de Optimización: Se propone una estrategia de entrenamiento en dos etapas que estabiliza el proceso de optimización, logrando una reducción relativa de WER del 46% y rendimiento autoregresivo SOTA en LibriSpeech(PC)

Explicación Detallada del Método

Definición de la Tarea

Entrada: Transcripción de texto y segmento de audio de referencia Salida: Habla de alta calidad con características de hablante especificadas Restricción: Implementación dentro del marco MLLM unificado, manteniendo capacidad multitarea

Arquitectura del Modelo

Diseño General

El modelo adopta una arquitectura de doble cabeza, basada en OPT-125M como red troncal LLM:

Cabeza de Difusión: Genera incrustaciones de habla continua
Cabeza de Modelo de Lenguaje: Predice límites de habla y tokens de control
Proyección Multimodal: Procesa transformación de representaciones de diferentes modalidades

Generación de Token Continuo

Dada la secuencia objetivo $x = \{x_1, ..., x_N\}$ , donde $x_i \in \mathbb{R}^d$ representa la incrustación de habla del i-ésimo fotograma.

Proceso de Inferencia:

z_i = C_θ(p, x̂_{<i})  # LLM genera vector de condición
x̂_i = Diffusion_φ(z_i)  # Cabeza de difusión genera incrustación de habla

Proceso de Entrenamiento: Se adopta entrenamiento estándar DDPM, con función de pérdida:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

donde la predicción de ruido $\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)$

Mecanismo de Control EOS

Se introduce un token especial para implementar control de límites:

<speech_bos>: Desencadena la etapa de generación de habla
<cont_speech_gen>: Continúa generando fotogramas de habla
<eos>: Termina la generación de habla

Función de pérdida total:

L = L_LM + L_diff

Puntos de Innovación Técnica

1. Aprendizaje Autoregresivo con Máscara

Para mitigar el sesgo de exposición, se adopta una estrategia de entrenamiento con máscara:

Se enmascaran aleatoriamente fotogramas históricos con probabilidad $p_{mask}$
Se reemplazan los fotogramas enmascarados con vectores cero
Se entrena el modelo para manejar información histórica imperfecta

2. Entrenamiento en Dos Etapas

Etapa 1: Entrenamiento conjunto del MLLM y cabeza de difusión Etapa 2: Congelación del MLLM, entrenamiento solo de la cabeza de difusión

Este diseño resuelve el problema de desplazamiento de distribución, estabilizando el proceso de entrenamiento.

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento: Subconjunto de 50k horas del corpus LibriVox (de Libri-Light)
Datos de Evaluación: Conjunto de datos LibriSpeech(PC) test-clean
Protocolo de Evaluación: Selección aleatoria de 40 hablantes, una emisión por hablante, con 3 segundos de audio de referencia adjunto

Métricas de Evaluación

Inteligibilidad: Tasa de Error de Palabras (WER) - calculada usando transcripción Whisper-Large
Similitud de Hablante: Usando incrustaciones extraídas por ECAPA-TDNN, calculando similitud de coseno
- SIM-R: Similitud con audio de referencia
- SIM-G: Similitud con habla verdadera
Calidad de Habla: UTMOS - predictor MOS basado en puntuaciones humanas a gran escala

Métodos de Comparación

VALL-E: Método de token discreto (400M parámetros)
MegaTTS: Método de token continuo (500M parámetros)
Voicebox: Método continuo no autoregresivo (400M parámetros)
StyleTTS2: Método continuo no autoregresivo (700M parámetros)

Detalles de Implementación

Red Troncal: OPT-125M
Representación de Habla: Incrustación VAE de 64 dimensiones, 25fps
Incrustación de Hablante: Incrustación LAM de 768 dimensiones
Parámetros de Difusión: T=1000 pasos en entrenamiento, 100 pasos en inferencia, programación de ruido coseno
Optimizador: Adam, sin decaimiento de peso, precisión mixta FP16

Resultados Experimentales

Resultados Principales

Método	Modalidad	Tipo de Token	Parámetros	WER(%)↓	SIM↑	UTMOS↑
VALL-E	AR+NAR	Discreto	400M	6.11	0.47	3.68
MegaTTS	AR+NAR	Continuo	500M	2.32	0.53	4.02
Voicebox	NAR	Continuo	400M	2.14	0.48	3.73
StyleTTS2	NAR	Continuo	700M	2.49	0.38	3.94
Este Trabajo	AR	Continuo	160M	1.95	0.54	4.00

Hallazgos Clave:

Se logra el mejor rendimiento con solo 160M parámetros
Comparado con la línea base de la etapa 1, reducción relativa de WER del 46% (3.61%→1.95%)
Supera a modelos más grandes en todas las métricas

Experimentos de Ablación

Impacto de la Proporción de Máscara

Proporción de Máscara(%)	WER(%)↓	SIM-R↑	UTMOS↑
0	15.06	0.45	2.00
15	12.65	0.45	1.39
30	6.17	0.46	3.21
50	8.13	0.46	2.84

Hallazgo: La proporción de máscara del 30% logra el mejor equilibrio

Impacto de la Profundidad de la Cabeza de Difusión

Capas MLP	Ajuste Fino Etapa 2	WER(%)↓	SIM-R↑	UTMOS↑
3	✗	6.17	0.46	3.10
6	✗	5.12	0.50	3.10
12	✗	3.61	0.49	3.21
12	✓	1.95	0.54	4.00

Hallazgo: Las redes más profundas y el entrenamiento en dos etapas aportan mejoras significativas

Comparación de Criterios de Parada

Criterio de Parada	WER(%)↓	SIM-R↑	UTMOS↑
GT-Dur.	29.36	0.48	2.55
GT-EP.	3.46	0.49	3.21
Token EOS	3.61	0.49	3.21

Hallazgo: El método de token EOS logra rendimiento comparable sin requerir información oracle

Trabajo Relacionado

TTS de Cero Ejemplos

Sistemas Multietapa: VALL-E, SALAD y otros mediante procesamiento multietapa de tokens semánticos o de códec
Métodos de Una Etapa: MegaTTS, NaturalSpeech generan directamente representaciones continuas de alta información
Contribución de Este Trabajo: Implementación de generación de habla continua de una etapa dentro del marco MLLM unificado

Difusión Autoregresiva

Métodos Existentes: TransFusion y otros intentan combinar generación autoregresiva y difusión, pero enfrentan dificultades en generación causal estricta
Innovación de Este Trabajo: Implementación de difusión de representación continua autoregresiva estricta a nivel de fotograma

Conclusiones y Discusión

Conclusiones Principales

Validación de Efectividad: La difusión de token continuo supera significativamente a métodos discretos en tareas TTS dentro del marco MLLM
Ventaja de Eficiencia: Se logra mejor rendimiento con menos parámetros (160M vs 400-700M)
Importancia de Estrategia de Entrenamiento: El entrenamiento en dos etapas y aprendizaje con máscara son cruciales para mejora de rendimiento

Limitaciones

Complejidad Computacional: El proceso de difusión requiere inferencia multietapa, con mayor costo computacional
Restricción Monolingüe: Actualmente validado solo en datos en inglés
Generalización de Hablante: La capacidad de generalización a hablantes no vistos requiere verificación adicional
Tiempo Real: La inferencia de difusión de 100 pasos puede afectar aplicaciones en tiempo real

Direcciones Futuras

Extensión Multilingüe: Extensión a tareas TTS multilingües
Aceleración de Inferencia: Investigación de métodos de muestreo de difusión más rápidos
Marco Unificado: Integración de más tareas de habla (ASR, traducción de habla, etc.)
Síntesis de Texto Largo: Mejora de estabilidad en síntesis de habla de secuencia larga

Evaluación Profunda

Fortalezas

Innovación Técnica:
- Primera implementación de difusión continua a nivel de fotograma dentro del marco MLLM
- Diseño de arquitectura de doble cabeza ingenioso, manteniendo unidad
- Entrenamiento en dos etapas resuelve efectivamente problema de desplazamiento de distribución
Experimentación Completa:
- Experimentos de ablación exhaustivos verificando contribución de cada componente
- Métricas de evaluación multidimensionales (inteligibilidad, similitud, calidad)
- Comparación justa con múltiples líneas base sólidas
Convincencia de Resultados:
- Mejora de rendimiento significativa (reducción relativa de WER del 46%)
- Ventaja clara de eficiencia de parámetros
- Logro de rendimiento autoregresivo SOTA

Insuficiencias

Complejidad del Método:
- Requiere entrenamiento en dos etapas, aumentando complejidad de entrenamiento
- Múltiples hiperparámetros requieren ajuste (proporción de máscara, pasos de difusión, etc.)
Limitaciones Experimentales:
- Validación solo en conjunto de datos único
- Ausencia de experimentos de evaluación subjetiva
- Análisis insuficiente de velocidad de inferencia
Análisis Teórico:
- Explicación teórica relativamente simple del entrenamiento en dos etapas
- Falta de análisis de convergencia

Impacto

Valor Académico: Proporciona nueva ruta técnica para generación de habla continua en MLLM
Valor Práctico: Logra síntesis de habla de alta calidad mientras mantiene marco unificado
Reproducibilidad: Descripción detallada de detalles de implementación, facilitando reproducción

Escenarios Aplicables

Asistentes de Voz Personalizados: Capacidad de clonación de hablante de cero ejemplos
Sistemas de Diálogo Multimodal: Procesamiento unificado de texto y habla
Creación de Contenido: Generación de contenido de habla de alta calidad
Tecnología de Asistencia: Provisión de servicios de síntesis de voz para personas con discapacidades visuales y auditivas

Referencias

El artículo cita 42 referencias relacionadas, cubriendo trabajos importantes en campos clave como LLMs multimodales, modelos de difusión y síntesis de habla, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un trabajo de investigación de alta calidad en síntesis de habla dentro del marco de modelos de lenguaje grandes multimodales. El método de difusión de token continuo propuesto es técnicamente innovador, los resultados experimentales son convincentes, y proporciona contribuciones valiosas para el desarrollo de sistemas de IA multimodal unificados. Aunque presenta algunas limitaciones, su ruta técnica y verificación experimental establecen una base sólida para investigación posterior en este campo.