2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic

Difusión de Token Continuo para TTS Referenciado por Hablante en LLMs Multimodales

Información Básica

  • ID del Artículo: 2510.12995
  • Título: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
  • Autores: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
  • Instituciones: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
  • Clasificación: eess.AS cs.SD
  • Conferencia de Publicación: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12995

Resumen

Las arquitecturas unificadas de modelos de lenguaje grandes multimodales (MLLM) muestran promesa en el manejo de tareas diversas dentro de un único marco. En tareas de conversión de texto a voz (TTS), los métodos actuales basados en MLLM dependen de representaciones de tokens discretos, lo que ignora la naturaleza continua inherente del habla y puede resultar en pérdida de información acústica de grano fino. Este trabajo investiga TTS utilizando representaciones de habla continua dentro del paradigma MLLM. Se diseña una arquitectura de doble cabeza e implementan dos estrategias de entrenamiento complementarias para construir un modelo robusto. El método logra rendimiento autoregresivo de última generación en LibriSpeech(PC) test-clean con WER de 1.95%, similitud de hablante de 0.54 y UTMOS de 4.00.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos actuales basados en MLLM para TTS presentan principalmente los siguientes problemas:

  1. Pérdida por Discretización: Los métodos existentes convierten el habla en tokens discretos, ignorando la naturaleza continua del habla, lo que resulta en pérdida de información acústica de grano fino
  2. Cuello de Botella de Cuantización: La cuantización discreta descarta detalles acústicos finos, limitando la naturalidad y fidelidad del habla
  3. Falta de Marco Unificado: Ausencia de métodos efectivos para generar habla continua de alta calidad mientras se mantiene la capacidad multitarea del MLLM

Importancia de la Investigación

  1. Necesidad Técnica: Con el desarrollo de la IA multimodal, existe la necesidad de procesar tareas de texto y habla dentro de un marco unificado
  2. Mejora de Calidad: Las representaciones continuas pueden preservar mejor los atributos intrínsecos del habla, mejorando la calidad de síntesis
  3. Valor de Aplicación: La tecnología de clonación de hablante de cero ejemplos tiene un valor de aplicación importante en síntesis de voz personalizada

Limitaciones de Métodos Existentes

  1. Sistemas Multietapa: Métodos como VALL-E requieren múltiples etapas, aumentando la complejidad
  2. Pérdida de Información: La codificación discreta pierde información acústica de grano fino
  3. Inestabilidad de Entrenamiento: La optimización conjunta del modelo de difusión y LLM presenta problemas de desplazamiento de distribución

Contribuciones Principales

  1. Arquitectura Innovadora: Se propone una cabeza de difusión de token continuo a nivel de fotograma, integrada en el marco MLLM autoregresivo, diferenciándose del diseño existente de múltiples fotogramas a nivel de bloque
  2. Diseño de Doble Cabeza: Se diseña una arquitectura de doble cabeza que mantiene el marco multimodal unificado, con la cabeza LM que soporta síntesis de habla de longitud variable
  3. Estrategia de Entrenamiento: Se mitiga el sesgo de exposición autoregresiva mediante entrenamiento con máscara, mejorando la consistencia temporal y robustez del modelo
  4. Esquema de Optimización: Se propone una estrategia de entrenamiento en dos etapas que estabiliza el proceso de optimización, logrando una reducción relativa de WER del 46% y rendimiento autoregresivo SOTA en LibriSpeech(PC)

Explicación Detallada del Método

Definición de la Tarea

Entrada: Transcripción de texto y segmento de audio de referencia Salida: Habla de alta calidad con características de hablante especificadas Restricción: Implementación dentro del marco MLLM unificado, manteniendo capacidad multitarea

Arquitectura del Modelo

Diseño General

El modelo adopta una arquitectura de doble cabeza, basada en OPT-125M como red troncal LLM:

  1. Cabeza de Difusión: Genera incrustaciones de habla continua
  2. Cabeza de Modelo de Lenguaje: Predice límites de habla y tokens de control
  3. Proyección Multimodal: Procesa transformación de representaciones de diferentes modalidades

Generación de Token Continuo

Dada la secuencia objetivo x={x1,...,xN}x = \{x_1, ..., x_N\}, donde xiRdx_i \in \mathbb{R}^d representa la incrustación de habla del i-ésimo fotograma.

Proceso de Inferencia:

z_i = C_θ(p, x̂_{<i})  # LLM genera vector de condición
x̂_i = Diffusion_φ(z_i)  # Cabeza de difusión genera incrustación de habla

Proceso de Entrenamiento: Se adopta entrenamiento estándar DDPM, con función de pérdida:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

donde la predicción de ruido ε^=Mϕ(xit,t,zi)\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)

Mecanismo de Control EOS

Se introduce un token especial para implementar control de límites:

  • <speech_bos>: Desencadena la etapa de generación de habla
  • <cont_speech_gen>: Continúa generando fotogramas de habla
  • <eos>: Termina la generación de habla

Función de pérdida total:

L = L_LM + L_diff

Puntos de Innovación Técnica

1. Aprendizaje Autoregresivo con Máscara

Para mitigar el sesgo de exposición, se adopta una estrategia de entrenamiento con máscara:

  • Se enmascaran aleatoriamente fotogramas históricos con probabilidad pmaskp_{mask}
  • Se reemplazan los fotogramas enmascarados con vectores cero
  • Se entrena el modelo para manejar información histórica imperfecta

2. Entrenamiento en Dos Etapas

Etapa 1: Entrenamiento conjunto del MLLM y cabeza de difusión Etapa 2: Congelación del MLLM, entrenamiento solo de la cabeza de difusión

Este diseño resuelve el problema de desplazamiento de distribución, estabilizando el proceso de entrenamiento.

Configuración Experimental

Conjuntos de Datos

  • Datos de Entrenamiento: Subconjunto de 50k horas del corpus LibriVox (de Libri-Light)
  • Datos de Evaluación: Conjunto de datos LibriSpeech(PC) test-clean
  • Protocolo de Evaluación: Selección aleatoria de 40 hablantes, una emisión por hablante, con 3 segundos de audio de referencia adjunto

Métricas de Evaluación

  1. Inteligibilidad: Tasa de Error de Palabras (WER) - calculada usando transcripción Whisper-Large
  2. Similitud de Hablante: Usando incrustaciones extraídas por ECAPA-TDNN, calculando similitud de coseno
    • SIM-R: Similitud con audio de referencia
    • SIM-G: Similitud con habla verdadera
  3. Calidad de Habla: UTMOS - predictor MOS basado en puntuaciones humanas a gran escala

Métodos de Comparación

  • VALL-E: Método de token discreto (400M parámetros)
  • MegaTTS: Método de token continuo (500M parámetros)
  • Voicebox: Método continuo no autoregresivo (400M parámetros)
  • StyleTTS2: Método continuo no autoregresivo (700M parámetros)

Detalles de Implementación

  • Red Troncal: OPT-125M
  • Representación de Habla: Incrustación VAE de 64 dimensiones, 25fps
  • Incrustación de Hablante: Incrustación LAM de 768 dimensiones
  • Parámetros de Difusión: T=1000 pasos en entrenamiento, 100 pasos en inferencia, programación de ruido coseno
  • Optimizador: Adam, sin decaimiento de peso, precisión mixta FP16

Resultados Experimentales

Resultados Principales

MétodoModalidadTipo de TokenParámetrosWER(%)↓SIM↑UTMOS↑
VALL-EAR+NARDiscreto400M6.110.473.68
MegaTTSAR+NARContinuo500M2.320.534.02
VoiceboxNARContinuo400M2.140.483.73
StyleTTS2NARContinuo700M2.490.383.94
Este TrabajoARContinuo160M1.950.544.00

Hallazgos Clave:

  • Se logra el mejor rendimiento con solo 160M parámetros
  • Comparado con la línea base de la etapa 1, reducción relativa de WER del 46% (3.61%→1.95%)
  • Supera a modelos más grandes en todas las métricas

Experimentos de Ablación

Impacto de la Proporción de Máscara

Proporción de Máscara(%)WER(%)↓SIM-R↑UTMOS↑
015.060.452.00
1512.650.451.39
306.170.463.21
508.130.462.84

Hallazgo: La proporción de máscara del 30% logra el mejor equilibrio

Impacto de la Profundidad de la Cabeza de Difusión

Capas MLPAjuste Fino Etapa 2WER(%)↓SIM-R↑UTMOS↑
36.170.463.10
65.120.503.10
123.610.493.21
121.950.544.00

Hallazgo: Las redes más profundas y el entrenamiento en dos etapas aportan mejoras significativas

Comparación de Criterios de Parada

Criterio de ParadaWER(%)↓SIM-R↑UTMOS↑
GT-Dur.29.360.482.55
GT-EP.3.460.493.21
Token EOS3.610.493.21

Hallazgo: El método de token EOS logra rendimiento comparable sin requerir información oracle

Trabajo Relacionado

TTS de Cero Ejemplos

  • Sistemas Multietapa: VALL-E, SALAD y otros mediante procesamiento multietapa de tokens semánticos o de códec
  • Métodos de Una Etapa: MegaTTS, NaturalSpeech generan directamente representaciones continuas de alta información
  • Contribución de Este Trabajo: Implementación de generación de habla continua de una etapa dentro del marco MLLM unificado

Difusión Autoregresiva

  • Métodos Existentes: TransFusion y otros intentan combinar generación autoregresiva y difusión, pero enfrentan dificultades en generación causal estricta
  • Innovación de Este Trabajo: Implementación de difusión de representación continua autoregresiva estricta a nivel de fotograma

Conclusiones y Discusión

Conclusiones Principales

  1. Validación de Efectividad: La difusión de token continuo supera significativamente a métodos discretos en tareas TTS dentro del marco MLLM
  2. Ventaja de Eficiencia: Se logra mejor rendimiento con menos parámetros (160M vs 400-700M)
  3. Importancia de Estrategia de Entrenamiento: El entrenamiento en dos etapas y aprendizaje con máscara son cruciales para mejora de rendimiento

Limitaciones

  1. Complejidad Computacional: El proceso de difusión requiere inferencia multietapa, con mayor costo computacional
  2. Restricción Monolingüe: Actualmente validado solo en datos en inglés
  3. Generalización de Hablante: La capacidad de generalización a hablantes no vistos requiere verificación adicional
  4. Tiempo Real: La inferencia de difusión de 100 pasos puede afectar aplicaciones en tiempo real

Direcciones Futuras

  1. Extensión Multilingüe: Extensión a tareas TTS multilingües
  2. Aceleración de Inferencia: Investigación de métodos de muestreo de difusión más rápidos
  3. Marco Unificado: Integración de más tareas de habla (ASR, traducción de habla, etc.)
  4. Síntesis de Texto Largo: Mejora de estabilidad en síntesis de habla de secuencia larga

Evaluación Profunda

Fortalezas

  1. Innovación Técnica:
    • Primera implementación de difusión continua a nivel de fotograma dentro del marco MLLM
    • Diseño de arquitectura de doble cabeza ingenioso, manteniendo unidad
    • Entrenamiento en dos etapas resuelve efectivamente problema de desplazamiento de distribución
  2. Experimentación Completa:
    • Experimentos de ablación exhaustivos verificando contribución de cada componente
    • Métricas de evaluación multidimensionales (inteligibilidad, similitud, calidad)
    • Comparación justa con múltiples líneas base sólidas
  3. Convincencia de Resultados:
    • Mejora de rendimiento significativa (reducción relativa de WER del 46%)
    • Ventaja clara de eficiencia de parámetros
    • Logro de rendimiento autoregresivo SOTA

Insuficiencias

  1. Complejidad del Método:
    • Requiere entrenamiento en dos etapas, aumentando complejidad de entrenamiento
    • Múltiples hiperparámetros requieren ajuste (proporción de máscara, pasos de difusión, etc.)
  2. Limitaciones Experimentales:
    • Validación solo en conjunto de datos único
    • Ausencia de experimentos de evaluación subjetiva
    • Análisis insuficiente de velocidad de inferencia
  3. Análisis Teórico:
    • Explicación teórica relativamente simple del entrenamiento en dos etapas
    • Falta de análisis de convergencia

Impacto

  1. Valor Académico: Proporciona nueva ruta técnica para generación de habla continua en MLLM
  2. Valor Práctico: Logra síntesis de habla de alta calidad mientras mantiene marco unificado
  3. Reproducibilidad: Descripción detallada de detalles de implementación, facilitando reproducción

Escenarios Aplicables

  1. Asistentes de Voz Personalizados: Capacidad de clonación de hablante de cero ejemplos
  2. Sistemas de Diálogo Multimodal: Procesamiento unificado de texto y habla
  3. Creación de Contenido: Generación de contenido de habla de alta calidad
  4. Tecnología de Asistencia: Provisión de servicios de síntesis de voz para personas con discapacidades visuales y auditivas

Referencias

El artículo cita 42 referencias relacionadas, cubriendo trabajos importantes en campos clave como LLMs multimodales, modelos de difusión y síntesis de habla, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un trabajo de investigación de alta calidad en síntesis de habla dentro del marco de modelos de lenguaje grandes multimodales. El método de difusión de token continuo propuesto es técnicamente innovador, los resultados experimentales son convincentes, y proporciona contribuciones valiosas para el desarrollo de sistemas de IA multimodal unificados. Aunque presenta algunas limitaciones, su ruta técnica y verificación experimental establecen una base sólida para investigación posterior en este campo.