Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic
Difusión de Token Continuo para TTS Referenciado por Hablante en LLMs Multimodales
Las arquitecturas unificadas de modelos de lenguaje grandes multimodales (MLLM) muestran promesa en el manejo de tareas diversas dentro de un único marco. En tareas de conversión de texto a voz (TTS), los métodos actuales basados en MLLM dependen de representaciones de tokens discretos, lo que ignora la naturaleza continua inherente del habla y puede resultar en pérdida de información acústica de grano fino. Este trabajo investiga TTS utilizando representaciones de habla continua dentro del paradigma MLLM. Se diseña una arquitectura de doble cabeza e implementan dos estrategias de entrenamiento complementarias para construir un modelo robusto. El método logra rendimiento autoregresivo de última generación en LibriSpeech(PC) test-clean con WER de 1.95%, similitud de hablante de 0.54 y UTMOS de 4.00.
Los métodos actuales basados en MLLM para TTS presentan principalmente los siguientes problemas:
Pérdida por Discretización: Los métodos existentes convierten el habla en tokens discretos, ignorando la naturaleza continua del habla, lo que resulta en pérdida de información acústica de grano fino
Cuello de Botella de Cuantización: La cuantización discreta descarta detalles acústicos finos, limitando la naturalidad y fidelidad del habla
Falta de Marco Unificado: Ausencia de métodos efectivos para generar habla continua de alta calidad mientras se mantiene la capacidad multitarea del MLLM
Arquitectura Innovadora: Se propone una cabeza de difusión de token continuo a nivel de fotograma, integrada en el marco MLLM autoregresivo, diferenciándose del diseño existente de múltiples fotogramas a nivel de bloque
Diseño de Doble Cabeza: Se diseña una arquitectura de doble cabeza que mantiene el marco multimodal unificado, con la cabeza LM que soporta síntesis de habla de longitud variable
Estrategia de Entrenamiento: Se mitiga el sesgo de exposición autoregresiva mediante entrenamiento con máscara, mejorando la consistencia temporal y robustez del modelo
Esquema de Optimización: Se propone una estrategia de entrenamiento en dos etapas que estabiliza el proceso de optimización, logrando una reducción relativa de WER del 46% y rendimiento autoregresivo SOTA en LibriSpeech(PC)
Entrada: Transcripción de texto y segmento de audio de referencia
Salida: Habla de alta calidad con características de hablante especificadas
Restricción: Implementación dentro del marco MLLM unificado, manteniendo capacidad multitarea
Métodos Existentes: TransFusion y otros intentan combinar generación autoregresiva y difusión, pero enfrentan dificultades en generación causal estricta
Innovación de Este Trabajo: Implementación de difusión de representación continua autoregresiva estricta a nivel de fotograma
El artículo cita 42 referencias relacionadas, cubriendo trabajos importantes en campos clave como LLMs multimodales, modelos de difusión y síntesis de habla, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un trabajo de investigación de alta calidad en síntesis de habla dentro del marco de modelos de lenguaje grandes multimodales. El método de difusión de token continuo propuesto es técnicamente innovador, los resultados experimentales son convincentes, y proporciona contribuciones valiosas para el desarrollo de sistemas de IA multimodal unificados. Aunque presenta algunas limitaciones, su ruta técnica y verificación experimental establecen una base sólida para investigación posterior en este campo.