Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic
Diffusione di Token Continui per TTS Referenziato dal Parlante in LLM Multimodali
L'architettura unificata dei modelli linguistici di grandi dimensioni multimodali (MLLM) ha dimostrato promesse nel gestire compiti diversificati all'interno di un unico framework. Nel compito di sintesi vocale da testo (TTS), i metodi attuali basati su MLLM si affidano a rappresentazioni di token discreti, il che trascura la natura continua intrinseca del parlato, potenzialmente causando perdita di informazioni acustiche a grana fine. Questo lavoro indaga il TTS utilizzando rappresentazioni vocali continue all'interno del paradigma MLLM. È stata progettata un'architettura a doppia testa e implementate due strategie di addestramento complementari per costruire un modello robusto. Il metodo ha raggiunto prestazioni autoregressiva all'avanguardia su LibriSpeech(PC) test-clean, con WER del 1,95%, somiglianza del parlante di 0,54 e UTMOS di 4,00.
I metodi TTS attuali basati su MLLM presentano principalmente i seguenti problemi:
Perdita di Discretizzazione: I metodi esistenti convertono il parlato in token discreti, trascurando la natura continua del parlato, causando perdita di informazioni acustiche a grana fine
Collo di Bottiglia della Quantizzazione: La quantizzazione discreta scarta dettagli acustici fini, limitando la naturalezza e la fedeltà del parlato
Mancanza di Framework Unificato: Assenza di metodi efficaci per generare parlato continuo di alta qualità mantenendo contemporaneamente le capacità multitask dell'MLLM
Esigenze Tecniche: Con lo sviluppo dell'IA multimodale, è necessario gestire compiti di testo e parlato all'interno di un framework unificato
Miglioramento della Qualità: Le rappresentazioni continue possono preservare meglio gli attributi intrinseci del parlato, migliorando la qualità della sintesi
Valore Applicativo: La tecnologia di clonazione vocale zero-shot ha un importante valore applicativo nella sintesi vocale personalizzata
Architettura Innovativa: Propone una testa di diffusione di token continui a livello di frame, integrata nel framework MLLM autoregressivo, differenziandosi dai progetti multistadio a livello di blocco esistenti
Progettazione a Doppia Testa: Progetta un'architettura a doppia testa che mantiene il framework multimodale unificato, con la testa LM che supporta la sintesi vocale di lunghezza variabile
Strategie di Addestramento: Attraverso l'addestramento con mascheramento, allevia il bias di esposizione autoregressivo, migliorando la coerenza temporale e la robustezza del modello
Soluzione di Ottimizzazione: Propone una strategia di addestramento in due fasi per stabilizzare il processo di ottimizzazione, raggiungendo una riduzione relativa del WER del 46% e prestazioni autoregressiva SOTA su LibriSpeech(PC)
Input: Trascrizione testuale e segmento audio di riferimento
Output: Parlato di alta qualità con caratteristiche vocali specificate
Vincoli: Implementazione all'interno del framework MLLM unificato, mantenendo le capacità multitask
Validazione dell'Efficacia: La diffusione di token continui nel framework MLLM è significativamente superiore ai metodi discreti nel compito TTS
Vantaggi di Efficienza: Raggiunge prestazioni migliori con meno parametri (160M vs 400-700M)
Importanza delle Strategie di Addestramento: L'addestramento in due fasi e l'apprendimento con mascheramento sono cruciali per il miglioramento delle prestazioni
L'articolo cita 42 riferimenti correlati, coprendo lavori importanti nei campi dei modelli linguistici multimodali, modelli di diffusione, sintesi vocale e altri domini chiave, fornendo una base teorica solida per questa ricerca.
Valutazione Complessiva: Questo è un lavoro di ricerca di alta qualità sulla sintesi vocale all'interno del framework dei modelli linguistici di grandi dimensioni multimodali. Il metodo di diffusione di token continui proposto dall'articolo è innovativo dal punto di vista tecnico, i risultati sperimentali sono convincenti e fornisce contributi preziosi allo sviluppo di sistemi IA multimodali unificati. Sebbene presenti alcune limitazioni, il suo percorso tecnico e la verifica sperimentale forniscono una base solida per la ricerca successiva in questo campo.