2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.

Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.

academic

Diffusione di Token Continui per TTS Referenziato dal Parlante in LLM Multimodali

Informazioni Fondamentali

ID Articolo: 2510.12995
Titolo: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
Autori: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
Istituzioni: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
Classificazione: eess.AS cs.SD
Conferenza di Pubblicazione: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
Link Articolo: https://arxiv.org/abs/2510.12995

Riassunto

L'architettura unificata dei modelli linguistici di grandi dimensioni multimodali (MLLM) ha dimostrato promesse nel gestire compiti diversificati all'interno di un unico framework. Nel compito di sintesi vocale da testo (TTS), i metodi attuali basati su MLLM si affidano a rappresentazioni di token discreti, il che trascura la natura continua intrinseca del parlato, potenzialmente causando perdita di informazioni acustiche a grana fine. Questo lavoro indaga il TTS utilizzando rappresentazioni vocali continue all'interno del paradigma MLLM. È stata progettata un'architettura a doppia testa e implementate due strategie di addestramento complementari per costruire un modello robusto. Il metodo ha raggiunto prestazioni autoregressiva all'avanguardia su LibriSpeech(PC) test-clean, con WER del 1,95%, somiglianza del parlante di 0,54 e UTMOS di 4,00.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi TTS attuali basati su MLLM presentano principalmente i seguenti problemi:

Perdita di Discretizzazione: I metodi esistenti convertono il parlato in token discreti, trascurando la natura continua del parlato, causando perdita di informazioni acustiche a grana fine
Collo di Bottiglia della Quantizzazione: La quantizzazione discreta scarta dettagli acustici fini, limitando la naturalezza e la fedeltà del parlato
Mancanza di Framework Unificato: Assenza di metodi efficaci per generare parlato continuo di alta qualità mantenendo contemporaneamente le capacità multitask dell'MLLM

Importanza della Ricerca

Esigenze Tecniche: Con lo sviluppo dell'IA multimodale, è necessario gestire compiti di testo e parlato all'interno di un framework unificato
Miglioramento della Qualità: Le rappresentazioni continue possono preservare meglio gli attributi intrinseci del parlato, migliorando la qualità della sintesi
Valore Applicativo: La tecnologia di clonazione vocale zero-shot ha un importante valore applicativo nella sintesi vocale personalizzata

Limitazioni dei Metodi Esistenti

Sistemi Multistadio: Metodi come VALL-E richiedono più stadi, aumentando la complessità
Perdita di Informazioni: La codifica discreta perde informazioni acustiche a grana fine
Instabilità dell'Addestramento: L'ottimizzazione congiunta del modello di diffusione e dell'LLM presenta problemi di spostamento della distribuzione

Contributi Principali

Architettura Innovativa: Propone una testa di diffusione di token continui a livello di frame, integrata nel framework MLLM autoregressivo, differenziandosi dai progetti multistadio a livello di blocco esistenti
Progettazione a Doppia Testa: Progetta un'architettura a doppia testa che mantiene il framework multimodale unificato, con la testa LM che supporta la sintesi vocale di lunghezza variabile
Strategie di Addestramento: Attraverso l'addestramento con mascheramento, allevia il bias di esposizione autoregressivo, migliorando la coerenza temporale e la robustezza del modello
Soluzione di Ottimizzazione: Propone una strategia di addestramento in due fasi per stabilizzare il processo di ottimizzazione, raggiungendo una riduzione relativa del WER del 46% e prestazioni autoregressiva SOTA su LibriSpeech(PC)

Dettagli del Metodo

Definizione del Compito

Input: Trascrizione testuale e segmento audio di riferimento Output: Parlato di alta qualità con caratteristiche vocali specificate Vincoli: Implementazione all'interno del framework MLLM unificato, mantenendo le capacità multitask

Architettura del Modello

Progettazione Complessiva

Il modello adotta un'architettura a doppia testa, basata su OPT-125M come backbone LLM:

Testa di Diffusione: Genera embedding vocali continui
Testa del Modello Linguistico: Predice i confini vocali e i token di controllo
Proiezione Multimodale: Gestisce la trasformazione di rappresentazioni di diverse modalità

Generazione di Token Continui

Dato la sequenza target $x = \{x_1, ..., x_N\}$ , dove $x_i \in \mathbb{R}^d$ rappresenta l'embedding vocale dell'i-esimo frame.

Processo di Inferenza:

z_i = C_θ(p, x̂_{<i})  # LLM genera vettore condizionale
x̂_i = Diffusion_φ(z_i)  # Testa di diffusione genera embedding vocale

Processo di Addestramento: Utilizza l'addestramento DDPM standard, con funzione di perdita:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

dove la predizione del rumore è $\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)$

Meccanismo di Controllo EOS

Introduce token speciali per il controllo dei confini:

<speech_bos>: Attiva la fase di generazione vocale
<cont_speech_gen>: Continua la generazione di frame vocali
<eos>: Termina la generazione vocale

Funzione di perdita totale:

L = L_LM + L_diff

Punti di Innovazione Tecnica

1. Apprendimento Autoregressivo con Mascheramento

Per alleviare il bias di esposizione, adotta una strategia di addestramento con mascheramento:

Maschera casualmente i frame storici con probabilità $p_{mask}$
Sostituisce i frame mascherati con vettori zero
Addestra il modello a gestire informazioni storiche imperfette

2. Addestramento in Due Fasi

Fase 1: Addestramento congiunto di MLLM e testa di diffusione Fase 2: Congela MLLM, addestra solo la testa di diffusione

Questo progettazione risolve il problema dello spostamento della distribuzione, stabilizzando il processo di addestramento.

Configurazione Sperimentale

Dataset

Dati di Addestramento: Sottoinsieme di 50k ore del corpus LibriVox (da Libri-Light)
Dati di Valutazione: Dataset LibriSpeech(PC) test-clean
Protocollo di Valutazione: Selezione casuale di 40 parlanti, un'utterance per parlante, con 3 secondi di audio di riferimento

Metriche di Valutazione

Intelligibilità: Word Error Rate (WER) - calcolato utilizzando la trascrizione Whisper-Large
Somiglianza del Parlante: Utilizzo di ECAPA-TDNN per estrarre embedding e calcolare la somiglianza del coseno
- SIM-R: Somiglianza con l'audio di riferimento
- SIM-G: Somiglianza con il parlato reale
Qualità Vocale: UTMOS - Predittore MOS basato su valutazioni umane su larga scala

Metodi di Confronto

VALL-E: Metodo token discreto (400M parametri)
MegaTTS: Metodo token continuo (500M parametri)
Voicebox: Metodo continuo non autoregressivo (400M parametri)
StyleTTS2: Metodo continuo non autoregressivo (700M parametri)

Dettagli di Implementazione

Rete Backbone: OPT-125M
Rappresentazione Vocale: Embedding VAE 64-dimensionale, 25fps
Embedding del Parlante: Embedding LAM 768-dimensionale
Parametri di Diffusione: T=1000 passi per l'addestramento, 100 passi per l'inferenza, pianificazione del rumore coseno
Ottimizzatore: Adam, nessun decadimento dei pesi, precisione mista FP16

Risultati Sperimentali

Risultati Principali

Metodo	Modalità di Modellazione	Tipo di Token	Parametri	WER(%)↓	SIM↑	UTMOS↑
VALL-E	AR+NAR	Discreto	400M	6.11	0.47	3.68
MegaTTS	AR+NAR	Continuo	500M	2.32	0.53	4.02
Voicebox	NAR	Continuo	400M	2.14	0.48	3.73
StyleTTS2	NAR	Continuo	700M	2.49	0.38	3.94
Metodo Proposto	AR	Continuo	160M	1.95	0.54	4.00

Scoperte Chiave:

Raggiunge le migliori prestazioni con soli 160M parametri
Rispetto al baseline della Fase 1, riduzione relativa del WER del 46% (3.61%→1.95%)
Supera tutti i modelli più grandi su tutte le metriche

Esperimenti di Ablazione

Impatto del Rapporto di Mascheramento

Rapporto di Mascheramento(%)	WER(%)↓	SIM-R↑	UTMOS↑
0	15.06	0.45	2.00
15	12.65	0.45	1.39
30	6.17	0.46	3.21
50	8.13	0.46	2.84

Scoperta: Un rapporto di mascheramento del 30% raggiunge il miglior equilibrio

Impatto della Profondità della Testa di Diffusione

Numero di Strati MLP	Messa a Punto Fase 2	WER(%)↓	SIM-R↑	UTMOS↑
3	✗	6.17	0.46	3.10
6	✗	5.12	0.50	3.10
12	✗	3.61	0.49	3.21
12	✓	1.95	0.54	4.00

Scoperta: Reti più profonde e addestramento in due fasi portano entrambi a miglioramenti significativi

Confronto dei Criteri di Arresto

Criterio di Arresto	WER(%)↓	SIM-R↑	UTMOS↑
GT-Dur.	29.36	0.48	2.55
GT-EP.	3.46	0.49	3.21
Token EOS	3.61	0.49	3.21

Scoperta: Il metodo con token EOS raggiunge prestazioni comparabili senza richiedere informazioni oracle

Lavori Correlati

TTS Zero-Shot

Sistemi Multistadio: VALL-E, SALAD e altri attraverso l'elaborazione multistadio di token semantici o di codec
Metodi Monostadio: MegaTTS, NaturalSpeech generano direttamente rappresentazioni continue ad alta informazione
Contributo di questo Lavoro: Implementazione di generazione vocale continua monostadio all'interno del framework MLLM unificato

Diffusione Autoregressiva

Metodi Esistenti: TransFusion e altri tentano di combinare autoregressione e diffusione, ma incontrano difficoltà nella generazione causale rigorosa
Innovazione di questo Lavoro: Implementazione di diffusione di rappresentazioni continue autoregressiva rigorosa a livello di frame

Conclusioni e Discussione

Conclusioni Principali

Validazione dell'Efficacia: La diffusione di token continui nel framework MLLM è significativamente superiore ai metodi discreti nel compito TTS
Vantaggi di Efficienza: Raggiunge prestazioni migliori con meno parametri (160M vs 400-700M)
Importanza delle Strategie di Addestramento: L'addestramento in due fasi e l'apprendimento con mascheramento sono cruciali per il miglioramento delle prestazioni

Limitazioni

Complessità Computazionale: Il processo di diffusione richiede inferenza multistadio, con significativo overhead computazionale
Limitazione Monolingue: Attualmente validato solo su dati in lingua inglese
Generalizzazione del Parlante: La capacità di generalizzazione a parlanti non visti richiede ulteriore verifica
Tempo Reale: L'inferenza di diffusione in 100 passi potrebbe influenzare le applicazioni in tempo reale

Direzioni Future

Estensione Multilingue: Estensione ai compiti TTS multilingue
Accelerazione dell'Inferenza: Ricerca di metodi di campionamento di diffusione più veloci
Framework Unificato: Integrazione di più compiti vocali (ASR, traduzione vocale, ecc.)
Sintesi di Testo Lungo: Miglioramento della stabilità della sintesi vocale per sequenze lunghe

Valutazione Approfondita

Punti di Forza

Innovazione Tecnica:
- Prima implementazione di diffusione continua a livello di frame all'interno del framework MLLM
- Progettazione dell'architettura a doppia testa ingegnosa, mantenendo l'unità
- L'addestramento in due fasi risolve efficacemente il problema dello spostamento della distribuzione
Esperimenti Completi:
- Esperimenti di ablazione completi che verificano il contributo di ogni componente
- Metriche di valutazione multidimensionali (intelligibilità, somiglianza, qualità)
- Confronto equo con molteplici baseline forti
Convincenza dei Risultati:
- Miglioramento significativo delle prestazioni (riduzione relativa del WER del 46%)
- Vantaggio evidente in termini di efficienza dei parametri
- Raggiungimento di prestazioni autoregressiva SOTA

Insufficienze

Complessità del Metodo:
- Richiede addestramento in due fasi, aumentando la complessità dell'addestramento
- Molteplici iperparametri richiedono ottimizzazione (rapporto di mascheramento, numero di passi di diffusione, ecc.)
Limitazioni Sperimentali:
- Validazione solo su un singolo dataset
- Mancanza di esperimenti di valutazione soggettiva
- Analisi insufficiente della velocità di inferenza
Analisi Teorica:
- Spiegazione teorica relativamente semplice dell'addestramento in due fasi
- Mancanza di analisi di convergenza

Impatto

Valore Accademico: Fornisce un nuovo percorso tecnico per la generazione vocale continua negli MLLM
Valore Pratico: Realizza sintesi vocale di alta qualità mantenendo il framework unificato
Riproducibilità: Descrizione dettagliata dei dettagli di implementazione, facilitando la riproduzione

Scenari Applicabili

Assistenti Vocali Personalizzati: Capacità di clonazione vocale zero-shot
Sistemi di Dialogo Multimodale: Elaborazione unificata di testo e parlato
Creazione di Contenuti: Generazione di contenuti vocali di alta qualità
Tecnologie Assistive: Servizi di sintesi vocale per persone con disabilità visive e uditive

Bibliografia

L'articolo cita 42 riferimenti correlati, coprendo lavori importanti nei campi dei modelli linguistici multimodali, modelli di diffusione, sintesi vocale e altri domini chiave, fornendo una base teorica solida per questa ricerca.

Valutazione Complessiva: Questo è un lavoro di ricerca di alta qualità sulla sintesi vocale all'interno del framework dei modelli linguistici di grandi dimensioni multimodali. Il metodo di diffusione di token continui proposto dall'articolo è innovativo dal punto di vista tecnico, i risultati sperimentali sono convincenti e fornisce contributi preziosi allo sviluppo di sistemi IA multimodali unificati. Sebbene presenti alcune limitazioni, il suo percorso tecnico e la verifica sperimentale forniscono una base solida per la ricerca successiva in questo campo.