2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic

Diffusione di Token Continui per TTS Referenziato dal Parlante in LLM Multimodali

Informazioni Fondamentali

  • ID Articolo: 2510.12995
  • Titolo: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
  • Autori: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
  • Istituzioni: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
  • Classificazione: eess.AS cs.SD
  • Conferenza di Pubblicazione: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
  • Link Articolo: https://arxiv.org/abs/2510.12995

Riassunto

L'architettura unificata dei modelli linguistici di grandi dimensioni multimodali (MLLM) ha dimostrato promesse nel gestire compiti diversificati all'interno di un unico framework. Nel compito di sintesi vocale da testo (TTS), i metodi attuali basati su MLLM si affidano a rappresentazioni di token discreti, il che trascura la natura continua intrinseca del parlato, potenzialmente causando perdita di informazioni acustiche a grana fine. Questo lavoro indaga il TTS utilizzando rappresentazioni vocali continue all'interno del paradigma MLLM. È stata progettata un'architettura a doppia testa e implementate due strategie di addestramento complementari per costruire un modello robusto. Il metodo ha raggiunto prestazioni autoregressiva all'avanguardia su LibriSpeech(PC) test-clean, con WER del 1,95%, somiglianza del parlante di 0,54 e UTMOS di 4,00.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi TTS attuali basati su MLLM presentano principalmente i seguenti problemi:

  1. Perdita di Discretizzazione: I metodi esistenti convertono il parlato in token discreti, trascurando la natura continua del parlato, causando perdita di informazioni acustiche a grana fine
  2. Collo di Bottiglia della Quantizzazione: La quantizzazione discreta scarta dettagli acustici fini, limitando la naturalezza e la fedeltà del parlato
  3. Mancanza di Framework Unificato: Assenza di metodi efficaci per generare parlato continuo di alta qualità mantenendo contemporaneamente le capacità multitask dell'MLLM

Importanza della Ricerca

  1. Esigenze Tecniche: Con lo sviluppo dell'IA multimodale, è necessario gestire compiti di testo e parlato all'interno di un framework unificato
  2. Miglioramento della Qualità: Le rappresentazioni continue possono preservare meglio gli attributi intrinseci del parlato, migliorando la qualità della sintesi
  3. Valore Applicativo: La tecnologia di clonazione vocale zero-shot ha un importante valore applicativo nella sintesi vocale personalizzata

Limitazioni dei Metodi Esistenti

  1. Sistemi Multistadio: Metodi come VALL-E richiedono più stadi, aumentando la complessità
  2. Perdita di Informazioni: La codifica discreta perde informazioni acustiche a grana fine
  3. Instabilità dell'Addestramento: L'ottimizzazione congiunta del modello di diffusione e dell'LLM presenta problemi di spostamento della distribuzione

Contributi Principali

  1. Architettura Innovativa: Propone una testa di diffusione di token continui a livello di frame, integrata nel framework MLLM autoregressivo, differenziandosi dai progetti multistadio a livello di blocco esistenti
  2. Progettazione a Doppia Testa: Progetta un'architettura a doppia testa che mantiene il framework multimodale unificato, con la testa LM che supporta la sintesi vocale di lunghezza variabile
  3. Strategie di Addestramento: Attraverso l'addestramento con mascheramento, allevia il bias di esposizione autoregressivo, migliorando la coerenza temporale e la robustezza del modello
  4. Soluzione di Ottimizzazione: Propone una strategia di addestramento in due fasi per stabilizzare il processo di ottimizzazione, raggiungendo una riduzione relativa del WER del 46% e prestazioni autoregressiva SOTA su LibriSpeech(PC)

Dettagli del Metodo

Definizione del Compito

Input: Trascrizione testuale e segmento audio di riferimento Output: Parlato di alta qualità con caratteristiche vocali specificate Vincoli: Implementazione all'interno del framework MLLM unificato, mantenendo le capacità multitask

Architettura del Modello

Progettazione Complessiva

Il modello adotta un'architettura a doppia testa, basata su OPT-125M come backbone LLM:

  1. Testa di Diffusione: Genera embedding vocali continui
  2. Testa del Modello Linguistico: Predice i confini vocali e i token di controllo
  3. Proiezione Multimodale: Gestisce la trasformazione di rappresentazioni di diverse modalità

Generazione di Token Continui

Dato la sequenza target x={x1,...,xN}x = \{x_1, ..., x_N\}, dove xiRdx_i \in \mathbb{R}^d rappresenta l'embedding vocale dell'i-esimo frame.

Processo di Inferenza:

z_i = C_θ(p, x̂_{<i})  # LLM genera vettore condizionale
x̂_i = Diffusion_φ(z_i)  # Testa di diffusione genera embedding vocale

Processo di Addestramento: Utilizza l'addestramento DDPM standard, con funzione di perdita:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

dove la predizione del rumore è ε^=Mϕ(xit,t,zi)\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)

Meccanismo di Controllo EOS

Introduce token speciali per il controllo dei confini:

  • <speech_bos>: Attiva la fase di generazione vocale
  • <cont_speech_gen>: Continua la generazione di frame vocali
  • <eos>: Termina la generazione vocale

Funzione di perdita totale:

L = L_LM + L_diff

Punti di Innovazione Tecnica

1. Apprendimento Autoregressivo con Mascheramento

Per alleviare il bias di esposizione, adotta una strategia di addestramento con mascheramento:

  • Maschera casualmente i frame storici con probabilità pmaskp_{mask}
  • Sostituisce i frame mascherati con vettori zero
  • Addestra il modello a gestire informazioni storiche imperfette

2. Addestramento in Due Fasi

Fase 1: Addestramento congiunto di MLLM e testa di diffusione Fase 2: Congela MLLM, addestra solo la testa di diffusione

Questo progettazione risolve il problema dello spostamento della distribuzione, stabilizzando il processo di addestramento.

Configurazione Sperimentale

Dataset

  • Dati di Addestramento: Sottoinsieme di 50k ore del corpus LibriVox (da Libri-Light)
  • Dati di Valutazione: Dataset LibriSpeech(PC) test-clean
  • Protocollo di Valutazione: Selezione casuale di 40 parlanti, un'utterance per parlante, con 3 secondi di audio di riferimento

Metriche di Valutazione

  1. Intelligibilità: Word Error Rate (WER) - calcolato utilizzando la trascrizione Whisper-Large
  2. Somiglianza del Parlante: Utilizzo di ECAPA-TDNN per estrarre embedding e calcolare la somiglianza del coseno
    • SIM-R: Somiglianza con l'audio di riferimento
    • SIM-G: Somiglianza con il parlato reale
  3. Qualità Vocale: UTMOS - Predittore MOS basato su valutazioni umane su larga scala

Metodi di Confronto

  • VALL-E: Metodo token discreto (400M parametri)
  • MegaTTS: Metodo token continuo (500M parametri)
  • Voicebox: Metodo continuo non autoregressivo (400M parametri)
  • StyleTTS2: Metodo continuo non autoregressivo (700M parametri)

Dettagli di Implementazione

  • Rete Backbone: OPT-125M
  • Rappresentazione Vocale: Embedding VAE 64-dimensionale, 25fps
  • Embedding del Parlante: Embedding LAM 768-dimensionale
  • Parametri di Diffusione: T=1000 passi per l'addestramento, 100 passi per l'inferenza, pianificazione del rumore coseno
  • Ottimizzatore: Adam, nessun decadimento dei pesi, precisione mista FP16

Risultati Sperimentali

Risultati Principali

MetodoModalità di ModellazioneTipo di TokenParametriWER(%)↓SIM↑UTMOS↑
VALL-EAR+NARDiscreto400M6.110.473.68
MegaTTSAR+NARContinuo500M2.320.534.02
VoiceboxNARContinuo400M2.140.483.73
StyleTTS2NARContinuo700M2.490.383.94
Metodo PropostoARContinuo160M1.950.544.00

Scoperte Chiave:

  • Raggiunge le migliori prestazioni con soli 160M parametri
  • Rispetto al baseline della Fase 1, riduzione relativa del WER del 46% (3.61%→1.95%)
  • Supera tutti i modelli più grandi su tutte le metriche

Esperimenti di Ablazione

Impatto del Rapporto di Mascheramento

Rapporto di Mascheramento(%)WER(%)↓SIM-R↑UTMOS↑
015.060.452.00
1512.650.451.39
306.170.463.21
508.130.462.84

Scoperta: Un rapporto di mascheramento del 30% raggiunge il miglior equilibrio

Impatto della Profondità della Testa di Diffusione

Numero di Strati MLPMessa a Punto Fase 2WER(%)↓SIM-R↑UTMOS↑
36.170.463.10
65.120.503.10
123.610.493.21
121.950.544.00

Scoperta: Reti più profonde e addestramento in due fasi portano entrambi a miglioramenti significativi

Confronto dei Criteri di Arresto

Criterio di ArrestoWER(%)↓SIM-R↑UTMOS↑
GT-Dur.29.360.482.55
GT-EP.3.460.493.21
Token EOS3.610.493.21

Scoperta: Il metodo con token EOS raggiunge prestazioni comparabili senza richiedere informazioni oracle

Lavori Correlati

TTS Zero-Shot

  • Sistemi Multistadio: VALL-E, SALAD e altri attraverso l'elaborazione multistadio di token semantici o di codec
  • Metodi Monostadio: MegaTTS, NaturalSpeech generano direttamente rappresentazioni continue ad alta informazione
  • Contributo di questo Lavoro: Implementazione di generazione vocale continua monostadio all'interno del framework MLLM unificato

Diffusione Autoregressiva

  • Metodi Esistenti: TransFusion e altri tentano di combinare autoregressione e diffusione, ma incontrano difficoltà nella generazione causale rigorosa
  • Innovazione di questo Lavoro: Implementazione di diffusione di rappresentazioni continue autoregressiva rigorosa a livello di frame

Conclusioni e Discussione

Conclusioni Principali

  1. Validazione dell'Efficacia: La diffusione di token continui nel framework MLLM è significativamente superiore ai metodi discreti nel compito TTS
  2. Vantaggi di Efficienza: Raggiunge prestazioni migliori con meno parametri (160M vs 400-700M)
  3. Importanza delle Strategie di Addestramento: L'addestramento in due fasi e l'apprendimento con mascheramento sono cruciali per il miglioramento delle prestazioni

Limitazioni

  1. Complessità Computazionale: Il processo di diffusione richiede inferenza multistadio, con significativo overhead computazionale
  2. Limitazione Monolingue: Attualmente validato solo su dati in lingua inglese
  3. Generalizzazione del Parlante: La capacità di generalizzazione a parlanti non visti richiede ulteriore verifica
  4. Tempo Reale: L'inferenza di diffusione in 100 passi potrebbe influenzare le applicazioni in tempo reale

Direzioni Future

  1. Estensione Multilingue: Estensione ai compiti TTS multilingue
  2. Accelerazione dell'Inferenza: Ricerca di metodi di campionamento di diffusione più veloci
  3. Framework Unificato: Integrazione di più compiti vocali (ASR, traduzione vocale, ecc.)
  4. Sintesi di Testo Lungo: Miglioramento della stabilità della sintesi vocale per sequenze lunghe

Valutazione Approfondita

Punti di Forza

  1. Innovazione Tecnica:
    • Prima implementazione di diffusione continua a livello di frame all'interno del framework MLLM
    • Progettazione dell'architettura a doppia testa ingegnosa, mantenendo l'unità
    • L'addestramento in due fasi risolve efficacemente il problema dello spostamento della distribuzione
  2. Esperimenti Completi:
    • Esperimenti di ablazione completi che verificano il contributo di ogni componente
    • Metriche di valutazione multidimensionali (intelligibilità, somiglianza, qualità)
    • Confronto equo con molteplici baseline forti
  3. Convincenza dei Risultati:
    • Miglioramento significativo delle prestazioni (riduzione relativa del WER del 46%)
    • Vantaggio evidente in termini di efficienza dei parametri
    • Raggiungimento di prestazioni autoregressiva SOTA

Insufficienze

  1. Complessità del Metodo:
    • Richiede addestramento in due fasi, aumentando la complessità dell'addestramento
    • Molteplici iperparametri richiedono ottimizzazione (rapporto di mascheramento, numero di passi di diffusione, ecc.)
  2. Limitazioni Sperimentali:
    • Validazione solo su un singolo dataset
    • Mancanza di esperimenti di valutazione soggettiva
    • Analisi insufficiente della velocità di inferenza
  3. Analisi Teorica:
    • Spiegazione teorica relativamente semplice dell'addestramento in due fasi
    • Mancanza di analisi di convergenza

Impatto

  1. Valore Accademico: Fornisce un nuovo percorso tecnico per la generazione vocale continua negli MLLM
  2. Valore Pratico: Realizza sintesi vocale di alta qualità mantenendo il framework unificato
  3. Riproducibilità: Descrizione dettagliata dei dettagli di implementazione, facilitando la riproduzione

Scenari Applicabili

  1. Assistenti Vocali Personalizzati: Capacità di clonazione vocale zero-shot
  2. Sistemi di Dialogo Multimodale: Elaborazione unificata di testo e parlato
  3. Creazione di Contenuti: Generazione di contenuti vocali di alta qualità
  4. Tecnologie Assistive: Servizi di sintesi vocale per persone con disabilità visive e uditive

Bibliografia

L'articolo cita 42 riferimenti correlati, coprendo lavori importanti nei campi dei modelli linguistici multimodali, modelli di diffusione, sintesi vocale e altri domini chiave, fornendo una base teorica solida per questa ricerca.


Valutazione Complessiva: Questo è un lavoro di ricerca di alta qualità sulla sintesi vocale all'interno del framework dei modelli linguistici di grandi dimensioni multimodali. Il metodo di diffusione di token continui proposto dall'articolo è innovativo dal punto di vista tecnico, i risultati sperimentali sono convincenti e fornisce contributi preziosi allo sviluppo di sistemi IA multimodali unificati. Sebbene presenti alcune limitazioni, il suo percorso tecnico e la verifica sperimentale forniscono una base solida per la ricerca successiva in questo campo.