2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.

Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.

academic

Diffusion de Tokens Continus pour la Synthèse Vocale Référencée par Locuteur dans les LLMs Multimodaux

Informations Fondamentales

ID de l'article: 2510.12995
Titre: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
Auteurs: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
Institutions: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
Classification: eess.AS cs.SD
Conférence de Publication: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
Lien de l'article: https://arxiv.org/abs/2510.12995

Résumé

L'architecture unifiée des grands modèles de langage multimodaux (MLLM) démontre des promesses dans le traitement de tâches diversifiées au sein d'un cadre unique. Pour les tâches de synthèse vocale (TTS), les méthodes actuelles basées sur les MLLM s'appuient sur des représentations de tokens discrets, ce qui ignore la nature continue inhérente à la parole et peut entraîner une perte d'informations acoustiques granulaires. Ce travail étudie la TTS en utilisant des représentations vocales continues dans le paradigme MLLM. Une architecture à double tête a été conçue et deux stratégies d'entraînement complémentaires ont été implémentées pour construire un modèle robuste. La méthode atteint les performances autorégressives de pointe sur LibriSpeech(PC) test-clean, avec un WER de 1,95%, une similarité de locuteur de 0,54 et un UTMOS de 4,00.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes TTS actuelles basées sur les MLLM présentent principalement les problèmes suivants:

Perte de Discrétisation: Les méthodes existantes convertissent la parole en tokens discrets, ignorant la nature continue de la parole, entraînant une perte d'informations acoustiques granulaires
Goulot d'Étranglement de Quantification: La quantification discrète supprime les détails acoustiques fins, limitant la naturalité et la fidélité de la parole
Absence de Cadre Unifié: Manque de méthode efficace pour générer une parole continue de haute qualité tout en maintenant les capacités multitâches du MLLM

Importance de la Recherche

Besoin Technologique: Avec le développement de l'IA multimodale, il est nécessaire de traiter les tâches textuelles et vocales dans un cadre unifié
Amélioration de la Qualité: Les représentations continues peuvent mieux préserver les propriétés intrinsèques de la parole, améliorant la qualité de synthèse
Valeur Applicative: La technologie de clonage de locuteur zéro-shot possède une valeur applicative importante dans la synthèse vocale personnalisée

Limitations des Méthodes Existantes

Systèmes Multi-Étapes: Des méthodes comme VALL-E nécessitent plusieurs étapes, augmentant la complexité
Perte d'Information: L'encodage discret perd les informations acoustiques granulaires
Instabilité d'Entraînement: L'optimisation conjointe du modèle de diffusion et du LLM présente des problèmes de dérive de distribution

Contributions Principales

Architecture Innovante: Proposition d'une tête de diffusion de tokens continus au niveau des trames, intégrée au cadre MLLM autorégressif, se distinguant des conceptions existantes multi-trames au niveau des blocs
Conception à Double Tête: Conception d'une architecture à double tête maintenant un cadre multimodal unifié, avec la tête LM supportant la synthèse vocale de longueur variable
Stratégies d'Entraînement: Atténuation du biais d'exposition autorégressif par entraînement masqué, améliorant la cohérence temporelle et la robustesse du modèle
Solution d'Optimisation: Proposition d'une stratégie d'entraînement en deux étapes stabilisant le processus d'optimisation, réduisant le WER relatif de 46%, atteignant les performances autorégressives SOTA sur LibriSpeech(PC)

Détails de la Méthode

Définition de la Tâche

Entrée: Transcription textuelle et segment audio de référence Sortie: Parole de haute qualité avec les caractéristiques de locuteur spécifiées Contrainte: Implémentation dans le cadre MLLM unifié, préservant les capacités multitâches

Architecture du Modèle

Conception Globale

Le modèle adopte une architecture à double tête, basée sur OPT-125M comme réseau LLM principal:

Tête de Diffusion: Génération d'embeddings vocaux continus
Tête de Modèle de Langage: Prédiction des limites vocales et des tokens de contrôle
Projection Multimodale: Traitement des transformations de représentation entre modalités

Génération de Tokens Continus

Étant donné la séquence cible $x = \{x_1, ..., x_N\}$ , où $x_i \in \mathbb{R}^d$ représente l'embedding vocal de la i-ème trame.

Processus d'Inférence:

z_i = C_θ(p, x̂_{<i})  # Génération du vecteur conditionnel par LLM
x̂_i = Diffusion_φ(z_i)  # Génération de l'embedding vocal par la tête de diffusion

Processus d'Entraînement: Entraînement DDPM standard, avec fonction de perte:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

où la prédiction de bruit $\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)$

Mécanisme de Contrôle EOS

Introduction de tokens spéciaux pour le contrôle des limites:

<speech_bos>: Déclenche la phase de génération vocale
<cont_speech_gen>: Continue la génération de trames vocales
<eos>: Termine la génération vocale

Fonction de perte totale:

L = L_LM + L_diff

Points d'Innovation Technique

1. Apprentissage Autorégressif Masqué

Pour atténuer le biais d'exposition, une stratégie d'entraînement masqué est adoptée:

Masquage aléatoire des trames historiques avec probabilité $p_{mask}$
Remplacement des trames masquées par des vecteurs nuls
Entraînement du modèle pour traiter les informations historiques imparfaites

2. Entraînement en Deux Étapes

Étape 1: Entraînement conjoint du MLLM et de la tête de diffusion Étape 2: Gel du MLLM, entraînement uniquement de la tête de diffusion

Cette conception résout le problème de dérive de distribution, stabilisant le processus d'entraînement.

Configuration Expérimentale

Ensembles de Données

Données d'Entraînement: Sous-ensemble de 50k heures du corpus LibriVox (issu de Libri-Light)
Données d'Évaluation: Ensemble de données LibriSpeech(PC) test-clean
Protocole d'Évaluation: Sélection aléatoire de 40 locuteurs, une énonciation par locuteur, avec 3 secondes d'audio de référence

Métriques d'Évaluation

Intelligibilité: Word Error Rate (WER) - calculé à l'aide de la transcription Whisper-Large
Similarité de Locuteur: Utilisation d'ECAPA-TDNN pour extraire les embeddings et calculer la similarité cosinus
- SIM-R: Similarité avec l'audio de référence
- SIM-G: Similarité avec la parole réelle
Qualité Vocale: UTMOS - Prédicteur MOS basé sur l'entraînement à grande échelle d'évaluations humaines

Méthodes de Comparaison

VALL-E: Méthode de tokens discrets (400M paramètres)
MegaTTS: Méthode de tokens continus (500M paramètres)
Voicebox: Méthode continue non-autorégrressive (400M paramètres)
StyleTTS2: Méthode continue non-autorégrressive (700M paramètres)

Détails d'Implémentation

Réseau Principal: OPT-125M
Représentation Vocale: Embeddings VAE 64-dimensionnels, 25fps
Embedding de Locuteur: Embeddings LAM 768-dimensionnels
Paramètres de Diffusion: T=1000 étapes d'entraînement, 100 étapes d'inférence, calendrier de bruit cosinus
Optimiseur: Adam, sans décroissance de poids, précision mixte FP16

Résultats Expérimentaux

Résultats Principaux

Méthode	Modélisation	Type de Token	Paramètres	WER(%)↓	SIM↑	UTMOS↑
VALL-E	AR+NAR	Discret	400M	6,11	0,47	3,68
MegaTTS	AR+NAR	Continu	500M	2,32	0,53	4,02
Voicebox	NAR	Continu	400M	2,14	0,48	3,73
StyleTTS2	NAR	Continu	700M	2,49	0,38	3,94
Méthode Proposée	AR	Continu	160M	1,95	0,54	4,00

Découvertes Clés:

Réalisation des meilleures performances avec seulement 160M paramètres
Réduction relative du WER de 46% par rapport à la ligne de base de l'étape 1 (3,61%→1,95%)
Surpassement de tous les modèles plus grands sur tous les indicateurs

Études d'Ablation

Impact du Ratio de Masquage

Ratio de Masquage(%)	WER(%)↓	SIM-R↑	UTMOS↑
0	15,06	0,45	2,00
15	12,65	0,45	1,39
30	6,17	0,46	3,21
50	8,13	0,46	2,84

Découverte: Un ratio de masquage de 30% atteint le meilleur équilibre

Impact de la Profondeur de la Tête de Diffusion

Nombre de Couches MLP	Affinage Étape 2	WER(%)↓	SIM-R↑	UTMOS↑
3	✗	6,17	0,46	3,10
6	✗	5,12	0,50	3,10
12	✗	3,61	0,49	3,21
12	✓	1,95	0,54	4,00

Découverte: Les réseaux plus profonds et l'entraînement en deux étapes apportent tous deux des améliorations significatives

Comparaison des Critères d'Arrêt

Critère d'Arrêt	WER(%)↓	SIM-R↑	UTMOS↑
GT-Dur.	29,36	0,48	2,55
GT-EP.	3,46	0,49	3,21
Token EOS	3,61	0,49	3,21

Découverte: La méthode du token EOS atteint des performances comparables sans nécessiter d'informations oracle

Travaux Connexes

TTS Zéro-Shot

Systèmes Multi-Étapes: VALL-E, SALAD et autres utilisant un traitement multi-étapes via tokens sémantiques ou de codec
Méthodes Monoétape: MegaTTS, NaturalSpeech générant directement des représentations continues hautement informatives
Contribution de cet Article: Implémentation de la génération vocale continue monoétape dans le cadre MLLM unifié

Diffusion Autorégrressive

Méthodes Existantes: TransFusion et autres tentant de combiner autorégressif et diffusion, mais rencontrant des difficultés en génération causale stricte
Innovation de cet Article: Implémentation de la diffusion de représentation continue autorégrressive stricte au niveau des trames

Conclusion et Discussion

Conclusions Principales

Validation d'Efficacité: La diffusion de tokens continus surpasse significativement les méthodes discrètes dans les tâches TTS du cadre MLLM
Avantage d'Efficacité: Réalisation de meilleures performances avec moins de paramètres (160M vs 400-700M)
Importance des Stratégies d'Entraînement: L'entraînement en deux étapes et l'apprentissage masqué sont cruciaux pour l'amélioration des performances

Limitations

Complexité Computationnelle: Le processus de diffusion nécessite une inférence multi-étapes, entraînant un surcoût computationnel important
Restriction Monolingue: Validation actuelle uniquement sur données anglaises
Généralisation de Locuteur: La capacité de généralisation à des locuteurs non vus nécessite une vérification supplémentaire
Temps Réel: L'inférence de diffusion en 100 étapes peut affecter les applications en temps réel

Directions Futures

Extension Multilingue: Extension aux tâches TTS multilingues
Accélération d'Inférence: Recherche de méthodes d'échantillonnage de diffusion plus rapides
Cadre Unifié: Intégration de davantage de tâches vocales (ASR, traduction vocale, etc.)
Synthèse de Texte Long: Amélioration de la stabilité de la synthèse vocale pour les séquences longues

Évaluation Approfondie

Points Forts

Innovation Technique:
- Première implémentation de diffusion continue au niveau des trames dans le cadre MLLM
- Conception d'architecture à double tête ingénieuse, maintenant l'uniformité
- Entraînement en deux étapes résolvant efficacement le problème de dérive de distribution
Expérimentation Complète:
- Études d'ablation complètes validant la contribution de chaque composant
- Métriques d'évaluation multidimensionnelles (intelligibilité, similarité, qualité)
- Comparaisons équitables avec plusieurs lignes de base fortes
Pouvoir de Conviction des Résultats:
- Amélioration significative des performances (réduction relative du WER de 46%)
- Avantage d'efficacité des paramètres évident
- Atteinte des performances autorégressives SOTA

Insuffisances

Complexité de la Méthode:
- Nécessité d'entraînement en deux étapes, augmentant la complexité d'entraînement
- Plusieurs hyperparamètres nécessitant un ajustement (ratio de masquage, étapes de diffusion, etc.)
Limitations Expérimentales:
- Validation uniquement sur un ensemble de données unique
- Absence d'expériences d'évaluation subjective
- Analyse insuffisante de la vitesse d'inférence
Analyse Théorique:
- Explication théorique relativement simple de l'entraînement en deux étapes
- Absence d'analyse de convergence

Valeur d'Impact

Valeur Académique: Fourniture d'une nouvelle trajectoire technique pour la génération vocale continue dans les MLLM
Valeur Pratique: Réalisation de synthèse vocale de haute qualité tout en maintenant le cadre unifié
Reproductibilité: Description détaillée des détails d'implémentation, facilitant la reproduction

Scénarios d'Application

Assistants Vocaux Personnalisés: Capacité de clonage de locuteur zéro-shot
Systèmes de Dialogue Multimodaux: Traitement unifié du texte et de la parole
Création de Contenu: Génération de contenu vocal de haute qualité
Technologie d'Assistance: Services de synthèse vocale pour les personnes malvoyantes ou malentendantes

Références Bibliographiques

L'article cite 42 références connexes, couvrant les domaines clés des LLM multimodaux, des modèles de diffusion et de la synthèse vocale, fournissant une base théorique solide pour cette recherche.

Évaluation Globale: Ceci est un travail de recherche de haute qualité sur la synthèse vocale dans le cadre des grands modèles de langage multimodaux. La méthode de diffusion de tokens continus proposée par l'article est techniquement innovante, les résultats expérimentaux sont convaincants, et elle fournit une contribution précieuse au développement des systèmes IA multimodaux unifiés. Bien qu'il existe certaines limitations, sa trajectoire technique et sa validation expérimentale établissent une base solide pour les recherches futures dans ce domaine.