2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic

Diffusion de Tokens Continus pour la Synthèse Vocale Référencée par Locuteur dans les LLMs Multimodaux

Informations Fondamentales

  • ID de l'article: 2510.12995
  • Titre: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
  • Auteurs: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
  • Institutions: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
  • Classification: eess.AS cs.SD
  • Conférence de Publication: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
  • Lien de l'article: https://arxiv.org/abs/2510.12995

Résumé

L'architecture unifiée des grands modèles de langage multimodaux (MLLM) démontre des promesses dans le traitement de tâches diversifiées au sein d'un cadre unique. Pour les tâches de synthèse vocale (TTS), les méthodes actuelles basées sur les MLLM s'appuient sur des représentations de tokens discrets, ce qui ignore la nature continue inhérente à la parole et peut entraîner une perte d'informations acoustiques granulaires. Ce travail étudie la TTS en utilisant des représentations vocales continues dans le paradigme MLLM. Une architecture à double tête a été conçue et deux stratégies d'entraînement complémentaires ont été implémentées pour construire un modèle robuste. La méthode atteint les performances autorégressives de pointe sur LibriSpeech(PC) test-clean, avec un WER de 1,95%, une similarité de locuteur de 0,54 et un UTMOS de 4,00.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes TTS actuelles basées sur les MLLM présentent principalement les problèmes suivants:

  1. Perte de Discrétisation: Les méthodes existantes convertissent la parole en tokens discrets, ignorant la nature continue de la parole, entraînant une perte d'informations acoustiques granulaires
  2. Goulot d'Étranglement de Quantification: La quantification discrète supprime les détails acoustiques fins, limitant la naturalité et la fidélité de la parole
  3. Absence de Cadre Unifié: Manque de méthode efficace pour générer une parole continue de haute qualité tout en maintenant les capacités multitâches du MLLM

Importance de la Recherche

  1. Besoin Technologique: Avec le développement de l'IA multimodale, il est nécessaire de traiter les tâches textuelles et vocales dans un cadre unifié
  2. Amélioration de la Qualité: Les représentations continues peuvent mieux préserver les propriétés intrinsèques de la parole, améliorant la qualité de synthèse
  3. Valeur Applicative: La technologie de clonage de locuteur zéro-shot possède une valeur applicative importante dans la synthèse vocale personnalisée

Limitations des Méthodes Existantes

  1. Systèmes Multi-Étapes: Des méthodes comme VALL-E nécessitent plusieurs étapes, augmentant la complexité
  2. Perte d'Information: L'encodage discret perd les informations acoustiques granulaires
  3. Instabilité d'Entraînement: L'optimisation conjointe du modèle de diffusion et du LLM présente des problèmes de dérive de distribution

Contributions Principales

  1. Architecture Innovante: Proposition d'une tête de diffusion de tokens continus au niveau des trames, intégrée au cadre MLLM autorégressif, se distinguant des conceptions existantes multi-trames au niveau des blocs
  2. Conception à Double Tête: Conception d'une architecture à double tête maintenant un cadre multimodal unifié, avec la tête LM supportant la synthèse vocale de longueur variable
  3. Stratégies d'Entraînement: Atténuation du biais d'exposition autorégressif par entraînement masqué, améliorant la cohérence temporelle et la robustesse du modèle
  4. Solution d'Optimisation: Proposition d'une stratégie d'entraînement en deux étapes stabilisant le processus d'optimisation, réduisant le WER relatif de 46%, atteignant les performances autorégressives SOTA sur LibriSpeech(PC)

Détails de la Méthode

Définition de la Tâche

Entrée: Transcription textuelle et segment audio de référence Sortie: Parole de haute qualité avec les caractéristiques de locuteur spécifiées Contrainte: Implémentation dans le cadre MLLM unifié, préservant les capacités multitâches

Architecture du Modèle

Conception Globale

Le modèle adopte une architecture à double tête, basée sur OPT-125M comme réseau LLM principal:

  1. Tête de Diffusion: Génération d'embeddings vocaux continus
  2. Tête de Modèle de Langage: Prédiction des limites vocales et des tokens de contrôle
  3. Projection Multimodale: Traitement des transformations de représentation entre modalités

Génération de Tokens Continus

Étant donné la séquence cible x={x1,...,xN}x = \{x_1, ..., x_N\}, où xiRdx_i \in \mathbb{R}^d représente l'embedding vocal de la i-ème trame.

Processus d'Inférence:

z_i = C_θ(p, x̂_{<i})  # Génération du vecteur conditionnel par LLM
x̂_i = Diffusion_φ(z_i)  # Génération de l'embedding vocal par la tête de diffusion

Processus d'Entraînement: Entraînement DDPM standard, avec fonction de perte:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

où la prédiction de bruit ε^=Mϕ(xit,t,zi)\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)

Mécanisme de Contrôle EOS

Introduction de tokens spéciaux pour le contrôle des limites:

  • <speech_bos>: Déclenche la phase de génération vocale
  • <cont_speech_gen>: Continue la génération de trames vocales
  • <eos>: Termine la génération vocale

Fonction de perte totale:

L = L_LM + L_diff

Points d'Innovation Technique

1. Apprentissage Autorégressif Masqué

Pour atténuer le biais d'exposition, une stratégie d'entraînement masqué est adoptée:

  • Masquage aléatoire des trames historiques avec probabilité pmaskp_{mask}
  • Remplacement des trames masquées par des vecteurs nuls
  • Entraînement du modèle pour traiter les informations historiques imparfaites

2. Entraînement en Deux Étapes

Étape 1: Entraînement conjoint du MLLM et de la tête de diffusion Étape 2: Gel du MLLM, entraînement uniquement de la tête de diffusion

Cette conception résout le problème de dérive de distribution, stabilisant le processus d'entraînement.

Configuration Expérimentale

Ensembles de Données

  • Données d'Entraînement: Sous-ensemble de 50k heures du corpus LibriVox (issu de Libri-Light)
  • Données d'Évaluation: Ensemble de données LibriSpeech(PC) test-clean
  • Protocole d'Évaluation: Sélection aléatoire de 40 locuteurs, une énonciation par locuteur, avec 3 secondes d'audio de référence

Métriques d'Évaluation

  1. Intelligibilité: Word Error Rate (WER) - calculé à l'aide de la transcription Whisper-Large
  2. Similarité de Locuteur: Utilisation d'ECAPA-TDNN pour extraire les embeddings et calculer la similarité cosinus
    • SIM-R: Similarité avec l'audio de référence
    • SIM-G: Similarité avec la parole réelle
  3. Qualité Vocale: UTMOS - Prédicteur MOS basé sur l'entraînement à grande échelle d'évaluations humaines

Méthodes de Comparaison

  • VALL-E: Méthode de tokens discrets (400M paramètres)
  • MegaTTS: Méthode de tokens continus (500M paramètres)
  • Voicebox: Méthode continue non-autorégrressive (400M paramètres)
  • StyleTTS2: Méthode continue non-autorégrressive (700M paramètres)

Détails d'Implémentation

  • Réseau Principal: OPT-125M
  • Représentation Vocale: Embeddings VAE 64-dimensionnels, 25fps
  • Embedding de Locuteur: Embeddings LAM 768-dimensionnels
  • Paramètres de Diffusion: T=1000 étapes d'entraînement, 100 étapes d'inférence, calendrier de bruit cosinus
  • Optimiseur: Adam, sans décroissance de poids, précision mixte FP16

Résultats Expérimentaux

Résultats Principaux

MéthodeModélisationType de TokenParamètresWER(%)↓SIM↑UTMOS↑
VALL-EAR+NARDiscret400M6,110,473,68
MegaTTSAR+NARContinu500M2,320,534,02
VoiceboxNARContinu400M2,140,483,73
StyleTTS2NARContinu700M2,490,383,94
Méthode ProposéeARContinu160M1,950,544,00

Découvertes Clés:

  • Réalisation des meilleures performances avec seulement 160M paramètres
  • Réduction relative du WER de 46% par rapport à la ligne de base de l'étape 1 (3,61%→1,95%)
  • Surpassement de tous les modèles plus grands sur tous les indicateurs

Études d'Ablation

Impact du Ratio de Masquage

Ratio de Masquage(%)WER(%)↓SIM-R↑UTMOS↑
015,060,452,00
1512,650,451,39
306,170,463,21
508,130,462,84

Découverte: Un ratio de masquage de 30% atteint le meilleur équilibre

Impact de la Profondeur de la Tête de Diffusion

Nombre de Couches MLPAffinage Étape 2WER(%)↓SIM-R↑UTMOS↑
36,170,463,10
65,120,503,10
123,610,493,21
121,950,544,00

Découverte: Les réseaux plus profonds et l'entraînement en deux étapes apportent tous deux des améliorations significatives

Comparaison des Critères d'Arrêt

Critère d'ArrêtWER(%)↓SIM-R↑UTMOS↑
GT-Dur.29,360,482,55
GT-EP.3,460,493,21
Token EOS3,610,493,21

Découverte: La méthode du token EOS atteint des performances comparables sans nécessiter d'informations oracle

Travaux Connexes

TTS Zéro-Shot

  • Systèmes Multi-Étapes: VALL-E, SALAD et autres utilisant un traitement multi-étapes via tokens sémantiques ou de codec
  • Méthodes Monoétape: MegaTTS, NaturalSpeech générant directement des représentations continues hautement informatives
  • Contribution de cet Article: Implémentation de la génération vocale continue monoétape dans le cadre MLLM unifié

Diffusion Autorégrressive

  • Méthodes Existantes: TransFusion et autres tentant de combiner autorégressif et diffusion, mais rencontrant des difficultés en génération causale stricte
  • Innovation de cet Article: Implémentation de la diffusion de représentation continue autorégrressive stricte au niveau des trames

Conclusion et Discussion

Conclusions Principales

  1. Validation d'Efficacité: La diffusion de tokens continus surpasse significativement les méthodes discrètes dans les tâches TTS du cadre MLLM
  2. Avantage d'Efficacité: Réalisation de meilleures performances avec moins de paramètres (160M vs 400-700M)
  3. Importance des Stratégies d'Entraînement: L'entraînement en deux étapes et l'apprentissage masqué sont cruciaux pour l'amélioration des performances

Limitations

  1. Complexité Computationnelle: Le processus de diffusion nécessite une inférence multi-étapes, entraînant un surcoût computationnel important
  2. Restriction Monolingue: Validation actuelle uniquement sur données anglaises
  3. Généralisation de Locuteur: La capacité de généralisation à des locuteurs non vus nécessite une vérification supplémentaire
  4. Temps Réel: L'inférence de diffusion en 100 étapes peut affecter les applications en temps réel

Directions Futures

  1. Extension Multilingue: Extension aux tâches TTS multilingues
  2. Accélération d'Inférence: Recherche de méthodes d'échantillonnage de diffusion plus rapides
  3. Cadre Unifié: Intégration de davantage de tâches vocales (ASR, traduction vocale, etc.)
  4. Synthèse de Texte Long: Amélioration de la stabilité de la synthèse vocale pour les séquences longues

Évaluation Approfondie

Points Forts

  1. Innovation Technique:
    • Première implémentation de diffusion continue au niveau des trames dans le cadre MLLM
    • Conception d'architecture à double tête ingénieuse, maintenant l'uniformité
    • Entraînement en deux étapes résolvant efficacement le problème de dérive de distribution
  2. Expérimentation Complète:
    • Études d'ablation complètes validant la contribution de chaque composant
    • Métriques d'évaluation multidimensionnelles (intelligibilité, similarité, qualité)
    • Comparaisons équitables avec plusieurs lignes de base fortes
  3. Pouvoir de Conviction des Résultats:
    • Amélioration significative des performances (réduction relative du WER de 46%)
    • Avantage d'efficacité des paramètres évident
    • Atteinte des performances autorégressives SOTA

Insuffisances

  1. Complexité de la Méthode:
    • Nécessité d'entraînement en deux étapes, augmentant la complexité d'entraînement
    • Plusieurs hyperparamètres nécessitant un ajustement (ratio de masquage, étapes de diffusion, etc.)
  2. Limitations Expérimentales:
    • Validation uniquement sur un ensemble de données unique
    • Absence d'expériences d'évaluation subjective
    • Analyse insuffisante de la vitesse d'inférence
  3. Analyse Théorique:
    • Explication théorique relativement simple de l'entraînement en deux étapes
    • Absence d'analyse de convergence

Valeur d'Impact

  1. Valeur Académique: Fourniture d'une nouvelle trajectoire technique pour la génération vocale continue dans les MLLM
  2. Valeur Pratique: Réalisation de synthèse vocale de haute qualité tout en maintenant le cadre unifié
  3. Reproductibilité: Description détaillée des détails d'implémentation, facilitant la reproduction

Scénarios d'Application

  1. Assistants Vocaux Personnalisés: Capacité de clonage de locuteur zéro-shot
  2. Systèmes de Dialogue Multimodaux: Traitement unifié du texte et de la parole
  3. Création de Contenu: Génération de contenu vocal de haute qualité
  4. Technologie d'Assistance: Services de synthèse vocale pour les personnes malvoyantes ou malentendantes

Références Bibliographiques

L'article cite 42 références connexes, couvrant les domaines clés des LLM multimodaux, des modèles de diffusion et de la synthèse vocale, fournissant une base théorique solide pour cette recherche.


Évaluation Globale: Ceci est un travail de recherche de haute qualité sur la synthèse vocale dans le cadre des grands modèles de langage multimodaux. La méthode de diffusion de tokens continus proposée par l'article est techniquement innovante, les résultats expérimentaux sont convaincants, et elle fournit une contribution précieuse au développement des systèmes IA multimodaux unifiés. Bien qu'il existe certaines limitations, sa trajectoire technique et sa validation expérimentale établissent une base solide pour les recherches futures dans ce domaine.