Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic
Diffusion de Tokens Continus pour la Synthèse Vocale Référencée par Locuteur dans les LLMs Multimodaux
L'architecture unifiée des grands modèles de langage multimodaux (MLLM) démontre des promesses dans le traitement de tâches diversifiées au sein d'un cadre unique. Pour les tâches de synthèse vocale (TTS), les méthodes actuelles basées sur les MLLM s'appuient sur des représentations de tokens discrets, ce qui ignore la nature continue inhérente à la parole et peut entraîner une perte d'informations acoustiques granulaires. Ce travail étudie la TTS en utilisant des représentations vocales continues dans le paradigme MLLM. Une architecture à double tête a été conçue et deux stratégies d'entraînement complémentaires ont été implémentées pour construire un modèle robuste. La méthode atteint les performances autorégressives de pointe sur LibriSpeech(PC) test-clean, avec un WER de 1,95%, une similarité de locuteur de 0,54 et un UTMOS de 4,00.
Les méthodes TTS actuelles basées sur les MLLM présentent principalement les problèmes suivants:
Perte de Discrétisation: Les méthodes existantes convertissent la parole en tokens discrets, ignorant la nature continue de la parole, entraînant une perte d'informations acoustiques granulaires
Goulot d'Étranglement de Quantification: La quantification discrète supprime les détails acoustiques fins, limitant la naturalité et la fidélité de la parole
Absence de Cadre Unifié: Manque de méthode efficace pour générer une parole continue de haute qualité tout en maintenant les capacités multitâches du MLLM
Besoin Technologique: Avec le développement de l'IA multimodale, il est nécessaire de traiter les tâches textuelles et vocales dans un cadre unifié
Amélioration de la Qualité: Les représentations continues peuvent mieux préserver les propriétés intrinsèques de la parole, améliorant la qualité de synthèse
Valeur Applicative: La technologie de clonage de locuteur zéro-shot possède une valeur applicative importante dans la synthèse vocale personnalisée
Architecture Innovante: Proposition d'une tête de diffusion de tokens continus au niveau des trames, intégrée au cadre MLLM autorégressif, se distinguant des conceptions existantes multi-trames au niveau des blocs
Conception à Double Tête: Conception d'une architecture à double tête maintenant un cadre multimodal unifié, avec la tête LM supportant la synthèse vocale de longueur variable
Stratégies d'Entraînement: Atténuation du biais d'exposition autorégressif par entraînement masqué, améliorant la cohérence temporelle et la robustesse du modèle
Solution d'Optimisation: Proposition d'une stratégie d'entraînement en deux étapes stabilisant le processus d'optimisation, réduisant le WER relatif de 46%, atteignant les performances autorégressives SOTA sur LibriSpeech(PC)
Entrée: Transcription textuelle et segment audio de référence
Sortie: Parole de haute qualité avec les caractéristiques de locuteur spécifiées
Contrainte: Implémentation dans le cadre MLLM unifié, préservant les capacités multitâches
Méthodes Existantes: TransFusion et autres tentant de combiner autorégressif et diffusion, mais rencontrant des difficultés en génération causale stricte
Innovation de cet Article: Implémentation de la diffusion de représentation continue autorégrressive stricte au niveau des trames
L'article cite 42 références connexes, couvrant les domaines clés des LLM multimodaux, des modèles de diffusion et de la synthèse vocale, fournissant une base théorique solide pour cette recherche.
Évaluation Globale: Ceci est un travail de recherche de haute qualité sur la synthèse vocale dans le cadre des grands modèles de langage multimodaux. La méthode de diffusion de tokens continus proposée par l'article est techniquement innovante, les résultats expérimentaux sont convaincants, et elle fournit une contribution précieuse au développement des systèmes IA multimodaux unifiés. Bien qu'il existe certaines limitations, sa trajectoire technique et sa validation expérimentale établissent une base solide pour les recherches futures dans ce domaine.