2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic

マルチモーダルLLMにおけるスピーカー参照型TTSのための連続トークン拡散

基本情報

  • 論文ID: 2510.12995
  • タイトル: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
  • 著者: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
  • 所属機関: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
  • 分類: eess.AS cs.SD
  • 発表会議: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
  • 論文リンク: https://arxiv.org/abs/2510.12995

要旨

統一されたマルチモーダル大規模言語モデル(MLLM)アーキテクチャは、単一フレームワーク内で多様なタスクを処理する可能性を示しています。テキスト音声変換(TTS)タスクにおいて、現在のMLLMベースの手法は離散トークン表現に依存しており、これは音声固有の連続性を無視し、細粒度の音響情報の喪失につながる可能性があります。本研究はMLLMパラダイム内で連続音声表現を使用してTTSを調査します。二重ヘッド型アーキテクチャを設計し、2つの相補的な訓練戦略を実装してロバストなモデルを構築しました。本手法はLibriSpeech(PC) test-cleanで最先端の自回帰性能を達成し、WER 1.95%、スピーカー相似度0.54、UTMOS 4.00を記録しました。

研究背景と動機

問題定義

現在のMLLMベースのTTS手法には以下の主な問題があります:

  1. 離散化による損失: 既存の手法は音声を離散トークンに変換し、音声の連続性を無視して、細粒度の音響情報が失われます
  2. 量子化ボトルネック: 離散量子化は微細な音響詳細を破棄し、音声の自然性と忠実度を制限します
  3. 統一フレームワークの欠如: MLLMのマルチタスク能力を維持しながら高品質な連続音声を生成する効果的な方法が不足しています

研究の重要性

  1. 技術的必要性: マルチモーダルAIの発展に伴い、統一フレームワーク内でテキストと音声タスクを処理する必要があります
  2. 品質向上: 連続表現は音声の内在的属性をより良く保持し、合成品質を向上させます
  3. 応用価値: ゼロショットスピーカークローニング技術は個性化音声合成において重要な応用価値を持ちます

既存手法の限界

  1. 多段階システム: VALL-Eなどは複数の段階を必要とし、複雑性を増加させます
  2. 情報喪失: 離散符号化は細粒度の音響情報を失います
  3. 訓練の不安定性: 拡散モデルとLLMの共同最適化は分布シフト問題を引き起こします

核心的貢献

  1. 革新的アーキテクチャ: フレームレベルの連続トークン拡散ヘッドを提案し、自回帰MLLMフレームワークに統合しました。これは既存のブロックレベルマルチフレーム設計と異なります
  2. 二重ヘッド設計: 統一されたマルチモーダルフレームワークを維持する二重ヘッド型アーキテクチャを設計し、LMヘッドは可変長音声合成をサポートします
  3. 訓練戦略: マスク訓練により自回帰露出バイアスを緩和し、時系列一貫性とモデルロバストネスを向上させます
  4. 最適化スキーム: 2段階訓練戦略を提案し、最適化プロセスを安定化させ、相対WER 46%削減を実現し、LibriSpeech(PC)上の最先端自回帰性能を達成しました

方法の詳細

タスク定義

入力: テキスト転写と参考音声セグメント 出力: 指定されたスピーカー特性を持つ高品質音声 制約: 統一されたMLLMフレームワーク内で実装され、マルチタスク能力を維持します

モデルアーキテクチャ

全体設計

モデルはOPT-125Mをベースとするバックボーンネットワークに基づいた二重ヘッド型アーキテクチャを採用しています:

  1. 拡散ヘッド: 連続音声埋め込みを生成
  2. 言語モデルヘッド: 音声境界とコントロールトークンを予測
  3. マルチモーダル投影: 異なるモダリティの表現変換を処理

連続トークン生成

目標シーケンス x={x1,...,xN}x = \{x_1, ..., x_N\} が与えられ、ここで xiRdx_i \in \mathbb{R}^d は第i フレームの音声埋め込みを表します。

推論プロセス:

z_i = C_θ(p, x̂_{<i})  # LLMが条件ベクトルを生成
x̂_i = Diffusion_φ(z_i)  # 拡散ヘッドが音声埋め込みを生成

訓練プロセス: 標準DDPM訓練を採用し、損失関数は:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

ここでノイズ予測 ε^=Mϕ(xit,t,zi)\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)

EOS制御メカニズム

特殊トークンを導入して境界制御を実装します:

  • <speech_bos>: 音声生成段階をトリガー
  • <cont_speech_gen>: 音声フレーム生成を継続
  • <eos>: 音声生成を終了

総損失関数:

L = L_LM + L_diff

技術的革新点

1. マスク自回帰学習

露出バイアスを緩和するため、マスク訓練戦略を採用します:

  • 確率 pmaskp_{mask} で履歴フレームをランダムにマスク
  • マスクされたフレームをゼロベクトルで置換
  • 不完全な履歴情報を処理するようにモデルを訓練

2. 2段階訓練

段階1: MLLMと拡散ヘッドの共同訓練 段階2: MLLMを凍結し、拡散ヘッドのみを訓練

この設計は分布シフト問題を解決し、訓練プロセスを安定化させます。

実験設定

データセット

  • 訓練データ: LibriVoxコーパスの50k時間サブセット(Libri-Lightから)
  • 評価データ: LibriSpeech(PC) test-cleanデータセット
  • 評価プロトコル: 40人のスピーカーをランダムに選択、各スピーカーにつき1つのutterance、3秒の参考音声を付加

評価指標

  1. インテリジビリティ: Word Error Rate (WER) - Whisper-Largeを使用して転写を計算
  2. スピーカー相似度: ECAPA-TDNNを使用して埋め込みを抽出しコサイン相似度を計算
    • SIM-R: 参考音声との相似度
    • SIM-G: 真の音声との相似度
  3. 音声品質: UTMOS - 大規模人間評価スコアで訓練されたMOS予測器

比較手法

  • VALL-E: 離散トークン手法(400Mパラメータ)
  • MegaTTS: 連続トークン手法(500Mパラメータ)
  • Voicebox: 非自回帰連続手法(400Mパラメータ)
  • StyleTTS2: 非自回帰連続手法(700Mパラメータ)

実装詳細

  • バックボーンネットワーク: OPT-125M
  • 音声表現: 64次元VAE埋め込み、25fps
  • スピーカー埋め込み: 768次元LAM埋め込み
  • 拡散パラメータ: 訓練時T=1000ステップ、推論時100ステップ、コサインノイズスケジュール
  • オプティマイザ: Adam、重み減衰なし、FP16混合精度

実験結果

主要結果

手法モデリング方式トークンタイプパラメータ数WER(%)↓SIM↑UTMOS↑
VALL-EAR+NAR離散400M6.110.473.68
MegaTTSAR+NAR連続500M2.320.534.02
VoiceboxNAR連続400M2.140.483.73
StyleTTS2NAR連続700M2.490.383.94
本手法AR連続160M1.950.544.00

主要な発見:

  • わずか160Mパラメータで最高性能を達成
  • 段階1ベースラインと比較して相対WER 46%削減(3.61%→1.95%)
  • すべての指標でより大きなモデルを上回る

アブレーション実験

マスク比率の影響

マスク比率(%)WER(%)↓SIM-R↑UTMOS↑
015.060.452.00
1512.650.451.39
306.170.463.21
508.130.462.84

発見: 30%のマスク比率が最適なバランスを達成

拡散ヘッド深度の影響

MLPレイヤー数段階2ファインチューニングWER(%)↓SIM-R↑UTMOS↑
36.170.463.10
65.120.503.10
123.610.493.21
121.950.544.00

発見: より深いネットワークと2段階訓練の両方が大幅な改善をもたらします

停止基準の比較

停止基準WER(%)↓SIM-R↑UTMOS↑
GT-Dur.29.360.482.55
GT-EP.3.460.493.21
EOS Token3.610.493.21

発見: EOSトークン手法はオラクル情報を必要としない場合に同等の性能を達成します

関連研究

ゼロショットTTS

  • 多段階システム: VALL-E、SALADなどは意味論的またはコーデックトークンの多段階処理を通じて実現
  • 単段階手法: MegaTTS、NaturalSpeechは高情報連続表現を直接生成
  • 本研究の貢献: 統一MLLMフレームワーク内での単段階連続音声生成の実現

自回帰拡散

  • 既存手法: TransFusionなどは自回帰と拡散の組み合わせを試みていますが、厳密な因果生成に困難があります
  • 本研究の革新: 厳密なフレームレベル自回帰連続表現拡散の実装

結論と考察

主要な結論

  1. 有効性の検証: 連続トークン拡散はMLLMフレームワーク内のTTSタスクで離散手法を大幅に上回ります
  2. 効率上の利点: より少ないパラメータ(160M対400-700M)でより良い性能を実現
  3. 訓練戦略の重要性: 2段階訓練とマスク学習は性能向上に不可欠です

限界

  1. 計算複雑性: 拡散プロセスは多段階推論を必要とし、計算オーバーヘッドが大きい
  2. 単言語制限: 現在は英語データでのみ検証されています
  3. スピーカー汎化: 未見スピーカーへの汎化能力はさらなる検証が必要です
  4. リアルタイム性: 100ステップの拡散推論はリアルタイムアプリケーションに影響する可能性があります

今後の方向性

  1. 多言語拡張: 多言語TTS タスクへの拡張
  2. 推論加速: より高速な拡散サンプリング手法の研究
  3. 統一フレームワーク: より多くの音声タスク(ASR、音声翻訳など)の統合
  4. 長文本合成: 長シーケンス音声合成の安定性向上

深層的評価

利点

  1. 技術的革新:
    • MLLMフレームワーク内でのフレームレベル連続拡散の初実装
    • 二重ヘッド型アーキテクチャ設計は巧妙で統一性を保持
    • 2段階訓練は分布シフト問題を効果的に解決
  2. 実験の充実:
    • 各コンポーネントの貢献を検証する包括的なアブレーション実験
    • 多次元評価指標(インテリジビリティ、相似度、品質)
    • 複数の強力なベースラインとの公正な比較
  3. 結果の説得力:
    • 顕著な性能向上(相対WER 46%削減)
    • パラメータ効率の利点が明確
    • 最先端の自回帰性能を達成

不足点

  1. 手法の複雑性:
    • 2段階訓練が必要で、訓練複雑性を増加させます
    • 複数のハイパーパラメータ(マスク比率、拡散ステップ数など)の調整が必要
  2. 実験の限界:
    • 単一データセットでのみ検証
    • 主観的評価実験が不足
    • 推論速度分析が不十分
  3. 理論的分析:
    • 2段階訓練の理論的説明が相対的に簡潔
    • 収束性分析が不足

影響力

  1. 学術的価値: MLLMにおける連続音声生成のための新しい技術パスを提供
  2. 実用的価値: 統一フレームワークを維持しながら高品質音声合成を実現
  3. 再現性: 実装詳細が詳細に記述され、再現が容易

適用シーン

  1. 個性化音声アシスタント: ゼロショットスピーカークローニング能力
  2. マルチモーダル対話システム: 統一されたテキストと音声処理
  3. コンテンツ作成: 高品質な音声コンテンツ生成
  4. 支援技術: 視聴覚障害者向けの音声合成サービス

参考文献

論文は42の関連文献を引用しており、マルチモーダルLLM、拡散モデル、音声合成などの主要分野の重要な研究をカバーしており、本研究に堅実な理論的基礎を提供しています。


総合評価: これはマルチモーダル大規模言語モデルフレームワーク内での音声合成に関する高品質な研究です。論文で提案された連続トークン拡散手法は技術的に革新的であり、実験結果は説得力があり、統一されたマルチモーダルAIシステムの発展に価値のある貢献を提供しています。いくつかの限界がありますが、その技術的アプローチと実験検証は、この分野の後続研究のための良好な基礎を確立しています。