2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.

Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.

academic

다중모달 LLM에서 화자 참조 TTS를 위한 연속 토큰 확산

기본 정보

논문 ID: 2510.12995
제목: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
저자: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
기관: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
분류: eess.AS cs.SD
발표 학회: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
논문 링크: https://arxiv.org/abs/2510.12995

초록

통합 다중모달 대규모 언어 모델(MLLM) 아키텍처는 단일 프레임워크 내에서 다양한 작업을 처리하는 데 있어 유망함을 보여주고 있습니다. 텍스트-음성 변환(TTS) 작업에서 현재의 MLLM 기반 방법은 이산 토큰 표현에 의존하고 있으며, 이는 음성의 본질적인 연속성을 무시하여 세밀한 음향 정보의 손실을 초래할 수 있습니다. 본 연구는 MLLM 패러다임 내에서 연속 음성 표현을 사용하여 TTS를 조사합니다. 이중 헤드 아키텍처를 설계하고 두 가지 상호 보완적인 훈련 전략을 구현하여 견고한 모델을 구축했습니다. 본 방법은 LibriSpeech(PC) test-clean에서 최첨단 자회귀 성능을 달성했으며, WER은 1.95%, 화자 유사도는 0.54, UTMOS는 4.00입니다.

연구 배경 및 동기

문제 정의

현재의 MLLM 기반 TTS 방법에는 다음과 같은 주요 문제점이 있습니다:

이산화 손실: 기존 방법은 음성을 이산 토큰으로 변환하여 음성의 연속성을 무시하고 세밀한 음향 정보 손실을 초래합니다
양자화 병목: 이산 양자화는 정교한 음향 세부 사항을 버려 음성의 자연스러움과 충실도를 제한합니다
통합 프레임워크 부재: MLLM의 다중 작업 능력을 유지하면서 고품질 연속 음성을 생성하는 효과적인 방법이 부족합니다

연구의 중요성

기술적 필요성: 다중모달 AI의 발전에 따라 통합 프레임워크 내에서 텍스트와 음성 작업을 처리할 필요가 있습니다
품질 향상: 연속 표현은 음성의 내재적 속성을 더 잘 보존하여 합성 품질을 향상시킵니다
응용 가치: 영점 화자 복제 기술은 개인화된 음성 합성에서 중요한 응용 가치를 가집니다

기존 방법의 한계

다단계 시스템: VALL-E와 같은 방법은 여러 단계를 필요로 하여 복잡성을 증가시킵니다
정보 손실: 이산 인코딩은 세밀한 음향 정보를 손실합니다
훈련 불안정성: 확산 모델과 LLM의 결합 최적화에서 분포 편이 문제가 발생합니다

핵심 기여

혁신적 아키텍처: 자회귀 MLLM 프레임워크에 통합된 프레임 수준 연속 토큰 확산 헤드를 제안하며, 기존의 블록 수준 다중 프레임 설계와 구별됩니다
이중 헤드 설계: 통합 다중모달 프레임워크를 유지하는 이중 헤드 아키텍처를 설계하며, LM 헤드는 가변 길이 음성 합성을 지원합니다
훈련 전략: 마스킹 훈련을 통해 자회귀 노출 편이를 완화하여 시간적 일관성과 모델 견고성을 향상시킵니다
최적화 방안: 이단계 훈련 전략을 제안하여 최적화 과정을 안정화하고, 상대 WER을 46% 감소시켜 LibriSpeech(PC)에서 최첨단 자회귀 성능을 달성합니다

방법론 상세 설명

작업 정의

입력: 텍스트 전사 및 참조 음성 세그먼트 출력: 지정된 화자 특성을 가진 고품질 음성 제약: 통합 MLLM 프레임워크 내에서 구현되며 다중 작업 능력을 유지합니다

모델 아키텍처

전체 설계

모델은 OPT-125M을 LLM 백본 네트워크로 사용하는 이중 헤드 아키텍처를 채택합니다:

확산 헤드: 연속 음성 임베딩 생성
언어 모델 헤드: 음성 경계 및 제어 토큰 예측
다중모달 프로젝션: 다양한 모달리티의 표현 변환 처리

연속 토큰 생성

목표 시퀀스 $x = \{x_1, ..., x_N\}$ 가 주어졌을 때, 여기서 $x_i \in \mathbb{R}^d$ 는 i번째 프레임의 음성 임베딩을 나타냅니다.

추론 과정:

z_i = C_θ(p, x̂_{<i})  # LLM이 조건 벡터 생성
x̂_i = Diffusion_φ(z_i)  # 확산 헤드가 음성 임베딩 생성

훈련 과정: 표준 DDPM 훈련을 채택하며, 손실 함수는:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

여기서 노이즈 예측은 $\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)$ 입니다

EOS 제어 메커니즘

특수 토큰을 도입하여 경계 제어를 구현합니다:

<speech_bos>: 음성 생성 단계 트리거
<cont_speech_gen>: 음성 프레임 생성 계속
<eos>: 음성 생성 종료

총 손실 함수:

L = L_LM + L_diff

기술 혁신점

1. 마스킹 자회귀 학습

노출 편이를 완화하기 위해 마스킹 훈련 전략을 채택합니다:

확률 $p_{mask}$ 로 과거 프레임을 무작위로 마스킹
마스킹된 프레임을 영 벡터로 대체
불완전한 과거 정보를 처리하도록 모델 훈련

2. 이단계 훈련

단계 1: MLLM과 확산 헤드를 결합 훈련 단계 2: MLLM을 고정하고 확산 헤드만 훈련

이러한 설계는 분포 편이 문제를 해결하고 훈련 과정을 안정화합니다.

실험 설정

데이터셋

훈련 데이터: LibriVox 코퍼스 50k시간 부분집합 (Libri-Light에서)
평가 데이터: LibriSpeech(PC) test-clean 데이터셋
평가 프로토콜: 무작위로 40명의 화자 선택, 각각 1개의 발화, 3초 참조 음성 첨부

평가 지표

지능도: Word Error Rate (WER) - Whisper-Large 전사를 사용하여 계산
화자 유사도: ECAPA-TDNN을 사용하여 임베딩 추출 및 코사인 유사도 계산
- SIM-R: 참조 음성과의 유사도
- SIM-G: 실제 음성과의 유사도
음성 품질: UTMOS - 대규모 인간 평가 점수로 훈련된 MOS 예측기

비교 방법

VALL-E: 이산 토큰 방법 (400M 파라미터)
MegaTTS: 연속 토큰 방법 (500M 파라미터)
Voicebox: 비자회귀 연속 방법 (400M 파라미터)
StyleTTS2: 비자회귀 연속 방법 (700M 파라미터)

구현 세부사항

백본 네트워크: OPT-125M
음성 표현: 64차원 VAE 임베딩, 25fps
화자 임베딩: 768차원 LAM 임베딩
확산 파라미터: 훈련 시 T=1000 스텝, 추론 시 100 스텝, 코사인 노이즈 스케줄
최적화기: Adam, 가중치 감쇠 없음, FP16 혼합 정밀도

실험 결과

주요 결과

방법	모델링 방식	토큰 유형	파라미터	WER(%)↓	SIM↑	UTMOS↑
VALL-E	AR+NAR	이산	400M	6.11	0.47	3.68
MegaTTS	AR+NAR	연속	500M	2.32	0.53	4.02
Voicebox	NAR	연속	400M	2.14	0.48	3.73
StyleTTS2	NAR	연속	700M	2.49	0.38	3.94
본 방법	AR	연속	160M	1.95	0.54	4.00

주요 발견:

단 160M 파라미터로 최고 성능 달성
단계 1 기준선 대비 WER 상대 감소 46% (3.61%→1.95%)
모든 지표에서 더 큰 모델을 능가

제거 실험

마스킹 비율의 영향

마스킹 비율(%)	WER(%)↓	SIM-R↑	UTMOS↑
0	15.06	0.45	2.00
15	12.65	0.45	1.39
30	6.17	0.46	3.21
50	8.13	0.46	2.84

발견: 30% 마스킹 비율이 최적의 균형을 달성합니다

확산 헤드 깊이의 영향

MLP 레이어 수	단계 2 미세조정	WER(%)↓	SIM-R↑	UTMOS↑
3	✗	6.17	0.46	3.10
6	✗	5.12	0.50	3.10
12	✗	3.61	0.49	3.21
12	✓	1.95	0.54	4.00

발견: 더 깊은 네트워크와 이단계 훈련 모두 상당한 성능 향상을 가져옵니다

정지 기준 비교

정지 기준	WER(%)↓	SIM-R↑	UTMOS↑
GT-Dur.	29.36	0.48	2.55
GT-EP.	3.46	0.49	3.21
EOS Token	3.61	0.49	3.21

발견: EOS 토큰 방법은 오라클 정보 없이도 비교 가능한 성능을 달성합니다

결론 및 토론

주요 결론

효과성 검증: 연속 토큰 확산은 MLLM 프레임워크 내의 TTS 작업에서 이산 방법을 크게 능가합니다
효율성 장점: 더 적은 파라미터 (160M vs 400-700M)로 더 나은 성능 달성
훈련 전략의 중요성: 이단계 훈련과 마스킹 학습이 성능 향상에 매우 중요합니다

한계

계산 복잡성: 확산 과정은 다단계 추론이 필요하여 계산 오버헤드가 큽니다
단일 언어 제한: 현재 영어 데이터에서만 검증됨
화자 일반화: 미학습 화자에 대한 일반화 능력은 추가 검증이 필요합니다
실시간성: 100단계 확산 추론이 실시간 응용에 영향을 미칠 수 있습니다

향후 방향

다언어 확장: 다언어 TTS 작업으로 확장
추론 가속화: 더 빠른 확산 샘플링 방법 연구
통합 프레임워크: 더 많은 음성 작업 통합 (ASR, 음성 번역 등)
장문 합성: 장시간 음성 합성의 안정성 향상

심층 평가

장점

기술 혁신:
- MLLM 프레임워크 내에서 프레임 수준 연속 확산을 처음 구현
- 이중 헤드 아키텍처 설계가 정교하며 통합성 유지
- 이단계 훈련이 분포 편이 문제를 효과적으로 해결
충분한 실험:
- 각 구성 요소의 기여도를 검증하는 포괄적인 제거 실험
- 다차원 평가 지표 (지능도, 유사도, 품질)
- 여러 강력한 기준선과의 공정한 비교
결과의 설득력:
- 현저한 성능 향상 (WER 상대 감소 46%)
- 명확한 파라미터 효율성 장점
- 최첨단 자회귀 성능 달성

부족한 점

방법의 복잡성:
- 이단계 훈련이 필요하여 훈련 복잡성 증가
- 여러 하이퍼파라미터 조정 필요 (마스킹 비율, 확산 스텝 등)
실험의 한계:
- 단일 데이터셋에서만 검증
- 주관적 평가 실험 부재
- 추론 속도 분석 부족
이론적 분석:
- 이단계 훈련에 대한 이론적 설명이 상대적으로 단순함
- 수렴성 분석 부재

영향력

학술적 가치: MLLM의 연속 음성 생성을 위한 새로운 기술 경로 제시
실용적 가치: 통합 프레임워크를 유지하면서 고품질 음성 합성 구현
재현성: 구현 세부사항이 상세하게 설명되어 재현이 용이합니다

적용 시나리오

개인화된 음성 어시스턴트: 영점 화자 복제 능력
다중모달 대화 시스템: 통합된 텍스트 및 음성 처리
콘텐츠 제작: 고품질 음성 콘텐츠 생성
보조 기술: 시각 및 청각 장애인을 위한 음성 합성 서비스

참고문헌

논문은 다중모달 LLM, 확산 모델, 음성 합성 등 핵심 분야의 중요한 연구 42편을 인용하여 본 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 다중모달 대규모 언어 모델 프레임워크 내에서 음성 합성을 수행하는 고품질 연구 논문입니다. 논문에서 제안한 연속 토큰 확산 방법은 기술적으로 혁신적이며, 실험 결과는 설득력 있고, 통합 다중모달 AI 시스템의 발전에 가치 있는 기여를 제공합니다. 일부 한계가 있지만, 기술 경로와 실험 검증은 해당 분야의 후속 연구를 위한 좋은 기초를 마련합니다.