2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.

Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.

academic

SLIDE: 음성 언어 모델과 LLM을 통합한 자발적 음성 대화 생성

기본 정보

논문 ID: 2501.00805
제목: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
저자: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
분류: eess.AS cs.CL cs.SD
발표 시간: 2025년 1월 1일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00805

초록

최근 음성 단위 기반의 "텍스트 없는" 음성 언어 모델(SLM)은 비언어적 발성을 포함한 자연스러운 음성 생성에서 큰 진전을 이루었습니다. 그러나 생성된 음성 샘플은 종종 의미론적 일관성이 부족합니다. 본 논문은 SLIDE(SLM과 LLM 통합 자발적 음성 대화 생성) 방법을 제안합니다. 구체적으로, 먼저 LLM을 활용하여 음성 대화의 텍스트 내용을 생성한 후, 텍스트 대화를 음소 수열로 변환하고, 이중 타워 트랜스포머 기반의 지속 시간 예측기를 사용하여 각 음소의 지속 시간을 예측합니다. 마지막으로 음성 음소 수열을 조건으로 하는 SLM을 사용하여 텍스트 대화를 음성화합니다. Fisher 데이터셋 실험 결과는 본 시스템이 높은 의미론적 일관성을 유지하면서 자연스러운 음성 대화를 생성할 수 있음을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구는 자발적 음성 대화 생성에서 핵심 모순을 해결하는 것을 목표로 합니다: 음성의 자연성을 유지하면서 의미론적 일관성을 어떻게 보장할 것인가. 음성 대화는 두 가지 핵심 측면을 포함합니다:

의미론적 측면: 대화 내용의 의미성으로, 정확하고 관련성 있는 정보 전달에 필수적입니다
자연성 측면: 턴 전환의 유창성으로, 발화 간 휴지 단위(IPUs), 겹침, 간격, 침묵, 웃음 및 피드백 등 자연스러운 대화 이벤트를 포함합니다

기존 방법의 한계

전통적 캐스케이드 시스템: 의미론적 일관성이 강하지만(수백억 어휘로 훈련된 LLM 덕분에) 자연스러운 대화 생성 능력이 제한적입니다:
- 어떤 구성 요소 내의 턴 전환 이벤트도 고려하지 않음
- 웃음과 피드백을 포함한 자연스러운 대화 생성 어려움
- 중간 단계에서 음성을 텍스트로 인코딩하면 부언어적 정보 손실
SLM 기반 방법(예: dGSLM): 대화 요소와 턴 전환 패턴을 효과적으로 포착하지만 의미론적 일관성 문제에 직면합니다:
- 음성 단위 입도가 너무 세밀함(일반적으로 20ms만)으로 확장된 컨텍스트의 의미 내용 모델링에 부적합
- 세밀한 특성으로 인해 대규모 훈련 데이터셋에 대한 필요성이 크게 증가

연구 동기

본 논문은 텍스트로 의미론적 컨텍스트를 포착하면서 동시에 음성 단위를 사용하여 부언어적 정보(예: 비언어적 발성 및 턴 전환 패턴)를 보존하는 하이브리드 방식을 제안합니다. 이는 전통적 캐스케이드 시스템과 SLM 기반 시스템의 장점을 결합하는 것을 목표로 합니다.

핵심 기여

음성 대화 생성 프레임워크에 LLM 통합: LLM을 활용하여 텍스트 대화를 생성하고 LLM의 고급 텍스트 생성 능력을 충분히 활용합니다
이중 타워 트랜스포머 기반 음소 지속 시간 예측 제안: 이중 타워 트랜스포머 모델을 사용하여 서면 음소 수열의 각 음소 지속 시간을 예측하여 턴 전환의 유창성을 유지합니다
음성 음소 수열 조건화 dGSLM: 텍스트 대화에서 파생된 음성 음소 수열을 조건 입력으로 dGSLM에 제공하여 의미론적 일관성을 유지하면서 자연스러운 대화 이벤트를 생성된 음성에 효과적으로 통합합니다

방법 상세 설명

작업 정의

입력: 프롬프트 대화 음성 출력: 의미론적으로 일관성 있고 자연스러운 음성 대화 연속 제약: 생성된 대화는 의미론적 일관성과 자연성(턴 전환, 비언어적 발성 등 포함)을 동시에 만족해야 합니다

모델 아키텍처

SLIDE 모델은 세 가지 주요 구성 요소를 포함합니다:

1. LLM 기반 텍스트 대화 생성

음성 인식 모델(Whisper-v3)을 사용하여 프롬프트 대화 음성을 텍스트로 전사
LLM(GPT-4o)을 활용하여 대화 연속을 생성하고 음성 스타일의 대화 생성을 지도
대화 이벤트 마크(예: laughter, sigh)는 제외하고 "yeah", "right", "okay" 같은 언어적 피드백에 집중

2. 이중 타워 트랜스포머 기반 서면 음소 수열 지속 시간 예측

강제 정렬 모델을 사용하여 훈련 데이터셋의 실제 전사에서 음소 수준 텍스트-음성 정렬 획득
추가 침묵 음소를 도입하고 강제 정렬에 의해 결정된 지속 시간에 따라 각 음소를 반복
훈련 단계: 교사 강제 방법 사용, 손실 함수는 마진 단위 손실과 마진 지속 시간 손실 결합
추론 단계: 무조건 생성 수행, 대체 메커니즘을 통해 서면 음소 수열과의 대응 보장

3. 음성 음소 수열 조건화 dGSLM 음성 대화 생성

훈련 단계: HuBERT 인코더를 사용하여 음성 대화를 오디오 토큰으로 인코딩, 연결된 음성 음소 수열과 오디오 토큰을 입력 및 훈련 목표로 사용
각 대화 샘플을 80초 간격으로 분할하고 8000개의 이산 토큰 포함(처음 4000개는 음성 음소 수열, 나머지 4000개는 오디오 토큰)
추론 단계: 음성 음소 수열을 4000개 토큰의 고정 길이로 조정, 자회귀적으로 오디오 토큰 생성

기술 혁신 포인트

하이브리드 표현 전략: 텍스트의 의미 모델링 능력과 음성 단위의 운율/부언어적 모델링 능력을 창의적으로 결합
조건화 생성 메커니즘: 음성 음소 수열 조건화를 통해 dGSLM 출력을 제약하여 생성 대화의 의미론적 일관성 보장
시간 정렬 처리: 지속 시간 예측 및 반복 메커니즘을 통해 음소 수열과 오디오의 시간 대응 관계 유지

실험 설정

데이터셋

Fisher 데이터셋: 2000시간의 스테레오 전화 대화 음성, 샘플링 레이트 8kHz, 16kHz로 리샘플링
각 대화 샘플을 80초 간격으로 분할하여 훈련

평가 지표

객관적 평가

자연성 평가:
- 턴 전환 이벤트의 시간 분포 통계(IPUs, 겹침, 간격, 침묵)
- pyannote.audio를 사용하여 관련 통계 계산
의미론적 일관성 평가:
- Whisper-v3을 사용하여 생성된 음성 대화 전사
- DialoGPT를 사용하여 텍스트 전사의 혼란도 계산

주관적 평가

N-MOS(자연도 점수): 자연스러운 대화 이벤트와 턴 전환 유창성 평가
M-MOS(의미성 점수): 대화의 논리적 일관성과 의미 평가
점수 범위: 1-5점, 각 샘플당 최소 5명이 평가

비교 방법

캐스케이드 시스템: 전통적 캐스케이드 방법(ASR+LLM+TTS)
dGSLM: 원본 생성식 음성 대화 언어 모델
SLIDE-1: 테스트 데이터셋의 텍스트 대화 직접 사용
SLIDE-2: LLM이 생성한 텍스트 대화 사용

구현 세부 사항

6개의 A100 40GB GPU를 사용하여 훈련
지속 시간 예측기: 배치 크기 48, 50000 스텝 훈련
조건화 dGSLM: 배치 크기 96, 250000 스텝 훈련
생성 온도 설정: 1

실험 결과

주요 결과

턴 전환 이벤트 통계

모델	IPU/분	침묵/분	간격/분	겹침/분
캐스케이드	17.5	0.0	14.9	0.0
dGSLM	30.6	12.0	9.0	8.7
SLIDE-1	25.6	9.4	5.6	9.5
SLIDE-2	31.3	6.3	7.6	15.8
실제 데이터	27.3	9.9	8.9	8.2

의미론적 일관성 및 주관적 평가

모델	혼란도 ↓	N-MOS ↑	M-MOS ↑
캐스케이드	-	2.38±0.63	2.70±0.38
dGSLM	1228.82	4.14±0.78	1.52±0.40
SLIDE-1	532.81	4.37±0.46	3.94±0.81
SLIDE-2	421.29	4.06±0.41	4.08±0.49
실제 데이터	371.16	4.72±0.40	4.63±0.44

주요 발견

의미론적 일관성 현저한 개선: SLIDE-2는 dGSLM 대비 혼란도 65.8% 감소(1228.82에서 421.29로), 실제 대화 수준(371.16)에 근접
자연성 유지: SLIDE는 턴 전환 이벤트 통계에서 dGSLM과 유사한 성능을 보이며 캐스케이드 시스템보다 현저히 우수
의미성 대폭 개선: SLIDE-2의 M-MOS는 dGSLM 대비 270.0% 향상, 실제 대화와 11.9%의 상대적 차이만 존재

소거 실험

SLIDE-1과 SLIDE-2의 비교를 통해 LLM이 생성한 텍스트 대화(실제 전사가 아닌)를 사용하더라도 양호한 의미론적 일관성을 유지할 수 있음을 검증합니다.

결론 및 논의

주요 결론

SLIDE는 LLM의 의미론적 모델링 능력과 SLM의 운율 모델링 능력을 성공적으로 결합하여, 음성 대화의 자연성을 유지하면서 의미론적 일관성을 현저히 개선하고, 자발적 음성 대화 생성을 위한 새로운 솔루션을 제공합니다.

한계

계산 복잡도: 여러 모델 구성 요소를 훈련해야 하므로 계산 비용이 높음
데이터 의존성: 여전히 대규모 음성 대화 데이터 훈련 필요
도메인 적응성: Fisher 데이터셋에서 훈련되어 다른 도메인의 일반화 능력 미검증
실시간성: 다단계 처리로 인해 실시간 대화 생성의 응답 속도에 영향 가능

향후 방향

엔드투엔드 결합 훈련 전략 탐색
더 경량화된 모델 아키텍처 연구
다국어 및 크로스 도메인 시나리오로 확장
실시간 대화 생성 효율성 개선

심층 평가

장점

높은 혁신성: LLM과 SLM을 결합한 하이브리드 아키텍처를 처음 제안하여 오랫동안 존재해온 의미론적 일관성과 자연성의 트레이드오프 문제 해결
합리적 방법 설계: 3단계 파이프라인 설계가 명확하고 각 구성 요소의 기능이 명확하며 기술 경로가 실행 가능
충분한 실험: 객관적 및 주관적 평가 포함, 비교 방법이 포괄적이며 소거 실험으로 설계의 유효성 검증
현저한 결과: 의미론적 일관성에서 현저한 개선(혼란도 65.8% 감소) 달성하면서 자연성 유지

부족한 점

시스템 복잡성: 다단계 파이프라인으로 인해 시스템 복잡도 증가, 실용성 및 견고성에 영향 가능
계산 효율성: 여러 대규모 모델 실행 필요로 계산 비용이 높고 실시간 응용에 도전 과제 존재
오류 전파: 파이프라인 아키텍처로 인해 오류 누적 가능성 존재, 이전 단계의 오류가 후속 처리에 영향
일반화 능력: Fisher 데이터셋에서만 검증되어 크로스 도메인 및 다국어 일반화 능력 미지수

영향력

학술적 가치: 음성 대화 생성 분야에 새로운 연구 방향 제공, 의미론적 및 운율 모델링의 균형 제시
실용적 잠재력: 가상 어시스턴트, 대화 시스템 등 응용에서 실용적 가치 보유
재현성: 상세한 구현 세부 사항 및 오픈소스 코드 제공으로 재현 및 개선 용이

적용 시나리오

대화 시스템: 자연스럽고 의미 있는 음성 응답 생성이 필요한 지능형 어시스턴트
음성 합성: 높은 자연도가 요구되는 대화식 TTS 시스템
교육 훈련: 음성 대화 훈련 및 언어 학습 응용
엔터테인먼트 미디어: 게임, 가상 캐릭터 등 자연스러운 대화가 필요한 시나리오

참고 문헌

본 논문은 34편의 관련 문헌을 인용하며, 음성 언어 모델, 대규모 언어 모델, 대화 생성, 음성 합성 등 여러 관련 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 높은 품질의 연구 논문으로, 음성 대화 생성의 핵심 문제를 창의적으로 해결합니다. 시스템 복잡도 및 계산 효율성 측면의 도전 과제가 있지만, 기술적 기여와 실험 결과 모두 설득력이 있으며, 해당 분야의 발전에 가치 있는 새로운 관점을 제공합니다.