2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice: 텍스트-음성 합성을 위한 대규모 다중 화자 페르시아어 음성 코퍼스

기본 정보

논문 ID: 2510.10774
제목: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
저자: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (테헤란 대학교)
분류: cs.SD (음성), cs.AI (인공지능), cs.HC (인간-컴퓨터 상호작용), cs.LG (기계학습)
발표 시간: 2025년 10월 14일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2510.10774

초록

기존의 페르시아어 음성 데이터셋은 일반적으로 영어에 해당하는 데이터셋보다 훨씬 작아서 페르시아어 음성 기술 개발에 중대한 제약을 초래하고 있습니다. 본 논문은 텍스트-음성(TTS) 응용 프로그램을 위해 특별히 설계된 최대 규모의 페르시아어 음성 코퍼스인 ParsVoice를 도입하여 이러한 격차를 해결합니다. 연구팀은 원본 오디오북 콘텐츠를 TTS 준비 데이터로 변환하는 자동화 파이프라인을 구축했으며, 이는 BERT 기반 문장 완전성 검출기, 정확한 음성-텍스트 정렬을 위한 이분 탐색 경계 최적화 방법, 페르시아어에 맞춤화된 음성-텍스트 품질 평가 프레임워크를 포함합니다. 이 파이프라인은 2,000개의 오디오북을 처리하여 3,526시간의 깨끗한 음성을 생성했으며, 추가로 470명 이상의 화자를 포함한 1,804시간의 고품질 부분집합으로 필터링되었습니다. 데이터셋을 검증하기 위해 연구팀은 XTTS를 페르시아어로 미세조정하여 3.6/5의 자연성 평균의견점수(MOS)와 4.0/5의 화자 유사도 평균의견점수(SMOS)를 달성했습니다.

연구 배경 및 동기

문제 정의

데이터 부족 문제: 페르시아어는 전 세계 1억 명 이상이 사용하는 언어이지만, 음성 코퍼스 측면에서 심각하게 대표성이 부족하며, 영어 같은 고자원 언어와 비교하여 거대한 격차가 존재합니다.
TTS 특수 요구사항: 텍스트-음성 시스템의 데이터 품질 요구사항은 자동 음성 인식(ASR) 시스템과 다릅니다. ASR은 시끄러운 실제 데이터로부터 이득을 얻을 수 있지만, TTS는 자연스러운 음성을 생성하기 위해 깨끗하고 정확하게 정렬된 음성-텍스트 쌍이 필요합니다.
기존 데이터셋의 한계:
- DeepMine+: 480시간 이상, 1,850명 이상의 화자, 하지만 상업적 제약
- DeepMine-Multi-TTS: 120시간, 67명의 화자
- ArmanTTS: 9시간, 단일 화자
- ManaTTS: 86시간, 단일 화자

연구의 중요성

페르시아어 데이터 부족은 음성에만 국한되지 않으며, 텍스트 처리로까지 확대되어 음성-텍스트 정렬 시스템, 광학 문자 인식(OCR) 모델 등 여러 페르시아어 언어 처리 분야에 연쇄 효과를 미치며, 페르시아어 기술 발전을 심각하게 저해합니다.

핵심 기여

현재까지 가장 큰 공개 페르시아어 TTS 코퍼스 구축: 1,804시간의 고품질 음성 데이터, 470명 이상의 서로 다른 화자를 포함하며, 기존 페르시아어 자원 대비 10배 성장
확장 가능한 자동화 데이터 구축 파이프라인 개발:
- BERT 기반 문장 완전성 검출
- 이분 탐색 경계 최적화 알고리즘
- 페르시아어 특정 품질 평가 프레임워크
음소 없는 페르시아어 TTS 구현: XTTS 모델을 미세조정하여 명시적 음소 전사 없이 고품질 음성 합성 달성
오픈소스 데이터셋 제공: 완전한 데이터셋이 공개 발표되어 페르시아어 음성 기술 발전을 촉진

방법 상세 설명

작업 정의

원본 오디오북 음성을 고품질 TTS 훈련 데이터로 변환하며, 다음을 포함합니다:

입력: 원본 오디오북 음성 파일 및 해당 텍스트
출력: 정확한 시간 정렬 및 높은 품질 점수를 가진 분할된 음성-텍스트 쌍
제약: 문장 완전성 유지, 음성 품질 보장, 화자 식별 실현

자동화 코퍼스 구축 파이프라인

1. 데이터 수집 및 소스 선택

데이터 소스: IranSeda 플랫폼(book.iranseda.ir)
규모: 3,800개 이상의 오디오북, 다중 카테고리 커버
품질: 전문 나레이터, 제어된 녹음 환경, 44.1kHz 샘플링 레이트
저작권: 공개 접근, 저작권 제약 없음

2. 지능형 음성 분할

문장 완전성 검출 모델:

ParsBERT 미세조정 기반 이진 분류기
훈련 데이터: 완전한 페르시아어 문장 및 합성된 불완전한 문장
성능: F1 점수 97.4%

3단계 분할 프로세스:

음향 경계 검출: WebRTC 음성 활동 검출(VAD) 사용
전사 및 정렬: Google Speech-to-Text API 전사
언어학적 검증: BERT 분류기로 문장 완전성 검출, 필요시 0.1초 증분 경계 확장

3. 경계 최적화 알고리즘

2단계 탐색 전략:

초기 조정: 시작과 끝에서 각각 3초 제거
안정성 검증: 전사 차이 확인
이분 탐색 최적화: 반복적으로 수정 간격 반으로 줄임
세밀한 선형 탐색: 0.1초 증분으로 정확한 정렬

4. 텍스트-음성 품질 평가

페르시아어 텍스트 품질 프레임워크:

문자 품질: 유효한 페르시아어 문자 및 숫자 비율
길이 품질: 문장 길이 적절성 평가
반복 점수: 어휘 다양성 보상
음소 커버리지: 페르시아어 문자 및 음소 범위

음성 품질 프레임워크:

신호 대 잡음비 추정
동적 범위 분석
스펙트럼 특성 및 MFCC 분산
클리핑, 침묵, 배경 음악 검출

5. 화자 식별

2단계 식별 프로세스:

로컬 화자 분리: ECAPA-TDNN 임베딩 기반 클러스터링
글로벌 화자 식별: 책 전체에 걸친 화자 통일 식별

기술 혁신점

문장 인식 분할: 음향 경계 검출과 언어학적 완전성 검증 결합
적응형 경계 최적화: 이분 탐색과 선형 미세조정을 결합한 효율적 알고리즘
페르시아어 특정 품질 평가: 페르시아어 특성에 맞춘 다차원 품질 평가 프레임워크
확장 가능한 처리 프로세스: 수천 시간의 음성 콘텐츠를 처리할 수 있는 자동화 파이프라인

실험 설정

데이터셋 통계

원본 데이터: 3,807권(9,538시간), 실제 처리 2,000권
초기 분할: 5,158,344개 음성 조각
필터링 후: 3,321,212개 유효 조각
최종 데이셋:
- 총계: 3,526시간, 470명 이상의 화자
- TTS 부분집합: 1,804시간 고품질 데이터

평가 지표

주관적 평가:
- 자연성 MOS (1-5점)
- 화자 유사도 SMOS (1-5점)
- 텍스트 정확도 점수
객관적 평가:
- 단어 오류율(WER) 및 문자 오류율(CER)
- ECAPA-TDNN 임베딩 코사인 유사도

비교 방법

FastSpeech2 End-to-End
FastSpeech2 Cascaded
기타 페르시아어 TTS 시스템(ManaTTS, DeepMine-Multi-TTS 등)

구현 세부사항

모델: XTTS 다중언어 TTS 모델
훈련: BPE 모델 훈련, 2,500개 새로운 페르시아어 토큰
미세조정: 배치 크기 16, 170,000 스텝
평가: 90개 합성 샘플, 40명의 평가자

실험 결과

주요 결과

시스템	MOS	SMOS
XTTS + ParsVoice (본 논문)	3.60	4.00
FastSpeech2 End-to-End	3.72	4.02
FastSpeech2 Cascaded	3.34	3.81

객관적 평가 결과

WER: 22.57%
CER: 12.78%
화자 유사도: 80% (ECAPA-TDNN 임베딩 기반)
텍스트 정확도: 4.0/5 (인간 평가)

데이터셋 품질 분석

경계 최적화 효과: 442.73시간(11.2%) 불필요한 침묵 및 잡음 제거
분할 통계: 81.0% 조각이 시작 수정 필요, 50.4%가 끝 수정 필요
평균 조각 길이: 5.49초(TTS 훈련 최적)
언어학적 다양성: 267,965개 고유 단어, 25,499,474개 토큰

화자 식별 정확도

감지된 화자: 1,815개 고유 화자 인스턴스
성별 분포: 약 33% 여성, 67% 남성
일관성: 알려진 나레이터 레이블과 97.0% 일관성

결론 및 논의

주요 결론

최대 규모의 공개 페르시아어 TTS 코퍼스 성공적 구축, 1,804시간의 고품질 음성 데이터 포함
완전히 자동화되고 확장 가능한 데이터셋 구축 파이프라인 개발, 다른 저자원 언어에 적용 가능
데이터셋의 유효성 검증, 페르시아어 TTS 작업에서 경쟁력 있는 성능 달성

한계

자동 평가 지표가 품질을 저평가할 수 있음: 상업용 STT 시스템이 페르시아어 합성 음성 데이터에 제한적
화자 분포 불균형: 남성 화자 비율이 높음(67% vs 33%)
음성 품질이 원본 자료에 의존: 원본 오디오북의 녹음 품질로 제한됨

향후 방향

다른 저자원 언어로 확장: 파이프라인을 더 많은 언어에 적용
품질 평가 프레임워크 개선: 더 정확한 자동 평가 지표 개발
화자 다양성 강화: 성별 및 연령 분포 균형
다중모달 확장: 시각 정보를 결합한 음성 합성

심층 평가

장점

현저한 규모 증대: 기존 페르시아어 자원 대비 10배 성장, 중요한 공백 메우기
기술 혁신성:
- BERT 기반 문장 완전성 검출이 새롭고 효과적
- 이분 탐색 경계 최적화 알고리즘이 효율적이고 실용적
- 페르시아어 특정 품질 평가 프레임워크가 목표 지향적
실험의 충분성:
- 주관적 및 객관적 평가 결합
- 여러 기준선 방법과 비교
- 상세한 데이터셋 분석 및 통계
오픈소스 기여: 완전한 데이터셋 공개 발표로 커뮤니티 발전 촉진
방법의 재현성: 파이프라인의 각 단계에 대한 상세한 설명

부족한 점

평가 범위 제한:
- 단일 TTS 모델(XTTS)에서만 검증
- 다른 대규모 다중언어 데이셋과의 직접 비교 부족
품질 평가의 주관성:
- 품질 평가 프레임워크의 가중치 설정이 경험 기반
- 인간 주석 품질과의 비교 검증 부족
기술 세부사항 부족:
- 화자 식별의 임계값 선택에 대한 상세한 설명 부족
- 품질 평가 프레임워크의 구체적 구현 세부사항 제한적

영향력

학술적 영향:
- 저자원 언어 TTS 연구에 중요한 자원 제공
- 페르시아어 음성 기술 발전 추진
- 재사용 가능한 데이터셋 구축 방법론 제공
실용적 가치:
- 페르시아어 TTS 응용 개발 직접 지원
- 페르시아어와 고자원 언어 간의 디지털 격차 감소
- 상업용 음성 응용의 기초 데이터 제공
재현성: 오픈소스 발표 및 상세한 방법 설명으로 연구 재현성 보장

적용 시나리오

직접 응용:
- 페르시아어 TTS 시스템 훈련
- 다중언어 TTS 모델의 페르시아어 적응
- 음성 합성 품질 평가 연구
확장 응용:
- 다른 저자원 언어 데이터셋 구축
- 음성 처리 파이프라인 개발
- 교차언어 음성 기술 연구

참고문헌

본 논문은 18편의 중요한 문헌을 인용하며, 다음을 포함합니다:

Transformer 아키텍처 기초 (Vaswani et al., 2017)
영어 음성 데이터셋 (LibriSpeech, LJSpeech, VCTK)
다중언어 음성 자원 (Common Voice, VoxPopuli)
페르시아어 NLP 도구 (ParsBERT)
현대 TTS 기술 (XTTS)
화자 식별 기술 (ECAPA-TDNN)

종합 평가: 이는 대규모 페르시아어 TTS 코퍼스 구축을 통해 중요한 자원 부족 문제를 해결하는 고품질의 자원형 논문입니다. 방법의 혁신성은 중간 정도이지만 실용성이 강하며, 실험 검증이 충분하고, 페르시아어 음성 기술 발전에 중요한 추진력을 제공합니다. 오픈소스 발표는 학술적 및 실용적 가치를 더욱 강화합니다.